Entropy (Sự rối loạn của dữ liệu)

Entropy giống như một “chỉ số hỗn loạn” của một nhóm dữ liệu. Nếu trong nhóm, tất cả mọi người đều giống nhau (chẳng hạn tất cả đều thích pizza), thì entropy = 0, nghĩa là không có hỗn loạn gì, cây rất vui vì có thể dễ dàng dự đoán.

Ngược lại, nếu nhóm người chia đều cho mọi lựa chọn (50% thích pizza, 50% thích mì), thì entropy cao nhất, nghĩa là rối loạn tối đa, cây rất bối rối, chưa biết chọn đường nào.


Công thức entropy

Cho một tập dữ liệu có nhiều lớp (ví dụ: 2 lớp A và B):

    \[Entropy = - \sum_{i=1}^{k} p_i \log_2(p_i)\]

p_i = tỷ lệ phần trăm của lớp i trong tập dữ liệu
k = số lớp (ví dụ: 2 lớp thì k=2)
\log_2 là log cơ số 2, để tính bằng bit.


Ví dụ entropy:

Nếu nhóm 100 người, tất cả 100 người thích pizza thì:

    \[Entropy = -1 \times \log_2(1) = 0\]

(hoàn toàn gọn gàng, không rối)

Nếu nhóm 50 người thích pizza, 50 người thích mì thì:

    \[Entropy = -0.5 \times \log_2(0.5) - 0.5 \times \log_2(0.5) = 1\]

(cao nhất, hỗn loạn nhất)

Để lại một bình luận

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *

error: Content is protected !!