học máy cơ bản

Entropy (Sự rối loạn của dữ liệu)

Kurious FoxTháng 7 18, 2025Tháng 7 18, 2025

Entropy giống như một “chỉ số hỗn loạn” của một nhóm dữ liệu. Nếu trong nhóm, tất cả mọi người đều giống nhau (chẳng hạn tất cả đều thích pizza), thì entropy = 0, nghĩa là không có hỗn loạn gì, cây rất vui vì có thể dễ dàng dự đoán.

Ngược lại, nếu nhóm người chia đều cho mọi lựa chọn (50% thích pizza, 50% thích mì), thì entropy cao nhất, nghĩa là rối loạn tối đa, cây rất bối rối, chưa biết chọn đường nào.

Công thức entropy

Cho một tập dữ liệu có nhiều lớp (ví dụ: 2 lớp A và B):

$Entropy = - \sum_{i=1}^{k} p_i \log_2(p_i)$

$p_i$ = tỷ lệ phần trăm của lớp i trong tập dữ liệu
$k$ = số lớp (ví dụ: 2 lớp thì k=2)
$\log_2$ là log cơ số 2, để tính bằng bit.

Ví dụ entropy:

Nếu nhóm 100 người, tất cả 100 người thích pizza thì:

$Entropy = -1 \times \log_2(1) = 0$

(hoàn toàn gọn gàng, không rối)

Nếu nhóm 50 người thích pizza, 50 người thích mì thì:

$Entropy = -0.5 \times \log_2(0.5) - 0.5 \times \log_2(0.5) = 1$

(cao nhất, hỗn loạn nhất)

Để lại một bình luận Hủy

error: Content is protected !!