Gini Index (Chỉ số đồng nhất)

Gini cũng là một chỉ số đo hỗn loạn, nhưng tính theo cách khác so với Entropy. Nó tính xác suất để hai mẫu lấy ngẫu nhiên mà khác loại nhau. Nếu chỉ số Gini càng thấp thì nhóm càng “thuần chủng”.


Công thức Gini

    \[Gini = 1 - \sum_{i=1}^k p_i^2\]

Ví dụ Gini:

Nhóm 100 người đều thích pizza:

    \[Gini = 1 - 1^2 = 0\]

Nhóm 50 người pizza, 50 người mì:

    \[Gini = 1 - (0.5^2 + 0.5^2) = 1 - (0.25 + 0.25) = 0.5\]


Khi nào dùng Entropy, khi nào dùng Gini?

Cả hai đều đo “rối loạn” dữ liệu, mục tiêu là chọn thuộc tính làm giảm Entropy hoặc Gini nhiều nhất (tăng sự thuần khiết).
Entropy thường được dùng trong thuật toán ID3, C4.5.
Gini thường được dùng trong CART.


Tóm tắt

  • Cây quyết định thích hỏi câu nào làm cho đám đông “ngăn nắp” nhất (ít rối loạn).
  • Entropy giống như cây đo mức hỗn loạn bằng cách tính “mức độ lộn xộn” của đám đông.
  • Gini là cây đo xác suất 2 người lộn vào 2 nhóm khác nhau.
  • Cây quyết định sẽ chọn câu hỏi (thuộc tính) làm giảm Entropy hoặc Gini nhất, nghĩa là giúp cây nhanh chóng phân loại được dữ liệu.

Để lại một bình luận

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *

error: Content is protected !!