“Chưa khớp” và “quá khớp” nghe cứ như chuyện tình yêu lằng nhằng trong thế giới máy học! Chạy qua chạy lại không biết liệu có dẫn đến chệch khớp không nhưng tóm lại là
- Chưa khớp (Underfitting):
Tưởng tượng bạn là một học sinh lười biếng, ôn thi chỉ học qua loa vài trang đầu của sách giáo khoa. Đến ngày thi, bạn nhìn đề mà ngơ ngác như gà mắc tóc, vì kiến thức bạn học quá ít, không đủ để giải hết các câu hỏi. Trong máy học, “chưa khớp” là khi mô hình của bạn “học dốt”, không nắm bắt được các pattern quan trọng trong dữ liệu. Kết quả? Mô hình dự đoán sai be bét, cả trên dữ liệu huấn luyện lẫn kiểm tra. Nói đơn giản, nó như một anh chàng lười biếng, không chịu hiểu sâu vấn đề, nên lúc nào cũng “fail”! - Quá khớp (Overfitting):
Bây giờ, tưởng tượng bạn học thuộc lòng nguyên cuốn sách giáo khoa, từng chữ, từng dấu chấm, dấu phẩy, đến mức bạn chỉ biết trả lời đúng y xì những câu hỏi trong sách. Nhưng hỡi ôi, đề thi lại hỏi một góc khác, bạn liền “toang” vì không biết linh hoạt. Trong máy học, “quá khớp” là khi mô hình học quá kỹ dữ liệu huấn luyện, “thuộc lòng” cả những nhiễu (noise) hay chi tiết không cần thiết. Kết quả? Nó dự đoán siêu chuẩn trên dữ liệu huấn luyện, nhưng ra ngoài dữ liệu mới thì “ngã ngựa” ngay. Giống như một người yêu quá cuồng si, chỉ biết bám lấy một người mà quên mất cách yêu người khác!
Tóm lại:
- Chưa khớp: Mô hình lười học, không nắm được cái hồn của dữ liệu.
- Quá khớp: Mô hình học quá chăm, nhưng chăm sai cách, chỉ biết “copy-paste” dữ liệu huấn luyện.
Muốn mô hình “đỉnh của chóp”? Phải tìm điểm cân bằng, học vừa đủ, hiểu sâu nhưng vẫn linh hoạt, như một người yêu lý tưởng vậy! 😄