Trong thực tế học máy hay thống kê, “chưa khớp” (underfitting) là khi mô hình quá đơn giản, không hiểu nổi sự phức tạp của dữ liệu. Điều này giống như đang mặc một chiếc áo size S… nhưng bạn lại là người size L nên áo thì chật ních.
- Ví dụ: Dùng đường thẳng để dự đoán đường cong lượn sóng.
Định nghĩa:
Chưa khớp xảy ra khi mô hình máy học không thể học đủ các mẫu (patterns) hoặc mối quan hệ trong dữ liệu huấn luyện. Mô hình quá đơn giản hoặc không được huấn luyện đầy đủ, dẫn đến hiệu suất kém trên cả tập dữ liệu huấn luyện (training set) và tập kiểm tra (test set).
Nguyên nhân kỹ thuật:
- Mô hình quá đơn giản: Sử dụng một mô hình có độ phức tạp thấp, ví dụ như hồi quy tuyến tính (linear regression) cho một bài toán có mối quan hệ phi tuyến (non-linear).
- Thiếu dữ liệu hoặc đặc trưng: Dữ liệu huấn luyện không đủ phong phú hoặc các đặc trưng (features) được chọn không đại diện tốt cho bài toán.
- Huấn luyện không đủ: Số lần lặp (epochs) hoặc thời gian huấn luyện quá ít, khiến mô hình chưa hội tụ (converge) đến điểm tối ưu.
- Tham số không tối ưu: Các siêu tham số (hyperparameters) như learning rate, số lượng nơ-ron, hoặc số lớp trong mạng nơ-ron được thiết lập không phù hợp.
Hậu quả:
- Sai số huấn luyện cao (high training error): Mô hình không thể dự đoán chính xác ngay cả trên dữ liệu đã thấy.
- Sai số kiểm tra cao (high test error): Hiệu suất trên dữ liệu mới cũng kém vì mô hình không học được các quy luật tổng quát.
- Độ lệch cao (high bias): Mô hình có thiên kiến mạnh, giả định sai về dạng của dữ liệu (ví dụ: giả định dữ liệu là tuyến tính trong khi nó phi tuyến).
Ví dụ:
Nếu bạn dùng một đường thẳng (mô hình tuyến tính) để dự đoán dữ liệu có dạng parabol, mô hình sẽ không thể khớp với dữ liệu, dẫn đến sai số lớn trên cả tập huấn luyện và kiểm tra.
Cách khắc phục:
- Tăng độ phức tạp của mô hình (ví dụ: dùng mạng nơ-ron sâu hơn hoặc mô hình phi tuyến).
- Thêm đặc trưng hoặc kỹ thuật feature engineering để cung cấp thông tin đầy đủ hơn.
- Huấn luyện lâu hơn hoặc tối ưu hóa siêu tham số.
- Thu thập thêm dữ liệu nếu có thể.