Bias và Variance trade off (cân bằng giữa độ chệch và phương sai) là gì?

Bias và Variance là gì?

Trong máy học, bias và variance là hai nguồn chính gây ra sai số trong dự đoán của mô hình. Chúng phản ánh cách mô hình khớp với dữ liệu và khả năng tổng quát hóa (generalization) của nó trên dữ liệu mới.

a. Bias (Độ lệch):

Định nghĩa: Bias đo lường mức độ sai lệch của mô hình so với giá trị thực (true function) của bài toán. Bias cao xảy ra khi mô hình đưa ra những giả định đơn giản hóa quá mức về dữ liệu.
Ý nghĩa: Nếu mô hình có bias cao, nó không thể nắm bắt được các mẫu phức tạp trong dữ liệu, dẫn đến chưa khớp (underfitting).
Ví dụ: Dùng một mô hình tuyến tính (linear regression) để dự đoán dữ liệu có mối quan hệ phi tuyến (non-linear) như dạng parabol. Mô hình sẽ “lệch” xa khỏi quy luật thực tế vì giả định sai lầm rằng dữ liệu là tuyến tính.

b. Variance (Phương sai):

Định nghĩa: Variance đo lường mức độ nhạy cảm của mô hình đối với các thay đổi nhỏ trong dữ liệu huấn luyện. Variance cao nghĩa là mô hình thay đổi quá nhiều khi dữ liệu huấn luyện thay đổi.
Ý nghĩa: Nếu mô hình có variance cao, nó học quá chi tiết các đặc điểm cụ thể (bao gồm cả nhiễu) trong dữ liệu huấn luyện, dẫn đến quá khớp (overfitting).
Ví dụ: Một mạng nơ-ron sâu với hàng triệu tham số được huấn luyện trên một tập dữ liệu nhỏ có thể “thuộc lòng” cả nhiễu, khiến dự đoán thay đổi mạnh khi gặp dữ liệu mới.

Bias-Variance Tradeoff

Sai số dự đoán của một mô hình có thể được phân tích thành ba thành phần chính (theo phân rã sai số):

Sai số kỳ vọng (Expected Error) = Bias² + Variance + Sai số không thể tránh (Irreducible Error)

Bias²: Bình phương độ lệch, đo lường sai số do mô hình quá đơn giản hóa.
Variance: Đo lường sai số do mô hình quá nhạy với dữ liệu huấn luyện.
Sai số không thể tránh: Sai số do nhiễu ngẫu nhiên trong dữ liệu, không thể loại bỏ dù mô hình tốt đến đâu.

Mục tiêu: Tìm điểm cân bằng giữa bias và variance để giảm thiểu tổng sai số (total error). Nếu bias cao, variance thấp (mô hình đơn giản), mô hình sẽ chưa khớp. Nếu bias thấp, variance cao (mô hình phức tạp), mô hình sẽ quá khớp.

Liên hệ với Underfitting và Overfitting

Underfitting (Chưa khớp):
Bias cao: Mô hình quá đơn giản, không nắm bắt được các mẫu quan trọng trong dữ liệu.
Variance thấp: Mô hình không thay đổi nhiều khi dữ liệu huấn luyện thay đổi vì nó không học được gì nhiều từ dữ liệu.
Ví dụ: Một mô hình hồi quy tuyến tính trên dữ liệu phi tuyến sẽ có sai số huấn luyện và kiểm tra đều cao.

Overfitting (Quá khớp):
Bias thấp: Mô hình học rất tốt dữ liệu huấn luyện, gần với giá trị thực trên tập huấn luyện.
Variance cao: Mô hình quá nhạy với dữ liệu huấn luyện, dẫn đến dự đoán không ổn định trên dữ liệu mới.
Ví dụ: Một cây quyết định (decision tree) sâu với nhiều nút sẽ học cả nhiễu trong dữ liệu, dẫn đến sai số kiểm tra cao dù sai số huấn luyện rất thấp.

Minh họa bằng công thức

Giả sử ta có một hàm thực $f(x)$ và mô hình dự đoán $\hat{f}(x)$ . Sai số trung bình (mean squared error) của mô hình trên một điểm dữ liệu $x$ được phân rã như sau:

$E[(y - \hat{f}(x))^2] = \text{Bias}[\hat{f}(x)]^2 + \text{Var}[\hat{f}(x)] + \sigma^2$

Trong đó:

$y = f(x) + \epsilon$ : Giá trị thực với nhiễu ngẫu nhiên $\epsilon$ .
$\text{Bias}[\hat{f}(x)] = E[\hat{f}(x)] - f(x)$ : Độ lệch kỳ vọng của mô hình so với hàm thực.
$\text{Var}[\hat{f}(x)] = E[(\hat{f}(x) - E[\hat{f}(x)])^2]$ : Phương sai của mô hình qua các tập huấn luyện khác nhau.
$\sigma^2$ : Sai số không thể tránh do nhiễu trong dữ liệu.

Ví dụ

Bias cao, Variance thấp (Underfitting): Mô hình đơn giản như một đường thẳng cố gắng khớp dữ liệu phức tạp (hình parabol). Sai số lớn trên cả tập huấn luyện và kiểm tra.
Bias thấp, Variance cao (Overfitting): Mô hình phức tạp như một đường cong uốn lượn khớp hoàn hảo với mọi điểm dữ liệu huấn luyện (kể cả nhiễu), nhưng dự đoán sai lệch lớn trên dữ liệu kiểm tra.
Cân bằng lý tưởng: Mô hình có độ phức tạp vừa đủ, khớp tốt với dữ liệu huấn luyện mà vẫn tổng quát hóa tốt trên dữ liệu mới.

Cách kiểm soát Bias và Variance

Giảm Bias (Khắc phục Underfitting):

Tăng độ phức tạp của mô hình (ví dụ: dùng mạng nơ-ron sâu hơn, thêm lớp hoặc nơ-ron).
Cải thiện đặc trưng (feature engineering) hoặc thu thập thêm dữ liệu.
Tối ưu hóa siêu tham số (learning rate, số epochs).

Giảm Variance (Khắc phục Overfitting):

Áp dụng điều chuẩn (regularization): L1/L2 regularization, dropout, weight decay.
Tăng dữ liệu huấn luyện hoặc sử dụng tăng cường dữ liệu (data augmentation).
Sử dụng kỹ thuật như early stopping hoặc cross-validation.
Giảm độ phức tạp của mô hình (giảm số lớp, số tham số).

Ví dụ thực tế

Hồi quy tuyến tính (bias cao, variance thấp): Nếu dữ liệu có dạng phi tuyến, mô hình tuyến tính sẽ không khớp tốt, dẫn đến underfitting.
Cây quyết định sâu (bias thấp, variance cao): Nếu không giới hạn độ sâu, cây quyết định sẽ học cả nhiễu, dẫn đến overfitting.
Random Forest hoặc mạng nơ-ron với regularization (cân bằng): Những mô hình này thường tìm cách giảm variance bằng cách kết hợp nhiều mô hình (ensemble) hoặc điều chuẩn, đồng thời giữ bias ở mức chấp nhận được.

Tóm tắt

Bias: Đo lường sai số do mô hình quá đơn giản, dẫn đến chưa khớp.
Variance: Đo lường sai số do mô hình quá nhạy với dữ liệu huấn luyện, dẫn đến quá khớp.
Bias-Variance Tradeoff: Tìm mô hình có độ phức tạp phù hợp để cân bằng giữa bias và variance, đảm bảo tổng quát hóa tốt.
Mục tiêu: Giảm tổng sai số bằng cách điều chỉnh mô hình, dữ liệu, và kỹ thuật huấn luyện.