hồi quy tuyến tính đa biến – các giả định cần nhớ (và nhớ cho vui)

Mô hình hồi quy tuyến tính đa biến không chỉ là một công cụ dự đoán, mà còn là một người bạn “khó tính” – muốn làm việc với nó thì bạn phải tuân thủ 6 luật chơi sau đây. Dưới đây là giải thích học thuật đi kèm với bình luận hài hước cho dễ nhớ:


🎯 1. Tuyến tính – Mối quan hệ phải “thẳng thắn”

Mô hình giả định mối quan hệ giữa biến phụ thuộc y và các biến độc lập x_1, x_2, …, x_ntuyến tính. Nếu mối quan hệ là phi tuyến (log, bình phương, v.v.), mô hình tuyến tính sẽ dự đoán sai.

Điều này cũng giống “Yêu nhau thì phải thẳng thắn!” Mô hình này không thích “quanh co”, nó chỉ hiểu những mối quan hệ thẳng băng. Nếu bạn đưa vào thứ gì lượn sóng hay lắt léo, nó sẽ ngơ ngác như mất gốc hình học!


📈 2. Phân phối chuẩn của sai số – Lỗi phải “bình thường”

Phần sai số \varepsilon cần phân phối chuẩn để các kiểm định thống kê (như t-test, F-test) hoạt động đúng.🎩

Điều này cũng giống “Lỗi lầm thì ai cũng có, miễn là bình thường!” Sai số không cần hoàn hảo, chỉ cần không “dị biệt”. Nếu phân phối như hình chuông thì tốt, còn nếu nó như cái chảo chiên trứng thì… không ổn.

Tuy nhiên, nếu không quan tâm đến các kiểm định thống kê thì chúng ta nên chú ý rằng việc tính toán của phương pháp bình phương tối thiểu (ordinary least square) không hề đòi hỏi phương sai tuân theo phân phối chuẩn.


⚖️ 3. Phương sai không đổi – Công bằng với mọi dữ liệu

Mô hình giả định rằng sai số có phương sai không đổi trên toàn bộ tập dữ liệu (gọi là homoscedasticity). Nếu không, bạn có hiện tượng heteroscedasticity.

Điều này cũng giống “Đối xử với ai cũng phải như nhau!”
Dự đoán cho căn biệt thự hay phòng trọ cũng phải công bằng như nhau. Nếu sai số càng lúc càng to (hoặc nhỏ), mô hình đang “phân biệt đối xử”.


🕵️ 4. Không tự tương quan – Sai số không được “thì thầm”

Các sai số phải độc lập với nhau. Nếu chúng có xu hướng lặp lại (ví dụ: sai hôm nay → sai hôm sau), bạn đang có autocorrelation, thường gặp trong dữ liệu chuỗi thời gian.

Điều này cũng giống “Nói nhỏ to sau lưng là không chơi!”
Mỗi sai số là một cá thể riêng biệt. Nếu chúng bắt đầu thì thầm với nhau kiểu “Ê hôm qua tao sai, hôm nay mày sai đi”, thì mô hình sẽ… bị dụ.


👯‍♂️ 5. Không đa cộng tuyến – Biến độc lập không được “đụng hàng”

Các biến độc lập không được tương quan tuyến tính mạnh với nhau. Nếu không, mô hình sẽ không biết biến nào mới thực sự quan trọng → hệ số hồi quy dễ bị “rối loạn”.

Điều này cũng giống “Hai người cùng mặc đồ giống nhau thì ai nổi bật?”
Đừng nhét hai biến giống hệt nhau vào mô hình, nó sẽ bối rối như ban giám khảo khi hai thí sinh thi cosplay y chang nhau.


📋 6. Độc lập giữa các quan sát – Không quay bài

Mỗi điểm dữ liệu (observations) cần độc lập. Nếu bạn đo một người 5 lần, hoặc có nhóm người liên kết với nhau, bạn đang vi phạm giả định.

Điều này cũng giống 🧍 “Mỗi quan sát là một học sinh, đừng copy nhau!”
Mô hình ghét gian lận! Nếu 1 người xuất hiện 10 lần với câu trả lời gần giống, mô hình sẽ nghĩ “Ồ, anh này quan trọng lắm!” — và kết quả sẽ lệch lạc.


Để lại một bình luận

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *

error: Content is protected !!