Hãy tưởng tượng bạn đang cố gắng vẽ một đường thẳng (mô hình hồi quy tuyến tính) để “chinh phục” đám mây điểm dữ liệu. Đường thẳng này giống như một người bạn cố gắng đoán ý bạn, nhưng không phải lúc nào cũng đoán đúng. Phần dư (residual) chính là những lần “đoán sai” đó – khoảng cách từ mỗi điểm dữ liệu đến đường thẳng bạn vừa vẽ. Biểu đồ phần dư là nơi bạn “soi” những sai lầm này, xem chúng có “hành xử” ngoan ngoãn hay đang âm mưu phá hoại mô hình của bạn!
Hãy nghĩ biểu đồ phần dư như một buổi tiệc mà các điểm phần dư (residuals) là khách mời. Mỗi điểm trên biểu đồ cho biết một phần dư lớn hay nhỏ (tức là mô hình đoán sai bao xa). Nếu bữa tiệc này “ổn áp”, bạn sẽ thấy:
- Khách mời đứng ngẫu nhiên, không theo băng nhóm: Các phần dư rải rác ngẫu nhiên quanh đường y=0, không tạo thành hình dạng gì đặc biệt (như parabol, sóng biển, hay cái gì kỳ cục). Điều này có nghĩa mô hình của bạn đang “hòa hợp” tốt với dữ liệu.
- Không có ai quá nổi bật: Nếu có vài phần dư “quậy phá” (nằm xa tít đường y=0), đó có thể là dấu hiệu của outlier – những điểm dữ liệu bất thường, giống như một vị khách đến tiệc nhưng mặc đồ không hợp tông!
- Tiệc không bị nghiêng lệch: Nếu phần dư tụ tập thành một đường cong hay một mô hình rõ ràng (như hình chữ U, V), thì mô hình tuyến tính của bạn đang bị “hớ”. Dữ liệu có thể không tuyến tính, giống như bạn tổ chức tiệc BBQ nhưng mọi người lại muốn ăn lẩu!
- Độ ồn ào đều đều: Nếu phần dư có vẻ “phình to” ở một số chỗ (như một đám khách ồn ào hơn ở góc phòng), đó là dấu hiệu của phương sai không đồng nhất (heteroscedasticity). Mô hình của bạn đang “mất kiểm soát” ở một vài khu vực.
Biểu đồ phần dư kể gì?
- Hình dạng ngẫu nhiên: Mô hình của bạn là “ngôi sao tiệc tùng”, mọi thứ ổn!
- Hình dạng cong (parabol, sóng): Mô hình tuyến tính không hợp, giống như mời mọi người chơi bóng rổ nhưng sân lại tròn!
- Phần dư phình to dần: Phương sai không đồng nhất, như tiệc bắt đầu yên ả nhưng càng về sau càng hỗn loạn.
- Điểm lạc loài: Có outlier, như một vị khách đội mũ kỳ lân giữa đám đông mặc vest.
Tóm lại:
Biểu đồ phần dư là “gương thần” giúp bạn kiểm tra xem mô hình hồi quy tuyến tính có đang “sống tốt” hay không. Nếu các phần dư rải rác ngẫu nhiên, không tạo drama, thì xin chúc mừng, mô hình của bạn đáng được trao cúp! Còn nếu chúng “quậy phá” theo mô hình hay có outlier, bạn cần xem lại dữ liệu hoặc thử một mô hình khác “xịn” hơn.