Hồi quy tuyến tính đơn biến — “mô hình đoán đơn giản nhưng có gu” 😎 — chính là công cụ yêu thích của dân phân tích khi mới bước vào thế giới dự đoán. Nó giống như một anh chàng chỉ nhìn một yếu tố duy nhất để quyết định mọi thứ.
Ví dụ: muốn đoán giá nhà chỉ bằng diện tích — kiểu như “Nhà rộng thì chắc chắn đắt, khỏi cần nhìn nội thất hay vị trí!” 🏠💰
Mô hình này có dạng:
y = ax + b
Trong đó:
- x là yếu tố duy nhất mà mô hình quan tâm (ví dụ: diện tích)
- a là độ “sang chảnh” tăng giá theo diện tích (gọi là hệ số – coefficient)
- b là mức giá khởi điểm kể cả nhà không có… đất (x=0)😅











Hồi quy tuyến tính đơn biến là một phương pháp thống kê để mô hình hóa mối quan hệ giữa một biến phụ thuộc (y) và một biến độc lập (x). Mục tiêu là tìm ra một đường thẳng (hoặc siêu phẳng trong không gian nhiều chiều) phù hợp nhất với dữ liệu, thường bằng cách giảm thiểu tổng bình phương sai số.
Công thức cơ bản
Hồi quy tuyến tính đơn giản (một biến độc lập):
Trong đó:
: Biến phụ thuộc
: Biến độc lập
: Hệ số chặn (intercept)
: Hệ số góc (slope)
: Sai số ngẫu nhiên
Giả định chính
- Mối quan hệ giữa
và
là tuyến tính.
- Sai số
có giá trị trung bình bằng 0 và phương sai không đổi (homoscedasticity).
- Các biến độc lập không có đa cộng tuyến (multicollinearity) nghiêm trọng.
- Sai số có phân phối chuẩn (đặc biệt quan trọng trong kiểm định thống kê).
Phương pháp bình phương nhỏ nhất (Least Squares Method)
Phương pháp bình phương nhỏ nhất (Least Squares Method) là một kỹ thuật toán học được sử dụng để tìm ra đường thẳng hoặc mô hình tốt nhất phù hợp với một tập hợp dữ liệu bằng cách giảm thiểu tổng bình phương các sai số (khoảng cách giữa các điểm dữ liệu và mô hình dự đoán). Phương pháp này thường được sử dụng trong hồi quy tuyến tính.
Ý tưởng cơ bản
Cho một tập hợp dữ liệu gồm điểm
, mục tiêu là tìm hàm
(thường là một đường thẳng
) sao cho tổng bình phương sai số giữa giá trị thực tế
và giá trị dự đoán
là nhỏ nhất:
Trường hợp hồi quy tuyến tính đơn giản
Trong hồi quy tuyến tính đơn giản, mô hình là một đường thẳng . Các tham số
(độ dốc) và
(hệ số chặn) được xác định bằng cách tối thiểu hóa hàm sai số:
Để tìm và
, ta lấy đạo hàm riêng của
theo
và
, đặt chúng bằng 0, và giải hệ phương trình:
Từ đó, ta có công thức:
Trong đó:
: Tổng các giá trị
: Tổng các giá trị
: Tổng tích
: Tổng bình phương
: Số lượng điểm dữ liệu.
Ví dụ minh họa
Giả sử có các điểm dữ liệu: . Ta muốn tìm đường thẳng
.
- Tính các tổng:
- Tính
:
- Tính
:
Vậy, đường thẳng tốt nhất là: .