Ví dụ từng bước về lựa chọn đặc trưng từng bước (stepwise feature selection) sử dụng R bình phương hiệu chỉnh

Lựa chọn đặc trưng từng bước là một phương pháp có hệ thống để xác định các đặc trưng quan trọng nhất cho một mô hình dự đoán bằng cách kết hợp cả hai kỹ thuật lựa chọn tiến và loại bỏ ngược. Quá trình bắt đầu với một mô hình trống. Sau đó, chúng ta thêm hoặc loại bỏ các đặc trưng từng cái một dựa trên ý nghĩa thống kê và đóng góp của chúng vào hiệu suất của mô hình. Ở mỗi bước, các đặc trưng được đánh giá bằng cách sử dụng một tiêu chí nào đó, chẳng hạn như R bình phương hiệu chỉnh để xác định tác động của chúng. Phương pháp lặp đi lặp lại này tiếp tục cho đến khi không có cải thiện đáng kể nào được thực hiện bằng cách thêm hoặc loại bỏ các đặc trưng, dẫn đến một mô hình tinh chỉnh chỉ với những đặc trưng có tác động mạnh nhất.

Bây giờ, hãy xem một ví dụ trực quan về lựa chọn đặc trưng từng bước (stepwisefeature selection) với bình phương R được điều chỉnh bằng cách sử dụng tập dữ liệu trong đó chúng tôi dự đoán trọng lượng của cá dựa trên bốn đặc trưng: nhiệt độ, thức ăn, độ sạch của nước và gió.

Bước 1: Bắt đầu với không có đặc trưng nào

Chúng ta bắt đầu với một mô hình trống và không có đặc trưng nào.

Bước 2: Đánh giá từng đặc trưng riêng lẻ

Chúng ta xây dựng một mô hình hồi quy tuyến tính đơn giản cho từng đặc trưng và đánh giá hiệu suất của chúng sử dụng R bình phương hiệu chỉnh. Giả sử chúng ta có các kết quả hiệu suất như sau:

  1. Nhiệt độ: R bình phương hiệu chỉnh R^2 = 0.20
  2. Thức ăn: R bình phương hiệu chỉnh R^2 = 0.55
  3. Độ sạch của nước: R bình phương hiệu chỉnh R^2 = 0.35
  4. Gió: R bình phương hiệu chỉnh R^2 = 0.05

Vì “Thức ăn” có giá trị R bình phương hiệu chỉnh cao nhất, nó là đặc trưng dự đoán quan trọng nhất. Chúng ta thêm “Thức ăn” vào mô hình của mình.

Bước 3: Thêm đặc trưng tốt nhất

Bây giờ mô hình của chúng ta bao gồm đặc trưng “Thức ăn”:

\text{Trong luong} = \beta_0 + \beta_1 \cdot \text{Thuc an}

Bước 4: Đánh giá việc thêm từng đặc trưng còn lại

Tiếp theo, chúng ta xem xét việc thêm từng đặc trưng còn lại vào mô hình hiện tại lần lượt:

Thêm Nhiệt độ:
\text{Trong luong} = \beta_0 + \beta_1 \cdot \text{Thuc an} + \beta_2 \cdot \text{Nhiet do}

  • R bình phương hiệu chỉnh kết hợp R^2 = 0.68

Thêm Độ sạch của nước:
\text{Trong luong} = \beta_0 + \beta_1 \cdot \text{Thuc an} + \beta_2 \cdot \text{Do sach cua nuoc}

  • R bình phương hiệu chỉnh kết hợp R^2 = 0.62

Thêm Gió:
\text{Trong luong} = \beta_0 + \beta_1 \cdot \text{Thuc an} + \beta_2 \cdot \text{Gio}

  • R bình phương hiệu chỉnh kết hợp R^2 = 0.60

“Nhiệt độ” thêm giá trị nhiều nhất vào mô hình của chúng ta khi kết hợp với “Thức ăn” (tăng R bình phương hiệu chỉnh cao nhất), vì vậy chúng ta thêm “Nhiệt độ” vào mô hình.

Bước 5: Thêm đặc trưng tốt nhất

Bây giờ mô hình của chúng ta bao gồm “Thức ăn” và “Nhiệt độ”:

\text{Trong luong} = \beta_0 + \beta_1 \cdot \text{Thuc an} + \beta_2 \cdot \text{Nhiet do}

Bước 6: Đánh giá việc loại bỏ các đặc trưng

Sau khi thêm “Nhiệt độ”, chúng ta kiểm tra lại các đặc trưng đã được thêm để xem liệu có thể loại bỏ đặc trưng nào mà không làm giảm đáng kể R bình phương hiệu chỉnh hay không:

Loại bỏ Thức ăn:
\text{Trong luong} = \beta_0 + \beta_1 \cdot \text{Nhiet do}

  • R bình phương hiệu chỉnh R^2 = 0.30

Vì việc loại bỏ “Thức ăn” làm giảm đáng kể R bình phương hiệu chỉnh, chúng ta giữ lại “Thức ăn” trong mô hình.

Bước 7: Đánh giá việc thêm từng đặc trưng còn lại

Tiếp theo, chúng ta xem xét việc thêm từng đặc trưng còn lại vào mô hình hiện tại lần lượt:

Thêm Độ sạch của nước:
\text{Trong luong} = \beta_0 + \beta_1 \cdot \text{Thuc an} + \beta_2 \cdot \text{Nhiet do} + \beta_3 \cdot \text{Do sach cua nuoc}

  • R bình phương hiệu chỉnh kết hợp R^2 = 0.72

Thêm Gió:
\text{Trong luong} = \beta_0 + \beta_1 \cdot \text{Thuc an} + \beta_2 \cdot \text{Nhiet do} + \beta_3 \cdot \text{Gio}

  • R bình phương hiệu chỉnh kết hợp R^2 = 0.65

“Độ sạch của nước” thêm giá trị nhiều nhất vào mô hình của chúng ta, vì vậy chúng ta thêm “Độ sạch của nước” vào mô hình.

Bước 8: Thêm đặc trưng tốt nhất

Bây giờ mô hình của chúng ta bao gồm “Thức ăn”, “Nhiệt độ”, và “Độ sạch của nước”:

\text{Trong luong} = \beta_0 + \beta_1 \cdot \text{Thuc an} + \beta_2 \cdot \text{Nhiet do} + \beta_3 \cdot \text{Do sach cua nuoc}

Bước 9: Đánh giá việc loại bỏ các đặc trưng

Sau khi thêm “Độ sạch của nước”, chúng ta kiểm tra lại các đặc trưng đã được thêm để xem liệu có thể loại bỏ đặc trưng nào mà không làm giảm đáng kể R bình phương hiệu chỉnh hay không:

Loại bỏ Thức ăn:
\text{Trong luong} = \beta_0 + \beta_1 \cdot \text{Nhiet do} + \beta_2 \cdot \text{Do sach cua nuoc}

  • R bình phương hiệu chỉnh R^2 = 0.60

Loại bỏ Nhiệt độ:
\text{Trong luong} = \beta_0 + \beta_1 \cdot \text{Thuc an} + \beta_2 \cdot \text{Do sach cua nuoc}

  • R bình phương hiệu chỉnh R^2 = 0.73

Việc loại bỏ “Nhiệt độ” làm giảm đáng kể R bình phương hiệu chỉnh, vì vậy chúng ta giữ lại “Nhiệt độ” trong mô hình.

Bước 10: Đánh giá việc thêm đặc trưng còn lại

Cuối cùng, chúng ta xem xét việc thêm “Gió” vào mô hình:

\text{Trong luong} = \beta_0 + \beta_1 \cdot \text{Thuc an} + \beta_2 \cdot \text{Nhiet do} + \beta_3 \cdot \text{Do sach cua nuoc} + \beta_4 \cdot \text{Gio}

  • R bình phương hiệu chỉnh kết hợp R^2 = 0.73

Việc thêm “Gió” không cải thiện đáng kể R bình phương hiệu chỉnh, vì vậy chúng ta dừng lại ở đây.

Mô hình cuối cùng

Mô hình cuối cùng bao gồm các đặc trưng “Thức ăn”, “Nhiệt độ”, và “Độ sạch của nước”:

\text{Trong luong} = \beta_0 + \beta_1 \cdot \text{Thuc an} + \beta_2 \cdot \text{Nhiet do} + \beta_3 \cdot \text{Do sach cua nuoc}

Tóm tắt

Trong quá trình lựa chọn đặc trưng từng bước sử dụng R bình phương hiệu chỉnh này, chúng ta bắt đầu với không có đặc trưng nào và lần lượt thêm đặc trưng cung cấp sự cải thiện đáng kể nhất trong R bình phương hiệu chỉnh, đồng thời kiểm tra và loại bỏ các đặc trưng đã thêm mà không còn giá trị đáng kể. Mô hình cuối cùng của chúng ta bao gồm “Thức ăn”, “Nhiệt độ”, và “Độ sạch của nước” là các biến dự đoán trọng lượng cá.

Bài gốc:

https://ksml4.com/2024/06/20/step-by-step-example-of-stepwise-feature-selection-using-adjusted-r-squared/

Để lại một bình luận

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *

error: Content is protected !!