Lựa chọn đặc trưng từng bước là một phương pháp có hệ thống để xác định các đặc trưng quan trọng nhất cho một mô hình dự đoán bằng cách kết hợp cả hai kỹ thuật lựa chọn tiến và loại bỏ ngược. Quá trình bắt đầu với một mô hình trống. Sau đó, chúng ta thêm hoặc loại bỏ các đặc trưng từng cái một dựa trên ý nghĩa thống kê và đóng góp của chúng vào hiệu suất của mô hình. Ở mỗi bước, các đặc trưng được đánh giá bằng cách sử dụng một tiêu chí nào đó, chẳng hạn như R bình phương hiệu chỉnh để xác định tác động của chúng. Phương pháp lặp đi lặp lại này tiếp tục cho đến khi không có cải thiện đáng kể nào được thực hiện bằng cách thêm hoặc loại bỏ các đặc trưng, dẫn đến một mô hình tinh chỉnh chỉ với những đặc trưng có tác động mạnh nhất.
Bây giờ, hãy xem một ví dụ trực quan về lựa chọn đặc trưng từng bước (stepwisefeature selection) với bình phương R được điều chỉnh bằng cách sử dụng tập dữ liệu trong đó chúng tôi dự đoán trọng lượng của cá dựa trên bốn đặc trưng: nhiệt độ, thức ăn, độ sạch của nước và gió.
Bước 1: Bắt đầu với không có đặc trưng nào
Chúng ta bắt đầu với một mô hình trống và không có đặc trưng nào.
Bước 2: Đánh giá từng đặc trưng riêng lẻ
Chúng ta xây dựng một mô hình hồi quy tuyến tính đơn giản cho từng đặc trưng và đánh giá hiệu suất của chúng sử dụng R bình phương hiệu chỉnh. Giả sử chúng ta có các kết quả hiệu suất như sau:
- Nhiệt độ: R bình phương hiệu chỉnh
- Thức ăn: R bình phương hiệu chỉnh
- Độ sạch của nước: R bình phương hiệu chỉnh
- Gió: R bình phương hiệu chỉnh
Vì “Thức ăn” có giá trị R bình phương hiệu chỉnh cao nhất, nó là đặc trưng dự đoán quan trọng nhất. Chúng ta thêm “Thức ăn” vào mô hình của mình.
Bước 3: Thêm đặc trưng tốt nhất
Bây giờ mô hình của chúng ta bao gồm đặc trưng “Thức ăn”:
Bước 4: Đánh giá việc thêm từng đặc trưng còn lại
Tiếp theo, chúng ta xem xét việc thêm từng đặc trưng còn lại vào mô hình hiện tại lần lượt:
Thêm Nhiệt độ:
- R bình phương hiệu chỉnh kết hợp
Thêm Độ sạch của nước:
- R bình phương hiệu chỉnh kết hợp
Thêm Gió:
- R bình phương hiệu chỉnh kết hợp
“Nhiệt độ” thêm giá trị nhiều nhất vào mô hình của chúng ta khi kết hợp với “Thức ăn” (tăng R bình phương hiệu chỉnh cao nhất), vì vậy chúng ta thêm “Nhiệt độ” vào mô hình.
Bước 5: Thêm đặc trưng tốt nhất
Bây giờ mô hình của chúng ta bao gồm “Thức ăn” và “Nhiệt độ”:
Bước 6: Đánh giá việc loại bỏ các đặc trưng
Sau khi thêm “Nhiệt độ”, chúng ta kiểm tra lại các đặc trưng đã được thêm để xem liệu có thể loại bỏ đặc trưng nào mà không làm giảm đáng kể R bình phương hiệu chỉnh hay không:
Loại bỏ Thức ăn:
- R bình phương hiệu chỉnh
Vì việc loại bỏ “Thức ăn” làm giảm đáng kể R bình phương hiệu chỉnh, chúng ta giữ lại “Thức ăn” trong mô hình.
Bước 7: Đánh giá việc thêm từng đặc trưng còn lại
Tiếp theo, chúng ta xem xét việc thêm từng đặc trưng còn lại vào mô hình hiện tại lần lượt:
Thêm Độ sạch của nước:
- R bình phương hiệu chỉnh kết hợp
Thêm Gió:
- R bình phương hiệu chỉnh kết hợp
“Độ sạch của nước” thêm giá trị nhiều nhất vào mô hình của chúng ta, vì vậy chúng ta thêm “Độ sạch của nước” vào mô hình.
Bước 8: Thêm đặc trưng tốt nhất
Bây giờ mô hình của chúng ta bao gồm “Thức ăn”, “Nhiệt độ”, và “Độ sạch của nước”:
Bước 9: Đánh giá việc loại bỏ các đặc trưng
Sau khi thêm “Độ sạch của nước”, chúng ta kiểm tra lại các đặc trưng đã được thêm để xem liệu có thể loại bỏ đặc trưng nào mà không làm giảm đáng kể R bình phương hiệu chỉnh hay không:
Loại bỏ Thức ăn:
- R bình phương hiệu chỉnh
Loại bỏ Nhiệt độ:
- R bình phương hiệu chỉnh
Việc loại bỏ “Nhiệt độ” làm giảm đáng kể R bình phương hiệu chỉnh, vì vậy chúng ta giữ lại “Nhiệt độ” trong mô hình.
Bước 10: Đánh giá việc thêm đặc trưng còn lại
Cuối cùng, chúng ta xem xét việc thêm “Gió” vào mô hình:
- R bình phương hiệu chỉnh kết hợp
Việc thêm “Gió” không cải thiện đáng kể R bình phương hiệu chỉnh, vì vậy chúng ta dừng lại ở đây.
Mô hình cuối cùng
Mô hình cuối cùng bao gồm các đặc trưng “Thức ăn”, “Nhiệt độ”, và “Độ sạch của nước”:
Tóm tắt
Trong quá trình lựa chọn đặc trưng từng bước sử dụng R bình phương hiệu chỉnh này, chúng ta bắt đầu với không có đặc trưng nào và lần lượt thêm đặc trưng cung cấp sự cải thiện đáng kể nhất trong R bình phương hiệu chỉnh, đồng thời kiểm tra và loại bỏ các đặc trưng đã thêm mà không còn giá trị đáng kể. Mô hình cuối cùng của chúng ta bao gồm “Thức ăn”, “Nhiệt độ”, và “Độ sạch của nước” là các biến dự đoán trọng lượng cá.
Bài gốc: