Lựa chọn đặc trưng tiến bắt đầu với một mô hình trống và thêm các đặc trưng từng cái một. Ở mỗi bước, đặc trưng cải thiện hiệu suất mô hình nhiều nhất sẽ được thêm vào mô hình. Quá trình này tiếp tục cho đến khi việc thêm các đặc trưng mới không cải thiện đáng kể mô hình.
Bây giờ, chúng ta hãy bước vào một ví dụ trực quan về lựa chọn đặc trưng tiến sử dụng một tập dữ liệu mà chúng ta nhằm dự đoán trọng lượng cá dựa trên bốn đặc trưng đầu vào tiềm năng: nhiệt độ, thức ăn, độ sạch của nước, và gió.
Bước 1: Bắt đầu với không có đặc trưng nào
Chúng ta bắt đầu với một mô hình trống và không có đặc trưng nào.
Bước 2: Đánh giá từng đặc trưng riêng lẻ
Chúng ta xây dựng một mô hình hồi quy tuyến tính đơn giản cho từng đặc trưng và đánh giá hiệu suất của chúng sử dụng R bình phương hiệu chỉnh. Giả sử chúng ta có các kết quả hiệu suất như sau:
- Nhiệt độ: R bình phương hiệu chỉnh
- Thức ăn: R bình phương hiệu chỉnh
- Độ sạch của nước: R bình phương hiệu chỉnh
- Gió: R bình phương hiệu chỉnh
Vì “Thức ăn” có giá trị R bình phương hiệu chỉnh cao nhất, nó là đặc trưng dự đoán quan trọng nhất. Chúng ta thêm “Thức ăn” vào mô hình của mình.
Bước 3: Thêm đặc trưng tốt nhất
Bây giờ mô hình của chúng ta bao gồm đặc trưng “Thức ăn”:
Bước 4: Đánh giá việc thêm từng đặc trưng còn lại
Tiếp theo, chúng ta xem xét việc thêm từng đặc trưng còn lại vào mô hình hiện tại lần lượt:
Thêm Nhiệt độ:
- R bình phương hiệu chỉnh kết hợp
Thêm Độ sạch của nước:
- R bình phương hiệu chỉnh kết hợp
Thêm Gió:
- R bình phương hiệu chỉnh kết hợp
“Nhiệt độ” thêm giá trị nhiều nhất vào mô hình của chúng ta khi kết hợp với “Thức ăn” (tăng R bình phương hiệu chỉnh cao nhất), vì vậy chúng ta thêm “Nhiệt độ” vào mô hình.
Bước 5: Thêm đặc trưng tốt nhất
Bây giờ mô hình của chúng ta bao gồm “Thức ăn” và “Nhiệt độ”:
Bước 6: Đánh giá việc thêm từng đặc trưng còn lại
Tiếp theo, chúng ta xem xét việc thêm từng đặc trưng còn lại vào mô hình hiện tại lần lượt:
Thêm Độ sạch của nước:
- R bình phương hiệu chỉnh kết hợp
Thêm Gió:
- R bình phương hiệu chỉnh kết hợp
“Độ sạch của nước” thêm giá trị nhiều nhất vào mô hình của chúng ta, vì vậy chúng ta thêm “Độ sạch của nước” vào mô hình.
Bước 7: Thêm đặc trưng tốt nhất
Bây giờ mô hình của chúng ta bao gồm “Thức ăn”, “Nhiệt độ”, và “Độ sạch của nước”:
Bước 8: Đánh giá việc thêm đặc trưng còn lại
Cuối cùng, chúng ta xem xét việc thêm “Gió” vào mô hình:
- R bình phương hiệu chỉnh kết hợp
Việc thêm “Gió” không cải thiện đáng kể R bình phương hiệu chỉnh, vì vậy chúng ta dừng lại ở đây.
Mô hình cuối cùng
Mô hình cuối cùng bao gồm các đặc trưng “Thức ăn”, “Nhiệt độ”, và “Độ sạch của nước”:
Tóm tắt
Trong quá trình lựa chọn đặc trưng tiến sử dụng R bình phương hiệu chỉnh này, chúng ta bắt đầu với không có đặc trưng nào và lần lượt thêm đặc trưng cung cấp sự cải thiện đáng kể nhất trong R bình phương hiệu chỉnh cho đến khi không còn cải thiện đáng kể nào được quan sát thấy. Mô hình cuối cùng của chúng ta bao gồm “Thức ăn”, “Nhiệt độ”, và “Độ sạch của nước” là các biến dự đoán trọng lượng cá.
bài gốc