Ví dụ từng bước về lựa chọn đặc trưng tiến sử dụng R bình phương hiệu chỉnh

Lựa chọn đặc trưng tiến bắt đầu với một mô hình trống và thêm các đặc trưng từng cái một. Ở mỗi bước, đặc trưng cải thiện hiệu suất mô hình nhiều nhất sẽ được thêm vào mô hình. Quá trình này tiếp tục cho đến khi việc thêm các đặc trưng mới không cải thiện đáng kể mô hình.

Bây giờ, chúng ta hãy bước vào một ví dụ trực quan về lựa chọn đặc trưng tiến sử dụng một tập dữ liệu mà chúng ta nhằm dự đoán trọng lượng cá dựa trên bốn đặc trưng đầu vào tiềm năng: nhiệt độ, thức ăn, độ sạch của nước, và gió.

Bước 1: Bắt đầu với không có đặc trưng nào

Chúng ta bắt đầu với một mô hình trống và không có đặc trưng nào.

Bước 2: Đánh giá từng đặc trưng riêng lẻ

Chúng ta xây dựng một mô hình hồi quy tuyến tính đơn giản cho từng đặc trưng và đánh giá hiệu suất của chúng sử dụng R bình phương hiệu chỉnh. Giả sử chúng ta có các kết quả hiệu suất như sau:

  1. Nhiệt độ: R bình phương hiệu chỉnh R^2 = 0.20
  2. Thức ăn: R bình phương hiệu chỉnh R^2 = 0.55
  3. Độ sạch của nước: R bình phương hiệu chỉnh R^2 = 0.35
  4. Gió: R bình phương hiệu chỉnh R^2 = 0.05

Vì “Thức ăn” có giá trị R bình phương hiệu chỉnh cao nhất, nó là đặc trưng dự đoán quan trọng nhất. Chúng ta thêm “Thức ăn” vào mô hình của mình.

Bước 3: Thêm đặc trưng tốt nhất

Bây giờ mô hình của chúng ta bao gồm đặc trưng “Thức ăn”:

\text{Trong luong} = \beta_0 + \beta_1 \cdot \text{Thuc an}

Bước 4: Đánh giá việc thêm từng đặc trưng còn lại

Tiếp theo, chúng ta xem xét việc thêm từng đặc trưng còn lại vào mô hình hiện tại lần lượt:

Thêm Nhiệt độ:
\text{Trong luong} = \beta_0 + \beta_1 \cdot \text{Thuc an} + \beta_2 \cdot \text{Nhiet do}

  • R bình phương hiệu chỉnh kết hợp R^2 = 0.68

Thêm Độ sạch của nước:
\text{Trong luong} = \beta_0 + \beta_1 \cdot \text{Thuc an} + \beta_2 \cdot \text{Do sach cua nuoc}

  • R bình phương hiệu chỉnh kết hợp R^2 = 0.62

Thêm Gió:
\text{Trong luong} = \beta_0 + \beta_1 \cdot \text{Thuc an} + \beta_2 \cdot \text{Gio}

  • R bình phương hiệu chỉnh kết hợp R^2 = 0.60

“Nhiệt độ” thêm giá trị nhiều nhất vào mô hình của chúng ta khi kết hợp với “Thức ăn” (tăng R bình phương hiệu chỉnh cao nhất), vì vậy chúng ta thêm “Nhiệt độ” vào mô hình.

Bước 5: Thêm đặc trưng tốt nhất

Bây giờ mô hình của chúng ta bao gồm “Thức ăn” và “Nhiệt độ”:

\text{Trong luong} = \beta_0 + \beta_1 \cdot \text{Thuc an} + \beta_2 \cdot \text{Nhiet do}

Bước 6: Đánh giá việc thêm từng đặc trưng còn lại

Tiếp theo, chúng ta xem xét việc thêm từng đặc trưng còn lại vào mô hình hiện tại lần lượt:

Thêm Độ sạch của nước:
\text{Trong luong} = \beta_0 + \beta_1 \cdot \text{Thuc an} + \beta_2 \cdot \text{Nhiet do} + \beta_3 \cdot \text{Do sach cua nuoc}

  • R bình phương hiệu chỉnh kết hợp R^2 = 0.72

Thêm Gió:
\text{Trong luong} = \beta_0 + \beta_1 \cdot \text{Thuc an} + \beta_2 \cdot \text{Nhiet do} + \beta_3 \cdot \text{Gio}

  • R bình phương hiệu chỉnh kết hợp R^2 = 0.65

“Độ sạch của nước” thêm giá trị nhiều nhất vào mô hình của chúng ta, vì vậy chúng ta thêm “Độ sạch của nước” vào mô hình.

Bước 7: Thêm đặc trưng tốt nhất

Bây giờ mô hình của chúng ta bao gồm “Thức ăn”, “Nhiệt độ”, và “Độ sạch của nước”:

\text{Trong luong} = \beta_0 + \beta_1 \cdot \text{Thuc an} + \beta_2 \cdot \text{Nhiet do} + \beta_3 \cdot \text{Do sach cua nuoc}

Bước 8: Đánh giá việc thêm đặc trưng còn lại

Cuối cùng, chúng ta xem xét việc thêm “Gió” vào mô hình:

\text{Trong luong} = \beta_0 + \beta_1 \cdot \text{Thuc an} + \beta_2 \cdot \text{Nhiet do} + \beta_3 \cdot \text{Do sach cua nuoc} + \beta_4 \cdot \text{Gio}

  • R bình phương hiệu chỉnh kết hợp R^2 = 0.73

Việc thêm “Gió” không cải thiện đáng kể R bình phương hiệu chỉnh, vì vậy chúng ta dừng lại ở đây.

Mô hình cuối cùng

Mô hình cuối cùng bao gồm các đặc trưng “Thức ăn”, “Nhiệt độ”, và “Độ sạch của nước”:

\text{Trong luong} = \beta_0 + \beta_1 \cdot \text{Thuc an} + \beta_2 \cdot \text{Nhiet do} + \beta_3 \cdot \text{Do sach cua nuoc}

Tóm tắt

Trong quá trình lựa chọn đặc trưng tiến sử dụng R bình phương hiệu chỉnh này, chúng ta bắt đầu với không có đặc trưng nào và lần lượt thêm đặc trưng cung cấp sự cải thiện đáng kể nhất trong R bình phương hiệu chỉnh cho đến khi không còn cải thiện đáng kể nào được quan sát thấy. Mô hình cuối cùng của chúng ta bao gồm “Thức ăn”, “Nhiệt độ”, và “Độ sạch của nước” là các biến dự đoán trọng lượng cá.

bài gốc

https://ksml4.com/2024/06/20/step-by-step-example-of-forward-feature-selection/

Để lại một bình luận

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *

error: Content is protected !!