Ví dụ từng bước về quá trình lựa chọn đặc trưng lùi (backward feature selection) sử dụng R bình phương hiệu chỉnh

Lựa chọn tính năng ngược (backward feature selection) bắt đầu với mô hình đầy đủ bao gồm tất cả các tính năng và lặp đi lặp lại loại bỏ tính năng ít quan trọng nhất dựa trên bình phương R đã điều chỉnh cho đến khi không thể cải thiện thêm.

Bây giờ, hãy xem một ví dụ trực quan về lựa chọn đặc trưng lùi (backward feature selection) với bình phương R được điều chỉnh bằng cách sử dụng tập dữ liệu trong đó chúng tôi dự đoán trọng lượng của cá dựa trên bốn đặc trưng: nhiệt độ, thức ăn, độ sạch của nước và gió.

Bước 1: Bắt đầu với tất cả các đặc trưng

Chúng ta bắt đầu với một mô hình bao gồm tất cả các đặc trưng: nhiệt độ, thức ăn, độ sạch của nước, và gió.

\text{Trong luong} = \beta_0 + \beta_1 \cdot \text{Nhiet do} + \beta_2 \cdot \text{thuc an} + \beta_3 \cdot \text{Do sach cua nuoc} + \beta_4 \cdot \text{Gio}

Bước 2: Đánh giá mô hình

Giả sử mô hình ban đầu có R bình phương hiệu chỉnh là R^2 = 0.75.

Bước 3: Đánh giá việc loại bỏ từng đặc trưng

Chúng ta đánh giá R bình phương hiệu chỉnh cho mô hình với từng đặc trưng bị loại bỏ lần lượt:

Loại bỏ Nhiệt độ:
\text{Trong luong} = \beta_0 + \beta_1 \cdot \text{thuc an} + \beta_2 \cdot \text{Do sach cua nuoc} + \beta_3 \cdot \text{Gio}

    • R bình phương hiệu chỉnh R^2 = 0.72

    Loại bỏ Thức ăn:
    \text{Trong luong} = \beta_0 + \beta_1 \cdot \text{Nhiet do} + \beta_2 \cdot \text{Do sach cua nuoc} + \beta_3 \cdot \text{Gio}

      • R bình phương hiệu chỉnh R^2 = 0.50

      Loại bỏ Độ sạch của nước:
      \text{Trong luong} = \beta_0 + \beta_1 \cdot \text{Nhiet do} + \beta_2 \cdot \text{thuc an} + \beta_3 \cdot \text{Gio}

      • R bình phương hiệu chỉnh R^2 = 0.65

      Loại bỏ Gió:
      \text{Trong luong} = \beta_0 + \beta_1 \cdot \text{Nhiet do} + \beta_2 \cdot \text{thuc an} + \beta_3 \cdot \text{Do sach cua nuoc}

      • R bình phương hiệu chỉnh R^2 = 0.78

      Việc loại bỏ “Gió” dẫn đến R bình phương hiệu chỉnh cao nhất, vì vậy chúng ta loại bỏ “Gió” khỏi mô hình.

      Bước 4: Loại bỏ đặc trưng ít quan trọng nhất

      Bây giờ mô hình của chúng ta bao gồm các đặc trưng “Nhiệt độ”, “Thức ăn”, và “Độ sạch của nước”:

      \text{Trong luong} = \beta_0 + \beta_1 \cdot \text{Nhiet do} + \beta_2 \cdot \text{thuc an} + \beta_3 \cdot \text{Do sach cua nuoc}

      Bước 5: Đánh giá việc loại bỏ từng đặc trưng còn lại

      Chúng ta đánh giá R bình phương hiệu chỉnh cho mô hình với từng đặc trưng còn lại bị loại bỏ lần lượt:

      Loại bỏ Nhiệt độ:
      \text{Trong luong} = \beta_0 + \beta_1 \cdot \text{thuc an} + \beta_2 \cdot \text{Do sach cua nuoc}

      • R bình phương hiệu chỉnh R^2 = 0.73

      Loại bỏ Thức ăn:
      \text{Trong luong} = \beta_0 + \beta_1 \cdot \text{Nhiet do} + \beta_2 \cdot \text{Do sach cua nuoc}

      • R bình phương hiệu chỉnh R^2 = 0.60

      Loại bỏ Độ sạch của nước:
      \text{Trong luong} = \beta_0 + \beta_1 \cdot \text{Nhiet do} + \beta_2 \cdot \text{thuc an}

      • R bình phương hiệu chỉnh R^2 = 0.70

      Việc loại bỏ “Nhiệt độ” dẫn đến R bình phương hiệu chỉnh cao nhất, vì vậy chúng ta loại bỏ “Nhiệt độ” khỏi mô hình.

      Bước 6: Loại bỏ đặc trưng ít quan trọng nhất

      Bây giờ mô hình của chúng ta bao gồm các đặc trưng “Thức ăn” và “Độ sạch của nước”:

      \text{Trong luong} = \beta_0 + \beta_1 \cdot \text{thuc an} + \beta_2 \cdot \text{Do sach cua nuoc}

      Bước 7: Đánh giá việc loại bỏ từng đặc trưng còn lại

      Chúng ta đánh giá R bình phương hiệu chỉnh cho mô hình với từng đặc trưng còn lại bị loại bỏ lần lượt:

      Loại bỏ Thức ăn:
      \text{Trong luong} = \beta_0 + \beta_1 \cdot \text{Do sach cua nuoc}

      • R bình phương hiệu chỉnh R^2 = 0.45

      Loại bỏ Độ sạch của nước:
      \text{Trong luong} = \beta_0 + \beta_1 \cdot \text{thuc an}

      • R bình phương hiệu chỉnh R^2 = 0.55

      Việc loại bỏ “Thức ăn” hoặc “Độ sạch của nước” đều làm giảm R bình phương hiệu chỉnh đáng kể, vì vậy chúng ta giữ cả hai đặc trưng.

      Mô hình cuối cùng

      Mô hình cuối cùng bao gồm các đặc trưng “Thức ăn” và “Độ sạch của nước”:

      \text{Trong luong} = \beta_0 + \beta_1 \cdot \text{thuc an} + \beta_2 \cdot \text{Do sach cua nuoc}

      Tóm tắt

      Trong quá trình lựa chọn đặc trưng ngược sử dụng R bình phương hiệu chỉnh này, chúng ta bắt đầu với tất cả các đặc trưng và lần lượt loại bỏ đặc trưng ít quan trọng nhất dựa trên R bình phương hiệu chỉnh cho đến khi không còn cải thiện đáng kể nào được quan sát thấy. Mô hình cuối cùng của chúng ta bao gồm “Thức ăn” và “Độ sạch của nước” là các biến dự đoán trọng lượng cá.

      bài viết gốc:

      Để lại một bình luận

      Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *

      error: Content is protected !!