khắc phục đa cộng tuyến bằng Ridge

khắc phục đa cộng tuyến bằng Ridge, Ridge là một phương thức hồi quy phi tuyến tính; Trong ví dụ này chúng ta không bàn về định nghĩa của các định nghĩa, nếu các bạn muốn quan tâm đến các định nghĩa vui lòng truy cập vào link trên; Chúng ta chỉ tập trung vào khắc phục đa cộng tuyến bằng phương pháp hồi quy ridge trên phần mềm thống kê R.

Trong thực tế khi nghiên cứu chúng ta thường bắt gặp hiện tượng đa cộng tuyến, đặc biệt là trong các nghiên cứu về kinh tế. đây là một sai phạm nghiêm trọng là cho ước lượng hồi quy của chúng ta bị chệch và không còn chính xác nữa ! Để nhận biết hiện tượng đa cộng tuyến trong mô hình nghiên cứu, chúng ta dùng chỉ số VIF là chính xác nhất, không dùng hệ số tương quan hay R2.

VIF là gì ?

Trong thống kê , hệ số lạm phát phương sai (Variance inflation factor – VIF ) là thương số của phương sai trong một mô hình có nhiều số hạng bằng phương sai của một mô hình chỉ có một thuật ngữ.  Nó định lượng mức độ nghiêm trọng của đa cộng tuyến trong phân tích hồi quy bình phương nhỏ nhất bình thường . Nó cung cấp một chỉ số đo lường mức độ chênh lệch (bình phương độ lệch chuẩn của ước tính) của một hệ số hồi quy ước tính được tăng lên do cộng tuyến.

Ta có công thức tính VIF như sau:

VIF = 1/ (1-R2)

Mối tương quan giữa VIF với R2

Mối quan hệ này được khái quát trong bảng sau:

R2 VIF
0.1 1.010101
0.2 1.041667
0.3 1.098901
0.4 1.190476
0.5 1.333333
0.6 1.5625
0.7 1.960784
0.8 2.777778
0.9 5.263158
0.91 5.817336
0.92 6.510417
0.93 7.401925
0.94 8.591065
0.95 10.25641
0.96 12.7551
0.97 16.92047
0.98 25.25253
0.99 50.25126

Khi chúng ta có hệ số xác định R2 >90, thì đây là một cách để nhận biết trong mô hình nghiên cứu của chúng ta đang có hiện tượng đa cộng tuyến, nếu chúng ta không có biện pháp nào khác phụ thì kết quả hồi quy sẽ không còn chính xác nữa.

Tùy vào nhiều nghiên cứu và có mức độ xét đa tuyến tính dễ hay khắc khe, nó sẽ nằm trong 2 mức:

  • VIF < 5: Không có hiện tượng đa cộng tuyến
  • VIF < 10 Không có hiện tượng đa cộng tuyến

Trong ví dụ tiếp theo, chúng ta sử dụng mức xét collinearity dễ tức VIF <10

Mối tương quan giữa cor với VIF

Có một số tài liệu của VN chúng ta nói rằng hệ số tương quan cor>0.6 là có hiện tượng đa cộng tuyến, vấn đề này mình khẳng định với các bạn là chưa đủ căn cứ để khẳng định sai phạm trong mô hình; trong bài viết này chúng tôi chỉ tập trung với mối quan hệ của VIF với R2 còn mối quan hệ giữa COR với R2 chúng tôi hẹn vào bài viết khác.

Đa cộng tuyến là gì ?

Trong thống kê , multicollinearity (cũng là collinearity ) là một hiện tượng trong đó một biến dự báo trong mô hình hồi quy bội có thể được dự đoán tuyến tính từ các biến khác với độ chính xác đáng kể. Trong tình huống này, các ước tính hệ số của hồi quy bội có thể thay đổi thất thường để đáp ứng với những thay đổi nhỏ trong mô hình hoặc dữ liệu. Multicollinearity không làm giảm sức mạnh dự đoán hoặc độ tin cậy của toàn bộ mô hình, ít nhất là trong tập dữ liệu mẫu; nó chỉ ảnh hưởng đến các tính toán liên quan đến các yếu tố dự đoán riêng lẻ. Đó là, một mô hình hồi quy đa biến với các yếu tố dự đoán cộng tuyến có thể cho biết toàn bộ gói dự đoán biến dự đoán kết quả tốt như thế nào , nhưng nó có thể không đưa ra kết quả hợp lệ về bất kỳ dự đoán riêng lẻ nào, hoặc về dự đoán nào là dự phòng đối với người khác.

Lưu ý rằng trong các tuyên bố về các giả định cơ bản phân tích hồi quy như bình phương tối thiểu thông thường , cụm từ “không có đa cộng tuyến” thường đề cập đến sự vắng mặt của đa hình hoàn hảo , đó là mối quan hệ tuyến tính chính xác (không ngẫu nhiên) giữa các yếu tố dự đoán. Trong trường hợp đó, ma trận dữ liệu X có ít hơn thứ hạng đầy đủ , và do đó ma trận thời điểm X T X  không thể đảo ngược . Trong những trường hợp này, cho một mô hình tuyến tính nói chung y = Xβ +ε, công cụ ước lượng bình phương nhỏ nhất βols = (X T X)-1 XTy không tồn tại.

Trong mọi trường hợp, tính đa hướng là một đặc tính của ma trận dữ liệu, không phải là mô hình thống kê cơ bản . Vì nó thường nghiêm trọng hơn trong các mẫu nhỏ, Arthur Goldberger đã đi xa đến mức gọi nó là “vi mô”.

Bài thực hành

Thực hành tìm và khắc phục hiện tượng đa cộng tuyến trên R

Tìm hiện tượng đa cộng tuyến trong dữ liệu

Chúng ta có mô hình nghiên cứu như sau:

ROE = LnSIZE + LnEQAS   +  LnCP  + INF

Chúng ta ước lượng hồi quy ols và thu được kết quả như sau:

ols 1 300x212 - khắc phục đa cộng tuyến bằng Ridge

Ta thu được kết quả R2 = 0.5019, tra vào bảng tương quan trên thì chúng ta sẽ dễ dàng bị nhầm lẫn, kết luận vội vàng là trong mô hình nghiên cứu của chúng ta không có hiện tượng multicollinearity; Bây giờ chúng ta tìm hàm VIF xem kết quả như thế nào.

vif(ols)
LnSIZE            LnEQAS             LnCP                 INF
13.179941       11.992100          12.628649            1.027252

Ta ta dễ dàng nhận thấy rằng có 3 biến có VIF > 10 đó là: LnSIZE LnEQAS LnCP; Đối chiếu vào kết quả trên là chúng ta nhận thấy rằng kết quả đã có sự mẫu thuẫn. Điều này chúng tỏ dùng R2 để nhận định VIF là hoàn toàn sai lầm.

Khắc phục đa cộng tuyến bằng hồi quy Ridge

Tìm Lambda theo điều kiện

Như chúng ta đã biết mô hình Ridge dùng hệ số lambda để điều chỉnh hệ số hồi quy, nếu λ = 0 thì hồi quy ridge thành hồi quy ols. Ta ước lượng hồi quy Ridge và được bảng lambda sau:

lambda 292x300 - khắc phục đa cộng tuyến bằng Ridge

Ta có kết luận rằng khi lambda >= 0.008 thì mô hình không còn hiện tượng đa cộng tuyến, Vì tất cả hệ số VIF điều nhỏ hơn 10.

Tìm λ tối ưu cho mô hình

Để cho mô hình tối ưu thì có rất nhiều chỉ tiêu nhứ: AIC, BIC, R2, MSE, RMSE …

Trong ví dụ này chúng tôi sử dụng mô hình MSE để tìm lambda tối ưu

 toituu lambda 300x201 - khắc phục đa cộng tuyến bằng Ridge

Tra trong bảng trên ta có MSE nhỏ nhất  là 502.852 tại lambda = 0.033

Đồng thời lambda > 0.008, ta chấp nhận giá trị lambda này.

plot lambda 300x300 - khắc phục đa cộng tuyến bằng Ridge

Hồi quy Ridge với kết quả λ tối ưu

ridge 300x198 - khắc phục đa cộng tuyến bằng Ridge

Đây là kết quả của chúng sau khi đã khắc phục hiện tượng đa cộng tuyến; Để cho chắc ăn kiểm tra lại hệ số VIF từng phần một lần nữa xem sao.

 vif(bestridge)
          LnSIZE          LnEQAS            LnCP                INF
k=0.033   4.93279         4.81807           4.87948            0.95177

Chúng ta thấy rằng hệ số VIF của chúng điều < 5, như vậy trong mô hình không có hiện tượng đa cộng tuyến.

Hồi quy Ridge khắc phục sai phạm đa cộng tuyến

Sai phạm về đa cộng tuyến là một sai phạm rất lớn trong quá trình nghiên cứu định lượng, trước đây cũng có nhiều phương pháp đề ra để khắc phục hiện tượng này, nhưng tính thuyết phụ không cao, chúng ta thường dùng phương pháp chấp nhận đa cộng tuyến, hơn mở rộng thêm dữ liệu, nhằm hạn chế  đa cộng tuyến trong mô hình; Với vấn đề áp dụng phương cách hồi quy phi tuyến hay ví dụ thực tế là hồi quy ridge đã khắc phục hiện tượng đa cộng tuyến dễ dàng.

Cảm ơn các bạn đã đọc tin.

Facebook Comments
Tổng quan
Ngày tương tác
Lượng tương tác
Trơi ơi !
Tác giả đánh giá
51star - khắc phục đa cộng tuyến bằng Ridge1star - khắc phục đa cộng tuyến bằng Ridge1star - khắc phục đa cộng tuyến bằng Ridge1star - khắc phục đa cộng tuyến bằng Ridge1star - khắc phục đa cộng tuyến bằng Ridge
Product Name
Hướng dẫn hồi quy Ridge
Price
VND 3000000
Product Availability
Available in Stock
, , , , , , ,