hồi quy lsdv Least square dummy variable regression, hướng dẫn hồi quy lsdv trên phần mêm thống kê R, hồi quy lsdv tạm dịch là hồi quy biến giả bình phương nhỏ nhất, đây là một phương pháp ước lượng quan trong trong dữ liệu bảng giúp chúng ta có kết quả chính xác trong hồi quy dữ liệu bảng.
LSDV hồi quy biến giả bình phương nhỏ nhất
Nói nôm na cho dễ hiểu tức là chúng ta dùng phương pháp bình phương nhỏ nhất OLS để ước lượng biến giả; thông thường trong mô hình nghiên cứu của chúng ta, ta thường xuyên sử dụng dữ liệu là biến giả (dummy), nhưng rất ít khi chúng ta ước lượng bằng biến dummy là thương mặc định ước lượng biến định lượng. Vì thói quen này đã làm cho chúng ta có một sai lệch đáng kể của kết quả hồi quy. Vì vậy, chúng ta cần thiết phải sử dụng phương pháp Least square dummy variable regression để hồi quy biến giả.
Trước tiên, để tìm hiểu về sự sai lệch của nó chúng ta hồi quy ols trước tiên
Hồi quy bình phương nhỏ nhất OLS
Chúng ta xây dựng mô hình định lượng đơn giản như sau:
y = x1 + country
Biến country là biến giả; Đối với biến giả như thế này chúng ta thường có 02 giải pháp
- 01: là ước lượng không tính đến sự có mặt của biến country
- 02: Mã hóa dữ liệu biến country thành định lượng và ước lượng nó luôn.
Trong ví dụ này chúng tôi chỉ sử dụng phương án 01 là không tính đến sự có mặt của country; chúng ta ước lượng và có kết quả như sau:
Chúng ta được kết quả là biến x1 không tác động đến y, kết quả thu được như sau:
y= 1.5 + 4.9x1
( Mình đã bỏ 10 mũ đi cho nó gọn)
hay chúng ta tóm tắt bằng hình vẽ như sau:
bây giờ chúng ta hồi quy có sự liên quan đến biến country
Hồi quy LSDV hồi quy biến giả bình phương nhỏ nhất
Bây giờ kết quả đã khác biến x1 có tác động lên biến y
ta thu được kết quả như sau:
y = 8.8 + 2.4x1
Hay từ đồ thị sau:
Do mô hình chúng ta có xây dựng nhiều biến giả mà chúng ta không thực hiện ước lượng đúng, nó sẽ dẫn đến kết quả sai.
Ước lượng LSDV bằng fixed effect
Kết quả cũng cho ra kết quả tương tự, tức là biến x1 có tác động lên y với pvalue = 0.03
Hồi quy lsdv trực tiếp trên gói lsdv của R
Chúng ta ước lượng trực tiếp lsdv bằng gói công cụ lsdv của R
Chúng ta được kết quả như sau:
Chúng ta vẫn có kết quả ước lượng là x1 có tác động đến y và pvalue = 0.03
Kết luận hồi quy lsdv
Với những kết quả như trên thì chúng ta sẽ có những kết luận như sau:
Nếu trong mô hình mà có biến giả thì chúng ta phải ước lượng biến giả, không nên bỏ qua hay mã hóa biến giả thành biến định lượng; Vì làm như thế kết quả sẽ sai lệch.
Để hồi quy lsdv trên phần mềm R, chúng ta có nhiều gói dịch vụ để ước lượng, và các gói hay lệnh trên điều cho ra kết quả rất gần nhau; ( Coi như là không có sai lệch)
Cảm ơn các bạn đọc tin./.
[.kkstarratings]