Phân tích phân biệt Discriminant Analysis DA, Phân tích phân biệt (DA) là một kỹ thuật phân loại đa biến, phân tách các đối tượng thành hai hoặc nhiều nhóm loại trừ lẫn nhau dựa trên các đặc điểm có thể đo lường được của các đối tượng đó. Các tính năng có thể đo được đôi khi được gọi là các yếu tố dự đoán hoặc các biến độc lập, trong khi nhóm phân loại là phản ứng hoặc những gì đang được dự đoán.Phân tích phân biệt đối xử (DA) là một kỹ thuật phân loại đa biến, phân tách các đối tượng thành hai hoặc nhiều nhóm loại trừ lẫn nhau dựa trên các đặc điểm có thể đo lường được của các đối tượng đó. Các tính năng có thể đo được đôi khi được gọi là các yếu tố dự đoán hoặc các biến độc lập, trong khi nhóm phân loại là phản ứng hoặc những gì đang được dự đoán.
Phân tích phân biết được thực hiện dễ dàng trên các phần mềm thống kê chuyên dụng như:R, Stata, SPSS… trong ví dụ này chúng tôi thực hiện trên phần mềm SPSS.
Phân tích DA có 2 phương pháp:
- Linear Discriminant Analysis (LDA) : Giả định rằng phương sai của các biến độc lập là bằng nhau
- Quadratic Discriminant Analysis (QDA): Không có giả định trên
Từ giả thuyết trên thì ta có thể dễ dàng nhận thấy rằng, kết quả từ phân tích QDA là hiệu quả hơn. Nhưng trong ví dụ này chúng tôi sẽ sử dụng phương pháp LDA trên phần mềm SPSS rất thông dụng
Cơ chế Phân tích phân biệt DA
DA sử dụng dữ liệu trong đó các lớp được biết trước để tạo ra một mô hình có thể được sử dụng để dự đoán các quan sát trong tương lai. Nó có ích như một kỹ thuật phân tích cố gắng hiểu mối quan hệ giữa các biến độc lập và biến phụ thuộc rời rạc. Nó khác với phân tích hồi quy ở chỗ biến phụ thuộc phải rời rạc. Nó khác với phân tích cụm ở chỗ các lớp phải được biết trước để tạo mô hình.
Phân tích phân biệt tuyến tính LDA là gì?
Phân tích phân biệt tuyến tính ( LDA ), phân tích phân biệt đối xử bình thường ( NDA ) hoặc phân tích chức năng phân biệt đối xử là một khái quát của phân biệt tuyến tính của Fisher , một phương pháp được sử dụng trong thống kê , nhận dạng mẫu và học máy để tìm ra sự kết hợp tuyến tính của các tính năng đặc trưng hoặc tách biệt hai hoặc nhiều lớp đối tượng hoặc sự kiện. Sự kết hợp kết quả có thể được sử dụng như một phân loại tuyến tính , hoặc, phổ biến hơn, để giảm kích thước trước khi phân loại sau này .
LDA liên quan chặt chẽ đến phân tích phương sai (ANOVA) và phân tích hồi quy , cũng cố gắng biểu thị một biến phụ thuộc dưới dạng kết hợp tuyến tính của các tính năng hoặc phép đo khác. Tuy nhiên, ANOVA sử dụng các biến độc lập phân loại và biến phụ thuộc liên tục , trong khi phân tích phân biệt có các biến độc lập liên tục và biến phụ thuộc phân loại ( tức là nhãn lớp). Hồi quy logistic và hồi quy probit tương tự như LDA hơn ANOVA, vì chúng cũng giải thích một biến phân loại bằng các giá trị của các biến độc lập liên tục. Các phương thức khác này được ưu tiên hơn trong các ứng dụng khi không hợp lý khi giả định rằng các biến độc lập thường được phân phối, đây là một giả định cơ bản của phương pháp LDA.
LDA cũng liên quan chặt chẽ đến phân tích thành phần chính (PCA) và phân tích nhân tố ở chỗ cả hai đều tìm kiếm sự kết hợp tuyến tính của các biến giải thích tốt nhất cho dữ liệu. LDA rõ ràng cố gắng mô hình hóa sự khác biệt giữa các lớp dữ liệu. Ngược lại, PCA không tính đến bất kỳ sự khác biệt nào trong lớp và phân tích nhân tố xây dựng các kết hợp tính năng dựa trên sự khác biệt thay vì tương đồng. Phân tích phân biệt đối xử cũng khác với phân tích nhân tố ở chỗ nó không phải là một kỹ thuật phụ thuộc lẫn nhau: phải phân biệt giữa các biến độc lập và biến phụ thuộc (còn gọi là biến tiêu chí).
LDA hoạt động khi các phép đo được thực hiện trên các biến độc lập cho mỗi quan sát là các đại lượng liên tục. Khi xử lý các biến độc lập phân loại, kỹ thuật tương đương là phân tích tương ứng phân biệt.
Phân tích phân biệt được sử dụng khi các nhóm được biết đến một tiên nghiệm (không giống như trong phân tích cụm ). Mỗi trường hợp phải có điểm trên một hoặc nhiều biện pháp dự đoán định lượng và điểm trên thước đo nhóm. Nói một cách đơn giản, phân tích chức năng phân biệt là phân loại – hành động phân phối mọi thứ thành các nhóm, lớp hoặc loại cùng loại.
Ứng dụng phân tích phân biệt tuyến tính trên SPSS
Xây dựng ý tưởng Phân tích phân biệt
Chúng ta có dữ liệu về giá nhà ở HCM gồm các biến sau: GIADV ( Giá trên m2), NGANG ( Chiều ngang), DAI ( Chiều dài), DTICH( Diện tích đất), DTN ( Diện tích nhà), KCACH ( Khoảng cách), QĐ( Quyết định).
Ở đây chúng tôi phân lớp mặt tiền thành 3 lớp: 0: Không mua, 1: có thể mua, 2: chắc chắn mua
Ở đây chúng tôi muốn tìm hiểu các yếu tố như: GIADV, NGANG, DAI, DITCH, DTN, KCACH có ảnh hưởng đến quyết định mua nha hay không?
Phân tích phân biệt trên SPSS
Kiểm định giá trị Eigenvalues
Eigenvalues | ||||
Function | Eigenvalue | % of Variance | Cumulative % | Canonical Correlation |
1 | .307a | 87.8 | 87.8 | .485 |
2 | .043a | 12.2 | 100.0 | .202 |
Từ kết bảng trên ta có, ước lượng mô hình phân biệt DA ta có 2 mô hình, mô hình DA1 có phương sai chiếm 87.8%, còn mô hình DA2 có phương sai chiếm 12.2%, và mức độ tương quan của Canonical trong mô hình 1 là 48,5% còn mô hình 2 là 20.2%.
Kiểm định Wilk’ Lambda
Wilks’ Lambda | ||||
Test of Function(s) | Wilks’ Lambda | Chi-square | df | Sig. |
1 through 2 | .734 | 306.845 | 12 | .000 |
2 | .959 | 41.491 | 5 | .000 |
Từ bảng trên ta có Pvalue1 < 0.01 => Tất cả biến của mô hình DA1 là phù hợp, với mức ý nghĩa 1%
Pvalue2 < 0.01 => Tất cả biến của mô hình DA1 là phù hợp, với mức ý nghĩa 1%
Kiểm định ANOVA
Tests of Equality of Group Means | |||||
Wilks’ Lambda | F | df1 | df2 | Sig. | |
GIADV | .906 | 51.807 | 2 | 994 | .000 |
NGANG | .951 | 25.757 | 2 | 994 | .000 |
DAI | .940 | 31.707 | 2 | 994 | .000 |
DTICH | .979 | 10.778 | 2 | 994 | .000 |
DTN | .822 | 107.697 | 2 | 994 | .000 |
KCACH | .904 | 52.761 | 2 | 994 | .000 |
Từ kiểm định anova, Ta có tất cả các biến điều có ý nghĩa thống kê 1%, như vậy tất cả các biến điều có tác động lên Quyết định của người mua nhà.
Kết quả phân tích phân biệt
Canonical Discriminant Function Coefficients | ||
Function | ||
1 | 2 | |
GIADV | 1.108 | -.648 |
NGANG | .150 | -.318 |
DAI | .044 | .123 |
DTICH | -.002 | .001 |
DTN | .083 | .036 |
KCACH | -.055 | .063 |
(Constant) | -2.198 | -1.132 |
Unstandardized coefficients |
Từ kết quả phân tích bảng trên ta có 2 mô hình phân tích phân biệt như sau:
DA1= 1.108*GIADV + 0.15*NGANG + 0.044*DAI – 0.002*DTICH + 0.083*DTN – 0.55*KCACH -2.198
DA2= -0.648*GIADV -0.318*NGANG + 0.123*DAI + 0.001*DTICH + 0.036*DTN +0.063*KCACH -1.132
Kết luận Phân tích riêng biệt.
Ở trên là kết quả nghiên cứu của mô hình chúng ta cần tìm hiểu theo giả thuyết, tuỳ theo từng mục đích và chúng ta áp dụng khác nhau, nó gần giống như mô hình phân tích lớp tiềm ẩn LCA, đứng 1 mình nó thì giá thị khoa học không cao, nhưng ứng dụng kết hợp với nhiều mô hình khác, nó làm cho bài nghiên cứu của chúng ta thêm độ tin cậy./.