Hướng dẫn phân nhóm dữ liệu Cluster Analysis SPSS, đây là kỹ thuật đối lập vừa là tương đồng với kỹ thuật gom nhóm dữ liệu phân tích nhân tố chính PCA; Khi làm nghiên cứu khoa học thì việc chúng ta phải phân chia nhóm cho dữ liệu là hết sức cần thiết, nên CA là một công cụ phù hợp nhất.
Phân nhóm dữ liệu Cluster Analysis
Phân tích cụm / nhóm là gì?
Phân tích cụm là một phân tích khám phá cố gắng xác định các cấu trúc bên trong dữ liệu. Phân tích cụm còn được gọi là phân tích phân đoạn hoặc phân tích phân loại. Cụ thể hơn, nó cố gắng xác định các nhóm trường hợp đồng nhất nếu nhóm này chưa được biết trước đó. Bởi vì nó là khám phá, nó không có bất kỳ sự phân biệt nào giữa các biến phụ thuộc và độc lập. Các phương pháp phân tích cụm khác nhau mà SPSS cung cấp có thể xử lý dữ liệu nhị phân, danh nghĩa, thứ tự và tỷ lệ (khoảng hoặc tỷ lệ).
Phân tích cụm thường được sử dụng kết hợp với các phân tích khác (chẳng hạn như phân tích phân biệt). Nhà nghiên cứu phải có khả năng diễn giải phân tích cụm dựa trên sự hiểu biết của họ về dữ liệu để xác định xem kết quả do phân tích tạo ra có thực sự có ý nghĩa hay không.
Ứng dụng phân nhóm dữ liệu
Các câu hỏi nghiên cứu điển hình, câu trả lời phân tích cụm như sau:
- Y học – Các cụm chẩn đoán là gì? Để trả lời câu hỏi này, nhà nghiên cứu sẽ đưa ra một bảng câu hỏi chẩn đoán bao gồm các triệu chứng có thể xảy ra (ví dụ, về tâm lý, lo lắng, trầm cảm, v.v.). Sau đó, phân tích cụm có thể xác định các nhóm bệnh nhân có các triệu chứng tương tự.
- Tiếp thị – Phân khúc khách hàng là gì? Để trả lời câu hỏi này, một nhà nghiên cứu thị trường có thể tiến hành một cuộc khảo sát về nhu cầu, thái độ, nhân khẩu học và hành vi của khách hàng. Sau đó, nhà nghiên cứu có thể sử dụng phân tích cụm để xác định các nhóm khách hàng đồng nhất có nhu cầu và thái độ giống nhau.
- Giáo dục – Đâu là nhóm học sinh cần được quan tâm đặc biệt? Các nhà nghiên cứu có thể đo lường các đặc điểm tâm lý, năng khiếu và thành tích. Sau đó, phân tích theo cụm có thể xác định những nhóm đồng nhất nào tồn tại giữa các học sinh (ví dụ: học sinh đạt thành tích cao trong tất cả các môn học hoặc học sinh xuất sắc trong các môn học nhất định nhưng lại thất bại ở các môn khác).
- Sinh học – Phân loại các loài là gì? Các nhà nghiên cứu có thể thu thập một bộ dữ liệu về các loại cây khác nhau và ghi nhận các thuộc tính khác nhau về kiểu hình của chúng. Phân tích cụm có thể nhóm các quan sát đó thành một loạt các cụm và giúp xây dựng phân loại các nhóm và phân nhóm của các loài thực vật tương tự.
Các kỹ thuật khác mà bạn có thể muốn thử để xác định các nhóm quan sát tương tự là phân tích Q , chia tỷ lệ đa chiều (MDS) và phân tích lớp tiềm ẩn .
Phân loại CA
SPSS cung cấp 3 phương pháp để phân tích cụm: K-Means Cluster , Hierarchical Cluster và Two-Step Cluster .
K-mean cluster
Hệ số K trung bình là một phương pháp để phân cụm nhanh các tập dữ liệu lớn. Nhà nghiên cứu xác định trước số lượng các cụm. Điều này rất hữu ích để kiểm tra các mô hình khác nhau với số lượng cụm giả định khác nhau.
Hierarchical Cluster
Cụm phân cấp là phương pháp phổ biến nhất. Nó tạo ra một loạt các mô hình với các giải pháp cụm từ 1 (tất cả các trường hợp trong một cụm) đến n (mỗi trường hợp là một cụm riêng lẻ). Cụm phân cấp cũng hoạt động với các biến trái ngược với các trường hợp; nó có thể nhóm các biến lại với nhau theo cách tương tự như phân tích nhân tố. Ngoài ra, phân tích cụm phân cấp có thể xử lý dữ liệu danh nghĩa, thứ tự và tỷ lệ; tuy nhiên, không nên kết hợp các mức đo khác nhau .
Two-Step Cluster
Phân tích cụm hai bước xác định các nhóm để phân nhóm dữ liệu bằng cách chạy trước phân nhóm trước và sau đó bằng cách chạy các phương pháp phân cấp. Bởi vì nó sử dụng thuật toán cụm nhanh từ trước, nó có thể xử lý các tập dữ liệu lớn mà sẽ mất nhiều thời gian để tính toán bằng các phương pháp cụm phân cấp. Về khía cạnh này, nó là sự kết hợp của hai cách tiếp cận trước đó. Phân nhóm hai bước có thể xử lý dữ liệu tỷ lệ và thứ tự trong cùng một mô hình và nó tự động chọn số lượng các cụm.
Ứng dụng phân tách cụm phân cấp – Hierarchical Cluster
Đường dẫn chức năng phân tách cụm trong SPSS
Kích hoạt chương tình
Analyze/Classify/Hierarchical Cluster
Mục Statistic và Plot ta chọn như hình trên.
Chọn phương pháp phân nhóm
Trong mục phương pháp (Method), ta cũng chọn như trong hình
Tuỳ từng ứng dụng mà chúng ta dung phương pháp phân nhóm khác nhau, và tuỳ từng phương pháp phân nhóm ( Cluster Method) sẽ có tuỳ cách sử dụng do lường ( Measure) khác nhau. Phần lớn kết quả cho ra sẽ tương đồng với nhau hơn 80%.
Phương pháp phân nhóm dữ liệu
Trong phương pháp phân nhóm dữ liệu thì cũng khó quá nhiều khó khăn, nếu các bạn vẫn gặp ” trở ngại” trong việc phân nhóm, các bạn đừng ngần ngại hãy liên hệ ngay với chúng tôi, để được hỗ trợ tốt nhất trong thời gian nhanh nhất.