Bài giảng Học máy - L12: Các phương pháp học có giám sát Phân cụm dựa trên tích tụ phân cấp: HAC (Hierarchical agglomerative clustering)
Phân cụm dựa trên tích tụ phân cấp (Hierarchical
Agglomerative Clustering – HAC) sẽ xây dựng dendrogram
từ mức đáy (cuối) dần lên (bottom-up)
Giải thuật HAC
• Bắt đầu, mỗi ví dụ chính là một cụm (là một nút trong dendrogram)
• Hợp nhất 2 cụm có mức độ tương tự (gần) nhau nhất
Cặp gồm 2 cụm có khoảng cách nhỏ nhất trong số các cặp cụm
• Tiếp tục quá trình hợp nhất
• Giải thuật kết thúc khi tất cả các ví dụ được hợp nhất thành một
cụm duy nhất (là nút gốc trong dendrogram)
Agglomerative Clustering – HAC) sẽ xây dựng dendrogram
từ mức đáy (cuối) dần lên (bottom-up)
Giải thuật HAC
• Bắt đầu, mỗi ví dụ chính là một cụm (là một nút trong dendrogram)
• Hợp nhất 2 cụm có mức độ tương tự (gần) nhau nhất
Cặp gồm 2 cụm có khoảng cách nhỏ nhất trong số các cặp cụm
• Tiếp tục quá trình hợp nhất
• Giải thuật kết thúc khi tất cả các ví dụ được hợp nhất thành một
cụm duy nhất (là nút gốc trong dendrogram)
Bạn đang xem tài liệu "Bài giảng Học máy - L12: Các phương pháp học có giám sát Phân cụm dựa trên tích tụ phân cấp: HAC (Hierarchical agglomerative clustering)", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.
File đính kèm:
- bai_giang_hoc_may_l12_cac_phuong_phap_hoc_co_giam_sat_phan_c.pdf
Nội dung text: Bài giảng Học máy - L12: Các phương pháp học có giám sát Phân cụm dựa trên tích tụ phân cấp: HAC (Hierarchical agglomerative clustering)
- Nội dung môn học: Giới thiệu chung Đánh giá hiệunăng hệ thống họcmáy Các phương pháp họccd dựatrênxácsua trên xác suất Các phương pháp học có giám sát Cácphương pháp học không giámsát Phân cụm dựatrêntíchtụ phân cấp: HAC (Hierarchical agglomerative clustering) Lọccộng tác Học tăng cường Học Máy (IT 4862) 2
- HAC (2) Phân cụm dựa trên tích tụ phân cấp (Hierarchical Agglomerative Clustering – HAC) sẽ xây dựng dendrogram từ mức đáy (cuối) dần lên (bottom-up) Giải thuật HAC • Bắt đầu, mỗivídụ chính là mộtcụm (là một nút trong dendrogram) • Hợp nhất2 cụm có mức độ tương tự (gần) nhau nhất Cặpgồm2 cụm có khoảng cách nhỏ nhất trong số các cặpcụm • Tiếptục quá trình hợpnhất • Giảithuậtkết thúc khi tấtcả các ví dụđượchợpnhất thành một cụm duy nhất (là nút gốc trong dendrogram) ọ H c Máy (IT 4862) 4
- Khoảng cách giữa2 cụm GiảithuậtHAC cần định nghĩaviệc tính toán khoảng cách giữa 2c2 cụm • Trướckhihợpnhất, cần tính khoảng cách giữamỗicặp2 cụm có thể Có nhiềuphương pháp để đánh giá khoảng cách giữa2 cụm – đưa đến các biếnthể khác nhau củagiảithuậtHAC • Liên kết đơn (Single link) • Liên kết hoàn toàn (Complete link) • Liên kết trung bình (Average link) • Liên kết trung tâm (Centroid link) • ọ H c Máy (IT 4862) 6
- HAC – Liên kết hoàn toàn HAC liên kết hoàn toàn (Complete link): C1 + Khoảng cách giữa2 cụm là + khoảng cách lớnnhất giữa C các ví dụ (các thành viên) của 2 2 cụm đó Nhạycảm(gặplỗi phân cụm) đốivới các ngoại lai (outliers) Có xu hướng sihinh ra cáccụm có dạng “bụi cây” (clumps) [Liu, 2006] ọ H c Máy (IT 4862) 8
- HAC – Liên kết trung tâm HAC liên kết trung tâm (Centroid link): Khoảng cách giữa2 cụm là khoảng cách giữa2 điểm trung tâm (centroids) của2 cụm đó C1 + + C2 ọ H c Máy (IT 4862) 10
- Các hàm khoảng cách Một thành phần quan trọng của các phương pháp phân cụm • Cầnxácđịnh các hàm tính độ khác biệt (dissimilarity/distance functions), hoặc các hàm tính độ tương tự (similarity functions) Các hàm tính khoảng cách khác nhau đốivới • Các kiểudữ liệu khác nhau Dữ liệukiểusố (Numeric data) Dữ liệukiểu định danh (Nominal data) • Các bài toán ứng dụng cụ thể ọ H c Máy (IT 4862) 12
- Hàm k/c cho thuộc tính nhị phân Sử dụng một ma trận để biểu diễn hàm tính khoảng cách • a: Tổng số thuộc tính có giá trị là 1 trong cả xi và xj ví dụ xj • b: Tổng số các thuộc tính có giá trị là 1 trong x và i 10 có giá trị là 0 trong xj i x • c: Tổng số các thuộc tính có giá trị là 0 trong xi và 1 ab ụ có giá trị là 1 trong xj 0 cd • d: Tổng số các thuộc tính có giá trị là 0 trong cả xi ví d và xj Hệ số phù hợp đơn giản (Simple matching coeffi ci en t). Tỷ lệ sai lệcgách giá trị củaacác các thuộc tính giữa 2 ví dụ: b + c d(x ,x ) = i j a + b + c + d ọ H c Máy (IT 4862) 14
- Tài liệu tham khảo •B. Liu. Web Data Mining: Exploring Hyperlinks, Contents, and Usage Data. Sppgringer, 2006. ọ H c Máy (IT 4862) 16