Bài giảng Học máy - L1: Giới thiệu

Lọc thư rác – Email spam
filtering
• T: Dự đoán (để lọc) những thư điện
tử nào là thư rác ( p ) spam email)
• P: % of các thư điện tử gửi đến được
phân loại chính xác

35 trang xuanthi 7420 Free

Download

Bạn đang xem 20 trang mẫu của tài liệu "Bài giảng Học máy - L1: Giới thiệu", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.

File đính kèm:

bai_giang_hoc_may_l1_gioi_thieu.pdf

Nội dung text: Bài giảng Học máy - L1: Giới thiệu

Nộidi dung m ôn học: Giới thiệu chung • Học máy • Công cụ WEKA Đánh giá hiệu năng hệ thống học máy Các phương pháp học dựa trên xác suất Các phương pháp học có giám sát Các phươnggp phá p học khônggg giám sát Lọc cộng tác Họctc tăng cường ọ H c Máy – IT 4862 2
Ví dụ bài toán học máy (1) Lọcthư rác – Email spam filtering • T: Dự đoán (để lọc) những thưđiện tử nào là thư rác ((pspam email ) • P: % of các thưđiệntử gửi đến được phân loại chính xác Thư rác? • E: Một tậpcácthưđiệntử (emails) mẫu, mỗithưđiệntửđượcbiểudiễn Thư Thư bằng mộttậpthuộc tính (vd: tậptừ thường rác khóa) và nhãn lớp (thư thường/thư rác) tương ứng ọ H c Máy – IT 4862 4
Ví dụ bài toán học máy (3) Nhậndạng chữ viếttay T: Nhậndạng và phân loạicác từ trong các ảnh chữ viếttay P: Tỷ lệ (%) các từđượcnhận dạng và phân loại đúng Từ nào? E:M: Một tập các ảnh chữ viết tay, trong đómỗi ảnh đượcgắn vớimột định danh củamộttừ wedo in the right way ọ H c Máy – IT 4862 6
Quá trình học máy Tậphọc (Training set) Huấn luyện Tậpdữ liệu hệ thống (Dataset) Tậptối ưu (Validation set) Tối ưu hóa các tham số củahệ thống Tập thử nghiệm (Test set) Thử nghiệm hệ thống đã học ọ H c Máy – IT 4862 8
Các thành phần chính của bài toán học máy (2) Lựa chọn cách biểu diễn cho hàm mục tiêu cần học • Hàm đaath thức (a polynomial function) • Một tập các luật (a set of rules) • Một cây quyết định (a decision tree) • Mộtmt mạng nơ-ron nhân tạo (an artificial neural network) • Lựa chọn một giải thuật học máy có thể học (xấp xỉ) được hàm mục tiêu • Phương pháp học hồi quy (Regression-based) • Phương pháp học quy nạplup luật (Rule induction) • Phương pháp học cây quyết định (ID3 hoặc C4.5) • Phương pháp học lan truyền ngược (Back-propagation) • ọ H c Máy – IT 4862 10
Các vấn đề trong Học máy (2) Các ví dụ học (Training examples) • Bao nhiêu ví dụ học là đủ? • Kích thước của tập học (tập huấn luyện) ảnh hưởng thế nào đối với độ chín h x ác của hàm mục tiêu học được? • Các ví dụ lỗi (nhiễu) và/hoặc các ví dụ thiếu giá trị thuộc tính (missing -value) ảnh hưởng thế nào đốiiv với độ chính xác? ọ H c Máy – IT 4862 12
Các vấn đề trong Học máy (4) Khả năng/giớihạnhọc (Learning capability) • Hàm mục tiêu nào mà hệ thống cầnhọc? Biểudiễn hàm mục tiêu: Khả năng biểudiễn (vd: hàm tuyến tính / hàm phi tuyến) vs. Độ phưctạpcủagiảithuật và quá trình học • Các giớihạn (trên lý thuyết) đốivớikhả năng họccủa các giảithuật họcmáy? • Khả năng khái quát hóa (li)(generalize) của hệ thống từ cácví dụ học? Để tránh vấn đề “over-fitting” (đạt độ chính xác cao trên tậphọc, nhưng đạt độ chính xác thấptrêntậpthử nghiệm) • Khả năng hệ thống tựđộng thay đổi (thích nghi) biểudiễn(cấutrúc) bên trong của nó? Để cảithiệnkhả năng (củahệ thống đốivớiviệc) biểudiễnvàhọc hàmmục tiêu ọ H c Máy – IT 4862 14
Vấn đề over-fittingg( (2 ) Giả sử gọi D là tập toàn bộ các ví dụ, và D_train là tập các ví dụ học Giả sử gọi ErrD(h) là mức lỗi mà giả thiết h sinh ra đối vớiti tập D, và ErrDtD_tra in(h) là mứclc lỗimàgii mà giả thiết h sinh ra đối với tập D_train Giả thiết h quá kh ớp (quá phù hợp) tậpph học D_ train nếu tồn tại một giả thiết khác h’: • ErrD_train(h) ErrD(h’) ọ H c Máy – IT 4862 16
Vấn đề over-fitting –Ví dụ Tiếptục quá trình học cây quyết định sẽ làm giảm độ chính xác đối vớitậpthử nghiệm mặcdùtăng độ chính xác đốivớitậphọc [Mitchell, 1997] ọ H c Máy – IT 4862 18
WEKA – Các môi trường chính Simple CLI Giao diện đơnngi giảnkin kiểu dòng lệnh (nh ư MS-DOS) Explorer (chúng ta sẽ chủ yếu sử dụng môi trường này!) Môi trường cho phép sử dụng tấttc cả các kh ả năng của WEKA để khám phá dữ liệu Experimenter Môi trường cho phép tiến hành các thí nghiệm và thực hiện các kiểm tra thống kê (statistical tests) giữa các mô hình học máy KldFlKnowledgeFlow Môi trường cho phép bạn tương tác đồ họa kiểu kéo/thả để thiết kế các bước (các thành phần) của một thí nghiệm ọ H c Máy – IT 4862 20
WEKA – Môi trườnggp Explorer Preprocess Để chọn và thay đổi (xử lý) dữ liệu làm việc Classify Để huấn luyện và kiểm tra các mô hình học máy (phân loại, hoặc hồi qqyuy/dự đoán) Cluster Để học các nhóm từ dữ liệu (phân cụm) Associate Để khám phá các luật kết hợp từ dữ liệu Select attributes Đểể xác định và lựa chọn các thuộc tính liên quan (quan trọng) nhất của dữ liệu Visualize Để xem (hiển thị) biểu đồ tương tác 2 chiều đối với dữ liệu ọ H c Máy – IT 4862 22
WEKA Explorer: Tiền xử lý dữ liệu Dữ liệu có thể được nhập vào (imported) từ một tập tin có khuôn dạng,g: ARFF, CSV Dữ liệu cũng có thể được đọc vào từ một địa chỉ URL, hoặc từ một cơ sở dữ liệu thông qua JDBC Các công cụ tiền xử lý dữ liệu của WEKA được gọi là filters • Rời rạc hóa (Discretization) • Chuẩn hóa (Normalization) • Lấy mẫu (Re-sampling) • Lựa chọn thuộc tính (Attribute selection) • Chuyển đổi(Ti (Trans form ing ) v àkà kếtht hợp (Com bin ing ) c ác thuộc tính • →Hãyyg xem giao diện của WEKA Explorer ọ H c Máy – IT 4862 24
WEKA Explorer: Các bộ phân lớpp( (2) Lựa chọn một bộ phân lớp (classifier) Lựa chọn các tùy chọn cho việc kiểm tra (test options) • Use training set. Bộ phân loại học được sẽ được đánh giá trên tậpph học • Supplied test set. Sử dụng một tập dữ liệu khác (với tập học) để cho việc đánh giá • Cross-validation. Tập dữ liệu sẽ được chia đều thành k tập (folds) có kích thước xấp xỉ nhau, và bộ phân loại học được sẽ được đánh giá bởi phương pháp cross-validation • Percentage split. Chỉ định tỷ lệ phân chia tập dữ liệu đối với việc đánh giá ọ H c Máy – IT 4862 26
WEKA Explorer: Các bộ phân lớpp( (4) Classifier output hiển thị các thông tin quan trọng • Run information . Các tùy ch ọn đốivi vớimôhìnhhi mô hình họctêncc, tên củaat tập dữ liệu, số lượng các ví dụ, các thuộc tính, và f.f. thí nghiệm • Classifier model (full training set). Biểu diễn (dạng text) của bộ phân lớpph học được • Predictions on test data. Thông tin chi tiết về các dự đoán của bộ phân lớp đối với tập kiểm tra • Summary. Các th ống kê về mức độ chín h x ác của bộ phân lớp, đối với f.f. thí nghiệm đã chọn • Detailed Accuracy By Class. Thông tin chi tiết về mức độ chính xác của bộ phân lớp đối với mỗiil lớp • Confusion Matrix. Các thành phần của ma trận này thể hiện số lượng các ví dụ kiểm tra (test instances) được phân lớp đúng và bị phân lớp sai ọ H c Máy – IT 4862 28
WEKA Explorer: Các bộ phân cụm (1) Các bộ phân cụm (Cluster builders) của WEKA tương ứng với các mô hình tìm các nhóm của các ví dụ tương tự đối với một tập dữ liệu Các kỹ thuật phân cụm đượchc hỗ trợ bởi WEKA • Expectation maximization (EM) • k-Means • Các bộ phân cụm có thể được hiển thị kết quả và so sáhánh vớiái các cụm (lớp))th thực tế →Hãy xem giao diện của WEKA Explorer ọ H c Máy – IT 4862 30
WEKA Explorer: Phát hiện luật kết hợp Lựachọnmộtmôhình(giảithuật) phát hiệnluậtkếthợp AitAssociator outttput hiển thị các thông tin quan trọng • Run information. Các tùy chọn đốivới mô hình phát hiệnluật kếthợp, tên củatậpdữ liệu, số lượng các ví dụ, các thuộc tính • Associator model (full training set). Biểudiễn(dạng text) của tậpcácluậtkếthợp phát hiện được • Độ hỗ trợ tốithiểu (minimum support) • Độ tin cậytốithiểu (minimum confidence) • Kích thướccủacáctậpmụcthường xuyên (large/frequent itemsets) • Liệtkêcácluậtkếthợp tìm được → Hãy xem giao diệncủa WEKA Explorer ọ H c Máy – IT 4862 32
WEKA Explorer: Hiển thị dữ liệu Hiển thị dữ liệu rất cần thiết trong thực tế Giúp để xác định mức độ khó khăn của bài toán học WEKA có thể hiển thị • Mỗi thuộc tính riêng lẻ (1-D visualization) • Mộtct cặppthu thuộc tính (2 -D visualization) Các giá trị (các nhãn) lớp khác nhau sẽ được hiển thị bằng các màu khác nhau Thanh trượt Jitter hỗ trợ việc hiển thị rõàõ ràng hơn, khi có quá nhiều ví dụ (điểm) tập trung xung quanh một vị trí trên biểu đồ Tính năng phóng to/thu nhỏ (bằng cách tăng/giảm giá trị của PlotSize và PointSize) →Hãy xem giao diện của WEKA Explorer ọ H c Máy – IT 4862 34