Giáo trình khai phá dữ liệu

     

Bài giảng khai thác dữ liệu (Data mining): Chương 6 - khai thác luật kết hợp cung cấp cho chúng ta những kỹ năng tổng quan liêu về khai phá luật kết hợp; màn trình diễn luật kết hợp; tìm hiểu các mẫu mã thường xuyên; tò mò các luật phối kết hợp từ các mẫu thường xuyên; khám phá các luật kết hợp dựa bên trên ràng buộc; phân tích tương quan.


*

Khoa Khoa Học & Kỹ Thuật Máy Tính Trường Đại Học Bách Khoa Tp. Hồ Chí Minh Chương 6: Khai phá luật kết hợp Khai phá dữ liệu (Data mining) 1 Học kỳ 1 – 2009­2010Nội dung 6.1. Tổng quan về khai phá luật kết hợp 6.2. Biểu diễn luật kết hợp 6.3. Khám phá các mẫu thường xuyên 6.4. Khám phá các luật kết hợp từ các mẫu thường xuyên 6.5. Khám phá các luật kết hợp dựa trên ràng buộc 6.6. Phân tích tương quan 6.7. Tóm tắt 2Tài liệu tham khảo <1> Jiawei Han, Micheline Kamber, “Data Mining: Concepts and Techniques”, Second Edition, Morgan Kaufmann Publishers, 2006. <2> David Hand, Heikki Mannila, Padhraic Smyth, “Principles of Data Mining”, MIT Press, 2001. <3> David L. Olson, Dursun Delen, “Advanced Data Mining Techniques”, Springer­Verlag, 2008. <4> Graham J. Williams, Simeon J. Simoff, “Data Mining: Theory, Methodology, Techniques, and Applications”, Springer­Verlag, 2006. <5> ZhaoHui Tang, Jamie MacLennan, “Data Mining with SQL Server 2005”, Wiley Publishing, 2005. <6> Oracle, “Data Mining Concepts”, B28129­01, 2008. <7> Oracle, “Data Mining Application Developer’s Guide”, B28131­01, 2008.

Bạn đang xem: Giáo trình khai phá dữ liệu

36.0. Tình huống 1 – Market basket analysis 46.0. Tình huống 2 ­ Tiếp thị chéo 56.0. Tình huống 2 ­ Tiếp thị chéo 66.0. Tình huống … Phân tích dữ liệu giỏ hàng (basket data analysis) Tiếp thị chéo (cross­marketing) Thiết kế catalog (catalog design) Phân loại dữ liệu (classification) và gom cụm dữ liệu (clustering) với các mẫu phổ biến … 76.1. Tổng quan về khai phá luật kết hợp Quá trình khai phá luật kết hợp Các khái niệm cơ bản Phân loại luật kết hợp 86.1. Tổng quan về khai phá luật kết hợp Quá trình khai phá luật kết hợp Pre­ Post­ processing Mining Relationships processingRaw Data Items of Interest among Items User (Rules) 9 6.1. Tổng quan về khai phá luật kết hợp  Quá trình khai phá luật kết hợp Pre­ Post­ processing Mining Relationships processing Raw Data Items of Interest among Items User (Rules) Transactional/ Association Items Relational Data RulesTransaction Items_bought A, B, C, D, F, A C (50%, 66.6%)­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­ … …2000 A, B, C1000 A, C4000 A, D5000 B, E, F… Bài toán phân tích giỏ thị trường 106.1. Tổng quan về khai phá luật kết hợp Dữ liệu mẫu của AllElectronics (sau quá trình tiền xử lý) 116.1. Tổng quan về khai phá luật kết hợp Các khái niệm cơ bản  Item (phần tử)  Itemset (tập phần tử)  Transaction (giao dịch)  Association (sự kết hợp) và association rule (luật kết hợp)  Support (độ hỗ trợ)  Confidence (độ tin cậy)  Frequent itemset (tập phần tử phổ biến/thường xuyên)  Strong association rule (luật kết hợp mạnh) 126.1. Tổng quan về khai phá luật kết hợp Dữ liệu mẫu của AllElectronics (sau quá trình tiền xử lý) Itemsets: Item: I4I1, I2, I5, I2, … Transaction: T800 136.1. Tổng quan về khai phá luật kết hợp Các khái niệm cơ bản  Item (phần tử)  Các phần tử, mẫu, đối tượng đang được quan tâm.  J = I1, I2, …, Im: tập tất cả m phần tử có thể có trong tập dữ liệu  Itemset (tập phần tử)  Tập hợp các items  Một itemset có k items gọi là k­itemset.  Transaction (giao dịch)  Lần thực hiện tương tác với hệ thống (ví dụ: giao dịch “khách hàng mua hàng”)  Liên hệ với một tập T gồm các phần tử được giao dịch 146.1. Tổng quan về khai phá luật kết hợp Các khái niệm cơ bản  Association (sự kết hợp) và association rule (luật kết hợp)  Sự kết hợp: các phần tử cùng xuất hiện với nhau trong một hay nhiều giao dịch.  Thể hiện mối liên hệ giữa các phần tử/các tập phần tử  Luật kết hợp: qui tắc kết hợp có điều kiện giữa các tập phần t ử.  Thể hiện mối liên hệ (có điều kiện) giữa các tập phần tử  Cho A và B là các tập phần tử, luật kết hợp giữa A và B là A  B.  B xuất hiện trong điều kiện A xuất hiện. 156.1. Tổng quan về khai phá luật kết hợp Các khái niệm cơ bản  Support (độ hỗ trợ)  Độ đo đo tần số xuất hiện của các phần tử/tập phần tử.  Minimum support threshold (ngưỡng hỗ trợ tối thiểu)  Giá trị support nhỏ nhất được chỉ định bởi người dùng.  Confidence (độ tin cậy)  Độ đo đo tần số xuất hiện của một tập phần tử trong điều kiện xuất hiện của một tập phần tử khác.

Xem thêm: “Sống Ảo” Với Top 30 Quán Cafe Đẹp Ở Hà Nội Để Chụp Ảnh Cho Bạn Thích Chụp Choẹt

 Minimum confidence threshold (ngưỡng tin cậy tối thiểu)  Giá trị confidence nhỏ nhất được chỉ định bởi người dùng. 166.1. Tổng quan về khai phá luật kết hợp Các khái niệm cơ bản  Frequent itemset (tập phần tử phổ biến)  Tập phần tử có support thỏa minimum support threshold.  Cho A là một itemset  A là frequent itemset iff support(A) >= minimum support threshold.  Strong association rule (luật kết hợp mạnh)  Luật kết hợp có support và confidence thỏa minimum support threshold và minimum confidence threshold.  Cho luật kết hợp AB giữa A và B, A và B là itemsets  AB là strong association rule iff support(AB) >= minimum support threshold và confidence(AB) >= minimum confidence threshold. 17 6.1. Tổng quan về khai phá luật kết hợp Phân loại luật kết hợp  Boolean association rule (luật kết hợp luận lý)/quantitative association rule (luật kết hợp lượng số)  Single­dimensional association rule (luật kết hợp đơn chiều)/multidimensional association rule (luật kết hợp đa chiều)  Single­level association rule (luật kết hợp đơn mức)/multilevel association rule (luật kết hợp đa mức)  Association rule (luật kết hợp)/correlation rule (luật tương quan thống kê) 186.1. Tổng quan về khai phá luật kết hợp Phân loại luật kết hợp  Boolean association rule (luật kết hợp luận lý)/quantitative association rule (luật kết hợp lượng số)  Boolean association rule: luật mô tả sự kết hợp giữa sự hiện diện/vắng mặt của các phần tử.  Computer  Financial_management_software   Quantitative association rule: luật mô tả sự kết hợp giữa các phần tử/thuộc tính định lượng.  Age(X, “30..39”) Income(X, “42K..48K”)  buys(X, high resolution TV) 196.1. Tổng quan về khai phá luật kết hợp Phân loại luật kết hợp  Single­dimensional association rule (luật kết hợp đơn chiều)/multidimensional association rule (luật kết hợp đa chiều)  Single­dimensional association rule: luật chỉ liên quan đến các phần tử/thuộc tính của một chiều dữ liệu.  Buys(X, “computer”)  Buys(X, “financial_management_software”)  Multidimensional association rule: luật liên quan đến các phần tử/thuộc tính của nhiều hơn một chiều.  Age(X, “30..39”)  Buys(X, “computer”) 20