Giáo trình khai phá dữ liệu
Bài giảng khai thác dữ liệu (Data mining): Chương 6 - khai thác luật kết hợp cung cấp cho chúng ta những kỹ năng tổng quan liêu về khai phá luật kết hợp; màn trình diễn luật kết hợp; tìm hiểu các mẫu mã thường xuyên; tò mò các luật phối kết hợp từ các mẫu thường xuyên; khám phá các luật kết hợp dựa bên trên ràng buộc; phân tích tương quan.
Khoa Khoa Học & Kỹ Thuật Máy Tính Trường Đại Học Bách Khoa Tp. Hồ Chí Minh Chương 6: Khai phá luật kết hợp Khai phá dữ liệu (Data mining) 1 Học kỳ 1 – 20092010Nội dung 6.1. Tổng quan về khai phá luật kết hợp 6.2. Biểu diễn luật kết hợp 6.3. Khám phá các mẫu thường xuyên 6.4. Khám phá các luật kết hợp từ các mẫu thường xuyên 6.5. Khám phá các luật kết hợp dựa trên ràng buộc 6.6. Phân tích tương quan 6.7. Tóm tắt 2Tài liệu tham khảo <1> Jiawei Han, Micheline Kamber, “Data Mining: Concepts and Techniques”, Second Edition, Morgan Kaufmann Publishers, 2006. <2> David Hand, Heikki Mannila, Padhraic Smyth, “Principles of Data Mining”, MIT Press, 2001. <3> David L. Olson, Dursun Delen, “Advanced Data Mining Techniques”, SpringerVerlag, 2008. <4> Graham J. Williams, Simeon J. Simoff, “Data Mining: Theory, Methodology, Techniques, and Applications”, SpringerVerlag, 2006. <5> ZhaoHui Tang, Jamie MacLennan, “Data Mining with SQL Server 2005”, Wiley Publishing, 2005. <6> Oracle, “Data Mining Concepts”, B2812901, 2008. <7> Oracle, “Data Mining Application Developer’s Guide”, B2813101, 2008.
Bạn đang xem: Giáo trình khai phá dữ liệu
36.0. Tình huống 1 – Market basket analysis 46.0. Tình huống 2 Tiếp thị chéo 56.0. Tình huống 2 Tiếp thị chéo 66.0. Tình huống … Phân tích dữ liệu giỏ hàng (basket data analysis) Tiếp thị chéo (crossmarketing) Thiết kế catalog (catalog design) Phân loại dữ liệu (classification) và gom cụm dữ liệu (clustering) với các mẫu phổ biến … 76.1. Tổng quan về khai phá luật kết hợp Quá trình khai phá luật kết hợp Các khái niệm cơ bản Phân loại luật kết hợp 86.1. Tổng quan về khai phá luật kết hợp Quá trình khai phá luật kết hợp Pre Post processing Mining Relationships processingRaw Data Items of Interest among Items User (Rules) 9 6.1. Tổng quan về khai phá luật kết hợp Quá trình khai phá luật kết hợp Pre Post processing Mining Relationships processing Raw Data Items of Interest among Items User (Rules) Transactional/ Association Items Relational Data RulesTransaction Items_bought A, B, C, D, F, A C (50%, 66.6%) … …2000 A, B, C1000 A, C4000 A, D5000 B, E, F… Bài toán phân tích giỏ thị trường 106.1. Tổng quan về khai phá luật kết hợp Dữ liệu mẫu của AllElectronics (sau quá trình tiền xử lý) 116.1. Tổng quan về khai phá luật kết hợp Các khái niệm cơ bản Item (phần tử) Itemset (tập phần tử) Transaction (giao dịch) Association (sự kết hợp) và association rule (luật kết hợp) Support (độ hỗ trợ) Confidence (độ tin cậy) Frequent itemset (tập phần tử phổ biến/thường xuyên) Strong association rule (luật kết hợp mạnh) 126.1. Tổng quan về khai phá luật kết hợp Dữ liệu mẫu của AllElectronics (sau quá trình tiền xử lý) Itemsets: Item: I4I1, I2, I5, I2, … Transaction: T800 136.1. Tổng quan về khai phá luật kết hợp Các khái niệm cơ bản Item (phần tử) Các phần tử, mẫu, đối tượng đang được quan tâm. J = I1, I2, …, Im: tập tất cả m phần tử có thể có trong tập dữ liệu Itemset (tập phần tử) Tập hợp các items Một itemset có k items gọi là kitemset. Transaction (giao dịch) Lần thực hiện tương tác với hệ thống (ví dụ: giao dịch “khách hàng mua hàng”) Liên hệ với một tập T gồm các phần tử được giao dịch 146.1. Tổng quan về khai phá luật kết hợp Các khái niệm cơ bản Association (sự kết hợp) và association rule (luật kết hợp) Sự kết hợp: các phần tử cùng xuất hiện với nhau trong một hay nhiều giao dịch. Thể hiện mối liên hệ giữa các phần tử/các tập phần tử Luật kết hợp: qui tắc kết hợp có điều kiện giữa các tập phần t ử. Thể hiện mối liên hệ (có điều kiện) giữa các tập phần tử Cho A và B là các tập phần tử, luật kết hợp giữa A và B là A B. B xuất hiện trong điều kiện A xuất hiện. 156.1. Tổng quan về khai phá luật kết hợp Các khái niệm cơ bản Support (độ hỗ trợ) Độ đo đo tần số xuất hiện của các phần tử/tập phần tử. Minimum support threshold (ngưỡng hỗ trợ tối thiểu) Giá trị support nhỏ nhất được chỉ định bởi người dùng. Confidence (độ tin cậy) Độ đo đo tần số xuất hiện của một tập phần tử trong điều kiện xuất hiện của một tập phần tử khác.Xem thêm: “Sống Ảo” Với Top 30 Quán Cafe Đẹp Ở Hà Nội Để Chụp Ảnh Cho Bạn Thích Chụp Choẹt
Minimum confidence threshold (ngưỡng tin cậy tối thiểu) Giá trị confidence nhỏ nhất được chỉ định bởi người dùng. 166.1. Tổng quan về khai phá luật kết hợp Các khái niệm cơ bản Frequent itemset (tập phần tử phổ biến) Tập phần tử có support thỏa minimum support threshold. Cho A là một itemset A là frequent itemset iff support(A) >= minimum support threshold. Strong association rule (luật kết hợp mạnh) Luật kết hợp có support và confidence thỏa minimum support threshold và minimum confidence threshold. Cho luật kết hợp AB giữa A và B, A và B là itemsets AB là strong association rule iff support(AB) >= minimum support threshold và confidence(AB) >= minimum confidence threshold. 17 6.1. Tổng quan về khai phá luật kết hợp Phân loại luật kết hợp Boolean association rule (luật kết hợp luận lý)/quantitative association rule (luật kết hợp lượng số) Singledimensional association rule (luật kết hợp đơn chiều)/multidimensional association rule (luật kết hợp đa chiều) Singlelevel association rule (luật kết hợp đơn mức)/multilevel association rule (luật kết hợp đa mức) Association rule (luật kết hợp)/correlation rule (luật tương quan thống kê) 186.1. Tổng quan về khai phá luật kết hợp Phân loại luật kết hợp Boolean association rule (luật kết hợp luận lý)/quantitative association rule (luật kết hợp lượng số) Boolean association rule: luật mô tả sự kết hợp giữa sự hiện diện/vắng mặt của các phần tử. Computer Financial_management_software