1 chương 7: phát triển ứng dụng khai phá dữ liệu khai phá dữ liệu (data mining)...
TRANSCRIPT
1
Chương 7: Phát triển ứng dụng Chương 7: Phát triển ứng dụng khai phá dữ liệukhai phá dữ liệu
Khai phá dữ liệu
(Data mining)
Học kỳ 1 – 2009-2010
Khoa Khoa Học & Kỹ Thuật Máy TínhKhoa Khoa Học & Kỹ Thuật Máy Tính
Trường Đại Học Bách Khoa Tp. Hồ Chí MinhTrường Đại Học Bách Khoa Tp. Hồ Chí Minh
2
Nội dung
7.1. Tổng quan về vấn đề phát triển ứng dụng khai phá dữ liệu
7.2. Qui trình phát triển ứng dụng khai phá dữ liệu
7.3. Các chuẩn dành cho khai phá dữ liệu
7.4. Các công cụ hỗ trợ phát triển ứng dụng khai phá dữ liệu
7.5. Tóm tắt
3
Tài liệu tham khảo [1] Jiawei Han, Micheline Kamber, “Data Mining: Concepts
and Techniques”, Second Edition, Morgan Kaufmann Publishers, 2006.
[2] David Hand, Heikki Mannila, Padhraic Smyth, “Principles of Data Mining”, MIT Press, 2001.
[3] David L. Olson, Dursun Delen, “Advanced Data Mining Techniques”, Springer-Verlag, 2008.
[4] Graham J. Williams, Simeon J. Simoff, “Data Mining: Theory, Methodology, Techniques, and Applications”, Springer-Verlag, 2006.
[5] ZhaoHui Tang, Jamie MacLennan, “Data Mining with SQL Server 2005”, Wiley Publishing, 2005.
[6] Oracle, “Data Mining Concepts”, B28129-01, 2008.
[7] Oracle, “Data Mining Application Developer’s Guide”, B28131-01, 2008.
4
7.1. Tổng quan về vấn đề phát triển ứng dụng khai phá dữ liệu
Vấn đề dữ liệu Lượng và chất lượng dữ liệu
Kiểu dữ liệu
Vấn đề tri thức từ quá trình khai phá Biểu diễn và tích hợp vào ứng dụng
Vấn đề kỹ thuật khai phá Lựa chọn giải thuật khai phá
Vấn đề hiệu quả (effective) và hiệu suất (efficient)
5
7.2. Qui trình phát triển ứng dụng khai phá dữ liệu
Qui trình phát triển ứng dụng
Qui trình phát triển ứng dụng khai phá dữ liệu
Tương đồng và khác biệt
6
7.3. Các chuẩn dành cho khai phá dữ liệu
The Predictive Model Markup Language (PMML – www.dmg.org)
Standard application programming interfaces (APIs)
The Cross-Industry Standard Process for Data Mining (CRISP-DM – www.crisp-dm.org)
Nguồn: R. L. Grossman, M. F. Hornick, G. Meyer, Data Mining Standards Initiatives, Communications of the ACM 45 (8) 2002 59-61.
7
7.3. Các chuẩn dành cho khai phá dữ liệu
The Predictive Model Markup Language (PMML – www.dmg.org) Chuẩn dựa trên XML
Mô tả các mô hình thống kê và khai phá dữ liệu, các tác vụ làm sạch và biến đổi dữ liệu
Các thành phần của PMML Data dictionary
Mining schema
Transformation dictionary
Model statistics
Models
8
7.3. Các chuẩn dành cho khai phá dữ liệu
9
7.3. Các chuẩn dành cho khai phá dữ liệu
10
7.3. Các chuẩn dành cho khai phá dữ liệu
11
7.3. Các chuẩn dành cho khai phá dữ liệu
Standard application programming interfaces (APIs)
SQL/MM Part 6: Data Mining
The Java Specification Request-73 (JSR-73)
Jcp.org/jsr/detail/073.jsp
Microsoft APIs
Microsoft.AnalysisServices.AdomdClient
12
7.4. Các công cụ hỗ trợ phát triển ứng dụng khai phá dữ liệu
Các công cụ mã nguồn mở (open-source tools)
Các công cụ thương mại
13
7.4. Các công cụ hỗ trợ phát triển ứng dụng khai phá dữ liệu
Các công cụ mã nguồn mở (open-source) R (www.r-project.org)
Tanagra (eric.univ-lyon2.fr/~ricco/tanagra/)
Weka (www.cs.waikato.ac.nz/ml/weka)
YALE (rapid-i.com)
KNIME (www.knime.org)
Orange (www.ailab.si/orange)
…
Nguồn: B. Zupan, J. Demsar, “Open-Source Tools for Data Mining”, Clinics in Laboratory Medicine 28(2008) 37-54.
14
7.4. Các công cụ hỗ trợ phát triển ứng dụng khai phá dữ liệu
15
7.4. Các công cụ hỗ trợ phát triển ứng dụng khai phá dữ liệu
16
7.4. Các công cụ hỗ trợ phát triển ứng dụng khai phá dữ liệu
17
7.4. Các công cụ hỗ trợ phát triển ứng dụng khai phá dữ liệu
18
7.4. Các công cụ hỗ trợ phát triển ứng dụng khai phá dữ liệu
19
7.4. Các công cụ hỗ trợ phát triển ứng dụng khai phá dữ liệu
20
7.4. Các công cụ hỗ trợ phát triển ứng dụng khai phá dữ liệu
Các công cụ thương mại
Hỗ trợ từ Intelligent Miner (IBM)
Hỗ trợ từ Microsoft data mining tools (MS SQL Server 2000/2005/2008)
Hỗ trợ từ Oracle Data Mining
Hỗ trợ từ Enterprise Miner (SAS Institute)
…
21
7.5. Tóm tắt
Xem xét sự tương đồng/khác biệt giữa qui trình phát triển ứng dụng truyền thống và ứng dụng khai phá dữ liệu
Sự cần thiết của các chuẩn (standards) dành cho khai phá dữ liệu
Sự quan tâm của các nhà sản xuất phần mềm đối với việc hỗ trợ phát triển ứng dụng khai phá dữ liệu
22
Hỏi & Đáp …Hỏi & Đáp …