1
1
ChChươương 7: ng 7: KhaiKhai phá dữ phá dữ liệuliệu vàvàcôngcông nghệnghệ ccơơ sởsở dữdữ liệuliệu
Học kỳ 1 – 2011-2012
Khoa Khoa KhoaKhoa Học & Kỹ Thuật Máy TínhHọc & Kỹ Thuật Máy TínhTrTrưường Đại Học Bách Khoa Tp. Hồ Chí Minhờng Đại Học Bách Khoa Tp. Hồ Chí Minh
CaoCao HọcHọc NgànhNgành KhoaKhoa HọcHọc MáyMáy TínhTính
GiáoGiáo trìnhtrình đđiệniện tửtử
BiênBiên soạnsoạn bởibởi: TS. : TS. VõVõ ThịThị NgọcNgọc ChâuChâu
(([email protected]@cse.hcmut.edu.vn))
2
2
Tài liệu tham khảo[1] Jiawei Han, Micheline Kamber, “Data Mining: Concepts and Techniques”, Second Edition, Morgan Kaufmann Publishers, 2006.[2] David Hand, Heikki Mannila, Padhraic Smyth, “Principles of Data Mining”, MIT Press, 2001.[3] David L. Olson, Dursun Delen, “Advanced Data Mining Techniques”, Springer-Verlag, 2008.[4] Graham J. Williams, Simeon J. Simoff, “Data Mining: Theory, Methodology, Techniques, and Applications”, Springer-Verlag, 2006.[5] Hillol Kargupta, Jiawei Han, Philip S. Yu, Rajeev Motwani, and Vipin Kumar, “Next Generation of Data Mining”, Taylor & Francis Group, LLC, 2009.[6] Daniel T. Larose, “Data mining methods and models”, John Wiley & Sons, Inc, 2006.[7] Ian H.Witten, Eibe Frank, “Data mining : practical machine learning tools and techniques”, Second Edition, Elsevier Inc, 2005. [8] Florent Messeglia, Pascal Poncelet & Maguelonne Teisseire, “Successes and new directions in data mining”, IGI Global, 2008.[9] Oded Maimon, Lior Rokach, “Data Mining and Knowledge Discovery Handbook”, Second Edition, Springer Science + BusinessMedia, LLC 2005, 2010.
3
3
Nội dungChương 1: Tổng quan về khai phá dữ liệuChương 2: Các vấn đề tiền xử lý dữ liệuChương 3: Hồi qui dữ liệuChương 4: Phân loại dữ liệuChương 5: Gom cụm dữ liệuChương 6: Luật kết hợpChương 7: Khai phá dữ liệu và công nghệ cơsở dữ liệuChương 8: Ứng dụng khai phá dữ liệuChương 9: Các đề tài nghiên cứu trong khai phádữ liệuChương 10: Ôn tập
4
4
Chương 7: Khai phá dữ liệu vàcông nghệ cơ sở dữ liệu
7.1. Tổng quan về công nghệ cơ sở dữ liệu
7.2. Khả năng hỗ trợ khai phá dữ liệu của công nghệ cơ sở dữ liệu
7.3. Các ngôn ngữ truy vấn dành cho khai phá dữ liệu
7.4. Hỗ trợ của các DBMS ngày nay dành cho khai phá dữ liệu
7.5. Tóm tắt
5
5
7.0. Tình huống 1
Người đang sử dụng thẻ ID = 1234 thật sự là chủ nhân của thẻ hay là một tên trộm?
6
6
7.0. Tình huống 2
Tid Refund Marital Status
Taxable Income Evade
1 Yes Single 125K No
2 No Married 100K No
3 No Single 70K No
4 Yes Married 120K No
5 No Divorced 95K Yes
6 No Married 60K No
7 Yes Divorced 220K No
8 No Single 85K Yes
9 No Married 75K No
10 No Single 90K Yes 10
Ông A (Tid = 100) có khả năng trốn thuế???
7
7
7.0. Tình huống 3Ngày mai cổ phiếu STB sẽ tăng???
8
8
7.0. Tình huống 4
Không (97%)…3.02.0472008
………………
Không (45%)…4.55.5822007
Có (90%)…7.59.5242006
Có (80%)…6.07.0902005
Không…3.55.582004
…
14
3
2
1
MãSV
……………
Có…5.55.02004
Không…2.54.02004
Có…8.06.52004
Có…8.59.02004
TốtNghiệp…MônHọc2MônHọc1Khóa
Làm sao xác định đượckhả năng tốt nghiệp củamột sinh viên hiện tại?
9
9
7.0. Tình huống …
We are data rich, but information poor.
“Necessity is the mother of invention”. - Plato
10
10
7.1. Tổng quan về công nghệ cơ sởdữ liệuĐặc điểm dữ liệu thu thập được choquá trình khai phá dữ liệu (tóm tắt từChương 1)
Bắt nguồn từ yêu cầu ứng dụng thực tiễn
Dữ liệu thật/dữ liệu nhân tạo từ mô phỏng
Cấu trúc từ đơn giản đến phức tạp
Lượng dữ liệu lớn, biến động nhiều
Lưu trữ lâu dài/lưu trữ tạm thời
Quản lý và tận dụng hiệu quả
11
11
7.1. Tổng quan về công nghệ cơ sởdữ liệuĐặc điểm kết quả thu được từ quá trình khaiphá dữ liệu (tóm tắt từ Chương 1)
Bắt nguồn từ yêu cầu ứng dụng thực tiễn
Có tính mô tả hay dự đoán tùy thuộc vào quátrình khai phá cụ thể
Cấu trúc từ đơn giản đến phức tạp
Lượng kết quả lớn, biến động nhiềuNhiều tác vụ, nhiều giải thuật, nhiều lựa chọn giá trịthông số
Lưu trữ lâu dài/lưu trữ tạm thời
Quản lý và tận dụng hiệu quả
12
12
7.1. Tổng quan về công nghệ cơ sởdữ liệu
Mô hình hóa (modeling)
Model: “a representationrepresentation of something, either as a physical object which is usually smaller than the real object, or as a simple descriptiondescription of the object which might be used in calculationsused in calculations”
Mô hình hóa dữ liệu cho quá trình khai phá
Mô hình hóa kết quả từ quá trình khai phá
13
13
7.1. Tổng quan về công nghệ cơ sởdữ liệu
Simple Data without Queries
Simple Data with Queries
Complex Data without Queries
Complex Data with Queries
I II
IIIPattern-matching(Similarity-based)
Data Query Language(Precision-based)
Numbers and Characters
Video, Audio, Image, Text, 3D Graphical Data, etc.
IV
14
14
7.1. Tổng quan về công nghệ cơ sởdữ liệu
File Systems Relational DB Systems
Object Relational DB SystemsObject (Oriented) DB Systems
Simple Data
Complex Data
Simple Queries Complex Queries
Source: M. Stonebraker, P. Brown with D. Moore, Object-Relational DBMS’s – Tracking the Next Great Wave, Morgan Kaufmann, 1999.
15
15
7.1. Tổng quan về công nghệ cơ sởdữ liệu
Mô hình hóa ý niệm dữ liệu cho quá trình khai phá
YesNoNoConceptual Schema Design Procedure
Yes with sample populationsNoNoValidation technique
5NF relations1NF relations1NF relationsRelational mapping algorithm
Predicate logic and linguistic
Object oriented paradigmNoTheoretical Foundation
NoClass methodNoObject behaviors
RicherOCL expressionsFewerConstraints
Relationship typeRelationship typeRelationship typeRelationships
IdentifierOID (implicit)Key attributeObject identity
-AttributeAttributeObject attribute
--Weak entity typeSet of dependent objects
Object typeClassEntity typeSet of objects of interest
NIAM/ORMUMLERMConceptual Data Model
16
16
7.1. Tổng quan về công nghệ cơ sởdữ liệu
Mô hình hóa luận lý dữ liệu cho quá trình khai phá
Methods callingLogical pointer REF (system-generated)
OID (system-generated)Fully encapsulated object with atomic/non-atomic attributes
Object
SQL:3, SQL:99, SQL:2003, OQL
Foreign key (attribute values)/logical pointer REF (system-generated)
Primary key (attribute values) / OID (ROWID, REFC) (system-generated)
Relation/un-encapsulated object with atomic/non-atomic attributes
Object Relational
Nested relational algebra with nest/unnest operations
Foreign key (attribute values)
Primary key (attribute values)
Nested relation with nested relation attributes
Nested Relational
Relational algebra, tuple relational calculus, SQL:89, SQL:92
Foreign key (attribute values)
Primary key (attribute values)
Relation with atomic attributes
Relational
LanguageReferential ConstraintIdentityKey ConstructData Model
17
17
7.1. Tổng quan về công nghệ cơ sởdữ liệuMô hình hóa dữ liệu cho quá trình khai phá
Data warehouse“A data warehouse is a subjectsubject--orientedoriented, integratedintegrated, nonvolatilenonvolatile, and timetime--variantvariant collection of data in support of management’s decisions.”
UML conceptual model
Star (relational)/multidimensional model
Figure 2.5. The structure of the data warehouse.
Source: W.H. Inmon. Building the data warehouse, 3rd Edition, John Wiley & Sons, Inc., 2001.
18
18
7.1. Tổng quan về công nghệ cơ sởdữ liệu
Figure 1. Decision support system architecture, which consists of three principal components: a datawarehouse server, analysis and data mining tools, and data warehouse back-end tools.Source: S. Chaudhuri, U. Dayal, V. Ganti, Database Technology for Decision Support Systems, Computer, IEEE, 2001, pp. 48-55.
19
19
7.1. Tổng quan về công nghệ cơ sởdữ liệuMô hình hóa luận lý kết quả từ quá trình khai phá
MotivationsLarge collection of discovered knowledge
A diversity of discovered knowledge
Pattern (discovered knowledge) is nicely managed by a so-called pattern management system just like data by a well-defined/developed/used DBMS.
A logical model for patterns defined in [108-2003]Architectural issues
Representation constructs: Pattern type, Pattern, Class
Implicit constraints: Pattern-Pattern type, Pattern-Class, Class-Pattern-Pattern type
Relationships between patterns
Specialization, composition, refinement [108]. S. Rizzi, E. Bertino, B. Catania, M. Golfarelli, M. Halkidi, M. Terrovitis, P. Vassiliadis, M. Vazirginannis, E. Vrachnos. Towards a logical model for patterns. In Proceedings of the ER 2003, LNCS 2813, pp. 77-90, 2003.
20
20
Reference architecture
for a pattern base
management system
using the logical model
Source: S. Rizzi, E. Bertino, B. Catania, M. Golfarelli, M. Halkidi, M. Terrovitis, P. Vassiliadis, M. Vazirginannis, E. Vrachnos. Towards a logical model for patterns. In Proceedings of the ER 2003, LNCS 2813, pp. 77-90, 2003.
21
21
Related Works - [108-2003] [73-2008]
[108-2003] (architectural issues + representational constructs + pattern relationships)
[4-2004] (framework)
[97-2006] (review)
[3-2006] (language and system development – PhD thesis)
[87-2007] (Interoperability issues + support for application programs + driver development)
[73-2008] (summary)
22
22
Related Works - [108-2003] [105-2007]
[108-2003] (architectural issues + representational constructs + pattern relationships)
[12-2004, 2007] (formal definition, pattern warehouse, query types, predicates and operators)
[105-2007] (more operators on pattern warehouse + indexing techniques – PhD thesis)
23
23
Related Works - [108-2003] [101-2009]
[108-2003]
[99-2007] (model extension with superclass, ontology for knowledge evaluation of association rules and queries)
[100-2008] (pattern comparison methods for clustering)
[101-2009] (pattern comparison for crisp/fuzzy clustering, open source prototype development (PatternMiner) – PhD thesis)
[98-2005] (Database approach: relational, object relational, and XML-based databases)
24
24
Related works4. B. Catania, A. Maddalena, M. Mazza, E. Bertino, S. Rizzi. A framework for data mining pattern management. In Proceedings of PKDD 2004, LNAI 3202, pp. 87-98, 2004.97. B. Catania, A. Maddalena. Pattern Management: Practice and Challenges. In Processing and Managing Complex Data for Decision Support, J. Darmont, O. Boussaid (eds.), Idea Group Publishing, 2006.73. B. Catania. Towards effective solutions for pattern management. International Journal of Computer Science and Applications, Vol 5(3), 2008, 36-45.98. E. Kotsifakos, I. Ntoutsi, Y. Theodoridis. Database support for data mining patterns. In Proceedings of the 10th Panhellenic Conference on Informatics (PCI’05), Advances in Informatics – Springer-Verlag LNCS 3746, 2005.99. E.E. Kotsifakos, G. Marketos, Y. Theodoridis. A framework for integrating ontologies and pattern-bases. Data Mining with Ontologies: Implementations, Findings, and Frameworks, H.O. Nigro, S. G. Cisaro, D. Xodo (eds.), Chapter 12, IDEA Group, 2007.100. E.E. Kotsifakos, I. Ntoutsi, Y. Vrahoritis, Y. Theodoridis. PATTERN-MINER: Integrated management and mining over data mining models (Demo). In Proceedings of the 14th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD’08), 2008.101. E.E. Kotsifakos. Pattern representation and management techniques – The PBMS concept. PhD Thesis, Department of Informatics, University of Piraeus, 2009.3. A. Maddalena. A unified framework for heterogeneous pattern management. PhD thesis in Computer Science, University of Genova, April 2006.87. A. Maddalena, B. Catania. Towards an interoperable solution for pattern management. In Proceedings of VLDB’07, 2007.106. R. Meo, G. Psaila. An XML-based database for knowledge discovery. In Proceedings of the EDBT 2006 Workshops, LNCS 4254, pp. 814-828, 2006.108. S. Rizzi, E. Bertino, B. Catania, M. Golfarelli, M. Halkidi, M. Terrovitis, P. Vassiliadis, M. Vazirginannis, E. Vrachnos. Towards a logical model for patterns. In Proceedings of the ER 2003, LNCS 2813, pp. 77-90, 2003.105. M. Terrovitis. Modelling and operational issues for pattern base management systems. PhD Thesis, Computer Science Division, School of Electrical and Computer Engineering, National Technical University of Athens, 2007.12. M. Terrovitis, P. Vassiliadis, S. Skiadopoulos, E. Bertino, B. Catania, A. Maddalena, S. Rizzi. Modeling and language support for the management of pattern-bases. Data & Knowledge Engineering 62 (2007) 368-397.
25
25
7.2. Khả năng hỗ trợ khai phá dữ liệu của công nghệ cơ sở dữ liệu
Vấn đề quản lýĐúng dữ liệu
Đúng người dùng
Đúng lúc
Vấn đề lưu trữLâu dài
Tạm thời
Vấn đề thao tácHiệu quả
-Dữ liệu cho quá trình khai phá
-Kết quả từ quá trình khai phá
26
26
7.2. Khả năng hỗ trợ khai phá dữ liệu của công nghệ cơ sở dữ liệu
Từ yêuyêu cầucầu tri tri thứcthức trongtrong dữdữ liệuliệu thuthu thậpthậpđưđượcợc ngàyngày naynay đến yêuyêu cầucầu dànhdành chocho quáquátrìnhtrình khaikhai pháphá dữdữ liệuliệu
Từ yêuyêu cầucầu củacủa quáquá trìnhtrình khaikhai pháphá dữdữ liệuliệu đếnyêuyêu cầucầu dànhdành chocho côngcông nghệnghệ ccơơ sởsở dữdữ liệuliệu
conventional DBMS, in-memory DBMS, column-oriented DBMS, IR + DBMS, semantic technologies + DBMS, service-oriented DBMS, …
27
27
7.3. Các ngôn ngữ truy vấn dành cho khai phá dữ liệu
A data mining query languageselect the data to be mineddata to be mined and pre-process these data,
specify the kind of patternskind of patterns to be mined,
specify the needed backgroundbackground knowledgeknowledge (as item hierarchies when mining generalized association rules),
define the constraints on the desired patternsconstraints on the desired patterns,
post-process extractedextracted patternspatterns.
Source: J-F. Boulicaut, C. Masson, Data Mining Query Languages, Chapter 1 in: The Data Mining and Knowledge Discovery Handbook, O. Maimon and L. Rokach (Eds.), Springer, 2005, pp. 715-727.
28
28
7.3. Các ngôn ngữ truy vấn dành cho khai phá dữ liệu
Proposals for association rule miningMSQL (Imielinski and Virmani, 1999) at the Rutgers University
MINE RULE (Meo et al., 1998) at the University ofTorino and the Politecnico di Milano
DMQL (Han et al., 1996) at the Simon Fraser University
OLE DB for DM by Microsoft Corporation (Netz et al., 2000)
Source: J-F. Boulicaut, C. Masson, Data Mining Query Languages, Chapter 1 in: The Data Mining and Knowledge Discovery Handbook, O. Maimon and L. Rokach (Eds.), Springer, 2005, pp. 715-727.
29
29
7.3. Các ngôn ngữ truy vấn dành cho khai phá dữ liệu
MSQL (Imielinski and Virmani, 1999) at the RutgersUniversity
Source: J-F. Boulicaut, C. Masson, Data Mining Query Languages, Chapter 1 in: The Data Mining and Knowledge Discovery Handbook, O. Maimon and L. Rokach (Eds.), Springer, 2005, pp. 715-727.
Inductive queries to mine rules
Post-processing queries over a materialized collection of rules
30
30
7.3. Các ngôn ngữ truy vấn dành cho khai phá dữ liệu
MINE RULE (Meo et al., 1998) at the University ofTorino and the Politecnico di Milano
Source: J-F. Boulicaut, C. Masson, Data Mining Query Languages, Chapter 1 in: The Data Mining and Knowledge Discovery Handbook, O. Maimon and L. Rokach (Eds.), Springer, 2005, pp. 715-727.
31
31
7.3. Các ngôn ngữ truy vấn dành cho khai phá dữ liệuDMQL (Han et al., 1996) at the Simon Fraser University
Source: J-F. Boulicaut, C. Masson, Data Mining Query Languages, Chapter 1 in: The Data Mining and Knowledge Discovery Handbook, O. Maimon and L. Rokach (Eds.), Springer, 2005, pp. 715-727.
32
32
7.3. Các ngôn ngữ truy vấn dành cho khai phá dữ liệu
OLE DB for DM by Microsoft Corporation (Netz et al., 2000)
Source: J-F. Boulicaut, C. Masson, Data Mining Query Languages, Chapter 1 in: The Data Mining and Knowledge Discovery Handbook, O. Maimon and L. Rokach (Eds.), Springer, 2005, pp. 715-727.
33
33
7.4. Hỗ trợ của các DBMS ngày nay dành cho khai phá dữ liệuThe SQL Multimedia and Applications Packages Standard (SQL/MM)
An initiative developed and published by the International Organization for Standardization (ISO)
Includes:Part 1: FrameworkPart 2: Full-Text
Part 3: SpatialPart 5: Still ImagePart 6: Data Mining
Part 6 specifies an SQL interface to data mining applications and services through accessing data from SQL/MM-compliant relational databases.
A standardized interface to data mining algorithms that can be layered atop any objectrelational database system and even deployed as middle-ware when required
A collection of user-defined types provided for the key data mining functions, namely,Association Rule DiscoveryAssociation Rule Discovery, ClusteringClustering, ClassificationClassification and RegressionRegression
Source: S. S. Anand, M. Grobelnik, F. Herrmann, D. Wettschereck, M. Hornick, C. Lingenfelder, N.Rooney, Knowledge discovery standards, Artif Intell Rev (2007) 27:21-56.
34
34
7.4. Hỗ trợ của các DBMS ngày nay dành cho khai phá dữ liệu
The SQL Multimedia and Applications Packages Standard (SQL/MM) – Part 6
User-defined types related to dataDM_LogicalDataSpec
an abstraction for a set of data mining fields identified by their names
DM_MiningDataa description of data contained in tables, which represents the metadata required to access the data during training,test or application runs.
DM_ApplicationDataused to submit a single record of data for model application.
Source: S. S. Anand, M. Grobelnik, F. Herrmann, D. Wettschereck, M. Hornick, C. Lingenfelder,N. Rooney, Knowledge discovery standards, Artif Intell Rev (2007) 27:21-56.
35
35
7.4. Hỗ trợ của các DBMS ngày nay dành cho khai phá dữ liệu
The SQL Multimedia and Applications Packages Standard (SQL/MM) – Part 6
User-defined types related to the mining phases
Training phase (CRISP-DM modelling)DM_<Technique>Settings, DM_<Technique>BldTask, DM_<Technique>Model
Testing phase (CRISP-DM evaluation)DM_<Technique>TestTask, DM_<Technique>Model, DM_<Technique>TestResult
Application phase (CRISP-DM deployment)DM_<Technique>ApplTask, DM_<Technique>Model,DM_<Technique>Result, DM_ApplicationData
Source: S. S. Anand, M. Grobelnik, F. Herrmann, D. Wettschereck, M. Hornick, C. Lingenfelder,N. Rooney, Knowledge discovery standards, Artif Intell Rev (2007) 27:21-56.
36
36
7.4. Hỗ trợ của các DBMS ngày nay dành cho khai phá dữ liệu
Source: S. S. Anand, M. Grobelnik, F. Herrmann, D. Wettschereck, M. Hornick, C. Lingenfelder, N. Rooney,Knowledge discovery standards, Artif Intell Rev (2007) 27:21-56.
37
37
7.4. Hỗ trợ của các DBMS ngày nay dành cho khai phá dữ liệu
Source: S. S. Anand, M. Grobelnik, F. Herrmann, D. Wettschereck, M. Hornick, C. Lingenfelder,N. Rooney, Knowledge discovery standards, Artif Intell Rev (2007) 27:21-56.
The application retrieves the model with the statement:and calls the following to compute the predicted class:
38
38
7.4. Hỗ trợ của các DBMS ngày nay dành cho khai phá dữ liệuA number of vendor specific mining extensions to SQL
MicrosoftMicrosoft’s OLE DB for Data Mining (OLE-DB 2000): an approach which is specially designed for data mining needs—it combines SQL with a low level API (a set of COM interfaces) to achieve interoperability with other client and server technologies.
MS Naïve Bayes, MS Decision Trees, MS Time Series, MS Clustering, MS Sequence Clustering, MS Association Rules, MS Neural Network
IBMIBM’s DB2 Intelligent Miner products contain a set of DB2 database extenders (DB2-IM 2004): incorporate data mining functionality into standard database SQL language in a relatively standard way.
Functionality is based on IBM’s “Intelligent Miner” data mining product, now part of the IBM DB2 Data Warehouse Edition V9.1.Intelligent Miner fully implements SQL/MM data mining as well as most of PMML
OracleOracle Data Mining (Oracle 2004): a set of functions available in Oracle’s database and accessible though PL/SQL (programming language available to database programmers) and through a Java interface.
Decision Tree, Generalized Linear Models, Minimum Description Length, Naïve Bayes, Support Vector Machines, Apriori, k-Means, Non-Negative Matrix Factorization, One Class Support Vector Machine, Orthogonal Partitioning Clustering
Source: S. S. Anand, M. Grobelnik, F. Herrmann, D. Wettschereck, M. Hornick, C. Lingenfelder, N. Rooney,Knowledge discovery standards, Artif Intell Rev (2007) 27:21-56.
39
39
7.5. Tóm tắtData mining: “extracting or mining knowledge from large amounts of data”
Need for effective and efficient data management
Need for effective and efficient knowledge management
Database technologies: conceptual >> logical >> physical issues
Data mining query languages: MSQL, MINE RULE, DMQL, OLE DB for DM
Data mining seems to be less nonless non--trivialtrivial to users.
Current support for data mining from DBMSsFrom SQL standards: SQL/MM Part 6 for data mining functions: Association Rule DiscoveryAssociation Rule Discovery, ClusteringClustering, ClassificationClassification and RegressionRegression
From Commercial DBMSs: Microsoft’s OLE DB for DM, IBM’s Intelligent Miner, Oracle Data Mining
From Open source DBMSs: easily associated with open source data mining libraries
40
40
Hỏi & Đáp …Hỏi & Đáp …