dobývání znalostí z databázíberka/docs/4iz450/sl01-kdd.pdf · dobývání znalostí z...
TRANSCRIPT
Dobývání znalostí z databází T1: úvodní přehled
P. Berka, 2019 1/22
Dobývání znalostí z databází
(Knowledge Discovery in Databases, Data Mining,
..., Knowledge Destilery, ....)
Non-trivial process of identifying valid, novel,
potentially useful and ultimately understandable
patterns from data (Fayyad a kol., 1996)
Data mining involves the use of sophisticated data
analysis tools to discover previously unknown, valid
patterns and relationships in large data sets
(Adriaans, Zantinge, 1999)
Analysis of observational data sets to find
unsuspected relationships and summarize data in
novel ways that are both understandable and useful
to the data owner (Hand, Manilla, Smyth, 2001)
Data mining is the process of analyzing hidden
patterns of data from different perspectives and
categorizing them into useful information
(techopedia.org, 2011)
Zdroje
databáze (dotazovací jazyky, OLAP), statistika
(analýza dat), umělá inteligence (strojové učení)
Dobývání znalostí z databází T1: úvodní přehled
P. Berka, 2019 2/22
Související pojmy
Machine learning (strojové učení) – část
procesu DZD (modelování), zabývá se
technikami a algoritmy umožňující systému
„se učit“
Data science – termín obdobný data
miningu, není zcela přesně ukotven,
nahrazuje některé starší pojmy (business
analytics)
Umělá inteligence – schopnost strojů
vykazovat inteligentní chování; v současné
době buzzword, tento termín je (neprávem)
spojován především s celou řadou aplikací
hlubokých neuronových sítí
Business intelligence – proces analyzování a
reportování historických dat
Dobývání znalostí z databází T1: úvodní přehled
P. Berka, 2019 3/22
Úlohy dobývání znalostí
Hrubší členění (Klosgen, Zytkow, 1997)
klasifikace/predikce: cílem je nalézt
znalosti použitelné pro klasifikaci nových
případů
deskripce: cílem je nalézt dominantní
strukturu nebo vazby
Dobývání znalostí z databází T1: úvodní přehled
P. Berka, 2019 4/22
hledání „nugetů“: cílem je nalézt dílčí
překvapivé znalosti
Jemnější členění (Chapman a kol, 2000)
deskripce dat a sumarizace
segmentace
deskripce konceptů
klasifikace
predikce
analýza závislostí
detekce odchylek
Dobývání znalostí z databází T1: úvodní přehled
P. Berka, 2019 5/22
Aplikační oblasti pro dobývání znalostí
Segmentace a klasifikace klientů banky (např.
rozpoznání problémových nebo naopak vysoce
bonitních klientů),
Predikce vývoje kursů akcií,
Predikce spotřeby elektrické energie,
Analýza příčin poruch v telekomunikačních sítích,
Analýza důvodů změny poskytovatele nějakých
služeb (internet, mobilní telefony),
Segmentace a klasifikace klientů pojišťovny,
Určení příčin poruch automobilů,
Rozbor databáze pacientů v nemocnici,
Analýza nákupního košíku (Market Basket
Analysis).
Dobývání znalostí z databází T1: úvodní přehled
P. Berka, 2019 6/22
Aplikační oblasti pro dobývání znalostí,
výsledky ankety
• CRM/Consumer analytics, 16.8%
• Finance, 15.2%
• Banking, 14.1%
• Health care, 13.2%
• Fraud Detection, 13.0%
https://www.kdnuggets.com/2018/04/poll-analytics-data-science-ml-applied-2017.html
Dobývání znalostí z databází T1: úvodní přehled
P. Berka, 2019 7/22
Analýza nákupního košíku: pohled na data
Dobývání znalostí z databází T1: úvodní přehled
P. Berka, 2019 8/22
Analýza nákupního košíku: deskripce
Dobývání znalostí z databází T1: úvodní přehled
P. Berka, 2019 9/22
Analýza nákupního košíku: klasifikace
Dobývání znalostí z databází T1: úvodní přehled
P. Berka, 2019 10/22
Standardy pro dobývání znalostí
1. Metodiky
(Marban a kol, 2009)
Metodika A Metodiku „5A“ nabízí firma SPSS jako svůj pohled na
proces dobývání znalostí. Název metodiky je
akronymem pro jednotlivé prováděné kroky:
Assess – posouzení potřeb projektu,
Access – shromáždění potřebných dat,
Analyze – provedení analýz,
Akt – přeměna znalostí na akční znalosti,
Automate – převedení výsledků analýzy do praxe.
Dobývání znalostí z databází T1: úvodní přehled
P. Berka, 2019 11/22
Metodika SEMMA Navržená pro Enterprise Miner firmy SAS:
Sample (vybrání vhodných objektů),
Explore (vizuální explorace a redukce dat),
Modify (seskupování objektů a hodnot atributů,
datové transformace),
Model (analýza dat: neuronové sítě, rozhodovací
stromy, statistické techniky, asociace a
shlukování),
Assess (porovnání modelů a interpretace).
Dobývání znalostí z databází T1: úvodní přehled
P. Berka, 2019 12/22
Metodika CRISP-DM V současnosti de-facto standard podporovaný
většinou systémů pro dobývání znalostí
Porozuměníproblematice
Porozuměnídatům
Příprava dat
Modelování
Vyhodnocenívýsledků
Využití výsledkůDATA
Data
Mining
Dobývání znalostí z databází T1: úvodní přehled
P. Berka, 2019 13/22
2. Standardy pro zápis modelů
Predictive Modeling Markup Language
Standard na bázi XML vyvinutý v Data Mining Group
(www.dmg.org), který slouží pro popis dat, datových
transformací, i vytvořených modelů. Základní části
PMML dokumentu:
Header
Data Dictionary
Data Transformations
Model
Dobývání znalostí z databází T1: úvodní přehled
P. Berka, 2019 14/22
<?xml version="1.0" ?>
<PMML version="4.0">
<Header copyright="P.B." description="An example decision tree model."/>
<DataDictionary numberOfFields="5" >
<DataField name="income" optype="categorical" />
<Value value="low"/>
<Value value="high"/>
<DataField name=account" optype= categorical " />
<Value value="low"/>
<Value value="medium"/>
<Value value="high"/>
<DataField name="sex" optype="categorical" >
<Value value="male"/>
<Value value="female"/>
</DataField>
<DataField name="unemployed" optype="categorical" >
<Value value="yes"/>
<Value value="no"/>
</DataField>
<DataField name=loan" optype="categorical" >
<Value value="A"/>
<Value value="n"/>
</DataField>
</DataDictionary>
<TreeModel modelName="loan aproval decision tree" >
<MiningSchema>
<MiningField name=“income"/>
<MiningField name="account"/>
<MiningField name="sex"/>
<MiningField name="unemployed"/>
<MiningField name="loan" usageType="predicted"/>
</MiningSchema>
<Node score="A">
<True/>
<Node score="A">
<SimplePredicate field="income" operator="equal" value="high"/>
</Node>
<Node score="n">
<SimplePredicate field="income" operator="equal" value="low"/>
<Node score="A">
<SimplePredicate field="account" operator="equal"
value="high"/>
</Node>
<Node score="n">
<SimplePredicate field="account" operator="equal"
value="low"/>
<Node score="n">
<SimplePredicate field="unemployed" operator="equal"
value="yes“/>
</Node>
<Node score="A">
<SimplePredicate field="unemployed" operator="equal"
value="no“/>
</Node>
</Node>
</Node>
</Node>
</TreeModel>
</PMML>
Dobývání znalostí z databází T1: úvodní přehled
P. Berka, 2019 15/22
3. Programovací standardy (API)
SQL/MM Data Mining
Standardní rozhranní umožňující přístup z relačních
databází k algoritmům pro data mining
OLE DB for Data Mining
API vyvinuté firmou Microsoft
Java Data Mining
CREATE MINING MODEL CreditRisk
(
CustomerId long key,
Income text discrete,
Account text discrete,
Sex text discrete,
Unemployed boolean discrete,
Loan text discrete predict,
)
USING [Microsoft Decision Tree]
Dobývání znalostí z databází T1: úvodní přehled
P. Berka, 2019 16/22
Systémy pro DZD
pokrývají celý proces dobývání znalostí (od
předzpracování po interpretaci),
nabízejí více algoritmů pro analýzu (než
„jednoúčelové” systémy strojového učení),
kladou důraz na vizualizaci (ve způsobu práce
se systémem i při interpretaci výsledků).
Typy systémů:
Data mining suites - stand-alone tools that
implement a number of data mining and data
pre-processing algorithms (commercial or
free/open_source)
Programming tools -
Cloud solutions – Software As A Service
Dobývání znalostí z databází T1: úvodní přehled
P. Berka, 2019 17/22
Weka
Rapid Miner
Dobývání znalostí z databází T1: úvodní přehled
P. Berka, 2019 18/22
SAS Enterprise Miner
IBM SPSS Modeler (Clementine)
Dobývání znalostí z databází T1: úvodní přehled
P. Berka, 2019 19/22
Gartner Magic Quadrant 2018
Dobývání znalostí z databází T1: úvodní přehled
P. Berka, 2019 20/22
KDnuggets Poll
Zdroj: https://www.kdnuggets.com/2018/05/poll-tools-analytics-data-science-machine-learning-results.html
Dobývání znalostí z databází T1: úvodní přehled
P. Berka, 2019 21/22
Systémy pro dobývání znalostí
z databází, meziroční nárůst používání
Zdroj: https://www.kdnuggets.com/2018/05/poll-tools-analytics-data-science-machine-learning-results.html
Dobývání znalostí z databází T1: úvodní přehled
P. Berka, 2019 22/22
Systémy pro dobývání znalostí
z databází, trendy
Mezi současnými hlavními trendy je možné
identifikovat:
1. Automatizace celého procesu, zpřístupnění
méně technickým uživatelům
OptiML v BigML
RapidMiner TurboPrep, Auto Model
Weka : Auto-Weka
Kompletní automatizace procesu – Datarobot
2. Rozšiřování cloudových platforem největších
IT hráčů Azure Machine Learning Studio,
Google Cloud Platform, Machine Learning on
AWS