dobývání znalostí z databázíberka/docs/4iz450/sl01-kdd.pdf · dobývání znalostí z...

Dobývání znalostí z databází T1: úvodní přehled

P. Berka, 2019 1/22

Dobývání znalostí z databází

(Knowledge Discovery in Databases, Data Mining,

..., Knowledge Destilery, ....)

Non-trivial process of identifying valid, novel,

potentially useful and ultimately understandable

patterns from data (Fayyad a kol., 1996)

Data mining involves the use of sophisticated data

analysis tools to discover previously unknown, valid

patterns and relationships in large data sets

(Adriaans, Zantinge, 1999)

Analysis of observational data sets to find

unsuspected relationships and summarize data in

novel ways that are both understandable and useful

to the data owner (Hand, Manilla, Smyth, 2001)

Data mining is the process of analyzing hidden

patterns of data from different perspectives and

categorizing them into useful information

(techopedia.org, 2011)

Zdroje

databáze (dotazovací jazyky, OLAP), statistika

(analýza dat), umělá inteligence (strojové učení)


P. Berka, 2019 2/22

Související pojmy

Machine learning (strojové učení) – část

procesu DZD (modelování), zabývá se

technikami a algoritmy umožňující systému

„se učit“

Data science – termín obdobný data

miningu, není zcela přesně ukotven,

nahrazuje některé starší pojmy (business

analytics)

Umělá inteligence – schopnost strojů

vykazovat inteligentní chování; v současné

době buzzword, tento termín je (neprávem)

spojován především s celou řadou aplikací

hlubokých neuronových sítí

Business intelligence – proces analyzování a

reportování historických dat


P. Berka, 2019 3/22

Úlohy dobývání znalostí

Hrubší členění (Klosgen, Zytkow, 1997)

klasifikace/predikce: cílem je nalézt

znalosti použitelné pro klasifikaci nových

případů

deskripce: cílem je nalézt dominantní

strukturu nebo vazby


P. Berka, 2019 4/22

hledání „nugetů“: cílem je nalézt dílčí

překvapivé znalosti

Jemnější členění (Chapman a kol, 2000)

deskripce dat a sumarizace

segmentace

deskripce konceptů

klasifikace

predikce

analýza závislostí

detekce odchylek


P. Berka, 2019 5/22

Aplikační oblasti pro dobývání znalostí

Segmentace a klasifikace klientů banky (např.

rozpoznání problémových nebo naopak vysoce

bonitních klientů),

Predikce vývoje kursů akcií,

Predikce spotřeby elektrické energie,

Analýza příčin poruch v telekomunikačních sítích,

Analýza důvodů změny poskytovatele nějakých

služeb (internet, mobilní telefony),

Segmentace a klasifikace klientů pojišťovny,

Určení příčin poruch automobilů,

Rozbor databáze pacientů v nemocnici,

Analýza nákupního košíku (Market Basket

Analysis).


P. Berka, 2019 6/22

Aplikační oblasti pro dobývání znalostí,

výsledky ankety

• CRM/Consumer analytics, 16.8%

• Finance, 15.2%

• Banking, 14.1%

• Health care, 13.2%

• Fraud Detection, 13.0%

https://www.kdnuggets.com/2018/04/poll-analytics-data-science-ml-applied-2017.html


P. Berka, 2019 7/22

Analýza nákupního košíku: pohled na data


P. Berka, 2019 8/22

Analýza nákupního košíku: deskripce


P. Berka, 2019 9/22

Analýza nákupního košíku: klasifikace


P. Berka, 2019 10/22

Standardy pro dobývání znalostí

1. Metodiky

(Marban a kol, 2009)

Metodika A Metodiku „5A“ nabízí firma SPSS jako svůj pohled na

proces dobývání znalostí. Název metodiky je

akronymem pro jednotlivé prováděné kroky:

Assess – posouzení potřeb projektu,

Access – shromáždění potřebných dat,

Analyze – provedení analýz,

Akt – přeměna znalostí na akční znalosti,

Automate – převedení výsledků analýzy do praxe.


P. Berka, 2019 11/22

Metodika SEMMA Navržená pro Enterprise Miner firmy SAS:

Sample (vybrání vhodných objektů),

Explore (vizuální explorace a redukce dat),

Modify (seskupování objektů a hodnot atributů,

datové transformace),

Model (analýza dat: neuronové sítě, rozhodovací

stromy, statistické techniky, asociace a

shlukování),

Assess (porovnání modelů a interpretace).


P. Berka, 2019 12/22

Metodika CRISP-DM V současnosti de-facto standard podporovaný

většinou systémů pro dobývání znalostí

Porozuměníproblematice

Porozuměnídatům

Příprava dat

Modelování

Vyhodnocenívýsledků

Využití výsledkůDATA

Data

Mining


P. Berka, 2019 13/22

2. Standardy pro zápis modelů

Predictive Modeling Markup Language

Standard na bázi XML vyvinutý v Data Mining Group

(www.dmg.org), který slouží pro popis dat, datových

transformací, i vytvořených modelů. Základní části

PMML dokumentu:

Header

Data Dictionary

Data Transformations

Model

http://www.dmg.org/


P. Berka, 2019 14/22

<?xml version="1.0" ?>

<PMML version="4.0">

<Header copyright="P.B." description="An example decision tree model."/>

<DataDictionary numberOfFields="5" >

<DataField name="income" optype="categorical" />

<Value value="low"/>

<Value value="high"/>

<DataField name=account" optype= categorical " />

<Value value="low"/>

<Value value="medium"/>

<Value value="high"/>

<DataField name="sex" optype="categorical" >

<Value value="male"/>

<Value value="female"/>

</DataField>

<DataField name="unemployed" optype="categorical" >

<Value value="yes"/>

<Value value="no"/>

</DataField>

<DataField name=loan" optype="categorical" >

<Value value="A"/>

<Value value="n"/>

</DataField>

</DataDictionary>

<TreeModel modelName="loan aproval decision tree" >

<MiningSchema>

<MiningField name=“income"/>

<MiningField name="account"/>

<MiningField name="sex"/>

<MiningField name="unemployed"/>

<MiningField name="loan" usageType="predicted"/>

</MiningSchema>

<Node score="A">

<True/>

<Node score="A">

<SimplePredicate field="income" operator="equal" value="high"/>

</Node>

<Node score="n">

<SimplePredicate field="income" operator="equal" value="low"/>

<Node score="A">

<SimplePredicate field="account" operator="equal"

value="high"/>

</Node>

<Node score="n">

<SimplePredicate field="account" operator="equal"

value="low"/>

<Node score="n">

<SimplePredicate field="unemployed" operator="equal"

value="yes“/>

</Node>

<Node score="A">

<SimplePredicate field="unemployed" operator="equal"

value="no“/>

</Node>

</Node>

</Node>

</Node>

</TreeModel>

</PMML>


P. Berka, 2019 15/22

3. Programovací standardy (API)

SQL/MM Data Mining

Standardní rozhranní umožňující přístup z relačních

databází k algoritmům pro data mining

OLE DB for Data Mining

API vyvinuté firmou Microsoft

Java Data Mining

CREATE MINING MODEL CreditRisk

(

CustomerId long key,

Income text discrete,

Account text discrete,

Sex text discrete,

Unemployed boolean discrete,

Loan text discrete predict,

)

USING [Microsoft Decision Tree]


P. Berka, 2019 16/22

Systémy pro DZD

pokrývají celý proces dobývání znalostí (od

předzpracování po interpretaci),

nabízejí více algoritmů pro analýzu (než

„jednoúčelové” systémy strojového učení),

kladou důraz na vizualizaci (ve způsobu práce

se systémem i při interpretaci výsledků).

Typy systémů:

Data mining suites - stand-alone tools that

implement a number of data mining and data

pre-processing algorithms (commercial or

free/open_source)

Programming tools -

Cloud solutions – Software As A Service


P. Berka, 2019 17/22

Weka

Rapid Miner


P. Berka, 2019 18/22

SAS Enterprise Miner

IBM SPSS Modeler (Clementine)


P. Berka, 2019 19/22

Gartner Magic Quadrant 2018


P. Berka, 2019 20/22

KDnuggets Poll

Zdroj: https://www.kdnuggets.com/2018/05/poll-tools-analytics-data-science-machine-learning-results.html


P. Berka, 2019 21/22

Systémy pro dobývání znalostí

z databází, meziroční nárůst používání

Zdroj: https://www.kdnuggets.com/2018/05/poll-tools-analytics-data-science-machine-learning-results.html


P. Berka, 2019 22/22

Systémy pro dobývání znalostí

z databází, trendy

Mezi současnými hlavními trendy je možné

identifikovat:

1. Automatizace celého procesu, zpřístupnění

méně technickým uživatelům

OptiML v BigML

RapidMiner TurboPrep, Auto Model

Weka : Auto-Weka

Kompletní automatizace procesu – Datarobot

2. Rozšiřování cloudových platforem největších

IT hráčů Azure Machine Learning Studio,

Google Cloud Platform, Machine Learning on

AWS

https://blog.bigml.com/2018/05/08/introduction-to-optiml-automatic-model-optimization/



https://docs.rapidminer.com/latest/studio/turbo-prep/

https://docs.rapidminer.com/latest/studio/auto-model/

https://www.cs.ubc.ca/labs/beta/Projects/autoweka/

https://www.datarobot.com/

https://azure.microsoft.com/cs-cz/services/machine-learning-studio/

https://cloud.google.com/products/ai/

https://aws.amazon.com/machine-learning/

https://aws.amazon.com/machine-learning/

dobývání znalostí z databázíberka/docs/4iz450/sl01-kdd.pdf · dobývání znalostí z...

Documents