dobývání znalostí z databázíberka/docs/4iz450/sl01-kdd.pdf · dobývání znalostí z...

22
Dobývání znalostí z databází T1: úvodní přehled P. Berka, 2019 1/22 Dobývání znalostí z databází (Knowledge Discovery in Databases, Data Mining, ..., Knowledge Destilery, ....) Non-trivial process of identifying valid, novel, potentially useful and ultimately understandable patterns from data (Fayyad a kol., 1996) Data mining involves the use of sophisticated data analysis tools to discover previously unknown, valid patterns and relationships in large data sets (Adriaans, Zantinge, 1999) Analysis of observational data sets to find unsuspected relationships and summarize data in novel ways that are both understandable and useful to the data owner (Hand, Manilla, Smyth, 2001) Data mining is the process of analyzing hidden patterns of data from different perspectives and categorizing them into useful information (techopedia.org, 2011) Zdroje databáze (dotazovací jazyky, OLAP), statistika (analýza dat), umělá inteligence (strojové učení)

Upload: others

Post on 24-Jul-2020

22 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Dobývání znalostí z databázíberka/docs/4iz450/sl01-kdd.pdf · Dobývání znalostí z databází T1: úvodní přehled P. Berka, 2019 10/22 Standardy pro dobývání znalostí

Dobývání znalostí z databází T1: úvodní přehled

P. Berka, 2019 1/22

Dobývání znalostí z databází

(Knowledge Discovery in Databases, Data Mining,

..., Knowledge Destilery, ....)

Non-trivial process of identifying valid, novel,

potentially useful and ultimately understandable

patterns from data (Fayyad a kol., 1996)

Data mining involves the use of sophisticated data

analysis tools to discover previously unknown, valid

patterns and relationships in large data sets

(Adriaans, Zantinge, 1999)

Analysis of observational data sets to find

unsuspected relationships and summarize data in

novel ways that are both understandable and useful

to the data owner (Hand, Manilla, Smyth, 2001)

Data mining is the process of analyzing hidden

patterns of data from different perspectives and

categorizing them into useful information

(techopedia.org, 2011)

Zdroje

databáze (dotazovací jazyky, OLAP), statistika

(analýza dat), umělá inteligence (strojové učení)

Page 2: Dobývání znalostí z databázíberka/docs/4iz450/sl01-kdd.pdf · Dobývání znalostí z databází T1: úvodní přehled P. Berka, 2019 10/22 Standardy pro dobývání znalostí

Dobývání znalostí z databází T1: úvodní přehled

P. Berka, 2019 2/22

Související pojmy

Machine learning (strojové učení) – část

procesu DZD (modelování), zabývá se

technikami a algoritmy umožňující systému

„se učit“

Data science – termín obdobný data

miningu, není zcela přesně ukotven,

nahrazuje některé starší pojmy (business

analytics)

Umělá inteligence – schopnost strojů

vykazovat inteligentní chování; v současné

době buzzword, tento termín je (neprávem)

spojován především s celou řadou aplikací

hlubokých neuronových sítí

Business intelligence – proces analyzování a

reportování historických dat

Page 3: Dobývání znalostí z databázíberka/docs/4iz450/sl01-kdd.pdf · Dobývání znalostí z databází T1: úvodní přehled P. Berka, 2019 10/22 Standardy pro dobývání znalostí

Dobývání znalostí z databází T1: úvodní přehled

P. Berka, 2019 3/22

Úlohy dobývání znalostí

Hrubší členění (Klosgen, Zytkow, 1997)

klasifikace/predikce: cílem je nalézt

znalosti použitelné pro klasifikaci nových

případů

deskripce: cílem je nalézt dominantní

strukturu nebo vazby

Page 4: Dobývání znalostí z databázíberka/docs/4iz450/sl01-kdd.pdf · Dobývání znalostí z databází T1: úvodní přehled P. Berka, 2019 10/22 Standardy pro dobývání znalostí

Dobývání znalostí z databází T1: úvodní přehled

P. Berka, 2019 4/22

hledání „nugetů“: cílem je nalézt dílčí

překvapivé znalosti

Jemnější členění (Chapman a kol, 2000)

deskripce dat a sumarizace

segmentace

deskripce konceptů

klasifikace

predikce

analýza závislostí

detekce odchylek

Page 5: Dobývání znalostí z databázíberka/docs/4iz450/sl01-kdd.pdf · Dobývání znalostí z databází T1: úvodní přehled P. Berka, 2019 10/22 Standardy pro dobývání znalostí

Dobývání znalostí z databází T1: úvodní přehled

P. Berka, 2019 5/22

Aplikační oblasti pro dobývání znalostí

Segmentace a klasifikace klientů banky (např.

rozpoznání problémových nebo naopak vysoce

bonitních klientů),

Predikce vývoje kursů akcií,

Predikce spotřeby elektrické energie,

Analýza příčin poruch v telekomunikačních sítích,

Analýza důvodů změny poskytovatele nějakých

služeb (internet, mobilní telefony),

Segmentace a klasifikace klientů pojišťovny,

Určení příčin poruch automobilů,

Rozbor databáze pacientů v nemocnici,

Analýza nákupního košíku (Market Basket

Analysis).

Page 6: Dobývání znalostí z databázíberka/docs/4iz450/sl01-kdd.pdf · Dobývání znalostí z databází T1: úvodní přehled P. Berka, 2019 10/22 Standardy pro dobývání znalostí

Dobývání znalostí z databází T1: úvodní přehled

P. Berka, 2019 6/22

Aplikační oblasti pro dobývání znalostí,

výsledky ankety

• CRM/Consumer analytics, 16.8%

• Finance, 15.2%

• Banking, 14.1%

• Health care, 13.2%

• Fraud Detection, 13.0%

https://www.kdnuggets.com/2018/04/poll-analytics-data-science-ml-applied-2017.html

Page 7: Dobývání znalostí z databázíberka/docs/4iz450/sl01-kdd.pdf · Dobývání znalostí z databází T1: úvodní přehled P. Berka, 2019 10/22 Standardy pro dobývání znalostí

Dobývání znalostí z databází T1: úvodní přehled

P. Berka, 2019 7/22

Analýza nákupního košíku: pohled na data

Page 8: Dobývání znalostí z databázíberka/docs/4iz450/sl01-kdd.pdf · Dobývání znalostí z databází T1: úvodní přehled P. Berka, 2019 10/22 Standardy pro dobývání znalostí

Dobývání znalostí z databází T1: úvodní přehled

P. Berka, 2019 8/22

Analýza nákupního košíku: deskripce

Page 9: Dobývání znalostí z databázíberka/docs/4iz450/sl01-kdd.pdf · Dobývání znalostí z databází T1: úvodní přehled P. Berka, 2019 10/22 Standardy pro dobývání znalostí

Dobývání znalostí z databází T1: úvodní přehled

P. Berka, 2019 9/22

Analýza nákupního košíku: klasifikace

Page 10: Dobývání znalostí z databázíberka/docs/4iz450/sl01-kdd.pdf · Dobývání znalostí z databází T1: úvodní přehled P. Berka, 2019 10/22 Standardy pro dobývání znalostí

Dobývání znalostí z databází T1: úvodní přehled

P. Berka, 2019 10/22

Standardy pro dobývání znalostí

1. Metodiky

(Marban a kol, 2009)

Metodika A Metodiku „5A“ nabízí firma SPSS jako svůj pohled na

proces dobývání znalostí. Název metodiky je

akronymem pro jednotlivé prováděné kroky:

Assess – posouzení potřeb projektu,

Access – shromáždění potřebných dat,

Analyze – provedení analýz,

Akt – přeměna znalostí na akční znalosti,

Automate – převedení výsledků analýzy do praxe.

Page 11: Dobývání znalostí z databázíberka/docs/4iz450/sl01-kdd.pdf · Dobývání znalostí z databází T1: úvodní přehled P. Berka, 2019 10/22 Standardy pro dobývání znalostí

Dobývání znalostí z databází T1: úvodní přehled

P. Berka, 2019 11/22

Metodika SEMMA Navržená pro Enterprise Miner firmy SAS:

Sample (vybrání vhodných objektů),

Explore (vizuální explorace a redukce dat),

Modify (seskupování objektů a hodnot atributů,

datové transformace),

Model (analýza dat: neuronové sítě, rozhodovací

stromy, statistické techniky, asociace a

shlukování),

Assess (porovnání modelů a interpretace).

Page 12: Dobývání znalostí z databázíberka/docs/4iz450/sl01-kdd.pdf · Dobývání znalostí z databází T1: úvodní přehled P. Berka, 2019 10/22 Standardy pro dobývání znalostí

Dobývání znalostí z databází T1: úvodní přehled

P. Berka, 2019 12/22

Metodika CRISP-DM V současnosti de-facto standard podporovaný

většinou systémů pro dobývání znalostí

Porozuměníproblematice

Porozuměnídatům

Příprava dat

Modelování

Vyhodnocenívýsledků

Využití výsledkůDATA

Data

Mining

Page 13: Dobývání znalostí z databázíberka/docs/4iz450/sl01-kdd.pdf · Dobývání znalostí z databází T1: úvodní přehled P. Berka, 2019 10/22 Standardy pro dobývání znalostí

Dobývání znalostí z databází T1: úvodní přehled

P. Berka, 2019 13/22

2. Standardy pro zápis modelů

Predictive Modeling Markup Language

Standard na bázi XML vyvinutý v Data Mining Group

(www.dmg.org), který slouží pro popis dat, datových

transformací, i vytvořených modelů. Základní části

PMML dokumentu:

Header

Data Dictionary

Data Transformations

Model

Page 14: Dobývání znalostí z databázíberka/docs/4iz450/sl01-kdd.pdf · Dobývání znalostí z databází T1: úvodní přehled P. Berka, 2019 10/22 Standardy pro dobývání znalostí

Dobývání znalostí z databází T1: úvodní přehled

P. Berka, 2019 14/22

<?xml version="1.0" ?>

<PMML version="4.0">

<Header copyright="P.B." description="An example decision tree model."/>

<DataDictionary numberOfFields="5" >

<DataField name="income" optype="categorical" />

<Value value="low"/>

<Value value="high"/>

<DataField name=account" optype= categorical " />

<Value value="low"/>

<Value value="medium"/>

<Value value="high"/>

<DataField name="sex" optype="categorical" >

<Value value="male"/>

<Value value="female"/>

</DataField>

<DataField name="unemployed" optype="categorical" >

<Value value="yes"/>

<Value value="no"/>

</DataField>

<DataField name=loan" optype="categorical" >

<Value value="A"/>

<Value value="n"/>

</DataField>

</DataDictionary>

<TreeModel modelName="loan aproval decision tree" >

<MiningSchema>

<MiningField name=“income"/>

<MiningField name="account"/>

<MiningField name="sex"/>

<MiningField name="unemployed"/>

<MiningField name="loan" usageType="predicted"/>

</MiningSchema>

<Node score="A">

<True/>

<Node score="A">

<SimplePredicate field="income" operator="equal" value="high"/>

</Node>

<Node score="n">

<SimplePredicate field="income" operator="equal" value="low"/>

<Node score="A">

<SimplePredicate field="account" operator="equal"

value="high"/>

</Node>

<Node score="n">

<SimplePredicate field="account" operator="equal"

value="low"/>

<Node score="n">

<SimplePredicate field="unemployed" operator="equal"

value="yes“/>

</Node>

<Node score="A">

<SimplePredicate field="unemployed" operator="equal"

value="no“/>

</Node>

</Node>

</Node>

</Node>

</TreeModel>

</PMML>

Page 15: Dobývání znalostí z databázíberka/docs/4iz450/sl01-kdd.pdf · Dobývání znalostí z databází T1: úvodní přehled P. Berka, 2019 10/22 Standardy pro dobývání znalostí

Dobývání znalostí z databází T1: úvodní přehled

P. Berka, 2019 15/22

3. Programovací standardy (API)

SQL/MM Data Mining

Standardní rozhranní umožňující přístup z relačních

databází k algoritmům pro data mining

OLE DB for Data Mining

API vyvinuté firmou Microsoft

Java Data Mining

CREATE MINING MODEL CreditRisk

(

CustomerId long key,

Income text discrete,

Account text discrete,

Sex text discrete,

Unemployed boolean discrete,

Loan text discrete predict,

)

USING [Microsoft Decision Tree]

Page 16: Dobývání znalostí z databázíberka/docs/4iz450/sl01-kdd.pdf · Dobývání znalostí z databází T1: úvodní přehled P. Berka, 2019 10/22 Standardy pro dobývání znalostí

Dobývání znalostí z databází T1: úvodní přehled

P. Berka, 2019 16/22

Systémy pro DZD

pokrývají celý proces dobývání znalostí (od

předzpracování po interpretaci),

nabízejí více algoritmů pro analýzu (než

„jednoúčelové” systémy strojového učení),

kladou důraz na vizualizaci (ve způsobu práce

se systémem i při interpretaci výsledků).

Typy systémů:

Data mining suites - stand-alone tools that

implement a number of data mining and data

pre-processing algorithms (commercial or

free/open_source)

Programming tools -

Cloud solutions – Software As A Service

Page 17: Dobývání znalostí z databázíberka/docs/4iz450/sl01-kdd.pdf · Dobývání znalostí z databází T1: úvodní přehled P. Berka, 2019 10/22 Standardy pro dobývání znalostí

Dobývání znalostí z databází T1: úvodní přehled

P. Berka, 2019 17/22

Weka

Rapid Miner

Page 18: Dobývání znalostí z databázíberka/docs/4iz450/sl01-kdd.pdf · Dobývání znalostí z databází T1: úvodní přehled P. Berka, 2019 10/22 Standardy pro dobývání znalostí

Dobývání znalostí z databází T1: úvodní přehled

P. Berka, 2019 18/22

SAS Enterprise Miner

IBM SPSS Modeler (Clementine)

Page 19: Dobývání znalostí z databázíberka/docs/4iz450/sl01-kdd.pdf · Dobývání znalostí z databází T1: úvodní přehled P. Berka, 2019 10/22 Standardy pro dobývání znalostí

Dobývání znalostí z databází T1: úvodní přehled

P. Berka, 2019 19/22

Gartner Magic Quadrant 2018

Page 20: Dobývání znalostí z databázíberka/docs/4iz450/sl01-kdd.pdf · Dobývání znalostí z databází T1: úvodní přehled P. Berka, 2019 10/22 Standardy pro dobývání znalostí

Dobývání znalostí z databází T1: úvodní přehled

P. Berka, 2019 20/22

KDnuggets Poll

Zdroj: https://www.kdnuggets.com/2018/05/poll-tools-analytics-data-science-machine-learning-results.html

Page 21: Dobývání znalostí z databázíberka/docs/4iz450/sl01-kdd.pdf · Dobývání znalostí z databází T1: úvodní přehled P. Berka, 2019 10/22 Standardy pro dobývání znalostí

Dobývání znalostí z databází T1: úvodní přehled

P. Berka, 2019 21/22

Systémy pro dobývání znalostí

z databází, meziroční nárůst používání

Zdroj: https://www.kdnuggets.com/2018/05/poll-tools-analytics-data-science-machine-learning-results.html

Page 22: Dobývání znalostí z databázíberka/docs/4iz450/sl01-kdd.pdf · Dobývání znalostí z databází T1: úvodní přehled P. Berka, 2019 10/22 Standardy pro dobývání znalostí

Dobývání znalostí z databází T1: úvodní přehled

P. Berka, 2019 22/22

Systémy pro dobývání znalostí

z databází, trendy

Mezi současnými hlavními trendy je možné

identifikovat:

1. Automatizace celého procesu, zpřístupnění

méně technickým uživatelům

OptiML v BigML

RapidMiner TurboPrep, Auto Model

Weka : Auto-Weka

Kompletní automatizace procesu – Datarobot

2. Rozšiřování cloudových platforem největších

IT hráčů Azure Machine Learning Studio,

Google Cloud Platform, Machine Learning on

AWS