získavanie znalostí z databáz - stuba.sk · 2007. 3. 26. · molap (multidimensionalolap) rolap...

Post on 14-Mar-2021

1 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Získavanie znalostí z databáz

Ing. Peter Makyš

PDF created with pdfFactory Pro trial version www.pdffactory.com

Obsah prezentácie

►Hierarchia informačných potrieb►OLTP – transakčné systémy►Dátové skladovanie a OLAP►Získavanie znalostí z databáz►Dolovanie dát

PDF created with pdfFactory Pro trial version www.pdffactory.com

Hierarchia informačných potrieb

PDF created with pdfFactory Pro trial version www.pdffactory.com

Klasifikácia informačných systémov

► Transakčné systémy(Transaction Processing Systems - TPS)

► Systémy pre riadenie(Management Information Systems - MIS)

► Systémy pre podporu rozhodovania(Decision-Support Systems - DSS)

► Informačné systémy pre vrcholovériadenie(Executive Information Systems - EIS)

PDF created with pdfFactory Pro trial version www.pdffactory.com

OLTP(On-Line Transaction Processing)

PDF created with pdfFactory Pro trial version www.pdffactory.com

Požiadavky na OLTP

► spracovanie údajov generovanýchv transakciách

► eliminácia nadbytočnosti dát v čo najväčšej miere

► zaistenie integrity dát► tvorba aktuálnych dokumentov a zostáv

(napr. potvrdení, či faktúr)► zvýšenie produktivity práce► vylepšenie a rozšírenie ponúkaných služieb

(snaha o udržanie vernosti zákazníkov)

PDF created with pdfFactory Pro trial version www.pdffactory.com

Nedostatky OLTP

► výstupy sú rozsiahle a zbytočne podrobné► výpočet agregovanej zostavy trvá veľmi dlho a

spomaľuje vykonávanie štandardných operácií► v systémoch sa neuchovávajú historické údaje► príprava niektorých dopytov je zložitá a zdĺhavá► je obtiažne nájsť problematickú hodnotu► nie je možné zistiť odchýlky problematickej

hodnoty► nevieme, na ktorých parametroch je sledovaná

hodnota závislá

PDF created with pdfFactory Pro trial version www.pdffactory.com

Business IntelligenceDefinícia

BI môžeme chápať ako ucelenýa efektívny prístup k prácis firemnými údajmi, ktorý má vplyv na správnosť strategických rozhodnutí a tým aj na obchodný úspech spoločnosti.

PDF created with pdfFactory Pro trial version www.pdffactory.com

Dátový sklad(Data Warehouse – DW)

Dátový sklad je podnikovo štruktúrovaný depozitár subjektovo orientovaných, integrovaných, časovo premenných, historických dát použitých na získavanie informácií a podporu rozhodovania. V dátovom sklade sú uložené atomické a sumárne dáta.Hlavné rysy:► Orientácia na subjekt► Integrácia► Časové rozlíšenie► Stálosť

PDF created with pdfFactory Pro trial version www.pdffactory.com

Porovnanie OLTP a DW

PDF created with pdfFactory Pro trial version www.pdffactory.com

Štruktúra DB dátového skladuPríklad - schéma „snehovej vločky“

PDF created with pdfFactory Pro trial version www.pdffactory.com

DenormalizáciaPríklad tabuľky z DB dátového skladu

available, on stockheavy duty boxWomenSkirts And Shorts - WomenKaren Kone Paisley-Print Bias-Cut Skirt

available, on stockheavy duty boxBoysOuterwear - BoysKalombia Jacket Kids

available, on stockcard boxGirlsUnderwear - GirlsGirls' White, Fashion Color And Print

available, no stockwooden caseWomenShoes - WomenFrets Swivel Stretchmax Smooth

available, on stockheavy duty boxWomenDresses - WomenFaux Suede Jumper Set

available, on stockcard boxMenShorts - MenFagonnable Pinstripe Cargo Shorts

available, on stockwater proof wrapMenShorts - MenFagonnable Cotton/Lycra Short

available, no stockwooden caseWomenSkirts And Shorts - WomenDrawstring Cargo Short

available, on stockcard boxWomenTrousers - WomenCulliwey Microfiber Trousers

available, on stockwater proof wrapWomenKnit Outfits - WomenCotton Knit Tank & Short Set

available, on stockbrown envelopeWomenTees - WomenContrast-Stitched Cotton Knit Tee

available, on stockwhite paper bagWomenShoes - WomenCole Huun Laguna

available, on stockwooden caseMenOuterwear - MenCole Huun Anguilla

obsoleteplastic bagBoysShoes - BoysChildren'S Leather Velcro Tennis Shoe

available, on stockwhite paper bagMenCasual Shirts - MenBurma Bibas Silk Fuji Shirt

available, on stockheavy duty boxBoysSleepwear - BoysBoy'S Pajamas

available, on stockwhite paper bagWomenDresses - WomenA-Line Knit Dress

available, on stockheavy duty boxWomenShoes - WomenAff Australia Ultra Short

STATUSPACK_SIZECATEGORYSUBCATEGORYNAME

PDF created with pdfFactory Pro trial version www.pdffactory.com

OLAP analýza(On-Line Analytical Processing)

OLAP je druh softvérovej technológie dovoľujúcej analytikom a manažérom porozumieť dátam pomocou rýchleho, konzistentného a interaktívneho prístupu k širokému spektru možných pohľadov na informácie, ktoré boli transformované zo surových dát, aby odrážali skutočný rozmer podniku, tak ako je chápaný z pohľadu používateľa.Implementačné varianty:► MOLAP (Multidimensional OLAP)► ROLAP (Relational OLAP)► HOLAP (Hybrid OLAP)► DOLAP (Desktop OLAP)

PDF created with pdfFactory Pro trial version www.pdffactory.com

Dátový sklad a OLAP(3-vrstvová architektúra)

PDF created with pdfFactory Pro trial version www.pdffactory.com

OLAP operácie

PDF created with pdfFactory Pro trial version www.pdffactory.com

Pravidlá pre OLAPE. F. Codd

► Multidimenzionálny konceptuálny model► Transparentnosť► Dostupnosť dát► Stabilná výkonnosť► Architektúra klient/server► Generická dimenzionalita► Dynamické ošetrenie riedkych matíc► Podpora viacerých používateľov► Neobmedzené operácie naprieč dimenziami► Intuitívna manipulácia s údajmi► Flexibilné výstupy► Neobmedzené dimenzie a úrovne agregácií

PDF created with pdfFactory Pro trial version www.pdffactory.com

Získavanie znalostí z databáz(Knowledge Discovery from Databases - KDD)

Získavanie znalostí z databáz je netriviálny proces identifikácie platných, nových doteraz neznámych, potenciálne použiteľných a dobre pochopiteľných znalostí v dátach.

PDF created with pdfFactory Pro trial version www.pdffactory.com

Proces získavania znalostíz databáz

PDF created with pdfFactory Pro trial version www.pdffactory.com

Dolovanie dát(Data Mining - DM)

Dolovanie dát je jedna z fáz procesu KDD, v rámci ktorej sa pomocou rôznych techník a pri daných obmedzeniach hľadajú skryté vzory alebo modely v dátach. Ciele:► verifikácia► exploráciaCiele explorácie:► predikcia► deskripcia► zvýrazňovanie (highlighting)

PDF created with pdfFactory Pro trial version www.pdffactory.com

Úlohy DM(ciele, aplikácie, modely, metódy, ...)

► klasifikácia► regresia, predpovedanie podľa časových radov► zhlukovanie► sumarizácia► hľadanie a modelovanie závislostí, hľadanie

asociačných pravidiel, objavovanie postupností► detekcia zmien a odchýlok► vyhľadávanie podobností► ...

PDF created with pdfFactory Pro trial version www.pdffactory.com

Techniky DM(typy modelov, metódy, ...)

► indukcia pravidiel a rozhodovacie stromy► regresná analýza► zhluková analýza► asociačná analýza► neurónové siete► genetické algoritmy► ...

PDF created with pdfFactory Pro trial version www.pdffactory.com

Nástroje DM(algoritmy)

► ID3►C4.5►AQ►CART►CHAID► ...

PDF created with pdfFactory Pro trial version www.pdffactory.com

Nástroje DM(nekomerčné systémy)

► GUHA+ (Ústav informatiky AV ČR)► KDD Package (Technická univerzita Košice)► LISp-Miner (VŠE Praha)► Weka (Universita Waikato, Nový Zéland)► RSD (ČVUT FEL Praha)► SumatraTT (ČVUT FEL Praha)► ...

PDF created with pdfFactory Pro trial version www.pdffactory.com

Nástroje DM(komerčné systémy)

► CART (Salford Systems)► Clementine (SPSS Inc.)► Enterprise Miner (SAS Institute Inc.)► Intelligent Miner for Data a Intelligent Miner for Text

(IBM Corp.)► KnowledgeStudio (Angoss Software Corp.)► Microsoft Analysis Services (Microsoft)► MineSet (Silicon Graphics)► Oracle Data Mining► Statistica Data Miner (StatSoft Inc.)► ...

PDF created with pdfFactory Pro trial version www.pdffactory.com

OLAM(On-Line Analytical Mining)

PDF created with pdfFactory Pro trial version www.pdffactory.com

Zhrnutie(Úlohy jednotlivých technológií)

n OLTP – ČO ?(je v databáze)

n OLAP – PREČO ?(overovanie hypotéz)

n Data Mining – ČO AK ?(generovanie hypotéz)

PDF created with pdfFactory Pro trial version www.pdffactory.com

Literatúra

n BERKA, Petr: Dobývání znalostí z databází. 1. vydanie. Praha: Academia 2003. 366 s. ISBN 80-200-1062-9.

n FAYYAD, Usama M. – PIATETSKY-SHAPIRO, Gregory – SMYTH, Padhraic: From Data Mining to Knowledge Discovery: An Overview. In: FAYYAD, Usama M. – PIATETSKY-SHAPIRO, Gregory – SMYTH, Padhraic – UTHURUSAMY, Ramasamy: Advances in Knowledge Discovery & Data Mining. Cambridge (Massachusetts): AAAI Press, The MIT Press, 1996. 600 s. ISBN 0-262-56097-6.

n HAN, Jiawei – KAMBER, Micheline: Data Mining: Concepts and Techniques. San Diego: Morgan Kaufmann Publishers, Academic Press 2001. 550 s.

n KREJČÍ, J.: Automatizované získávání znalostí z dat. In: Moderní databáze’99. Beroun: 1999. URL: <http://www.komix.cz/> [cit 2000-11-01].

n LACKO, L.: Databáze: datové sklady, OLAP a dolování dat s příklady v Microsoft Serveru a Oracle. 1. vydanie. Brno: Computer Press, 2003. 486 s. ISBN 80-7226-969-0.

n MATIAŠKO, K. – VNUK, L. – ŠEVČÍKOVÁ, K.: Dátové sklady ako informačný zdroj pre podporurozhodovania [online]. Žilina: ŽU FRI. 27 s. URL: <http://www.science.upjs.sk/sscs/matiasko.pdf> [cit. 2003-10-29].

n PANEC, Zdeněk: Co je to business intelligence? In: IT System, 2003, č.6, s. 49.n PARALIČ, Ján: Objavovanie znalostí v databázach. 1.vydanie. Košice: elfa, 2003. 80 s. ISBN 80-89066-

60-7.n POKORNÝ, Jaroslav: OLAM = Skladování dat + OLAP + Dolování dat. In: Moderní databáze’99. Beroun:

1999. URL: <http://www.komix.cz/> [cit 2000-11-01].n Vieira, R.: SQL Server 2000: Programujeme profesionálně. Praha: Computer Press, 2001.

PDF created with pdfFactory Pro trial version www.pdffactory.com

top related