získavanie znalostí z databáz - stuba.sk · 2007. 3. 26. · molap (multidimensionalolap) rolap...
TRANSCRIPT
Získavanie znalostí z databáz
Ing. Peter Makyš
PDF created with pdfFactory Pro trial version www.pdffactory.com
Obsah prezentácie
►Hierarchia informačných potrieb►OLTP – transakčné systémy►Dátové skladovanie a OLAP►Získavanie znalostí z databáz►Dolovanie dát
PDF created with pdfFactory Pro trial version www.pdffactory.com
Hierarchia informačných potrieb
PDF created with pdfFactory Pro trial version www.pdffactory.com
Klasifikácia informačných systémov
► Transakčné systémy(Transaction Processing Systems - TPS)
► Systémy pre riadenie(Management Information Systems - MIS)
► Systémy pre podporu rozhodovania(Decision-Support Systems - DSS)
► Informačné systémy pre vrcholovériadenie(Executive Information Systems - EIS)
PDF created with pdfFactory Pro trial version www.pdffactory.com
OLTP(On-Line Transaction Processing)
PDF created with pdfFactory Pro trial version www.pdffactory.com
Požiadavky na OLTP
► spracovanie údajov generovanýchv transakciách
► eliminácia nadbytočnosti dát v čo najväčšej miere
► zaistenie integrity dát► tvorba aktuálnych dokumentov a zostáv
(napr. potvrdení, či faktúr)► zvýšenie produktivity práce► vylepšenie a rozšírenie ponúkaných služieb
(snaha o udržanie vernosti zákazníkov)
PDF created with pdfFactory Pro trial version www.pdffactory.com
Nedostatky OLTP
► výstupy sú rozsiahle a zbytočne podrobné► výpočet agregovanej zostavy trvá veľmi dlho a
spomaľuje vykonávanie štandardných operácií► v systémoch sa neuchovávajú historické údaje► príprava niektorých dopytov je zložitá a zdĺhavá► je obtiažne nájsť problematickú hodnotu► nie je možné zistiť odchýlky problematickej
hodnoty► nevieme, na ktorých parametroch je sledovaná
hodnota závislá
PDF created with pdfFactory Pro trial version www.pdffactory.com
Business IntelligenceDefinícia
BI môžeme chápať ako ucelenýa efektívny prístup k prácis firemnými údajmi, ktorý má vplyv na správnosť strategických rozhodnutí a tým aj na obchodný úspech spoločnosti.
PDF created with pdfFactory Pro trial version www.pdffactory.com
Dátový sklad(Data Warehouse – DW)
Dátový sklad je podnikovo štruktúrovaný depozitár subjektovo orientovaných, integrovaných, časovo premenných, historických dát použitých na získavanie informácií a podporu rozhodovania. V dátovom sklade sú uložené atomické a sumárne dáta.Hlavné rysy:► Orientácia na subjekt► Integrácia► Časové rozlíšenie► Stálosť
PDF created with pdfFactory Pro trial version www.pdffactory.com
Porovnanie OLTP a DW
PDF created with pdfFactory Pro trial version www.pdffactory.com
Štruktúra DB dátového skladuPríklad - schéma „snehovej vločky“
PDF created with pdfFactory Pro trial version www.pdffactory.com
DenormalizáciaPríklad tabuľky z DB dátového skladu
available, on stockheavy duty boxWomenSkirts And Shorts - WomenKaren Kone Paisley-Print Bias-Cut Skirt
available, on stockheavy duty boxBoysOuterwear - BoysKalombia Jacket Kids
available, on stockcard boxGirlsUnderwear - GirlsGirls' White, Fashion Color And Print
available, no stockwooden caseWomenShoes - WomenFrets Swivel Stretchmax Smooth
available, on stockheavy duty boxWomenDresses - WomenFaux Suede Jumper Set
available, on stockcard boxMenShorts - MenFagonnable Pinstripe Cargo Shorts
available, on stockwater proof wrapMenShorts - MenFagonnable Cotton/Lycra Short
available, no stockwooden caseWomenSkirts And Shorts - WomenDrawstring Cargo Short
available, on stockcard boxWomenTrousers - WomenCulliwey Microfiber Trousers
available, on stockwater proof wrapWomenKnit Outfits - WomenCotton Knit Tank & Short Set
available, on stockbrown envelopeWomenTees - WomenContrast-Stitched Cotton Knit Tee
available, on stockwhite paper bagWomenShoes - WomenCole Huun Laguna
available, on stockwooden caseMenOuterwear - MenCole Huun Anguilla
obsoleteplastic bagBoysShoes - BoysChildren'S Leather Velcro Tennis Shoe
available, on stockwhite paper bagMenCasual Shirts - MenBurma Bibas Silk Fuji Shirt
available, on stockheavy duty boxBoysSleepwear - BoysBoy'S Pajamas
available, on stockwhite paper bagWomenDresses - WomenA-Line Knit Dress
available, on stockheavy duty boxWomenShoes - WomenAff Australia Ultra Short
STATUSPACK_SIZECATEGORYSUBCATEGORYNAME
PDF created with pdfFactory Pro trial version www.pdffactory.com
OLAP analýza(On-Line Analytical Processing)
OLAP je druh softvérovej technológie dovoľujúcej analytikom a manažérom porozumieť dátam pomocou rýchleho, konzistentného a interaktívneho prístupu k širokému spektru možných pohľadov na informácie, ktoré boli transformované zo surových dát, aby odrážali skutočný rozmer podniku, tak ako je chápaný z pohľadu používateľa.Implementačné varianty:► MOLAP (Multidimensional OLAP)► ROLAP (Relational OLAP)► HOLAP (Hybrid OLAP)► DOLAP (Desktop OLAP)
PDF created with pdfFactory Pro trial version www.pdffactory.com
Dátový sklad a OLAP(3-vrstvová architektúra)
PDF created with pdfFactory Pro trial version www.pdffactory.com
OLAP operácie
PDF created with pdfFactory Pro trial version www.pdffactory.com
Pravidlá pre OLAPE. F. Codd
► Multidimenzionálny konceptuálny model► Transparentnosť► Dostupnosť dát► Stabilná výkonnosť► Architektúra klient/server► Generická dimenzionalita► Dynamické ošetrenie riedkych matíc► Podpora viacerých používateľov► Neobmedzené operácie naprieč dimenziami► Intuitívna manipulácia s údajmi► Flexibilné výstupy► Neobmedzené dimenzie a úrovne agregácií
PDF created with pdfFactory Pro trial version www.pdffactory.com
Získavanie znalostí z databáz(Knowledge Discovery from Databases - KDD)
Získavanie znalostí z databáz je netriviálny proces identifikácie platných, nových doteraz neznámych, potenciálne použiteľných a dobre pochopiteľných znalostí v dátach.
PDF created with pdfFactory Pro trial version www.pdffactory.com
Proces získavania znalostíz databáz
PDF created with pdfFactory Pro trial version www.pdffactory.com
Dolovanie dát(Data Mining - DM)
Dolovanie dát je jedna z fáz procesu KDD, v rámci ktorej sa pomocou rôznych techník a pri daných obmedzeniach hľadajú skryté vzory alebo modely v dátach. Ciele:► verifikácia► exploráciaCiele explorácie:► predikcia► deskripcia► zvýrazňovanie (highlighting)
PDF created with pdfFactory Pro trial version www.pdffactory.com
Úlohy DM(ciele, aplikácie, modely, metódy, ...)
► klasifikácia► regresia, predpovedanie podľa časových radov► zhlukovanie► sumarizácia► hľadanie a modelovanie závislostí, hľadanie
asociačných pravidiel, objavovanie postupností► detekcia zmien a odchýlok► vyhľadávanie podobností► ...
PDF created with pdfFactory Pro trial version www.pdffactory.com
Techniky DM(typy modelov, metódy, ...)
► indukcia pravidiel a rozhodovacie stromy► regresná analýza► zhluková analýza► asociačná analýza► neurónové siete► genetické algoritmy► ...
PDF created with pdfFactory Pro trial version www.pdffactory.com
Nástroje DM(algoritmy)
► ID3►C4.5►AQ►CART►CHAID► ...
PDF created with pdfFactory Pro trial version www.pdffactory.com
Nástroje DM(nekomerčné systémy)
► GUHA+ (Ústav informatiky AV ČR)► KDD Package (Technická univerzita Košice)► LISp-Miner (VŠE Praha)► Weka (Universita Waikato, Nový Zéland)► RSD (ČVUT FEL Praha)► SumatraTT (ČVUT FEL Praha)► ...
PDF created with pdfFactory Pro trial version www.pdffactory.com
Nástroje DM(komerčné systémy)
► CART (Salford Systems)► Clementine (SPSS Inc.)► Enterprise Miner (SAS Institute Inc.)► Intelligent Miner for Data a Intelligent Miner for Text
(IBM Corp.)► KnowledgeStudio (Angoss Software Corp.)► Microsoft Analysis Services (Microsoft)► MineSet (Silicon Graphics)► Oracle Data Mining► Statistica Data Miner (StatSoft Inc.)► ...
PDF created with pdfFactory Pro trial version www.pdffactory.com
OLAM(On-Line Analytical Mining)
PDF created with pdfFactory Pro trial version www.pdffactory.com
Zhrnutie(Úlohy jednotlivých technológií)
n OLTP – ČO ?(je v databáze)
n OLAP – PREČO ?(overovanie hypotéz)
n Data Mining – ČO AK ?(generovanie hypotéz)
PDF created with pdfFactory Pro trial version www.pdffactory.com
Literatúra
n BERKA, Petr: Dobývání znalostí z databází. 1. vydanie. Praha: Academia 2003. 366 s. ISBN 80-200-1062-9.
n FAYYAD, Usama M. – PIATETSKY-SHAPIRO, Gregory – SMYTH, Padhraic: From Data Mining to Knowledge Discovery: An Overview. In: FAYYAD, Usama M. – PIATETSKY-SHAPIRO, Gregory – SMYTH, Padhraic – UTHURUSAMY, Ramasamy: Advances in Knowledge Discovery & Data Mining. Cambridge (Massachusetts): AAAI Press, The MIT Press, 1996. 600 s. ISBN 0-262-56097-6.
n HAN, Jiawei – KAMBER, Micheline: Data Mining: Concepts and Techniques. San Diego: Morgan Kaufmann Publishers, Academic Press 2001. 550 s.
n KREJČÍ, J.: Automatizované získávání znalostí z dat. In: Moderní databáze’99. Beroun: 1999. URL: <http://www.komix.cz/> [cit 2000-11-01].
n LACKO, L.: Databáze: datové sklady, OLAP a dolování dat s příklady v Microsoft Serveru a Oracle. 1. vydanie. Brno: Computer Press, 2003. 486 s. ISBN 80-7226-969-0.
n MATIAŠKO, K. – VNUK, L. – ŠEVČÍKOVÁ, K.: Dátové sklady ako informačný zdroj pre podporurozhodovania [online]. Žilina: ŽU FRI. 27 s. URL: <http://www.science.upjs.sk/sscs/matiasko.pdf> [cit. 2003-10-29].
n PANEC, Zdeněk: Co je to business intelligence? In: IT System, 2003, č.6, s. 49.n PARALIČ, Ján: Objavovanie znalostí v databázach. 1.vydanie. Košice: elfa, 2003. 80 s. ISBN 80-89066-
60-7.n POKORNÝ, Jaroslav: OLAM = Skladování dat + OLAP + Dolování dat. In: Moderní databáze’99. Beroun:
1999. URL: <http://www.komix.cz/> [cit 2000-11-01].n Vieira, R.: SQL Server 2000: Programujeme profesionálně. Praha: Computer Press, 2001.
PDF created with pdfFactory Pro trial version www.pdffactory.com