akela.mendelu.czjprich/predn/bi.pdf · 2010. 12. 3. · created date: 12/3/2010 9:22:57 am
TRANSCRIPT
-
Business Intelligence
Ing. Jan Přichystal, Ph.D.
PEF MZLU v Brně
3. prosince 2010
Ing. Jan Přichystal, Ph.D. Business Intelligence
-
Úvod
Intenzivní nasazení informačních technologií způsobuje hromaděníobrovské spousty nejrůznějších údajů.
Příkladem mohou být informace z obchodování s cennými papírynebo údaje z pokladen supermarketů.
Množství získaných údajů ovšem neznamená stejné množstvíinformací. Proces transformace je složitý a časově náročný.
Tímto procesem se zabývá Business Intelligence. Jde nejeno zkoumání současných ale i predikování budoucích znalostí.
Moderní DB servery umožňují budovat datové sklady a provádětnad daty analýzy (OLAP).
Ing. Jan Přichystal, Ph.D. Business Intelligence
-
Transakční vs. analytické databáze
Transakční databáze (OLTP) jsou určené k ukládání operačníchúdajů. Databáze v nich jsou zpravidla pro snížení redundancenormalizovány což vede k velké strukturovanosti tabulek.
Problémem transakčních systémů je decentralizace. Používají serůzné systémy pro zpracování různých údajů (účetnictví, sklady,apod.).
Naproti tomu jsou data v analytických databázích (OLAP)ukládána do hvězdicových nebo vločkových schémat a snaží se mítvšechna data zpracovaná na jednom místě.
Ing. Jan Přichystal, Ph.D. Business Intelligence
-
Nevýhody transakčních systémů pro analýzy
Neuchovávají historické údaje
Nehomogenní struktura údajů
Dlouhý čas přípravy údajů
Obtížné hledání příčin a závislostí jednotlivých údajů
Analýza přímo v operačním prostředí snižuje výkon důležitýchsystémů
Příliš rozsáhlé výstupy
Ing. Jan Přichystal, Ph.D. Business Intelligence
-
Kvalita údajů pro analýzy
V současnosti se hojně využívají různé druhy ekonomického SW.Jde o účetní programy, skladové hospodářství, evidence pohybuzboží apod.
Shromážděné informace jsou z části velmi cenné, ale z částii zbytečné.
Důležité je aby se k zodpovědným osobám dostaly kvalitnía důležité informace.
Manažeři jsou často v situaci hráčů puzzle, kteří mají před sebousmíchané různé krabice kostiček bez výsledných obrázků.
Příkladem může být sledování 1000 druhů zboží, 10 prodejníchkanálů 100 odběratelů. Získáváme tak 1 milion různých kombinací.Při měsíčním sledování většího druhu zboží máme k dispoziciobrovské množství údajů.
Řešení je použití multidimenzionálních struktur.
Ing. Jan Přichystal, Ph.D. Business Intelligence
-
Multidimenzionální databáze
Řešením omezení relačních DB je organizace domultidimenzionálních struktur. Používáme dva typynenormalizovaných tabulek (dimenze a fakta). Analytické DBoznačujeme pojmem OLAP (On-line Analytical Processing).Charakteristika:
rychlý a komplexní přístup k velkému objemu údajů,
možnost komplexních analýz,
předpoklad pro modelování a prognózy,
vyšší nároky na kapacitu úložiště.
Ing. Jan Přichystal, Ph.D. Business Intelligence
-
Fakta a dimenze
Ing. Jan Přichystal, Ph.D. Business Intelligence
-
Fakta a dimenze
Fakta – numerické údaje o objektech studia. Jde o největší tabulkyv databázi s velkým objemem dat. Obvykle obsahují dva typysloupců (údaje a klíče do tabulek dimenzí). Fakta se seskupujía vytváří metriky. Příkladem faktů je například množství prodanýchproduktů.Dimenze – hierarchické uspořádání údajů. Jde o menší tabulky.Dimenze umožňují zkoumat data z různých pohledů. Mluvímeo dimenzích časových, produktových, geografických atd.
Ing. Jan Přichystal, Ph.D. Business Intelligence
-
Multidimenzionální databázový model
Data jsou organizována v relačnídatabázi.
Každý řádek se vztahuje k jistéudálosti, předmětu nebo jejichčásti.
Výsledkem agregace údajů jemultidimenzionální datovástruktura – krychle.
Krychle obsahuje mnoho dimenzí(časové, místní, věcné . . . ).
Na průniku dimenzí se nacházíkonkrétní údaje.
Čas
Prod
ukt
Zákaz
ník
Ing. Jan Přichystal, Ph.D. Business Intelligence
-
Zpracování údajů z operačního prostředí
Zpracování údajů na informace a analýza obvykle neprobíháv operačním prostředí, protože by mohlo dojít k výraznému sníženívýkonu a tím i ohrožení hladkého běhu.
Data se tedy obvykle přenášejí do jiného prostředí (datovýchskladů), kde se teprve zpracovávají.
Výhodou tohoto řešení je i to, že data mohou být získávánai z různých zdrojů.
Nevýhodou je redundance údajů, zvýšení zátěže IT pracovníků,snížení flexibility a částečná ztráta metadat.
Ing. Jan Přichystal, Ph.D. Business Intelligence
-
Tvorba datového skladu
Provoznísystémy
Datovýsklad
Uivatelé
ETLprocesy
Prezentaènínástroje
Ing. Jan Přichystal, Ph.D. Business Intelligence
-
Datový sklad
Jde o strukturované úložiště údajů určených pro analýzy.
„Datový sklad je podnikově strukturovaný depozitář subjektověorientovaných, integrovaných, časově proměnlivých, historickýchdat použitých a získávání informací a podporu rozhodování.V datovém skladu jsou uložena atomická a sumární data.ÿ(Bill Inmon)
Do datového skladu se dostávají pravidelné informacez různorodých zdrojů i geograficky odlišných.
Ing. Jan Přichystal, Ph.D. Business Intelligence
-
Datový sklad
Subjektová orientace – uchovávají se údaje podle předmětuzájmu, nikoliv podle aplikace, ve které byly vytvořeny.
Integrovanost – údaje o konkrétním předmětu se ukládají jenjednou za použití jednotné terminologie názvů, jednotek apod.
Časová variabilita – údaje se ukládají jako série časovýchsnímků reprezentujících časové úseky.
Neměnnost – v datových skladech se údaje obvykle nemění,jsou jen pro čtení.
Ing. Jan Přichystal, Ph.D. Business Intelligence
-
Datové trhy
Datové trhy jsou přesně specifikované podmnožiny datovéhoskladu, určené pro menší organizační složky.
Samotný datový sklad je velmi náročný projekt, proto jej častobudujeme a členíme do menších částí.
Ing. Jan Přichystal, Ph.D. Business Intelligence
-
Metody tvorby datového skladu
Při návrhu datového skladu je potřeba brát v úvahu organizačnístrukturu subjektu. Vhodné metody jsou:
Metoda „velkého třeskuÿ
Přírůstková metoda
Ing. Jan Přichystal, Ph.D. Business Intelligence
-
Příprava údajů – ETL
Proces BI/DW obvykle pracuje s nehomogenními zdroji údajů. Lišíse jak fyzickým způsobem uložení (různé DB systémy) taki logickou strukturou.
Taková data je nutné před započetím analýz připravit. Procesnazýváme ETL.
Extraction – výběr dat
Transformation – ověření, čištění, integrace a časovéoznačení
Loading – přemístění dat do datového skladu
Jde o komplexní a časově náročný proces, který může zabratpodstatnou většinu času určeného pro přípravu analytickéhoprostředí.
Ing. Jan Přichystal, Ph.D. Business Intelligence
-
ETL
Prodeje
Sklady
Výroba
Úèetnictví
Datovýsklad
Extrakce
Transformace
Naèítání
Ing. Jan Přichystal, Ph.D. Business Intelligence
-
Extrakce
Úkolem tohoto kroku je získat data z různých nehomogenníchprovozních systémů a sjednotit je na jednom místě.
Extrakce se týká nejen dat aktuálních, ale při přípravě novéhoskladu musíme pracovat i s daty archivními.
Získávat můžeme data nejen z našich systémů, ale i od konkurencenebo různé volně dostupné statistické přehledy.
Extrakce není jednorázová akce. Datový sklad plníme periodicky.
Využíváme různé vyšší procedurální programovací jazyky (C++,C#) nebo procedurální nadstavby DB systémů (T-SQL, PL/SQL).
Ing. Jan Přichystal, Ph.D. Business Intelligence
-
Transformace
Velmi důležitý krok, který rozhoduje o kvalitě zkoumaných dat.
Údaje z provozních systémů mívají různou kvalitu. Jde o chybněvložená data nebo nekompletní data, případně o duplicitní data. Taje potřeba pročistit.
Údaje mají i různou strukturu, v každém systému jsou jiné datovétypy (rodná čísla), rozsahy (měna), zkratky (pohlaví) atd. Datajsou nejednoznačná. Tato data je potřeba transformovat dojednotné podoby.
Ing. Jan Přichystal, Ph.D. Business Intelligence
-
Přenos
Je završením etapy ETL.
V této fázi dochází k přenosu dat z přípravné oblasti do datovéhoskladu.
Jde o plánovaný a hierarchizovaný proces s maximální možnoumírou automatizace.
Někdy je třeba použít i umělé primární klíče.
Po zavedení údajů obvykle následuje indexování.
Ing. Jan Přichystal, Ph.D. Business Intelligence
-
Problémy ETL
Proces ETL nemusí vždy proběhnout úspěšně.
Může dojít k selhání technických prostředků případně i software.
Velmi důležité je následné ověření kvality a celistvosti údajů.
Pokud proces nedopadne dobře je obvykle nutné začít znovu odmísta selhání, případně opakovat celý proces znovu.
Ing. Jan Přichystal, Ph.D. Business Intelligence
-
Analýza OLAP
„OLAP je volně definovaný řád principů, které poskytujídimenzionální rámec pro podporu rozhodování.ÿ (E. F. Codd)
Multidimenzionální konceptuální pohled vhodný pro analýzyTransparentnost – nástroj musí být snadno použitelnýDostupnost – využití jen potřebných údajů a toz heterogenních zdrojůKonzistentní vykazování – s rostoucím počtem údajů neklesávýkonArchitektura client-server s ohledem na cenu a výkonPodpora více uživatelů pracujících na stejném modeluNeomezené křížové dimenzionální operaceIntuitivní manipulace s údaji – drill down, drill upFlexibilní vykazování – různé uspořádání údajů v reportechvhodné pro různé situaceVíceúrovňové dimenze a agregace
Ing. Jan Přichystal, Ph.D. Business Intelligence
-
MOLAP, ROLAP, HOLAP
Multidimenzionální OLAP – data získává buď z datového skladunebo operačních zdrojů. Analytická data ukládá do vlastníchdatových struktur. Předpočítá maximální množství předběžnýchvýsledků. Výhodou je rychlost, nevýhodou redundance údajů.Relační OLAP – data získává z relačního datového skladu. Údajese předkládají jako multidimenzionální pohled. Využívá metadatapro dynamické generování SQL dotazů.Hybridní OLAP – kombinace přístupu MOLAP a ROLAP. Snažíse eliminovat nevýhody. Údaje jsou v relačních databázích,agregace se ukládají do multidimenzionálních struktur.
Ing. Jan Přichystal, Ph.D. Business Intelligence
-
Doporučená literatura
Kimball, Ralph; Margy Ross (2002). The Data Warehouse Toolkit:The Complete Guide to Dimensional Modeling (Second Editioned.). New York: Wiley. ISBN 0-471-20024-7.
Lacko L. Datové sklady, analýza OLAP a dolování dat. Brno 2003.Computer Press. ISBN 80-7226-969-0.
Novotný O., Pour J., Slánský D. Business Intelligence. Praha 2005.Grada. ISBN 80-247-1094-3.
Rud O. P. Data mining. Brno 2001. Computer Press. ISBN80-7226-577-6.
Ing. Jan Přichystal, Ph.D. Business Intelligence
-
Závěr
Děkuji za pozornost
Dotazy?
Ing. Jan Přichystal, Ph.D. Business Intelligence