Download - HURTOWNIE DANYCH
HURTOWNIE DANYCH
Co to jest hurtownia danych?
Hurtownia danych (data warehouse) jest wydzieloną centralną bazą danych
zbierającą informacje służące do zarządzania organizacją.
Jest ona odizolowana od baz operacyjnych a jej struktura i użyte do jej budowy
narzędzia powinny być zoptymalizowane pod kątem przetwarzania analitycznego.
Po co hurtownia danych?
Do sprawnego zarządzania firmą potrzeba, by:
• Dane zgromadzone w organizacji mogły być wykorzystywane w procesie
decyzyjnym,
• Istniała możliwość tworzenia analiz obejmujących całość organizacji,
Cechy hurtowni danych
• Jest scentralizowaną bazą,
• Jest oddzielona od baz operacyjnych,
• Scala informacje z wielu źródeł,
• Jest zorientowana tematycznie,
• Przechowuje dane historyczne,
• Utrzymuje wielką ilość informacji,
• Agreguje informacje,
Rodzaje danych w hurtowniach
• Elementarne,
• Zmaterializowane agregaty – wyliczone wartości obliczeń (sumy, średnie itp.),
• Historyczne,
• Metadane,
Cykl życia danych w HD
• Ładowanie i scalanie
• Agregacja
• Tworzenie danych historycznych
• Usuwanie
Architektura Hurtowni Danych
• Scentralizowana
• Warstwowa
• Federacyjna
Architektura scentralizowana
Scentralizowana hurtownia danych jest stosunkowo prostą architekturą. Znacznie
upraszcza dostęp do danych, głównym zastosowaniem takiego rodzaju architektury
są organizacje o scentralizowanej strukturze. Oczywiście architektura taka nie
oznacza że w jednej organizacji musi znajdować się jedna, scentralizowana
hurtownia danych – wręcz przeciwnie , zaleca się tworzenie kliku scentralizowanych
hurtowni.
Hurtownie danychArchitektura scentralizowana
Architektura warstwowa
Następnym rodzajem jest warstwowa architektura hurtowni danych. Główną
hurtownię danych uzupełniają kolejne warstwy, podsumowania danych (hurtownie
tematyczne). Architektura warstwowa może być również stosowana w przypadku
źródeł danych gdzie dane napływają z różnych oddziałów firmy i są
podsumowywane.
Hurtownie danychArchitektura warstwowa
Architektura federacyjna
Federacyjna hurtownia danych to aktywny związek i współpraca kilku hurtowni
danych które mogą znajdować się nie tylko w jednym ale w wielu systemach
komputerowych. Globalna hurtownia danych jest w tym wypadku tworem wirtualnym,
a hurtownie tematyczne odpowiadają zwykle odpowiednim działom w
przedsiębiorstwie.
Hurtownie danychArchitektura federacyjna
Hurtownie danychOLAP/OLTP
OLTP – On-Line Transaction Processing
(przetwarzanie transakcyjne)
OLAP – On-Line Analytical Processing
(przetwarzanie analityczne)
Systemy informatyczne możemy podzielić na transakcyjne(OLTP) i analityczne (OLAP).
Generalnie można przyjąć, że systemy OLTP dostarczają danych źródłowych do hurtowni
danych, natomiast systemy OLAP pomagają w ich analizie.
Hurtownie danychWstęp – OLAP/OLTP
• OLTP (On-line Transaction Processing) charakteryzuje się dużą ilością prostych
transakcji zapisu i odczytu. Główny nacisk kładziony jest na zachowanie integralności
danych w środowisku wielodostępowym oraz na efektywność mierzoną liczbą
transakcji w danej jednostce czasu.
• OLAP (On-line Analytical Processing) charakteryzuje się natomiast stosunkowo
nielicznymi, ale za to złożonymi transakcjami odczytu. Miarą efektywności jest czas
odpowiedzi. Powszechnie wykorzystuje się go w technikach związanych z Data
Mining'iem.
Hurtownie danychOLAP/OLTP - porównanie
OLAP OLTP
Dane zorientowane tematycznie Dane zorientowane procesowo
Duża wielkość (od kilkudziesięciu GB do kilku TB)
Mała wielkość (kilkadziesiąt MB – kilka GB)
Przechowywane są dane historyczne
Przechowywane są dane teraźniejsze
Zdenormalizowana struktura danych (kilka tabel – wiele kolumn w tabeli)
Znormalizowana struktura danych (wiele tabel – kilka kolumn w tabeli)
Złożone zapytania Proste zapytania
Dane zagregowane Dane jednostkowe
Hurtownie danychOLAP/OLTP
Hurtownie danych (dane) możemy potraktować jako
bufor pomiędzy systemami OLAP oraz OLTP
Wielowymiarowa kostka OLAPKostka składa się z Miar, Wymiarów i Poziomów oraz jest zoptymalizowany pod kątem szybkiego i bezpiecznego dostępu do danych wielowymiarowych. Miary to wskaźniki numeryczne (ile?), natomiast wymiary reprezentują dane opisowe (kto? co? kiedy? gdzie?). Wymiary są pogrupowane za pomocą poziomów, które odzwierciedlają hierarchię funkcjonującą w organizacji i pozwalają użytkownikom końcowym zwiększać lub zmniejszać poziom szczegółowości analizowanego wymiaru.
Z reguły w hurtowni danych jest zdefiniowanych co najmniej kilkanaście wymiarów, a najczęściej spotykanym i wymiarami są: czas, klient, produkt, lokalizacja, biuro sprzedaży.
Hierarchia każdego z wymiarów ustawiona jest za pomocą Poziomów.Przykładowo, hierarchia poziomów może być ułożona w następujący sposób:
Czas: Rok -> Kwartał -> Miesiąc -> Tydzień -> Dzień
Klient: Grupa klientów -> Nazwa klienta
Produkt: Linia Produktu -> Grupa Produktu -> Produkt
Lokalizacja: Obszar -> Region -> Kraj
Wielowymiarowa kostka OLAPKategorie to elementy danych które opisują poziomy w wymiarach. Przykładowo, dla wymiaru Lokalizacji, w hurtowni danych zostały ustawione poziomy obszaru, regionu i kraju. W tym przykładzie dla Polski kategoriami będą:
• Obszar - Europa • Region - Europa Środkowa • Kraj - Polska
Typowe, najczęściej występujące Miary w hurtowniach danych to:
• Przychód netto • Przychód brutto • Waga • Ilość • Koszt • Upust
Model wielowymiarowy
produkt
sklepcz
as150 PLN
Zawartość komórki: zagregowana miara ( np. suma sprzedaży danego produktu w danym sklepie, danego dnia).