introduzione al datawarehouse franco perduca factory software [email protected]
TRANSCRIPT
Introduzione al datawarehouseFranco Perduca
Factory [email protected]
2
Agenda
Perchè mi serve il Data Warehouse ? Caratteristiche del Data Warehouse Caricamento e trasformazione dei dati
3
Perchè mi serve il Data Warehouse Dati = informazione non è sempre vero Sono organizzati per una elaborazione
transazionale Non forniscono dati “attendibili” Rallentano il sistema Spesso devono essere integrati con
sorgenti di diversa natura
4
Perchè mi serve il Data Warehouse La soluzione è creare un db ad-hoc per le
analisi Lo scopo è di “concentrare” tutti i dati dell’
azienda in un unico punto Integra informazioni provenienti da
sorgenti diverse I dati sono trasformati / “puliti” Il disegno e’ ottimizzato per la lettura Possiamo considerarlo come un db Read-
Only
5
Perchè mi serve il Data Warehouse E’ un progetto molto difficoltoso :
Capire e identificare gli obbiettivi della analisi Trovare le informazioni e i dati sorgenti Applicare eventuali trasformazioni /
normalizzazioni per consolidare i dati Essere flessibili, riuscire a gestire cambiamenti
e “modifiche nella storia”
6
Caratteristiche del Data Warehouse Magazzino di dati a livello di impresa Insieme di strumenti per convertire un
vasto insieme di dati in informazioni utilizzabili dall’utente
Obiettivi: Possibilità di accedere a tutti i dati
dell’impresa, centralizzati in un solo database Coerenza e consolidamento dei dati Velocità nell’accesso alle informazioni Base di partenza per OLAP
7
Caratteristiche del DataWarehouse Passi per la creazione del Data
Warehouse Identificare gli eventi da misurare
Vendite Movimentazione di magazzino Customer satisfaction Ecc.
Identificare le fonti dati I dati possono arrivare da fonti diverse ed
eterogenee, non strutturate (Excel,file di testo,…)
Consolidare i dati Trasformazioni per eliminare le differenze
Es. Lira vs. Euro Definire processo di aggiornamento
Intervallo di aggiornamento del DW
8
Caratteristiche del Data Warehouse Data Mart
Poichè il processo per la creazione di un DW è spesso lungo e difficoltoso, è possibile creare dei processi intermedi
“Mini” DW tematici per rispondere ad esigenze specifiche (es. vendite, marketing, controllo di gestione ecc.)
L’insieme di tutti i Data Mart costituisce il DW
9
Caratteristiche del Data Warehouse Componenti di un modello Data
Warehouse Tabella dei fatti
Contiene gli elementi da misurare es. (vendite,movimenti e transazioni ecc.)
Elemento centrale del DW Misure
Sono i valori che vogliamo analizzare rappresentati dalle quantità es. (importi, quantità, numero di transazioni)
Sono contenute nella tabella dei fatti
10
Caratteristiche del DataWarehouse Tabella delle dimensioni
Descrive e rappresenta l’entità di business Fornisce un contesto alle misure È il “per” nelle analisi
Es. (Venduto PER cliente,Venduto PER prodotto)
Dimensione E’ il contenuto della tabella dimensione Spesso è gerarchica
Es. (Categoria -> SottoCategoria -> Prodotto)
11
Caratteristiche del DataWarehouse
ComuneComune ProdottoProdotto TempoTempo UnitàUnità FatturatoFatturato
Tabelle delleDimensioni
Tabelle delleDimensioniComuniComuniComuniComuni
ProdottiProdottiProdottiProdotti
TempoTempoTempoTempo
Tabella dei FattiMisureMisureMisureMisure
FattiFattiFattiFatti
DimensioniDimensioniDimensioniDimensioni
12
Caratteristiche del Data Warehouse DEMO
13
Caratteristiche del Data Warehouse La struttura è riconducibile a 2 modelli :
Star Schema (a stella)
Snowflake Schema (fiocco di neve)
14
Caratteristiche del Data Warehouse Star Schema
Lo Star Schema è la modellizzazione più semplice ed efficace dei componenti di un DW
Ogni tabella dei fatti è associata a N tabelle dimensionali
Le relazioni gerarchiche all’interno di una dimensione (per es. anno/mese/giorno) vengono mantenute in una sola tabella dimensionale
15
Caratteristiche del Data Warehouse Snowflake schema
Le gerarchie all’interno delle dimensioni sono mantenute in tabelle separate
È leggermente più complesso di una struttura a stella
È meno efficiente
16
Caratteristiche del Data Warehouse Staging area
È una area di storage Si effettuano prime trasformazioni / verifiche Dove si effettua primo caricamento
17
Caratteristiche del Data Warehouse Nell’ oltp quando un attributo di una
tabella anagrafica cambia il vecchio valore viene sovrascritto Cliente che cambia indirizzo o ragione sociale
Potrebbe essere non accettabile nel dwh Ai fini analitici interessa la “storia”
Da gestire con logiche diverse rispetto all’ Oltp Chiave surrogata Chiave applicativa
Problema delle slowly changing dimension (SCD)
18
Caratteristiche del Data Warehouse Tre metodi per risolvere le SCD
Tipo 1 sovrascrivere il valore Valore errato o non ha rilevanza analitica
Tipo 2 creare nuova riga con i valori modificati Tracciare i cambiamenti , poco frequenti
Tipo 3 creare struttura per tracciare cambiamento Associare tra di loro i cambiamenti , se non ho
numero limitato uso parent child
19
Caratteristiche del Data Warehouse Per creare e gestire DWH serve un
strumento di ETL Extract Transform Load
Microsoft Sql Server Integration Services (ex Dts)
20
Domande?
© 2004 Microsoft Corporation. All rights reserved.This presentation is for informational purposes only. Microsoft makes no warranties, express or implied, in this summary.