mise en place d'un data warehouse
DESCRIPTION
Projet de fin d'étudesTRANSCRIPT
Présenté par: FILALI Abderrahmane Date: 06/07/2010
KEDJNANE Sofiane Durée: 30min
Ecole nationale Supérieure d’Informatique
Introduction Préambule Organisme d’accueil
Problématique
Définitions Systèmes
décisionnels
Décisionnel VS
opérationnel
Data Warehouse
Présentation de la
solution
Démarche adoptée
Conception de la solution
Conclusion et
perspectives
Mise en œuvre
3
Introduction Définitions Présentation de la solution Conclusion
•1947, Création de « EGA »
•1969, Création de SONELGAZ
•1991, SONELGAZ devient un « EPIC »
• Juin 2002, Le statut de SPA
4
Introduction Définitions Présentation de la solution Conclusion
5
Introduction Définitions Présentation de la solution Conclusion
Le métier de la distribution:
Agence 2
Direction de Distribution 1
6
Introduction Définitions Présentation de la solution Conclusion
Le métier de la distribution:
Direction de Distribution N …
…
Agence 1
…
Agence N
Direction de Distribution 2
7
Introduction Définitions Présentation de la solution Conclusion
Quantité de
données
Besoin d’un support
De décision
Insuffisances
de
la méthode actuelle
Opportunités
pour un tel projet
8
Introduction Définitions Présentation de la solution Conclusion
Extraction
Consolidation ELIT ou SD
9
Introduction Définitions Présentation de la solution Conclusion
Envoie
10
SQL
Introduction Définitions Présentation de la solution Conclusion
SGC
11
Introduction Définitions Présentation de la solution Conclusion
Rendre les données accessibles,
Présenter les données d’une façon cohérente et
fiable,
Minimiser le coût d’élaboration de rapport en
ressources (temps et argent),
Assurer une indépendance fonctionnelle vis-à-vis
du système opérationnel, 12
Introduction Définitions Présentation de la solution Conclusion
13
Introduction Définitions Présentation de la solution Conclusion
DD1
DD2
DD58
Présentation de la solution Introduction
14
Définitions Conclusion
15
Présentation de la solution Introduction Définitions Conclusion
bases de données opérationnelles
Infocentre
Entrepôt de données
1970 1980 1990
Évolution des bases de données décisionnelles
« Le Data Warehouse est une collection de données
orientées sujet, intégrées, non volatiles et évolutives dans
le temps, organisées pour le support d’un processus
d’aide à la décision. »[Inmon, 2002]
16
Présentation de la solution Introduction Définitions Conclusion
Usage
17
Présentation de la solution Introduction Définitions Conclusion
Données L’orientation des
données
La situation reflétée
Le stockage des données
La Finalité
Les manipulations
Les utilisateurs
• Les systèmes décisionnels et opérationnels
sont appelés, de part leurs finalités et leurs
usages, à la cohabitation.
• Les systèmes opérationnels représentent la
première source de données pour les
systèmes décisionnels.
18
Présentation de la solution Introduction Définitions Conclusion
Architecture et environnement du DW
19
Extraction Chargement Présentation
Présentation de la solution Introduction Définitions Conclusion
On-Line Analytical Processing (O.L.A.P.) est un style
d’interrogation spécifiquement dimensionnel. Définit par E.
Codd (Père des BDD relationnelles).
On trouve les types suivants de serveurs :
La zone de présentation:
21
Présentation de la solution Introduction Définitions Conclusion
Entrepôt Traitement Présentation
22
Définition
des besoins
Conception de
la zone
d’entreposage
Étude
technique
Conception de
la zone
d’alimentation
Conception
des cubes
dimensionnels
Mise en
route
Introduction Définitions Conclusion Présentation de la solution
23
Présentation de la solution Introduction Définitions Conclusion
Etude des
besoins
Modélisation
dimensionnelle
Gestion et
planification du
projet
Définition de
l’architecture
technique
Conception
physique
Construction
de la zone
d’alimentation
Portail de
restitution
Planification
du
déploiement
Maintenance
et croissance
Étude des besoins dans un projet Data
Warehouse.[Kimball, 96]
Démarche :
Buttom up (sources de données)
Top Down (besoins utilisateurs)
24
Audit de la
base de
données et
SO
Entretiens Supports
existants
Démarche mixte
Présentation de la solution Introduction Définitions Conclusion
25
Cette étude a abouti à :
L’Identification des postes utilisateur (DCM, DCF, PDG, …ETC.)
La Détection des besoins,
La classification des besoins en quatre volets, qui sont :
Ventes,
Suivi des abonnés,
Suivi des affaires,
Recouvrement,
Présentation de la solution Introduction Définitions Conclusion
Analyse des priorités :
Intérêt
Facilité
GA
Ventes
SA
Rec
GA: Gestion des affaires.
Ventes: Suivi des ventes
SA: Suivi des abonnés Rec: Recouvrement
26
Présentation de la solution Introduction Définitions Conclusion
Nouveaux besoins
Nouveaux objectifs
Nouvelle modélisation
27
Présentation de la solution Introduction Définitions Conclusion
Table de fait
-Clé temps
-Clé produit
-Clé magasin
-….
-Montant
-…
Dimension produit
-Clé produit
-Désignation produit
-Type produit
Dimension Temps
-Clé temps
-Année
-Mois
-Jours
-
28
La Modélisation dimensionnelle:
Présentation de la solution Introduction Définitions Conclusion
Dimension magasin
-Clé magasin
-Année
-Mois
-Jours
-
Modélisation
dimensionnelle
Fait
Dimension
Dimension
Dimension
Dimension Dimension Dimension
Dimension
Fait
Fait
Dimension Dimension
29
Présentation de la solution Introduction Définitions Conclusion
Avantages :
Performant,
Simple et intuitif,
Réutilisation des dimensions,
Réduction des temps de chargement,
30
Présentation de la solution Introduction Définitions Conclusion
31
Présentation de la solution Introduction Définitions Conclusion
Le Processus de Modélisation:
Choix de l’activité
Définition de la granularité
Détection des
mesurables
Détection des
dimensions
Construction des agrégats
32
Présentation de la solution Introduction Définitions Conclusion
Structure de la zone d’entreposage:
META DATA
ZONE AGRÉGÉE
ZONE DÉTAILLÉE
Extraire
• Lire
• Interpréter
• Copier
Transformer
• Nettoyer
• Intégrer
Charger
• Charger
• Indexer
• agréger
33
Présentation de la solution Introduction Définitions Conclusion
Extract. Transform. Load (E.T.L.):
34
Processus ETL
Être sûr Être rapide
Être correctif
Être transp
arent
Présentation de la solution Introduction Définitions Conclusion
Qualité de données
35
Etude des sources
Elaboration de stratégie d’extraction
Mise en place d’une architecture
Présentation de la solution Introduction Définitions Conclusion
Etapes de la construction:
ETL
Réseau
Quantité de données
Structure de
l’entreprise
Qualité de données
36
Contraintes
Présentation de la solution Introduction Définitions Conclusion
37
Etude des sources
• SGBD : INGRES 2006,
•452 Tables,
• Open ROAD
• 35 applications
• 2900 utilisateurs,
• 6 millions de clients,
• 70000 factures / jour
Présentation de la solution Introduction Définitions Conclusion
•Gestion des Travaux (Raccordements BT/BP)
•Relève et facturation BT/BP, MT, MP
• Recouvrement
• Trésorerie et comptabilité
38
Etude des sources
Présentation de la solution Introduction Définitions Conclusion
Stratégie d’extraction:
Processus de chargement
Dimensions
Faits
Particulières 39
Présentation de la solution Introduction Définitions Conclusion
Données prêtes a
être chargées
Processus de
chargement
40
Serveur ELIT Système source
Tire Pousse
Base de données
intermédiaire
Architecture de la zone d’alimentation:
Présentation de la solution Introduction Définitions Conclusion
La méthode Push and Pull
Direction regionale
Direction regionale
Direction regionale
SGC
Tra
nsfo
rmation
Staging
SGC
Tra
nsfo
rmation
Staging
SGC
Tra
nsfo
rmation
Staging
Extraction
Extraction
Extraction
Serveur ETL ElitDW
Meta-Data
41
FTP
Architecture globale de la zone d’alimentation:
Présentation de la solution Introduction Définitions Conclusion
En cas de problèmes?
Rôle des METADATA
Solution secours numéro une:
Lancement du chargement paramétré
Solutions secours numéro deux:
Recourt au fichiers historiques.
42
Présentation de la solution Introduction Définitions Conclusion
Outre un chargement sûr, Cette architecture permet :
• Une réduction importante des temps de chargement,
grâce au chargement parallèle
• Facilité de recours à la solution secours en cas d’échec
d’un chargement
• L’impact réduit d’un chargement échoué
Avantages:
43
Présentation de la solution Introduction Définitions Conclusion
44
Présentation de la solution Introduction Définitions Conclusion
Définition des
dimensions
Construction
des
hiérarchies
Définition des
mesurables
45
Présentation de la solution Introduction Définitions Conclusion
Architecture technique:
« QBE »
Entreposage
de données
Alimentation
de l’entrepôt
Serveur
R-OLAP
Outil de
reporting
48
Présentation de la solution Introduction Définitions Conclusion
Data Warehouse
Expansion
Support
Support technique
Formation
46
Présentation de la solution Introduction Définitions Conclusion
47
Meta Data Gestion des utilisateurs
Suivi de l’alimentation
Constitution zone de
restitution
Présentation de la solution Introduction Définitions Conclusion
Présentation de la solution
49
Introduction Définitions Conclusion
Une démarche spécifique.
Présentation de la solution a un « comité de projet »
Déploiement sur des sites pilotes.
Intégration dans une équipe pour étendre la solution.
Offrir un rapport comme support à la solution.
Evolution dans un milieu fort intéressant.
Conclusion Présentation de la solution
50
Introduction Définitions
Suivre le déploiement actuel et recueillir les correctifs et remarques des
utilisateurs.
Etendre le déploiement de manière à couvrir, à terme la, totalité du territoire
national.
Etendre la solution vers d’autres systèmes opérationnels notamment les
systèmes de la HP/HT.
Utilisation des méthodes et algorithmes de Data Mining pour une meilleure
exploitation des données.
Continuer le développement du portail de restitution.
51