cours dw 2012

Upload: yahyaoui-hassen

Post on 14-Jul-2015

209 views

Category:

Documents


0 download

TRANSCRIPT

Institut Suprieur de Gestion, Dpartement Informatique

COURSDATAWAREHOUSE DATAMININGNiveau : 2LFIG

Anne universitaire 2011/2012

PLAN DATAWAREHOUSEContexte Les entrepts de donnes Les entrepts de donnes vs les bases de donnes Les datamarts Architecture Modlisation Alimentation Les bases de donnes multidimensionnelles Les oprations OLAP

2

CONTEXTEBesoin: prise de dcisions stratgiques et tactiques Pourquoi: besoin de ractivit Qui: les dcideurs (non informaticiens) Comment: rpondre aux demandes danalyse des donnes, dgager des informations qualitatives nouvelles

Qui sont mes meilleurs clients?

Pourquoi et comment le chiffre daffaire a baiss? A combien slvent mes ventes journalires?3

Quels tunisiens consomment beaucoup de tel produit?

CONTEXTELES DONNES UTILISABLES PAR LES DCIDEURS Caractristiquesy y y

de ces donnes:

y y

Distribues: systmes parpills Htrognes: systmes et structures de donnes diffrents Dtailles: organisation des donnes selon les processus fonctionnels, donnes surabondantes pour lanalyse Peu/pas adaptes lanalyse : les requtes lourdes peuvent bloquer le systme transactionnel Volatiles: pas dhistorisation systmatique4

CONTEXTE

Enjeux :Les ventes locales : amliorer le chiffre daffaires localAmliorer les ventes locales

Les exportations : cibler de nouveaux clients ltrangerAmliorer les ventes lexport

Les dcideurs : anticiper pour mener une politique globalelaborer des indicateurs

PROBLMATIQUEComment rpondre aux demandes des dcideurs?En donnant un accs rapide et simple linformation stratgique En donnant du sens aux donnes

6

PROBLMATIQUEun ensemble organis d'lments qui permet de regrouper, de classifier, de traiter et de diffuser de l'information

SI SID

un ensemble organis d'lments qui permet de regrouper, de classifier, de traiter et de diffuser de l'information en vue d'offrir une aide la dcision

Mettre en place un systme dinformation ddi aux applications dcisionnelles: un data warehouse7

DATAWAREHOUSEDFINITION

y Collection de donnes : 1. intgres, 2. orientes sujet, 3. non volatiles, 4. historises, 5. rsumes 6. et disponibles pour linterrogation et lanalyse => Pour aider aux prises de dcisions(Inmon 96).8

DATAWAREHOUSEDFINITION

y Collection de donnes : 1. intgres, provenant de sources 2. orientes sujet, diffrentes et 3. non volatiles, ventuellement 4. historises, htrognes. 5. rsumes 6. et disponibles pour linterrogation et lanalyse(Inmon 96).9

DATAWAREHOUSEDFINITION

y Collection de donnes : 1. intgres, rorganises autour des 2. orientes sujet, sujets majeurs de lentreprise de 3. non volatiles, faon tre plus 4. historises, facilement manipulables. 5. rsumes 6. et disponibles pour linterrogation et lanalyse(Inmon 96).10

DATAWAREHOUSEDFINITION

y Collection de donnes : 1. intgres, en lecture seule, 2. orientes sujet, utilises seulement en mode de consultation et 3. non volatiles, ne sont que trs 4. historises, rarement modifies. 5. rsumes 6. et disponibles pour linterrogation et lanalyse(Inmon 96).11

DATAWAREHOUSEDFINITION

y Collection de donnes : 1. intgres, elles sont enregistres 2. orientes sujet, en considrant leur 3. non volatiles, volution (spatio4. historises, temporelle). 5. rsumes 6. et disponibles pour linterrogation et lanalyse(Inmon 96).12

DATAWAREHOUSEDFINITION

y Collection de donnes : 1. intgres, elles sont rorganises 2. orientes sujet, afin de faciliter les analyses et 3. non volatiles, les processus de prise de 4. historises, dcision. 5. rsumes 6. et disponibles pour linterrogation et lanalyse(Inmon 96).13

DOMAINES DUTILISATION DE DATA WAREHOUSE

Banquey y

Risques dun prt, prime plus prcise

Santpidmiologie y Risque alimentaire

Commerce Logistique Assurancey y

Ciblage de clientle y Dterminer des promotionsy

Adquation demande/production Risque li un contrat dassurance (voiture)14

ENTREPT DE DONNES VS BASE DE DONNES 1. BASE DE DONNES

Quest ce quune base de donnes ?

ENTREPT DE DONNES VS BASE DE DONNES 1. BASE DE DONNES BD 1. 2.

ou DB (Database)

Ensemble dinformations structures Accessibles par un LMD (DML)Stockage et mise jour de donnes Recherche de donnes multi-critres

3. 4. 5.

Partages par de multiples utilisateurs Assurant la fiabilit et scurit des donnes Gre par un SGBD sur un serveur16

ENTREPT DE DONNES VS BASE DE DONNES 2. COMPARAISONOLTP: On-Line Transactional Processing Service commercialBD prod

Service FinancierBD prod

Service livraisonBD prod

ClientleH I S T O R I Q U E

Data WarehouseOLAP: On-Line Analytical Processing Clientle

ENTREPT DE DONNES VS BASE DE DONNES 2. COMPARAISONOLTP: On-Line Transactional Processing- est le modle utilis par les SGBD. - Le mode de travail est transactionnel. - L'objectif est de pouvoir insrer, modifier et interroger rapidement et en scurit la base. Ces actions seffectuent trs rapidement par de nombreux utilisateurs simultanment. Chaque transaction travail sur de faibles quantits d'informations, et toujours sur les versions les plus rcentes des donnes.

OLAP: On-Line Analytical Processing

ENTREPT DE DONNES VS BASE DE DONNES 2. COMPARAISONOLTP: On-Line Transactional Processing-Les datawarehouses eux reposent sur le systme OLAP (On Line Analytical Processing). -Ce systme travail en lecture seulement. Consulter d'importantes quantits de donnes pour procder des analyses. Les objectifs principaux sont regrouper, organiser des informations provenant de sources diverses, les intgrer et les stocker pour donner lutilisateur une vue oriente mtier, retrouver et analyser linformation facilement et rapidement. (besoin de lhistorique)

OLAP: On-Line Analytical Processing

ENTREPT DE DONNES VS BASE DE DONNES 2. COMPARAISONOLTP: On-Line Transactional Processing1.Tche principale des SGBD 2. Oprations journalires: purchasing, inventory, banking, manufacturing, registration, accounting, etc.

OLAP: On-Line Analytical Processing

ENTREPT DE DONNES VS BASE DE DONNES 2. COMPARAISONOLTP: On-Line Transactional Processing1.Tche principale des SGBD 2. Oprations journalires: purchasing, inventory, banking, manufacturing, payroll, registration, accounting, etc.

1. Tche principale des DW

OLAP: On-Line Analytical Processing

2. Analyse des donnes et prise de dcision

ENTREPT DE DONNES VS BASE DE DONNES 2. COMPARAISON

OLTPOrient transaction Orient application Donnes courantes Donnes dtailles Donnes volutives

OLAPOrient analyse Orient sujet Donnes historises Donnes agrges Donnes statiques

Utilisateurs nombreux, Utilisateurs peu nombreux, administrateurs/oprationn manager els Temps dexcution: court Temps dexcution: long

DATAMARTSous-ensemble dun entrept de donnes Destin rpondre aux besoins dun secteur ou dune fonction particulire de lentreprise Point de vue spcifique selon des critres mtiers

Datamarts du service Marketing

DW de lentreprise

Datamart du service Ressources Humaines 23

INTRT DES DATAMARTS Nouvel

environnement structur et format en fonction des besoins dun mtier ou dun usage particulier Moins de donnes que DWPlus facile comprendre, manipuler y Amlioration des temps de rponsey

Utilisateurs

plus cibls: DM plus facile dfinir

24

ARCHITECTURE FONCTIONNELLE DU DWSources de Alimentation Entrept donnes de donnesMta-donnes

Ciblage

Analyses & data mining

Bases de donnes

Extract Transform Load

Rapports Magasin de donnes

excelEntrepts de donnes Data mining Cube25

Sources de donnes externes

Phase dalimentation

Phase de modlisation

Phase danalyse

Data warehouse 1. Motivations et architecture 2. Conception de la BD support 3. Alimentation du DW 4. Exploitation OLAP 5. Conclusion26

1.MOTIVATIONS DES ENTREPRISES

Besoin des entreprisesy y y

accder toutes les donnes de lentreprise regrouper les informations dissmines analyser et prendre des dcisions rapidement (OLAP) Grande distribution : marketing, maintenance, ...produits succs, modes, habitudes dachat prfrences par secteurs gographiques

Exemples d'applications concernesy

y y

Bancaire : suivi des clients, gestion de portefeuilles

mailing cibls pour le marketing classification des clients, dtection fraudes, fuites de clients27

Tlcommunications : pannes, fraudes, mobiles, ...

ARCHITECTURE OLTP ET OLAPReports & Analysis

Appli. Appli. Appli.

OLAP

ETL

OLTP

DW

DM

Aides la dcision

28

2. CONCEVOIR LE DW

Export de donnes des sourcesy y y

Htrognes et varies Fichiers, BD patrimoniales, Web, Dfinition des vues exportes Intgre les donnes utiles S'appuie sur le modle relationnel Description des sources Description des vues exportes Description du schma global29

Dfinition d'un schma globaly y

Ncessit d'une gestion de mta-donnesy y y

Conception DW

ORGANISATION PAR SUJET Lesy

donnes sont organises par sujets majeurs:Clients, produits, ventes,

Sujety y

= faits + dimensions

Collecte les donnes utiles sur un sujetExemple: ventes

Synthtise une vue simple des vnements analyser

Exemple: Ventes (N, produit, priode, magasin, )

y

Dtaille la vue selon les dimensionsExemple: Produits(IDprod, description, couleur, taille, ) Magasins(IDmag, nom, ville, dept, pays) Periodes(IDper, anne, trimestre, mois, jour)

30

Conception DW

DW- MODLISATION-Schma entit-relation (classique) - Schma en toile (star schema) - Schma en flocon (snowflake schema) tables de faits : nombreux champs, tables centrales dimensions : peu de champs, permettent dinterprter les faitsTout indicateur est modlis sous la forme dune toile ou dun flocon31

SCHMA EN TOILEStructure simple utilisant le modle entit-relation Une entit centrale (faits) - objet de lanalyse Des entits priphriques (1seul niveau) - dimensions de lanalyse

32

EXEMPLE DE SCHMA EN TOILE

Une table de faits encadres par N tables de dimensionsProduits

PeriodeKey_periode anne trimestre mois jour

Table de faits ventes Key_periode Key_produit Key_magasin units_vendues montant_vente amount of s sales

Key_prod description couleur taille fournisseur

MagasinsKey_mag nom ville dpartement 33 pays

SCHMA EN TOILETuples de la table des faits cls trangres formant une cl primaire des valeurs associes chaque cl primaire

34

EXEMPLE DE SCHNEMA ENFLOCONStimetime_key day day_of_the_week month quarter year item

Sales Fact Table time_key item_key branch_key

item_key item_name brand type supplier_key

supplier supplier_key supplier_type

branch branch_key branch_name branch_type

locationlocation_key street city_key

location_key units_sold dollars_sold avg_sales Measures

citycity_key city province_or_street 35 country

SCHMA EN FLOCONSEvolution du star schema Normalisation des tables de dimensions 1 table Fait Plusieurs niveaux de tables de dimensions

36

SCHMA EN FLOCONS

Raffinement du schma toile avec des tables normalises par dimensionsProduits IDprod description couleur taille IDfour Fournisseurs IDfour description type Adresse

Ventes

37

BILAN CONCEPTIONLe datawarehouse regroupe, historise, rsume les donnes de l'entreprise Le concepteur dfinit schma exports et intgrsy y

des choix fondamentaux ! Ciblage essentiel !

Le datamart cest plus cibl et plus petit. Question?y

Peut-on ajouter des donnes au niveau de l entrept ?

38

Conception DW

LAnalyse MultiDimensionnellObjectif Obtenir des informations dj agrges selon les besoins de lutilisateur : simplicit et rapidit daccs

HyperCube OLAP Reprsentation de linformation dans un hypercube N dimensions

OLAP(On-Line Analytical Processing) Fonctionnalits qui servent faciliter lanalyse multidimensionnelle : oprations ralisables sur lHyperCube39

DW

Base Multidimensionnell

De la relation au Cube

agrgations

40

Modlisation multidimensionnelle Gnralisation des tableurs Notion de Cube de donnes : Data Cube Reprsentation de N attributs extraits d une table sous forme d un cube, N-k attributs composant les dimensions le long desquelles des groupements sont possibles, les k autres tant des mesures rsultant de fonctions d agrgations. Exemple : Dfinition d un cube sur quantit selon les axes NumPro, NumFou et Date partir de la table Ventes: Ventes ( NV, NUMPRO, NUMFOU, DATE, QTE, PRIX)

41

CUBE DE DONNES

Date NumFou 2006

350 600 300 300 500 400 250P1 P2

2005

NumPro

2004

200F1 P3

F2

42

Exploitation multidimensionnelle Intrt d un cube : Possibilit des raliser des coupes par slection selon une dimension. Vue d un cube : Vue dfinie partir d un cube de donnes par agrgation des quantits selon un sous-ensemble des attributs. Pour un cube de dimension k, il existe 2k vues avec NumPro, NumFou, Date une fonction d agrgat. NumPro, Date NumPro, NumFou

NumFou, Date

NumPro

NumFou

Date

43

LE DATA CUBE ET LES DIMENSIONS

Axe d'analyse: La gographie (Pays - rgion - ville)

Variables analyses: Nb units, CA, marge... Axe d'analyse: Les produits (classe, produit) Axe d'analyse: Le temps (Anne, trimestre, mois, semaine) Axes d'analyse: dimensions 44 Variables analyses: indicateurs

Le multidimensionnel Dimensions:

Indicateurs:

Temps Gographie Produits Clients Canaux de ventes.....

Nombre dunits vendues CA Cot Marge.....

45

Analyse multidimensionnelle

Capacit manipuler des donnes qui ont t agr Selon diffrentes dimensionsExemple : analyse des ventes / catgorie de produit + /anne + /zone gographique + /dpartement commercial 3 dim. 4 dim. 1 dim. 2 dim.

+

46

LA GRANULARIT DES DIMENSIONS

Temps

Jours

Mois

Trimestres

Annes

Gographie

Villes

Rgions

Pays

Produits

Numros

Types

Gammes

Marques47

EXEMPLE

Montant des ventes fonction de (Mois, rgion, Produit)Granularit des dimensions : Type Rgion Catgorie Pays

Anne Trimestre Mois Semain Jour48

Produit

Produit

Ville

MagasinMois

LA NAVIGATIONMULTIDIMENSIONNELLEZoom selon une dimension Coupe d un cubeProduits pour une rgion donne

CAFrance Est Lyon Sud Ouest Nice

Temps en semaines

Marseille

49

Rle des axes danalyseFournir, grce aux hirarchies dont ils sont porteurs, des rgles de calcul dagrgats.

85

Somme des fils = valeurs du pre

15

20

50

10

5

10 10

20

3050

agrgation

Rle des axes danalyseFournir pour lanalyse, les mcanismes de cheminements Dans linformation, de la synthse vers le dtail (zoom avant/arrire) 85

Zoom avant/arrire

15

20

50

10

5

10 10

20

3051

La navigation

Oprations sur le cube ButVisualisation/Utilisation dun fragment de lhypercube

3 catgories doprationsCatgorie Restructuration Granularit Ensembliste Concerne Reprsentation Niveau de dtail Extraction52

RestructurationRorientation de la vue multidimensionnelle * slection graphique * flexibilit du schma

-Rotate/Pivot -Switch -Split -Nest -Push53

-Rotate/Pivot

54

-Switch

55

-Split

56

-Nest

57

GranularitNavigation entre les niveaux * groupements * agrgation

Manipulations ncessitant des informations non contenues dans le cube

-Roll-up -Drill down

Cuboids58

-Roll-up Rduction d une dimension du cube en la remplaant par une dimension grain plus large, donc en allant du dtail vers le global. Exemple : CUBE (Produits, Date, Ville) * Oprateur de pliage sur l axe Date : Rollup (Anne Mois), Rollup(Anne) * Possibilit de faire l agrgat total selon une dimension axe date : Rollup ( ) : supprime la dimension date et somme pour toute date59

-Roll-up :-dune vue dtaille une vue globale

60

-Drill-downDpliage : Extension d une dimension du cube en la remplaant par une dimension grains plus fins, donc en allant du global vers le dtail. Exemple : Pour le cube CUBE (Fournisseurs, Anne, Pays) * oprateur de Dpliage sur l axe anne : Drilldown (Anne Mois), Drilldown (Anne Mois Jour)

Eclater les mesures selon les valeurs de la nouvelle donne introdu61

-Drill-down : - dune vue globale une vue dtaille

62

GranularitPour faciliter : Drill-down Roll-up Mmorisation de certaines vues concrtes Mais lesquelles?? Problme de recherche : -Maximiser la rutilisation des rsultats des cubes prcdents pour calculer des cubes plus globaux. -La fonction dagrgation change aussi la nature du pbm

Fonction additive : sum, min, max Fonction algbrique : avg, Fonction holistique : mdiane,

63

Manipulations ensemblistes

Manipulations classiques Extension plusieurs dimensions

-Slection -Projection -Jointure64

-Slection

65

-Projection

66

-Jointure

67

Coupes du cube Coupe (SLICE): Slection de tranches du cube par desprdicats selon une dimension Exemple : * Cube (Produits, Date, Ville) * Coupe selon l axe des dates : Slice (10-02-98), Slice ( >1998 AND 2005 AND < 2006) [Cube] ] ] ].69

Rsum :L'algbre des cubes Roll up :

Agrger selon une dimension

Semaine Drill down :

Mois

Dtailler selon une dimension

Mois Semaine Slice et Dice:

Slection et projection selon 1 axe

Mois = 04-2006 ; Projeter(Rgion, Produit)

Pivot :

Tourne le cube pour visualiser une face

(Rgion,Produit) (Rgion, Mois)

70

Le multidimensionnel

FIN

BILAN GESTIONLa modlisation multidimensionnelle est adapte l analyse de donnes Le datacube est au centre du processus dcisionnely y y

transformation et visualisation 3D une algbre du cube De multiples techniques d'optimisation Combien de datacubes partir de N variables ?

Questions ?y72

Le multidimensionnel

5. IMPLMENTATION

Multidimensional OLAP (MOLAP)y

implmentent les cubes comme des matrices en mmoire implmentent les cubes comme des tables relationnelles certaines donnes en matrices en mmoires, d'autres en tables sur disques

Relational OLAP (ROLAP)y

Hybrid systems (HOLAP ou MROLAP)y

73

Implmentation

Choix d un SGBD Relationnel : ROLAP

* Donnes stockes en tables * Donnes exploites par des fonctions OLAP spciales (Group by et Cube)

* ROLAP : Technique implmentant les fonctions OLAP de typecalcul du cube de donnes au sein d un SGBD relationnel

* 2 Types de schmas relationnels dans les entrepts :74

Schma en toile et Schma en flocon

Excution de requtes (ROL1. 2. Traduction de requte OLAP en requtes SQL Dtermination des vues matrialises questionner * de niveau adquat * de cot moindre

75

MOLAPTechnologie de bases de donnes multidimensionnelles * structure de stockage = tableaux *MOLAP : Technique implmentant les fonctions OLAP de type calcul du cube de donnes directement en mmoire virtuelle , avec des structures de donnes persistantes adaptes * SGBD multidimensionnel : SGBD ddi aux calculs de cubes - implmentation de type tableau : CUBE [1:M, 1:N, 1:P]76

MOLAPCorrespondance directe avec la vue MD Gestion de la faible densit (sparsity) * structure dindex = dimensions peu denses * donnes = tableaux des dimensions denses Problme dextensibilit

* MROLAP : Couche multidimensionnelle au dessus d un SGBD relationnel

77

ROLAP VERSUS MROLAPSQL+Cube SQL+Cube

Analyseur Optimiseur Oprateurs relationnels Oprateurs dcisionnels Cache SGBD

Oprateurs dcisionnelsSQL

Cache Cube

Analyseur Optimiseur Oprateurs relationnels Cache SGBD

78

Implmentation

HOLAPCombinaison des technologies ROLAP et MOLAP * donnes dtailles dans BDR * donnes agrges dans BDMD

SGBD Relationnel avec des oprateurs et algorithmes adquats : -GROUP BY CUBE -StarJoin, Index Bitmap

79

MOLAP

ROLAP

HOLAP

Stockage multidim. natif

Stockage Relationnel Restitution multidimension. Optimisation du volume stock par mise en uvre de mcanismes de calculs dynamiques dagrgats

Stockage multidimension Et relationnel Restitution Multidimension. avec gestion dynamique du dcrochage vers la base de dtail relationnel

80

EVOLUTION DES SGBD

Utilisation intensive des calculs d'agrgatsy

Optimisation, concrtisation Fonctions agrgats

Nouvelles fonctions de SQLy y

Rank, Moving Average, Rollup, Cube, ... Pivot, Standard dviation, Covariance, Corrlation

Fonctions statistiques:

81

Implmentation

VUES CONCRTESCREATE MATERIALIZED VIEW (column_list) AS SELECT La vue est pr-calcule par le SGBD y

Pr-calcul des agrgats et jointures

Elle est maintenue lors des mises jour Les requtes sont reformules contre la vue d'une manire transparente pour l'usager

82

Implmentation

EXEMPLETable:Emp(#emp, job, salary)

Dfinition de la vue:CREATE MATERIALIZEDVIEW job_avg_sal AS select job, avg(sal) avg_sal FROM emp GROUP BY job;

Interrogation de la vue:SELECT job FROM job_avg_sal WHERE avg_sal > 1000083

Implmentation

EXTENSION DE SQL

ROLLUP:SELECT y FROM y GROUP BY ROLLUP(column_list);y

CUBE:SELECT y FROM y GROUP BY CUBE(column_list);y

Cre des agrgats n+1 niveaux, n tant le nombre de colonne de groupagey

n, n-1, n-2,0 colonnes

Cre 2n combinaisons d'agrgats, n tant le nombre de colonne de groupage84

Implmentation

EXEMPLE CUBE

Ani mal Chien Chat Tortue Chien Chat Chien Tortue

Lie u Paris Paris Rome Rome Naples Naples Naples

Qua ntite 12 18 4 14 9 5 1

SELECT Animal, Lieu, SUM(Quantite) as Quantite FROM Animaux GROUP BY Animal, Magasin WITH CUBE

Ani mal Chat Chat Chat Chien Chien Chien Chien Tortue Tortue Tortue -

Lie u Paris Naples Paris Naples Rome Naples Rome Paris Naples Rome

Qua ntite 18 9 27 12 5 14 31 1 4 5 63 30 85 15 18

Implmentation

EXEMPLE ROLLUP

An ima l Chien Chat Tortue Chien Chat Chien Tortue

Li eu Paris Paris Rome Rome Naples Naples Naples

Qu ant ite 12 18 4 14 9 5 1

SELECT Animal, Lieu, SUM(Quantite) as Quantite FROM Animaux GROUP BY Animal,Magasin WITH ROLLUP

Animal Chat Chat Chat Chien Chien Chien Chien Tortue Tortue Tortue -

Lieu Paris Naples Paris Naples Rome Naples Rome -

Quantite 18 9 27 12 5 14 31 1 4 5 6386

Implmentation

MTA-DONNES

Standard en mergence CWMy

Common Warehouse Meta-model

Bas sur le mta-modle objet de l'OMG (MOF)y

Mta-mta-modle

MOF

y

Constructions de base: classe (attribut, operation), association, package, type de donnes, contraintes Extensions: mtaclasses, mtarelations

Mta-modle

UML

CWM

EJB

Modle

Dfini en UML Echang en XML (XMi)Instance

Vente numv numpro quantit prixtot

Mta-donnes

Objet

87

Implmentation

LES PACKAGES CWMManagement Analysis ResourcesWarehouse Process Transformation OLAP ObjectOriented(ObjectModel)

Warehouse Operation Data Information Business Mining Visualization Nomenclature RecordOriented Multi Dimensional XML

Relational

Foundation

Business Data Keys Type Software Expressions Information Types Index Mapping Deployment

ObjectModel(Core, Behavioral, Relationships, Instance)88

Chaque package est dfini en UML ...Implmentation

QUELQUES OUTILS OLAP

Oracley y y

Cognosy y y

OLAP API = Datacube Express = Analyse Report = Reporting

Impromptu = Reporting Powerplay = Datacube Query = Requtage ESS Base = Base MOLAP ESS Analysis= Analyse + Datacube

Business Objecty y

Hyperiony y

y

BusinessQuery = Requtage BusinessObject = Requtage + Analyse + Reporting WebIntelligence = Datacube

89

Implmentation

6. LE MARCH DU BIBI= Business Intelligence

90 Data PRO Users Survey

Conclusion

LES DATA TRUCS

Datawarehousey

entrept des donnes historises de l'entreprise magasin de donnes cibl sur un ou plusieurs sujets exploration des donnes afin de dcouvrir des connaissances cube de prsentation d'units selon 3 dimensions entrept des donnes collectes sur le web91

Datamarty

Dataminingy

Datacubey

Datawebhousey

Conclusion

Data Warehouse Usage Three kinds of data warehouse applications

Information processing

supports querying, basic statistical analysis, and reporting using crosstabs, tables, charts and graphs multidimensional analysis of data warehouse data supports basic OLAP operations, slice-dice, drilling, pivoting knowledge discovery from hidden patterns supports associations, constructing analytical models, performing classification and prediction, and presenting the mining results using visualization tools.92

Analytical processing

Data mining

Differences among the three tasks

From On-Line Analytical Processing to On Line Analytical Mining (OLAM) Why online analytical mining?

High quality of data in data warehouses DW contains integrated, consistent, cleaned data Available information processing structure surrounding data warehouses ODBC, OLEDB, Web accessing, service facilities, reporting and OLAP tools OLAP-based exploratory data analysis mining with drilling, dicing, pivoting, etc. On-line selection of data mining functions integration and swapping of multiple mining functions, 93 algorithms, and tasks.

Architecture of OLAM

An OLAM ArchitectureMining query Mining result

Layer4 User Interface

User GUI APIOLAM Engine OLAP Engine

Layer3 OLAP/OLAM

Data Cube API Layer2 MDDB Meta DataFilteri ng

MDDB

Filtering&Integrati on

Database APIData cleaning Data integration

Layer1 Data Repository94

Databas es

Data Warehou se

Conclusion Data warehouse

A subject-oriented, integrated, time-variant, and nonvolatile collection of data in support of managements decision-making process Star schema, snowflake schema, fact constellations A data cube consists of dimensions & measures

A multi-dimensional model of a data warehouse

OLAP operations: drilling, rolling, slicing, dicing and pivoting OLAP servers: ROLAP, MOLAP, HOLAP Efficient computation of data cubes

Partial vs. full vs. no materialization Multiway array aggregation Bitmap index and join index implementations Discovery-drive and multi-feature cubes From OLAP to OLAM (on-line analytical mining)95

Further development of data cube technology

3. Alimenter le DWOutils dalimentation pour extraire transformer stocker dans DWH Donnes sources

96

Alimenter le DW ETL = Extracteur + Intgrateur

Extract + Transform + Load

Extraction

Depuis les bases sources ou les journaux Diffrentes techniques

Push = rgles (triggers) Pull = requtes (queries) Dater ou marquer les donnes envoyes Ne pas perturber les applications OLTP97

Priodique et rpte

Difficult

L'alimentation

Extraction1re Phase : extraction des donnes utiles

{ SGBD { Modles { Mthode daccs { Environnement Matriel + Orientation transactionnelle

-Eviter de perturber les Syst.de production -1 ou +srs passes * donnes en tps rel * donnes mensuelles

98

Extracteur : Accs en natif aux diffrentes sources

Transformer

obtenir un ensemble homogne de donnes donnes comparables, additionnables

Nettoyer /Intgrer/Structurer99

TRANSFORMATION

Accs unifis aux donnesy

Unification des modles

Traduction de fichiers, BD rseaux, annuaires en tables Evolution vers XML (modle d'change) plus riche Rowset, SQL limit, SQL complet,

y

Unification des accs

Mapping plus ou moins sophistiquy

Unification des noms

Appeler pareil les mmes choses et diffremment les choses diffrentes Application des "business rules"

y y

Elimination des doubles Jointure, projection, agrgation (SUM, AVG)100

Cleaning des donnes

L'alimentation

Nettoyage des donnesdonnes errones analyse errone! les valeurs aberrantes (noisy data)

-Isoler les pics de certaines valeurs dans une distribution statistiques. -Dfinir un espace compris entre la moyenne et un certain nombre dcart type, et exclure ou plafonner toutes les valeurs > seuil (du type moyenne + 3 carts types).101

Nettoyage des donnes

les valeurs manquantes - exclure les enregistrements incomplets - saisir manuellement ces valeurs manquantes - remplacer ces donnes par la moyenne -utiliser une constante globale unknown

les valeurs nulles : valeur conventionnelle pour une information inconnue ou inapplicable102

Nettoyage des donnes les valeurs redondantes -au niveau dune mme source - au niveau de plusieurs sources - exemple : la rfrence client dans la BD Commerciale et dans BD Marketing

103

Cohrence et Qualit du data warehouse

Intgration/RestructurationSuppression des incohrences smantiques entre les sources - diffrents noms/longueurs/types pour un mme attribut

Systmes oprationnels Application 1 Application 2 Application 3 Application 4 m,f 1,0 x,y homme,femme

Data warehouse m,f m,f m,f m,f104

Intgration/Restructuration (suite) diffrence de normalisation/structure des tables (normalisation/dnormalisation) Le champ adresse est dcoup en n champs cibles: numro , rue , codepostal , pays , particularits ville ,

conversions -105

Intgration/monovariable Agrgation : les donnes des ventes journalires sont agrges pour calculer les montants totaux mensuels et annuels.

Transformation des dates en dures: (ractivit dun client : diffrence entre une date denvoi dun catalogue et une date de commande). Modification des donnes gographiques en coordonnes: (ajouter les coordonnes de longitude et latitude pour intgrer les contraintes de proximit dans le raisonnement).106

Intgration/multivariableLes ratios : Exemple : montant des achats relatifs une famille de produits sera rapport au montant global des achats (degr dimplication du client pour ce type darticles) La frquence : Exemple : nombre de commandes sur les x dernires priodes

107

Intgration/multivariable (suite) Les tendances No 1 2 3 Priode 1 235 200 Priode 2 536 203 Tendance ++ =

Les combinaisons linaires/non linaires

108

Data Cleaning Valeurs manquantes (nulles)

Ignorer le tuple Remplacer par une valeur fixe ou par la moyenne Gnres en prsence de bruits Dtecter par une analyse de voisinage

Valeurs errones ou inconsistantes

cart par rapport la moyenne Factorisation en groupes (outliers)

Remplacer par une valeur fixe ou par la moyenne

Inspection manuelle de certaines donnes possibleL'alimentation

109

CHARGEMENT Pasy

de mise jour

Insertion de nouvelles donnes y Archivage de donnes anciennes Dey

gros volumes

Priodicit parfois longue y Chargement en blocs (bulk load) y Mise jour des index et rsums Problmes

Cohabitation avec l'OLAP ? y Procdures de reprises ?y110

L'alimentation

Charger

Donnes pures et transformes

Matrialisation des vues Plus Tris Consolidation Normalisation Vrification des contraintes dintgrit et Partitionnement des donnes (si plusieurs datamarts) Cration des indexes111

PRINCIPAUX ETL (JDNET)Issue du rachat d'Acta, cette solution se propose de rendre accessible en "quasi-temps rel" les donnes les plus souvent accdes. L'un des diteurs de rfrence dans le domaine de l'ETL, qui s'tend sur la partie middleware en intgrant aussi les transactions. DataStage XE est l'offre traditionnelle d'Ardent qu'Informix a rachet dbut 2000 avant qu'Ascential ne la reprenne son compte lors de sa prise d'indpendance, tandis qu'Informix partait chez IBM avec ses entrepts de donnes. Computer Associates est plus connu pour ses offres de scurit, de surveillance et de gestion d'infrastructures rseaux/informatiques. Mais son offre ETL s'avre assez complte y compris pour maintenir l'intgrit des mtadonnes sur toute la chane de traitement. L'outil ETL s'appelle Vision:Pursuit. Acta tait le fournisseur historique du premier connecteur SAP. Partenaire notamment de Siebel, Peoplesoft et JDEdwards. Interfaage avec Cognos, Hyperion, Actuate et Brio. Parfois cite comme plate-forme ETL de rfrence par certains acteurs, mais pas ceux de la business intelligence, ETI.Extract fonctionne avec des librairies pour supporter les entrepts de donnes et des plugins additionnels en prolongement d'applications prcises. Surtout connu pour son offre de portail, Hummingbird fournit galement une plateforme ETL et EAI du nom de Genio Suite, assez rpute. En outre, une offre de business intelligence classique, BI/Suite prolonge le portail. Mais il n'est pas question de CRM analytique. Mais Genio Miner aggrge plus de L'une des plates-formes 15 algorithmes de d'extraction / datamining diffrents. transformation de donnes les plus compltes et rpandues. PowerCenter l'chelle de l'entreprise, et PowerMart celle du service ou du dpartement. Informatica s'est rcemment engag sur le crneau des applications analytiques, mais l'offre ETL est indpendante. Extraction standard depuis: fichiers plats (C et Cobol), Siebel, les SGBDR, Informix, Teradata, Oracle Financials, PeopleSoft HRMS, SAP R3 et BW... Librairies pour toutes les bases de donnes cidessous, sauf Hyperion, sur systmes anciens et plus rcents. Plugins ETI.Accelerator pour Entrepts de donnes : Siebel, SQL/Teradata et Oracle, Sybase,MQ (IBM, les middleware Teradata, Hyperion Tibco...). Essbase, MS SQL Server et IBM DB2. Prise en charge nouvelle des formats de donnes : XML, mainframe, SAP en natif, binaires, versions rcentes des SGBDR. En EAI: Siebel, SAP, support de MQ Series. Le roadmap prvoit l'intgration prochaine des acteurs comme Brio, Gamme extrmement BO, Cognos et vaste de connecteurs MicroStrategy. spcifiques aux sources de donnes pour consolider tous les principaux entrepts de donnes. Pour citer quelques acteurs du CRM analytique en vrac: Siebel, Business Objects, Oracle, Hyperion, Crystal Decisions, Brio, SAP, Cognos, Peoplesoft, Kana, Nuance, Microstrategy... ainsi que les middleware MQ pour aller plus loin.

Business ObjectsActaWorks

ETIETI.Extract

Ascential SoftwareDataStage XE

Plus de 40 connecteurs natifs vers des sources de donnes, dont IBM/Informix, Oracle, Sybase, Teradata et IBM DB2. Package complet ddi SAP et la collection de modules MySAP. Partie analytique: Brio, Business Objects, SPSS et Crystal Decisions.

HummingbirdGenio Suite 5

Computer AssociatesDecisionBase

Connecteurs en direct pour extraire les donnes en temps rel depuis SAP, PeopleSoft et des systmes mainframes. Accs de nombreuses sources de donnes dont IBM/Informix, Oracle, Sybase, IBM DB2, HTML et fichiers txt.

InformaticaPowerCenter 5

112

http://solutions.journaldunet.com/0208/020827_bi_panorama1.shtml

4. GRER L'ENTREPT Basey

relationnelle

Support de larges volumes (qq 100 gigas qq tras) y Historisation des donnes (fentres) y Importance des agrgats et chargements en blocs Basey

spcialise

Base multidimensionnelle y Combinaison des deux Machiney

support parallle113

Multiprocesseurs y Mmoire partage, cluster, bus partag, etc.Le multidimensionnel

PRINCIPAUX SYSTMES (JDNET)HyperionEssbase EssBase est l'entrept de donnes multidimensionnel de rfrence sur le march de la business intelligence. Possibilit de complter avec l'offre analytique d'Hyperion ou des solutions tierces. Ce n'est pas la base de donnes de se connecter aux applications mais aux applications de se connecter la base de donnes. Les accs vers Essbase sont nombreux. Se reporter aux autres catgories pour savoir qui accde quelles sources.

NCRTeradata Database

Entrept de donnes multi-dimensionnel avec des extensions de divers types dont des formules de data mining. Rput notamment pour ses capacits de monte en charge sous Unix et Windows 2000. Dernire version de la base de donnes relationnelle de l'diteur, Oracle 9i est retaille dans une optique qui approfondit les fonctions ddies la business intelligence. Peut galement fonctionner comme entrept de donnes OLAP. IQ est la version dcline de la base de donnes relationnelle de Sybase, pour des besoins en rapport avec la business intelligence, donc aussi le CRM analytique.

Les solutions qui accdent Teradata sont a priori un peu moins nombreuses que pour Hyperion Essbase, Microsoft, IBM DB2, Oracle et Sybase.

IBMDB2/UDB, Informix XPS et Red Brick

DB2/Universal DataBase est la base de donnes relationnelle d'IBM. En rachetant Informix et son activit bases de donnes, Big Blue a rcupr ses entrepts de donnes multidimensionnels: XPS (datawarehouse), et Red Brick (datamart).

Mme remarque que pour Hyperion, en particulier pour DB2 qui est relativement rpandue. Se renseigner sur les solutions qui peuvent accder nativement aux diffrents SGBD OLAP propritaires d'Informix.

OracleOracle 9i

Mme remarque que pour Hyperion et Microsoft, car Oracle 8i est encore trs rpandue.

MicrosoftSQL Server 2000

La version la plus rcente de la SGBDR (base de donnes relationnelle) de Microsoft. A enrichi ses fonctions OLAP avec Analysis Services. Parmi celles-ci: l'accs direct aux cubes via le web, et une extension data mining.

Mme remarque que pour Hyperion. SQL Server est trs rpandue, mais souvent encore en version 7.0 qui peut aussi tre attaque par la plupart des solutions du commerce qui fonctionnent sous Windows

SybaseAdaptive Server IQ

Mme remarque que pour Hyperion, IBM DB2, Oracle et Microsoft

114

http://solutions.journaldunet.com/0110/011025_crm_tableau2.shtml

Exemple de traitement typiquLes ventes de vis sont plus faibles que prvu Quelles couleurs sont responsables ??

SELECT couleur, SUM(prix) FROM Ventes, Produits WHEREVentes.codeProduit = Produits.codeProduit AND modle = vis GROUP BY couleur115

Exemple de traitement typiquQuelles mois sont responsables ??

SELECT couleur, mois, SUM(prix) FROM Ventes, Produits, Temps WHEREVentes.codeProduit = Produits.codeProduit AND Ventes.date = Temps.jour AND modle = vis GROUP BY couleur, mois

116

Exemple de traitement typiquQuelles vendeurs sont responsables ??

SELECT vendeur, mois, SUM(prix) FROM Ventes, Produits, Temps WHEREVentes.codeProduit = Produits.codeProduit AND Ventes.date = Temps.jour AND modle = vis AND couleur = rose GROUP BY mois, vendeur117

Exemple de traitement typiquQuelles annes sont responsables ??

SELECT vendeur, anne, SUM(prix) FROM Ventes, Produits, Temps WHEREVentes.codeProduit = Produits.codeProduit AND Ventes.date = Temps.jour AND modle = vis AND couleur = rose GROUP BY anne, vendeur118

ProblmatiqueChaudhuri et Dayal 97

Supporter des oprations tableur sur des BD de plusieurs GO. Besoins spcifiques langages de manipulation organisation des donnes mthodes daccs 119

ModleForme proche des abstractions de lanalyste Organisation des donnes selon plusieurs dimensions selon diffrents niveaux de dtail en ensemble Donne = point dans lespace associe des valeurs

120