etl overview iup vannes

UNIVERSITÉ DE BRETAGNE-SUD

IUP MISRUE YVES MAINGUY

56000 VANNES

Étude comparativedes différents outils d'ETL

(Extract, Transform, Load) dumarché

ETUDE RÉALISÉE DANS LE CADRE DU COURS

DE SYSTÈME DÉCISIONNEL

CHLOÉ FRIGUET

MARIE COUSSEAU

MASTER 1 STAT

SOUTENANCE : 12 MAI 2005

Mise en contexte..............................................................................................3

1.Principe de l’alimentation.............................................................................51.1.Extraction des données......................................................................................51.2.Transformation des données.............................................................................61.3.Chargement de données....................................................................................6

2.Les outils ETL....................................................................................... .........7

3.Le marché des outils ETL.............................................................................83.1.Les leaders du marché.....................................................................................10

3.1.1.Informatica : PowerCenter....................................................................................103.1.2.SAS : ETL Serveur...............................................................................................123.1.3.Ascential : Datastage et Datastage TX.................................................................12

3.2.Les challengers................................................................................................133.2.1.DataMirror : Transformation Server......................................................................133.2.2.Cognos : DecisionStream.....................................................................................143.2.3.Microsoft : Data Transformation Services............................................................153.2.4.Oracle : Data Integration.......................................................................................153.2.5.BusinessObjects : Data Integrator........................................................................153.2.6.Hummingbird : Genio................................................................................ ............163.2.7.Sunopsis : Sunopsis ETL et Sunopsis Real-time ETL..........................................16

4.Les caractéristiques....................................................................................194.1.Transformation des données : plusieurs approches........................................19

4.1.1.Les serveurs ETL..................................................................................................194.1.2.Utilisation de fonctions intégrées..........................................................................204.1.3.Les outils générateurs de code.............................................................................204.1.4.Développement manuel d’un outil ETL.................................................................214.1.5.Comparaison des différentes approches..............................................................22

4.2.Temps réel / Batch ..........................................................................................224.2.1.Temps réel – mode synchrone.............................................................................234.2.2.Mode batch – mode asynchrone...........................................................................23

4.3.ETL et gestion des métadonnées....................................................................234.4.Autres caractéristiques.....................................................................................24

4.4.1.Architecture et environnement technique.............................................................244.4.2.Prix des outils en fonction des configurations choisies.........................................244.4.3.Interfaces graphiques............................................................................................25

Conclusion....................................................................................... ...............26

Bibliographie..................................................................................................28

Glossaire............................................................................. ............................29

Annexes...........................................................................................................30

2

Mise en contexte

Un Système d'Information Décisionnel (SID) est un outil destiné à recueillir,organiser, mettre en forme et diffuser des données de manière à en faire desinformations. Un SID est un dispositif à double face : il combine des donnéesd'origines diverses (opérationnelles ou externes) et les met à disposition desutilisateurs selon des objectifs informationnels.

Schéma 1 : Représentation schématique d'un datawarehouse

Les Systèmes Décisionnels se caractérisent par :o d'importants volumes de données qui évoluent rapidement,

o des exigences de temps d'accès,

o l'absence de mises à jour transactionnelles,

o des besoins évolutifs,

o des requêtes imprévisibles et pouvant rapprocher des données "éloignées".

En général, les données sources, qui peuvent représenter un gros volume, nesont ni cohérentes sémantiquement, ni liées entre elles d'une manière adaptée à laperspective décisionnelle. De plus, les environnements d'où proviennent cesdonnées sont conçus et organisés d'une manière qui se prête mal à l'implémentationd'applications décisionnelles. Ces contraintes sont à prendre en compte lors de lamise en place d'un entrepôt de données.

D'une manière générale, la mise à disposition des données implique quatreétapes :

o Collecte des données : approvisionnement du SID en données (à partir desbases de production (opérationnelles) ou de l'extérieur),

3

o Intégration des données : pour assurer la cohérence globale des données(modèle unifié) et leur mise à disposition en un point unique (entrepôt),

o Diffusion des données : mise à disposition des applications, sous formedimensionnelle, des données puisées dans l'entrepôt,

o Présentation des données : accès aux données organisées (formedimensionnelle) par les utilisateurs au moyen de services logiciels. Égalementappelée reporting, cette étape se charge de diffuser et de présenter lesinformations à valeur ajoutée de telle sorte qu’elles apparaissent de la façonla plus lisible possible pour le décideur. Nous allons nous intéresser plus particulièrement aux deux premières

fonctions : collecte et intégration des données. Le Système de Collecte etd'Intégration des données (SCI) est un sous système d'un SID complexe maisessentiel : c'est sur lui que repose le SID. En effet, la base d'intégration des donnéesest l'entrepôt de données lui-même. La diffusion des données se fait à partir de cetentrepôt.

Le SCI doit avoir un impact minimal sur la fonction opérationnelle mais il doit,en même temps, permettre le rafraîchissement périodique des données en fonctiondes besoins des utilisateurs. Le rôle du SCI est de collecter les données à partir dedifférentes sources et de les mettre en forme, conformément à un modèle(intégration). Un même outil peut effectuer les fonctions de collecte, detransformation et de chargement des données. C'est le cas des outils ETL.

4

1. Principe de l’alimentation

L’alimentation d’un entrepôt de données se déroule en trois étapes :l’extraction des données à partir des bases sources, leur transformation puis lechargement dans l’entrepôt.

Schéma 2 : Alimentation d'un datawarehouse

1.1.Extraction des données

La première phase de la construction d’un entrepôt de données consiste àextraire les données utiles des systèmes opérationnels, sans pour autant perturberles environnements de production. Ces données sont dans de nombreux cashétérogènes, complexes et diffuses :

o Hétérogènes : on rencontre plusieurs SGBD différents et parfois plusieursméthodes d’accès

o Complexes : les données sont organisées en vue de traitementstransactionnels

o Diffuses : les données proviennent de plusieurs environnements matériels,voire de différents sites connectés par un réseauL'extracteur est un composant logiciel simple dont le but est de prélever un

flux de données à partir des systèmes de production pour alimenter le systèmedécisionnel. Son rôle est prédominant dans la capacité du système décisionnel à sepréserver des évolutions structurelles des systèmes en amont. On réalise unextracteur par nature de flux à prélever sur les applications opérationnelles.L'extracteur met à disposition du système d'information décisionnel un flux dedonnées au format fixe, validé en phase de spécification.L'extraction peut être de deux types :

o totale : on extrait la globalité du flux à chaque traitement. Technique adaptéedans le cas d'une volumétrie réduite.

o incrémentale ou "Delta" : on ne traite que les enregistrements créés,modifiés ou supprimés depuis la dernière extraction.

5

Transform

Les données sont extraites des bases de production à la création de l’entrepôtet lors des rafraîchissements. À la création de l’entrepôt, un premier chargement esteffectué. Cela consiste à prendre une copie intégrale des données opérationnellesintéressant le SID. Le rafraîchissement périodique se fait par collecte dynamique, enne capturant que les changements qui ont eu lieu dans le système opérationneldepuis la dernière opération de collecte. Il nécessite un mécanisme de détection deschangements.

L’extraction doit être performante et doit éviter de perturber lesenvironnements de production.

1.2.Transformation des données

Les bases de production peuvent contenir des données de mauvaise qualité(données manquantes, incomplètes, aberrantes, en double, obsolètes…). Cettemauvaise qualité a plusieurs origines : manque de contrôle dans la saisie desdonnées, incident de transfert lors du processus de collecte des informations, retarddans les mises à jour…

Les conséquences de la mauvaise qualité des données peuvent êtreimportantes : remise en cause des indicateurs de performance, décrédibilisation dusystème d’information, perte financière…

La deuxième phase du processus d’alimentation de l’entrepôt consiste donc àtransformer les données extraites de manière à obtenir un ensemble homogène. Lesdonnées subissent un filtrage, pour éliminer les données manquantes ou aberrantespar exemple, et un formatage afin de normaliser les informations (unification ducodage). Les doublons doivent être détectés pour assurer la cohérence del’entrepôt.

Les données de l'entrepôt ne sont pas simplement copiées depuis les basesde production mais sont même en général créées par agrégation ou calcul.

1.3.Chargement de données

Cette phase consiste à injecter en une seule fois les informations collectéesdans l’entrepôt. Elle permet aussi de stocker les informations de manière correctedans les tables de faits correspondantes du datawarehouse, dans le but de rendreles données disponibles pour l’analyse et le reporting.

6

2. Les outils ETL

Afin d’effectuer ces différentes opérations, un outil appelé ETL (Extract,Transform, Load) est apparu, chargé d’automatiser les traitements et de les rendrefacilement paramétrables. Il doit être capable d’extraire des données décrites sousdes formats susceptibles de changer dans le temps et stockées sur des systèmesamenés à évoluer. Contrairement aux EII (Enterprise Information Integration) quiinterrogent plusieurs sources en temps réel mais sans déplacer les données, lesoutils ETL les déplacent en général en mode asynchrone vers une nouvelle base.

L’outil ETL fait parti d’un sous-ensemble des EAI (Enterprise ApplicationIntegration), domaine plus général regroupant toutes les formes d'intégration entredes applications, des processus ou/et des interfaces. L'ETL se positionne surl'intégration des données.

Après avoir été paramétré suivant les besoins du décisionnel, avec lesdonnées en entrée, les données en sortie et les processus de transformation àeffectuer, l’ETL effectue l’alimentation généralement en mode batch1. Les mêmesprocessus de transformation sont appliqués de manière récurrente lors de chaquealimentation.

EAI EII ETL

Des

cri

pti

on •Bus inter applicatif qui

orchestre les échangesentre les applications.

•Hub de données pourinterroger des sourceshétérogènes, doté defonction de mapping.

•Extrait les données sourceshétérogènes, les transforme et lesréinjecte dans une nouvelle base.

Ava

nta

ge

s •Fonctionne en modesynchrone.

•Traite des chargesimportantes.

•Fonctionne en modesynchrone.

•Centralise l’accès à dessources hétérogènes.

•Nettoyage et transformation desdonnées.

•Une seule source de donnéesinterrogée par l’outil de restitution,gage de performance.

Inc

on

vén

ien

ts

•Pas de fonctions detransformation.

•Coûts d’acquisition etde mise en œuvreélevés.

•Pas de fonctions detransformation.

•Peu performant sur lesrequêtes complexes.

•Fonctionne en modeasynchrone.

•Flexibilité moindre sur lesmodifications.

Tableau 1 : Trois méthodes phares du décisionnel - source : 01Informatique (03/05)

1 Syn. traitement par lots. Un batch est un fichier contenant un ensemble de commandes qui seront traitées automatiquementcomme si elles étaient entrées au clavier par l'utilisateur, les unes après les autres.

7

3. Le marché des outils ETL

Le marché des outils ETL se compose de plusieurs éditeurs qui ontdéveloppé des solutions aux caractéristiques variées.

Schéma 3 : Marché mondial des outils ETL - source : Forrester (mars 2005)

Les principaux outils sont :

Éditeur Solution ETL Version dateInformatica PowerCenter 7.1.1 08/2004

SAS ETL Server 9.1.3 08/2004Ascential (IBM) DataStage 7.5 07/2004

DataMirror Transformation Server 5.1 04/2003Cognos DecisionStream ? ?

MicrosoftSQL Server module DTS

(Data TransformationServices)

2000 SP3 08/2000

Oracle Warehouse Builder 10.1.0.2.0 05/2004Business Objects ActaWorks – Data Integrator 6.5 04/2004

Hummingbirg Genio 5.1 09/2004Sunopsis Sunopsis ETL 3.2 06/2003

ELT Solutions Ltd Transformation Manager(TM)

? ?

Tableau 2 : Les principaux éditeurs et leur solution ETL

8

Schéma 4 : La performance des outils ETL - Source : Forrester

Nous allons présenter les outils des principaux éditeurs du marché : lesleaders Informatica, Ascential et SAS mais aussi certains outils en pleine évolutioncomme DataMirror, Cognos, Microsoft, Oracle, Business Objects et Sunopsis.

3.1.Les leaders du marché

3.1.1. Informatica : PowerCenter2

Informatica PowerCenter fournit une plate-forme d’intégration de données àl’échelle de l’entreprise qui permet d’accéder aux données d’une large gamme desystèmes, de les transformer, de les intégrer et de les mettre à disposition d’autressystèmes transactionnels, processus métiers temps réel et collaborateurs del’entreprise. En rendant possible la création un référentiel d’information unique,cohérent et partagé par toute l’organisation, PowerCenter aide les entreprises àréduire les coûts et la complexité de leurs systèmes d’information, facilite l’adoptionde nouvelles technologies et contribue à l’amélioration globale de leursperformances.

2 http://www.informatica.com/fr/products/powercenter/default.htm

9

Mo

ins

OF

FR

EP

lus

Moins STRATEGIE Plus

Présence sur le marché

Grâce à Informatica PowerCenter, il est possible de :o Intégrer les données pour offrir aux utilisateurs métiers un accès exhaustif aux

données de l’entreprise – des données complètes, exactes et disponibles entemps voulu.

o Monter en charge de façon à répondre aux besoins croissants d’informationdes équipes métiers – Les données sont distribuées dans un environnementsécurisé et évolutif, garantissant un accès immédiat aux données d’unnombre illimité de sources hétérogènes.

o Simplifier la conception, la collaboration et la réutilisation pour réduire lesdélais de livraison des équipes de développement - Une gestion inégalée desmétadonnées renforce la capacité des équipes à satisfaire des besoins enconstante évolution et toujours plus complexes.

PowerCenter est disponible en deux éditions :o PowerCenter Standard Edition : Logiciel permettant l'accès, l'intégration et la

distribution de données, PowerCenter Standard Edition est une solutionéconomique pour exploiter les données issues de tous systèmes vers tousautres systèmes. PowerCenter Standard Edition peut être installé en moinsde 30 minutes.

o PowerCenter Advanced Edition : En plus des fonctionnalités de PowerCenterStandard Edition, PowerCenter Advanced Edition couvre tous les besoinsd’intégration de données de l’entreprise avec une seule plate-forme, incluantde solides fonctionnalités d’analyse de métadonnées et de reporting, desfonctions économiques de grid computing et des capacités avancées dedéveloppement collaboratif. Avec PowerCenter Advanced Edition, lesentreprises bénéficient pleinement des avantages résultant de l’utilisationd’une plate-forme unique pour gérer la totalité du cycle de l’intégration dedonnées : gains de productivité, réduction des coûts de maintenance etéconomies substantielles liées à une prise en main immédiate. PowerCenterAdvanced Edition peut être installé en moins d’une heure.

Caractéristiques et fonctionnalitésPowerCenter StandardEdition

PowerCenterAdvancedEdition

Plate-forme principale X X

PowerCenter Data Server (serveur de données) X X

Référentiel de métadonnées X X

Outils de conception et de gestion X X

Librairie complète d’objets de transformation X X

Serveur de référentiel avec import/export XML X X

Outils de sécurité (rôles et authentification) et intégration LDAP X X

Planification et contrôle centralisés de workflows X X

Traitement des données relationnelles natives, XML ethiérarchiques

X X

Extensibilité totale des transformations personnalisées X X

Clients développeurs et administrateurs à usage illimité X X

Ensemble d’API ouvertes pour l’intégration avec des outils tiers X X

Intégration totale avec Informatica PowerExchange X X

Support des sources XML et fichiers plats X X

10

Caractéristiques et fonctionnalitésPowerCenter StandardEdition

PowerCenterAdvancedEdition

Documentation complète sur la plate-forme X X

Connecteurs pour sources standards (2) X X

Connecteurs pour cibles standards (2) X X

Reporting prêt à l’emploi (PowerAnalyzer) : X• Création de rapports X• Mesures et alertes en temps réel X• Reporting ad hoc et rapports pré-configurés X• Intégration avec Excel X

Analyse des métadonnées (SuperGlue) : X• Généalogie intelligente de l'information au niveau du

champ X

• Reporting interactif sur l’utilisation des métadonnées X• Fonctions de recherche et options de personnalisation

web X

• Métamodèle extensible et ouvert basé sur le standardOMG/CWM X

• Connectivité préconfigurée pour un grand nombre demétadonnées X

Développement collaboratif X

Grid computing X

Fonctionnalités supplémentaires

Data Cleansing (nettoyage de données) Option Option

Data Profiling (profilage de données) Option Option

Metadata Exchange Option Option

Partitioning (partitionnement) Option Option

PowerCenter Connect Option Option

Real-time (temps réel) Option Option

Tableau 3 : Caractéristiques de PowerCenter - source : Informatica

3.1.2. SAS : ETL Serveur3

Le serveur ETL de SAS permet de concevoir, développer et exploiter lestraitements d’alimentation périodique des systèmes décisionnels et se compose :

o d’un environnement de développement ETL intégrant les phases dedéveloppement, test et production,

o d’un générateur de traitement réduisant la programmation au stricte minimum,

o d’un langage décisionnel spécialisé comportant plusieurs milliers de fonctions,

o d’un environnement de métadonnées pour conserver la traçabilité desdonnées,

o de connecteurs natifs aux SGBD/R et fichiers séquentiels indexés, texte,bureautique, log web, etc. soit plusieurs dizaines de sources de données,

o de connecteurs natifs et de dictionnaire métier des principaux ERP,

3 http://www.sas.com/offices/europe/france/software/technologies/etl.html

11

o de fonctions paramétrables de détection et de correction de la qualité desdonnées,

o d’un ordonnanceur intégré avec gestion événementielle permettant d’exploiterles traitements sur plusieurs serveurs.

Le serveur ETL de SAS a été spécialement conçu pour supporter des chargesde traitements lourdes et s’appuie sur la technologie « multithreading » du serveurSAS pour l’extraction, la transformation et la préparation des grandes bases dedonnées décisionnelles.

Il intègre directement des fonctions de vérification et standardisation desinformations, qui assurent leur exactitude et leur qualité. Cette étape du traitementdes données, souvent négligée, s’avère fondamentale pour pouvoir créer une réellevaleur à partir des données.

Il a été spécialement conçu pour supporter l’alimentation des données desapplications analytiques comme la connaissance du comportement des clients ou lereporting dynamique des ventes qui nécessitent des transformations spécifiquestelles que la transposition ou l’agrégation des données transactionnelles.

3.1.3. Ascential : Datastage et Datastage TX4

DataStage

DataStage, le module de gestion des mouvements de données de la Suited’Intégration de données, est totalement adapté à la problématique d'extraction, detransformation, d'intégration et de chargement de données (ETL) car il est fondé surdes composants ouverts, optimisés et réutilisables permettant :

o Le développement de processus de mouvement et de transformation des fluxde données par modélisation graphique ;

o La réutilisation naturelle des environnements existants (modèles, flux,programmes, etc.) La famille de produits DataStage constitue une solution ETL performante aux

capacités de montée en charge illimitées.Elle est offre des fonctions de gestion de métadonnées et d’assurance de la

qualité des données pour la gestion et l’intégration des applications stratégiques.

Avantages de DataStage

o Les décisions business sont basées sur des données complètes etpertinentes.

o Les temps de développement et le retour sur investissement des applicationsd’entreprise sont accélérés.

o L'intégration de grands volumes de données quelle que soit la complexité desstructures de ces données est assurée. Cette offre ETL s'appuie sur une expérience réussie auprès de plus de 2200

clients dans le monde et plus de 350 en France.Ascential est capable de simplifier et d’assurer le déploiement réussi

d’applications d’entreprise intensives en données en intégrant la gamme complètede profiling et de nettoyage de données, de gestion des metadonnées et

4 http://www.ascential.fr/produits/datastage.html

12

d’intégration des données, au sein d’une suite unique de produits, totalementintégrée.

DataStage TX

Ascential DataStage® TX supporte les standards du marché et répond à desexigences de connectivité, en permettant de résoudre les problèmes stratégiques entemps réel. L'architecture orientée solutions de DataStage TX est ouverte etévolutive. La mise en oeuvre est accélérée, les risques réduits et l'efficacité accrue.DataStage TX permet d'automatiser facilement et de façon transparente de grosvolumes de transactions complexes sans codage additionnel.Grâce à son architecture ouverte et extrêmement évolutive, DataStage TX 6.7 offreun retour sur investissement beaucoup plus rapide.

Avantages de DataStage TX

o Intégration rapide et transparente d'un grand nombre des applications, basesde données et systèmes de messagerie les plus utilisés ;

o Prise en compte rapide et souple des exigences de gestion stratégiques àévolution rapide ;

o Exploitation de la valeur de vos systèmes et applications d'entreprise ;

Respect des besoins en matière de solutions d'intégration complètes ou basées surdes projets.

3.2.Les challengers

3.2.1. DataMirror : Transformation Server5

Elément central d’Intégration Suite de DataMirror, Transformation Server™est une solution d’intégration de données hautement performante et « Peer-to-Peer» qui permet aux entreprises de gagner du temps et d’économiser des ressources enleur fournissant l’intégration de données sans aucun besoin de programmation, danstous leurs systèmes informatiques. Transformation Server étend la fonctionnalitéETL en permettant aux entreprises de capturer, de transformer et de transférer desdonnées commerciales et d’entreprise, en temps réel, entre DB2 UDB, MicrosoftSQL Server, Oracle, PointBase, Sybase, Teradata et XML vers de multiples plates-formes informatiques.

La technologie de Transformation Server pour la capture, la transformation etle transfert des données (CTF) améliore l’efficacité opérationnelle et fait gagner dutemps et des ressources en supprimant les transferts de données redondants et enéconomisant la bande passante du réseau. Que les données soient intégrées entemps réel ou à intervalles réguliers, seules les données modifiées sont capturéespuis transférées du système source vers le système cible. Supportant en natif lesprincipales bases de données, Transformation Server est idéal pour mettre enoeuvre des applications de gestion en temps réel et ‘on demand’, telles que ladistribution de données, l’intégration d’applications d’entreprise, l’e-Business, labusiness intelligence, le CRM (Customer Relationship Management) et le BAM(Business Activity Monitoring).

5 http://www.datamirror.com/fr/products/tserver/default.aspx

13

Avantages de Transformation Server

o Intégration de données sûre et dynamique, sans aucune programmation,

o Solution souple et adaptable à presque tous les environnementsinformatiques,

o Partage dynamique des informations en temps réel, à travers toutel’entreprise et au-delà,

o Visualisation et surveillance faciles des réseaux d’intégration complexes, àl’aide de représentations graphiques,

o Identification et résolution rapides des problèmes de réseau, grâce à unesurveillance centralisée,

o Performances et efficacité opérationnelles accrues, grâce à un solidegestionnaire des communications,

o Optimisation du retour sur investissement, grâce à une mise en place rapideet des coûts de maintenance réduits.

3.2.2. Cognos : DecisionStream6

Le logiciel ETL (extraction, transformation et chargement) DecisionStreamrassemble des données disparates en une base unifiée de Business Intelligencepour exécuter rapidement rapports et analyses à partir des données d'exploitationdisponibles.

Les entrepôts de données dimensionnels constituent une base cohérente,précise et réutilisable en rendant conformes les principales dimensions del'entreprise (temps, produit, client, etc.) pour autoriser le reporting à l'échelle desdifférents services de l'entreprise.

Un environnement visuel intuitif vous permet de concevoir rapidement etfacilement le cadre de vos données sans programmation. Cognos DecisionStreamoffre un accès rapide aux données BI en générant toutes les métadonnées requisespour développer un environnement de Business Intelligence et le maintenir.

Avantages de DecisionStream

o Les entrepôts de données dimensionnels organisent les données parsujet/service (ventes, finances) et par catégorie (client, produit).

o Le moteur ETL, basé sur serveur et multi plate-forme, traite de gros volumesde données dans des fenêtres de mise à jour, sans investissement matérielimportant.

o L'interface graphique intuitive rend les processus de transformation simples etrapides pour l'utilisateur.

o Le cadre dimensionnel flexible s'adapte aux changements et peut évoluerd'une solution dédiée à un département, par exemple, à un service de plate-forme d'entreprise.

o Intégration parfaite des meilleurs logiciels de Business Intelligence au monde,les logiciels Cognos d'analyse, de reporting, de tableau de bord et descorecarding.

6 http://www.cognos.com/fr/products/business_intelligence/data_preparation/

14

3.2.3. Microsoft : Data Transformation Services

Les Services de Transformation des Données (DTS) permettent d’importer etd’exporter des clés primaires et étrangères entre des produits de base de donnéespris en charge, de programmer la récupération de données en plusieurs étapes etd’enregistrer des lots DTS sous forme de code Visual Basic.

Cet outil ETL est uniquement intégré à SQL Server.

3.2.4. Oracle : Data Integration

L’architecture de Warehouse Builder génere du code pour la base dedonnées cible Oracle9i. Le code généré garantit une haute performance duprocessus de chargement des données et offre les fonctionnalités d’un outil ETLévolutif. Warehouse Builder dispose d’un environnement graphique pour créer lestransformations à appliquer aux données (Mapping Editor).

Cet outil ETL est uniquement intégré au SGBD Oracle9i.

3.2.5. BusinessObjects : Data Integrator7

BusinessObjects Data Integrator est une plate-forme d’intégration de donnéesproductive et évolutive. Avec Data Integrator, un outil ETL complet, il est facilementpossible d’explorer, d’extraire et d’alimenter les bases décisionnelles avec lafréquence de son choix. Data Integrator garantit que les utilisateurs disposenttoujours d’informations précises et fiables au jour le jour.

L'intégration des processus ETL et des fonctions BI permet de disposerd'avantages essentiels en matière de gestion des métadonnées, d'analyse d'impacts, d'optimisation des cycles de vie des systèmes décisionnels et de réductiondes coûts de maintenance. Les utilisateurs peuvent se fier à leurs rapports BI dansla mesure où ils peuvent en établir l'origine et obtenir une traçabilité jusqu'ausystème source.

Data Integrator permet de définir très facilement des process de traitementsdes données à l’aide d’une interface graphique et de puissantes fonctions detransformation. Cet ETL se connecte à l’ensemble des sources de données etpossède des connecteurs natifs sur des ERP tels que SAP.

Data Integrator propose une riche interface graphique à partir de laquelle il estpossible de définir les processus ETL d'extraction, de transformation et dechargement, d’assurer l'intégrité des données, de collaborer avec les développeurset de déployer des applications dans tous les types d'environnement.

Business Objects Data Integrator est un outil d'intégration de données batchet temps réel conçu pour simplifier et accélérer les flux de données et leur partagedans toute l'entreprise.

3.2.6. Hummingbird : Genio8

Hummingbird ETL est une solution d'intégration de données recouvrant lesdomaines fonctionnels de l'ETL (extraction, transformation, chargement de données)et de l'EAI (intégration des applications d'entreprise). Cette solution permet detransformer, nettoyer et enrichir l'information pour ensuite la diriger à travers toutl'éventail des systèmes décisionnels et des applications stratégiques de l'entreprise -

7 http://www.france.businessobjects.com/produits/dataintegration/dataintegrator/default.htm8 http://www.hummingbird.com/international/france/products/etl/overview.htm

15

et ce dans le cadre d'une grande variété de projets du type datawarehouses,datamarts, etc.

Hummingbird ETL est capable d'assurer toutes les opérations d'échange dedonnées quels que soient le format, la syntaxe, la source ou la cible de ces données(depuis le support XML jusqu'à la connectivité mainframe, depuis les SGBDrelationnels jusqu'à l'OLTP multidimensionnel).

Dans tous les types de projets ETL, Hummingbird ETL garantit une étroiteintégration avec n'importe quel environnement d'entreprise, offrant un support et uneconnectivité en natif, c'est-à-dire sans aucune programmation ni préparation desdonnées. Cette solution permet ainsi à l'entreprise d'économiser du temps et desressources en pérennisant son environnement informatique hétérogène.

Hummingbird ETL permet de connecter n'importe quelle source de données àn'importe quel système cible à travers toute l'entreprise, aidant ainsi lesorganisations à exploiter plus efficacement leurs données en vue d'accélérer etd'optimiser leur processus stratégique de prise de décision.

3.2.7. Sunopsis : Sunopsis ETL et Sunopsis Real-time ETL

ETL9

Sunopsis ETL permet une distribution optimisée des processus et offred'excellentes performances sur les gros volumes, même avec des transformationscomplexes. Comparé aux approches ETL traditionnelles, typiquement des scriptsmanuels ou des outils à moteur centralisé, Sunopsis ETL permet d'économiserjusqu'à 90% du temps et des coûts d'implémentation et de maintenance. Avec lesupport, par défaut, de toutes les sources de données grâce aux standards deconnectivité, Sunopsis ETL couvre tous les besoins avec la même flexibilité.

L'architecture distribuée de Sunopsis ETL génère du code natif SQL pour tirerparti des composants existants du système d'information, comme les moteurs debases de données sur lesquels les applications et les data warehouses sontinstallés. Cette architecture apporte un double avantage à l'entreprise : en l'absencede serveur dédié et de moteur de transformation à installer, les coûts de la solutionETL sont considérablement réduits. Et parce que les moteurs de base de donnéessont extrêmement fiables et optimisés pour traiter de larges volumes de données etdes transformations complexes, les processus ETL bénéficient de ces mêmesavantages.

9 http://www.sunopsis.com/corporate/fr/products/sunopsisv3/default_etl.htm

16

Real-Time ETL10

Sunopsis Real-Time ETL est une solution pour l'ETL en batch et en tempsréel. Grâce à son architecture innovante qui optimise l'exécution des processus demanière distribuée, l’outil est performant même pour des transformations complexes,sans compromettre sa facilité d'utilisation. Parce que seules certaines informations -et non toutes - doivent être analysées et restituées en temps réel, l'approche deSunopsis Real-Time ETL permet de gérer les processus de transfert de données àla fois en batch et en temps réel.

Avec la fonction intégrée "Changed Data Capture", cet outil ETL détecte leschangements en temps réel sur toutes les bases sources. Les transformations surles données sont effectuées à la volée. L'information est propagée en temps réel surles systèmes cibles, via une connectivité directe ou en utilisant le MOM intégréSunopsis MQ.

Sunopsis Real-Time ETL s'appuie sur le code natif SQL qu'il génère pour lesmoteurs de base de données déployés dans le système d'information pour exécuterles processus ETL, et utilise pleinement les fonctionnalités de manipulation dedonnées de ces moteurs. Ceci donne un avantage unique à Sunopsis ETL : desagrégations aux statistiques en passant par les outils de chargement natifs, il utiliseentièrement les fonctions les plus appropriées pour chaque processus à réaliser.

10 http://www.sunopsis.com/corporate/fr/products/sunopsisv3/default_rte.htm

17

4. Les caractéristiques11

4.1.Transformation des données : plusieurs approches

Les différents outils ETL du marché peuvent être classés en plusieurscatégories. Nous allons en présenter trois, qui sont celles retenues par les principauxéditeurs :

o Les transformations sont exécutées sur un serveur ETL de manièrecentralisée (engine-based),

o Les transformations sont réalisées à l’aide de fonctions intégrées dans labase de données (database- embedded),

o Une description des transformations est utilisée afin de générer du code quipourra être déployé sur tout autre système (code-generators).Les entreprises peuvent aussi choisir de développer elles-mêmes leur propre

outil ETL.

4.1.1. Les serveurs ETL

Cette approche est l’approche traditionnelle, utilisée dès les années 90. Avecce type d’architecture, l’information est extraite des sources de production,transformée, ligne par ligne, sur un serveur en utilisant un langage propriétaire puischargée dans la base de données cible.

Schéma 5 : transformation des données - approche traditionnelle

11 Voir annexe 1 : Tableau récapitulatif – classement des éditeurs d'outils ETL en fonction desdifférentes caractéristiques.

18

Tous les processus ont lieu sur le serveur et non sur les systèmes sources. Ilpeut donc être nécessaire d’acheter un serveur pour héberger l’application, ce quiaugmente les coûts. Cependant, l’apprentissage est très rapide.

Pourtant, cette architecture n'apporte pas la flexibilité ou la liberté de créerd'autres transformations sur les données, nécessitées par certains projets.

4.1.2. Utilisation de fonctions intégrées

Plusieurs éditeurs de SGBD intègrent des fonctions ETL dans leurs produits,ce qui réduit les coûts, et permet de simplifier l'environnement décisionnel. Le SGBDest utilisé comme moteur pour effectuer les transformations et les agrégations.

On peut donc se demander pourquoi acheter un outil ETL alors que le SGBDpeut réaliser les mêmes fonctions à moindre coût. En effet, les éditeurs de SGBDproposent des fonctions qui, à la fois, concurrencent et appuient les outils ETLindépendants.

Il y a encore quelques années, les SGBD ne permettaient que destransformations basiques. Depuis le milieu des années 90, les éditeurs ontconsidérablement augmenté le nombre et amélioré les fonctions ETL des SGBD.Ces outils ETL fonctionnent comme des générateurs de code et montrent que SQLpeut suffire pour exécuter les transformations, même les plus complexes.

Il faut cependant noter que toutes les fonctions des outils ETL ne font pasforcément partie de cette solution même si les nouvelles versions incluent toujoursplus de fonctions. De plus, ces outils demandent du codage manuel et l'évolutionentre deux versions successives reste faible : la productivité et les possibilitéstechniques ne sont donc pas optimisées. Le défaut le plus important de cettesolution est que le code ne peut être utilisé que sur le SGBD de l'éditeur lui-même.

4.1.3. Les outils générateurs de code

Cette solution s'appuie sur le principe que l'outil ETL peut utiliser le SGBDcomme moteur mais en résolvant le principal problème des fonctions intégrées :l'utilisation de l'outil indépendamment du SGBD lui-même.

La description des processus d'alimentation aboutit à la générationautomatique de code qui sera ensuite intégrée dans les chaînes d'exploitation. Uneinterface graphique permet de créer un diagramme qui représente l'extraction depuisla source, les transformations pertinentes puis le chargement dans les tables cibles.

La génération de code est l’approche la plus flexible car le code ainsi générépeut s’intégrer dans toutes les architectures, ne requiert pas de serveur additionnelet est indépendante de toute base de données propriétaire. En général, le codegénéré est du code SQL : ce langage s'est beaucoup développé ces dernièresannées et permet aujourd'hui d'effectuer plus de tâches en étant plus riche et plusperformant. L'avantage de cette architecture est qu'il n’y a pas besoin de codermanuellement, ni d’installer de serveur dédié ou de moteur de transformations. Lescoûts engendrés par le choix d'une telle solution sont donc moindres.

Par ailleurs, les outils générateurs de code permettent l’intégration desdonnées en batch ou en temps réel.

Cette approche supporte des processus plus complexes que les serveurs ETLet peut donc effectuer des traitements eux aussi plus complexes. Cependant,l'utilisation de ces outils est moins intuitive que ceux utilisant l'approchetraditionnelle.

19

Les outils ETL générateurs de code s'orientent vers un fonctionnement TELou ELT, c'est-à-dire que la phase de transformation à lieu avant ou après cellesd’extraction et de chargement des données.

Avec un outil ELT, le SGBD sert de moteur des transformations : les donnéessources sont chargées en masse directement des bases de production versl'entrepôt de données et les transformations sont exécutées en bloc par le SGBDcible de l'entrepôt. Les transformations de données se font à l'aide d'outilsgraphiques, puis l'outil génère du code SQL contenant les instructions destransformations et qui sera exécuté par le SGBD de l'entrepôt de données.

Schéma 6 : une autre approche (Approche ELT par Sunopsis)

4.1.4. Développement manuel d’un outil ETL

Avant les outils ETL spécialisés, des solutions de transformation de donnéesexistaient déjà, développées au sein même des services informatiques del'entreprise.

Cette solution, aujourd'hui, est généralement choisie lorsque le projet neconcerne qu’un volume de données peu important (jusqu’à 20 tables environ). Pourcette tâche, l’achat d’un outil ETL représenterait un coût financier important, ainsique des coûts de formation.

Cependant, le développement manuel d’un outil ETL prend du temps etdemande des compétences spécifiques en programmation (développement duprogramme, maintenance et mise à jour du code…). De plus, le code manuel nepermet pas toujours d'effectuer les transformations les plus complexes et de gérerun contrôle de qualité des données.

Le codage manuel reste néanmoins un moyen qui perdure, malgré la maturitéatteinte par les outils ETL du marché.

20

4.1.5. Comparaison des différentes approches

OutilETL

Avantages Inconvénients

Gén

éra

teu

r d

e c

od

e

•Prise en charge detransformations complexes

•Production de code compilécompatible avec de nombreusesplateformes

•Pas d’achat de matériel ni deformation sur un logicielpropriétaire

•Coût moindre

•Environnement graphique moinsintuitif

Se

rve

ur

•Possibilité de configurer leserveur pour optimiser lesperformances

•Pas d’interférence avec d’autresapplications

•Interface graphique intuitive

•Nécessité d'acheter un serveur plusperformant

•Le serveur peut être un goulotd’étranglement

•Utilisation de langages et de logicielspropriétaires

Fo

nc

tio

n E

TL

in

tég

rée •Pas d’achat de matériel

•Coûts réduits

•Environnement simplifié

•Qualités et fonctionnalités variables

•Transformations de complexitémoindre

•Utilisation limitée au SGBD del'éditeur

•Nécessité de codage manuel

Tableau 4 : Comparaison des différentes approches

4.2.Temps réel / Batch

L’approche en temps réel montre peu d’impact sur la phase de restitution(reporting, tableau de bord…), qui se contente de croiser les données qui lui sontfournies. Tout se joue au niveau du processus d’interrogation des données.L’analyse se pratique en général en mode asynchrone, pour des raisons deperformance et de cohérence des données.

Les outils ETL fonctionnent principalement en mode asynchrone (batch), etsouvent la nuit pour ne pas avoir d'impact sur les ressources machine et réseaupendant les heures de bureau. Ils sont capables d’apporter de la cohérence auxinformations et de consolider les données dans un entrepôt, en garantissant lesperformances.

Cependant, l’évolution des architectures permet aux outils ETL de détecter lesmodifications survenues dans les bases de production afin d’alimenter l’entrepôt aufur et à mesure.

21

Ainsi, la plupart des outils ETL fonctionnent en mode asynchrone maisproposent des modules de traitement des données en temps réel.

Les outils ETL peuvent donc fonctionner en deux modes : temps réel(synchrone) ou batch (asynchrone).

4.2.1. Temps réel – mode synchrone

Aujourd'hui, les besoins d'analyse et de reporting en temps réel restentmarginaux alors que la demande d’application en temps réel est de plus en plusimportante, particulièrement dans des domaines tels que les télécoms ou le secteurbancaire, par exemple. Cependant, les outils de requêtes multi-sources en tempsréel (EAI par exemple) ne gèrent pas la qualité des données (cohérence,transformation…) par manque d’un référentiel global.

Ce mode de traitement des données se base sur un détecteur demodification, qui propage à l'entrepôt de données les changements des bases deproduction.

Le raccourcissement des délais de rafraîchissement des données impliquedes serveurs plus robustes, donc plus chers. De plus, les différentes couches del’architecture décisionnelle doivent dialoguer en permanence pour fonctionner enmode synchrone.

Malgré la complexité et le surcoût entraîné par le fonctionnement en tempsréel, les éditeurs d’ETL intègrent des modules de traitement des données en modesynchrone dans leur outil.

4.2.2. Mode batch – mode asynchrone

Les outils asynchrones sont ceux permettant de faire transiter l’information aufil de l’eau entre les applications sans impliquer leur disponibilité immédiate mais engarantissant le traitement de l’événement.

Les outils batch, qui effectuent le traitement des données par lot, sont conçuspour traiter de gros volumes de données.

4.3.ETL et gestion des métadonnées

Les outils ETL orientés métadonnées permettent de s'assurer que lesdonnées lues et écrites répondent aux contraintes de l'intégrité des données. Celapermet de constituer une architecture particulièrement adaptée aux environnementsmulti-utilisateurs. L'objectif est de concevoir un environnement unique avec undictionnaire unique. Les rapports d'analyses se basant sur un entrepôt de donnéesconstruit à l'aide d'un outil orienté métadonnées sont fiables, puisque on peut établirl'origine des données et effectuer une traçabilité jusqu'au système source.

Le dictionnaire des métadonnées comporte des informations sur les donnéessources / cibles, sur les transformations…:

o Description des données sources et cibles (description technique,fonctionnelle, métier, administrative…)

o Description des processus d'alimentation

o Règles de gestion (contrôles qualitatifs, calculs d'indicateurs, règles detransformation…)

o Comptes-rendus d'exécution (historique des alimentations …)

22

Ce dictionnaire des métadonnées à pour vocation de devenir le dictionnairede référence pour l'ensemble des outil d'analyse et de restitution.

Pour assurer la performance des outils, certaines caractéristiques dudictionnaire de métadonnées sont importantes, parmi lesquelles :

o Personnalisation : possibilité d’ajouter des modifications, que l’éditeur n’avaitpas prises en compte.

o Format de stockage libre pour pouvoir intégrer des informations avec d’autresproduits.

o Partage des métadonnées avec d’autres applications…

La stratégie du dictionnaire de métadonnées étendu à toute l'entreprise nes'appuie pas sur une alimentation en temps réel. Il deviendrait une sorte d'interfaceentre tous les dictionnaires de métadonnées des applications du systèmed'information. Son rôle serait alors de coordonner et de donner une vision cohérentedes concepts présents dans l'entreprise, en facilitant le dialogue entre lesapplications.

4.4.Autres caractéristiques

4.4.1. Architecture et environnement technique

Les outils disposent d’architecture compatible avec celle des donnéesexistantes. Ils sont compatibles avec les plateformes serveur et de conception, lesbases de données sources/cibles usuelles.

4.4.2. Prix des outils en fonction des configurations choisies

Le prix d’un outil ETL est important, d’autant plus qu’il est difficile d’évaluer legain réel qu’il va apporter à l’entreprise. Il s’agit donc de déterminer l’outil ETL dontle prix correspondra au budget et dont les performances seront adaptées au projet,c’est-à-dire celui qui aura le meilleur rapport performance/prix. On peut donc classerles outils ETL du marché en fonction de leur configuration (solution plus ou moinscomplète) et de leur prix :

Prix faible Prix moyen Prix élevé

Configurationcomplète

De $80K à $150K

Business Objects

Hummingbird

IBM

Pervasive

Sunopsis

De $200K à $450K

DataMirror

ETI

Group 1

iWay

Microsoft

De $8000K à $1.4M

Ascential

Informatica

Oracle

SAS

Configurationintermédiaire

De $40K à $90K

Business Objects

DataMirror

Hummingbird

IBM

Microsoft

Pervasive

Sunopsis

De $100K à $255K

Ascential

ETI

Group 1

iWay

Oracle

De $350K à $500K

Informatica

SAS

23

Prix faible Prix moyen Prix élevé

Petiteconfiguration

Moins de $40K

Business Objects

DataMirror

IBM

iWay

Microsoft

Oracle

Pervasive

Sunopsis

De $50K à $90K

Ascential

Group 1

Hummingbird

Oracle

De $105K à $360K

ETI

Informatica

SAS

Tableau 5 : Prix des outils ETL en fonction de leur configuration – source : Forrester

4.4.3. Interfaces graphiques

La plupart des outils ETL disposent d’interfaces graphiques pour que lesutilisateurs puissent effectuer les transformations des données sources de façonplus intuitive, rapide et conviviale, en utilisant le principe du glisser-déposer. Desassistants automatisés peuvent guider les développeurs tout au long du processusde création de l’entrepôt et de l’intégration des données dans celui-ci.

Interface graphique – PowerCenter (Informatica)

24

Conclusion

Avantages de l’ETL

Les grandes forces des ETL sont :o leur souplesse : ils sont fortement paramétrables

o leur facilité d’utilisation : utilisables par des non informaticiens après formation

o leur facilité de maintenance et leur pérennité

Les bases de données comprennent souvent des outils d’alimentation quipeuvent extraire des données, effectuer des transformations basiques et chargerdes données. Mais ces outils n’ont pas les avantages d’un ETL et sont souventdifficilement paramétrables, pas ergonomiques et n’offrent pas beaucoup depossibilité de transformation de données.

Limites de l’ETL

Coûts en ressources matérielles et en temps : Ils font subir différents traitements à de gros volumes de données. Un outil

ETL nécessite donc un fort besoin en machines, débit et maintenance. Lestraitements étant très gourmands, l’alimentation s’exécute souvent la nuit, pour nepas impacter les ressources machine et réseau pendant les heures de bureau.

Temps réel :La durée des traitements et le temps machine consommé est tel que cela est

difficilement compatible avec des traitements en temps réel. La plupart des éditeursd'ETL essaye d’évoluer dans ce sens en développant leur propres outils, ou enpassant des accords avec des acteurs du marché de l'EAI. Cependant, au-delà desconsidérations stratégiques et technologiques, on peut se demander si uneapplication décisionnelle gagnerait en pertinence avec un datawarehouse actualiséen permanence.

Évolution de l’ETL

Au cours de ces dernières années, le marché de l'ETL a considérablementévolué.

Le créneau des ETL pourrait avoir à subir une nouvelle révolution dans lesannées qui viennent à la faveur de l’émergence de trois nouveaux concepts touchantau traitement des données :

o la création d'un référentiel de métadonnées commun à l'ensemble desapplications du système d'information, sans nécessiter la centralisation aupréalable des contenus à traiter : le MDM12 (Master Data Management).

o les technologies d'intégration en temps réel et l’EAI. En effet, dans uncontexte où la plupart les responsables seront aidés dans leurs prises de

12 Voir annexe 3 : Master Data Management (MDM)

25

décision, les entreprises gagnantes seront celles capables de réagir au plusvite. La plupart des outils ETL ne fonctionnent pas en temps réel mais leséditeurs intègrent les fonctionnalités des EAI afin de pouvoir prendre encompte les données en temps réel. La tendance sera donc plutôt de fusionnerles outils ETL et EAI en un seul produit.

26

Bibliographie

Ouvrages

La construction du datawarehouse – Du datamart au datawebJF Goglin, Hermès - 2ème édition (2001)

Publications

Le Monde Informatique (dec 2004 – janv 2005)

Pages Internet

LE LIVRE BLANC EAI - MEDIADEVhttp://www.dsi.cnrs.fr/ref-partage/Documents/EAI/livre_blancMEDIADEV.pdf

01Informatique – plusieurs articles sur le thème du décisionnelhttp://www.01net.com/

Les sites des différents outils ETL étudiésSunopsis : www.sunopsis.com

Informatica : www.informatica.com

Ascential : www.ascential.fr/

Hummingbird : www.hummingbird.com/international/france

SAS : www.sas.com

Cognos : www.cognos.com/fr/

Business Objects : www.france.businessobjects.com/

…

The Evolution of ETL - Wayne Eckersonhttp://tdwi.org/research/display.aspx?ID=6716

Will SQL become the industry standard language for ETL? – John Rauscherhttp://databasedadvisor.com/doc/14213

Panorama des outils d'ETLhttp://solutions.journaldunet.com/0208/020827_bi_panorama1.shtml

[JargonF - dictionnaire informatique] Définition de ETLhttp://www.linux-france.org/prj/jargonf/E/ETL.html

Formation : Présentation et panorama des outils ETLhttp://formation.journaldunet.com/formation/827/presentation_et_panorama_des_outils_etl/

How to evaluate enterprise ETL – P. Russom (12/2004)http://eu.informatica.com/AAFB/mailer.asp

27

Glossaire

DATA WAREHOUSE ou ENTREPOT DE DONNÉES

Le Data Warehouse, ou Entrepôt de Données, est une base spécifiquementconstituée pour procéder à des analyses décisionnelles. Il est constitué puisalimenté à l'aide d'outils ETL qui y chargent les données de production régulièrementremises à jour. Les datamarts ou magasins sont des sous ensembles du DWH (ED)qui rassemblent les données spécifiques à un métier dans l'entreprise. Ces basessont interrogées et manipulées à l'aide d'outils de requête et d'analysemultidimensionnelle.

DÉCISIONNEL

Ce terme regroupe les outils ou techniques permettant de trier, de croiser etde manipuler à des fins d'analyse les données gérées par le systèmes d'informationde l'entreprise. L'analyse décisionnelle soutient les prises de décision stratégiquesen permettant de visualiser les données notamment à l'aide d'indicateurs métier.

EAI (Enterprise Application Integration)

Intégration des applications dans l'entreprise. Le but est de faire fonctionnerensemble (en particulier en matière d'échange transparent de données) lesprogrammes existant dans une entreprise, en vérifiant leur interopérabilité, et gérerl'hétérogénéité générale. Ce sont des logiciels qui permettent la compatibilité entredes applications déjà existantes, non compatibles à l’origine.

ETL (Extract Transform Load)

Les outils ETL sont utilisés pour la constitution des entrepôts de données. Ilsservent à extraire les données des différentes bases de production, à leur donnerune présentation homogène et fiable pour l'analyse (nettoyage des données,suppression des doublons…) et à les charger dans l'entrepôt de données.

MÉTADONNÉE

Information sur une information. Les métadonnées sont cruciales pour lefonctionnement et la maintenance d'un datawarehouse.

SID (Système d’Information Décisionnel)

Le système d'information décisionnel est un ensemble de données organiséesde façon spécifique, facilement accessible et appropriées à la prise de décision ouencore une représentation intelligente de ces données au travers d'outils spécialisés.La finalité d'un système décisionnel est le pilotage de l'entreprise.

28

Annexes

Annexe 1.Tableau récapitulatif......................................................................31

Annexe 2.Principaux outils ETL du marché.................................................32

Annexe 3.Master Data Management (MDM).................................................34

29

Annexe 1.Tableau récapitulatif

ÉditeurGénérateur de code

Serveur

Fonction

intégrée

Tempsréel

Modebatch

Gestion desmétadonnée

s

Informatica x x x x

SAS x x x

Ascential(IBM)

x x x

DataMirror x x x ?

Cognos x x x

Microsoft x

Oracle x

BusinessObjects

x x x x

Sunopsis x x x x

ELTSolutions

Ltdx x

30

Annexe 2.Principaux outils ETL du marché

Éditeur Produit CaractéristiquesPrix

(à partir de...)

Microsoft DataTransformationServices

Alimentation en mode batch interprété (moinsrapide).

Intégré à l'offre SQLServer (100euros/utilisateur +5000 euros)

Informatica PowerCenter

Éditeur indépendant, Informatica aprogressivement développé une offre de BI(outils de restitution) et évolue aujourd'huivers le dictionnaire de métadonnées.

PowerCenter est également capable de seconnecter sur le bus EAI de WebMethodspour récupérer des informations en tempsréel.

155 000 euros parserveur deproduction

Sunopsis Sunopsis v3.2

Petit dernier arrivé sur le marché de l'ETL,Sunopsis propose un kit de développementplus qu'un moteur d'ETL proprement dit.

Il permet de générer les processusd'alimentation qui sont ensuite exécutés parun serveur d'application J2EE

30 000 euros

Ascential DataStage

Leader sur le marché de l'ETL, Ascentialévolue vers le dictionnaire de métadonnéesavec le rachat des technologies MetaRecon(analyse et documente les données avec desmetadonnées) et Integrity (nettoyage etqualification des données par matching,scoring, etc.). Offre déclinée en plusieursmodules capables de s'interfacer avec lesMOM et bus EAI du marché.

250 000 euros pourl'offre complète(50 000 euros parmodule environ)

CognosDecisionStream

Apparu il y a environ un an, DecisionStream aclairement été conçu pour la suite BI deCognos. Accords avec Iway sur laconnectivité

Hummingbird

Genio(HummingbirdETL)

Spécialiste de la connectivité, Hummingbird adéveloppé une offre de BI basée sur le rachatdu produit Genio côté ETL. La V8 prévue versla fin de l'année s'interfacera avec la plate-forme de Tibco et MQSeries. Genio gère undictionnaire de métadonnées étendu.

46 000 euros parCPU

OracleOracle9iDatawarehouse Builder

Conçu pour la suite BI d'Oracle, Oracle9iDatawarehouse Builder bénéficie destechnologies de clustering du leader dumarché de la base de données. Apparu avecla restructuration de l'offre BI d'Oracle,Datawarehouse Builder a été classé commele meilleur ETL pour la transformation desdonnées par le MetaGroup.

4985 euros parutilisateur

31

Éditeur Produit CaractéristiquesPrix

(à partir de...)

BusinessObjects

Business DataIntegrator

Intégré à Business Objects Enterprise Suite6, l'ETL de BO est issu du rachat de lasociété Acta qui disposait d'une technologieoriginale basée sur un serveur de cache; cedernier nettoie les données avant de lesinjecter dans un datamart.

nc

Tableau 6 : Principaux outils ETL du marché 13

13 http://www.zdnet.fr/techupdate/infrastructure/imprimer.htm?AT=2135959-39020938t-39000766c

32

Annexe 3.Master Data Management (MDM)

MDM pour Master Data Management14

Gérer la qualité et la cohérence des données contenues dans les bases et systèmes del’entreprise, telle est la vocation de cette méthode applicative.

29 Novembre 2004 > Que recouvre le concept de Master Data Management ?En général, une entreprise dispose de plusieurs bases de données rangées chacuneau sein d'un système d'information ou derrière une application métier particulière(gestion comptable, ventes, gestion des ressources humaines, serveur de suivi deproduction, etc.). C'est notamment le cas pour des structures ayant opté pour uneapproche best-of-breed à l'inverse d'une politique technologique articulée autour d'unprogiciel de gestion intégrée.Dans cette logique, les processus de mise à jour de données sont réalisésparallèlement par des équipes différentes par le biais d'outils hétérogènes. Uncontexte structurel qui engendre des risques d'incohérences entre applicatifs. D'oùl'importance de s'attacher à l'harmonisation des données. C'est bien là l'objectif de laméthode de "Gestion des données de base" (MDM - pour Master Data Managementen anglais).> Comment fonctionne cette méthode ?Comme son nom l'indique, elle consiste à regrouper l'ensemble des données dites"de base" de l'entreprise (Master Data). Un référentiel standardisé qui a pour but dejouer le rôle de pré requis lors de la mise à jour de tel ou tel système.Concrètement, ce référentiel contient l'ensemble des objets essentiels à la vie del'entreprise et décrit les liens qu'ils entretiennent entre eux : numéros de référenceclients, fournisseurs, partenaires, etc. Grâce à cette couche généralement associéeà des mécanismes de contrôle et de validation, les objets sont modifiés de façoncohérente et les doublons évités. Au final, ce dispositif a pour but de garantir laqualité des données métier en phase de production.> Quels sont les champs d'intervention du Master Data Management ?Cette démarche présente un intérêt dans de nombreux domaines. Ici, on peutnotamment évoquer la mise en oeuvre d'une démarche de communicationmulticanal. Une approche qui nécessite de bénéficier d'une certaine cohérence entrecontenus diffusés quel que soit le moyen de communication utilisé (site Internet,centre de contacts, etc.). Autre champ généralement évoqué : celui de l'analysedécisionnelle et du reporting qui peut impliquer des fonctions de contrôle desdonnées manipuler pour assurer la régularité des rapports de résultats.> Quelle différence avec les fonctions d'ETL et d'EII ?Comme on l'a vu, le Master Data Management fournit une brique de référence pourcontrôler l'homogénéité des données du système d'information. De leur côté, lesmécanismes d'ETL (pour extraction, transfert et chargement de données) et d'EII (ouintégration des informations d'entreprise) prennent en charge leur manipulation.

14 http://solutions.journaldunet.com/0411/041129_mdm.shtml

33