etl overview iup vannes
Embed Size (px)
TRANSCRIPT
UNIVERSIT DE BRETAGNE-SUD IUP MIS RUE YVES MAINGUY 56000 VANNES
tude comparativedes diffrents outils d'ETL (Extract, Transform, Load) du march
ETUDE RALISE DANS LE CADRE DU COURS DE SYSTME DCISIONNEL
CHLO FRIGUET MARIE COUSSEAU MASTER 1 STAT SOUTENANCE : 12 MAI 2005
Mise en contexte..............................................................................................3 1.Principe de lalimentation.............................................................................51.1.Extraction des donnes......................................................................................5 1.2.Transformation des donnes.............................................................................6 1.3.Chargement de donnes....................................................................................6
2.Les outils ETL................................................................................................7 3.Le march des outils ETL.............................................................................83.1.Les leaders du march.....................................................................................103.1.1.Informatica : PowerCenter....................................................................................10 3.1.2.SAS : ETL Serveur...............................................................................................12 3.1.3.Ascential : Datastage et Datastage TX.................................................................12
3.2.Les challengers................................................................................................133.2.1.DataMirror : Transformation Server......................................................................13 3.2.2.Cognos : DecisionStream.....................................................................................14 3.2.3.Microsoft : Data Transformation Services............................................................15 3.2.4.Oracle : Data Integration.......................................................................................15 3.2.5.BusinessObjects : Data Integrator........................................................................15 3.2.6.Hummingbird : Genio............................................................................................16 3.2.7.Sunopsis : Sunopsis ETL et Sunopsis Real-time ETL..........................................16
4.Les caractristiques....................................................................................194.1.Transformation des donnes : plusieurs approches........................................194.1.1.Les serveurs ETL..................................................................................................19 4.1.2.Utilisation de fonctions intgres..........................................................................20 4.1.3.Les outils gnrateurs de code.............................................................................20 4.1.4.Dveloppement manuel dun outil ETL.................................................................21 4.1.5.Comparaison des diffrentes approches..............................................................22
4.2.Temps rel / Batch ..........................................................................................224.2.1.Temps rel mode synchrone.............................................................................23 4.2.2.Mode batch mode asynchrone...........................................................................23
4.3.ETL et gestion des mtadonnes....................................................................23 4.4.Autres caractristiques.....................................................................................244.4.1.Architecture et environnement technique.............................................................24 4.4.2.Prix des outils en fonction des configurations choisies.........................................24 4.4.3.Interfaces graphiques............................................................................................25
Conclusion......................................................................................................26 Bibliographie..................................................................................................28 Glossaire.........................................................................................................29 Annexes...........................................................................................................30
2
Mise en contexteUn Systme d'Information Dcisionnel (SID) est un outil destin recueillir, organiser, mettre en forme et diffuser des donnes de manire en faire des informations. Un SID est un dispositif double face : il combine des donnes d'origines diverses (oprationnelles ou externes) et les met disposition des utilisateurs selon des objectifs informationnels.
Schma 1 : Reprsentation schmatique d'un datawarehouse
Les Systmes Dcisionnels se caractrisent par : o d'importants volumes de donnes qui voluent rapidement, o des exigences de temps d'accs, o l'absence de mises jour transactionnelles, o des besoins volutifs, o des requtes imprvisibles et pouvant rapprocher des donnes "loignes". En gnral, les donnes sources, qui peuvent reprsenter un gros volume, ne sont ni cohrentes smantiquement, ni lies entre elles d'une manire adapte la perspective dcisionnelle. De plus, les environnements d'o proviennent ces donnes sont conus et organiss d'une manire qui se prte mal l'implmentation d'applications dcisionnelles. Ces contraintes sont prendre en compte lors de la mise en place d'un entrept de donnes. D'une manire gnrale, la mise disposition des donnes implique quatre tapes : o Collecte des donnes : approvisionnement du SID en donnes ( partir des bases de production (oprationnelles) ou de l'extrieur),
3
o Intgration des donnes : pour assurer la cohrence globale des donnes (modle unifi) et leur mise disposition en un point unique (entrept), o Diffusion des donnes : mise disposition des applications, sous forme dimensionnelle, des donnes puises dans l'entrept, o Prsentation des donnes : accs aux donnes organises (forme dimensionnelle) par les utilisateurs au moyen de services logiciels. galement appele reporting, cette tape se charge de diffuser et de prsenter les informations valeur ajoute de telle sorte quelles apparaissent de la faon la plus lisible possible pour le dcideur. Nous allons nous intresser plus particulirement aux deux premires fonctions : collecte et intgration des donnes. Le Systme de Collecte et d'Intgration des donnes (SCI) est un sous systme d'un SID complexe mais essentiel : c'est sur lui que repose le SID. En effet, la base d'intgration des donnes est l'entrept de donnes lui-mme. La diffusion des donnes se fait partir de cet entrept. Le SCI doit avoir un impact minimal sur la fonction oprationnelle mais il doit, en mme temps, permettre le rafrachissement priodique des donnes en fonction des besoins des utilisateurs. Le rle du SCI est de collecter les donnes partir de diffrentes sources et de les mettre en forme, conformment un modle (intgration). Un mme outil peut effectuer les fonctions de collecte, de transformation et de chargement des donnes. C'est le cas des outils ETL.
4
1.
Principe de lalimentation
Lalimentation dun entrept de donnes se droule en trois tapes : lextraction des donnes partir des bases sources, leur transformation puis le chargement dans lentrept.
Transform
Schma 2 : Alimentation d'un datawarehouse
1.1.Extraction des donnesLa premire phase de la construction dun entrept de donnes consiste extraire les donnes utiles des systmes oprationnels, sans pour autant perturber les environnements de production. Ces donnes sont dans de nombreux cas htrognes, complexes et diffuses : o Htrognes : on rencontre plusieurs SGBD diffrents et parfois plusieurs mthodes daccs o Complexes : les donnes sont organises en vue de traitements transactionnels o Diffuses : les donnes proviennent de plusieurs environnements matriels, voire de diffrents sites connects par un rseau L'extracteur est un composant logiciel simple dont le but est de prlever un flux de donnes partir des systmes de production pour alimenter le systme dcisionnel. Son rle est prdominant dans la capacit du systme dcisionnel se prserver des volutions structurelles des systmes en amont. On ralise un extracteur par nature de flux prlever sur les applications oprationnelles. L'extracteur met disposition du systme d'information dcisionnel un flux de donnes au format fixe, valid en phase de spcification. L'extraction peut tre de deux types : o totale : on extrait la globalit du flux chaque traitement. Technique adapte dans le cas d'une volumtrie rduite. o incrmentale ou "Delta" : on ne traite que les enregistrements crs, modifis ou supprims depuis la dernire extraction.
5
Les donnes sont extraites des bases de production la cration de lentrept et lors des rafrachissements. la cration de lentrept, un premier chargement est effectu. Cela consiste prendre une copie intgrale des donnes oprationnelles intressant le SID. Le rafrachissement priodique se fait par collecte dynamique, en ne capturant que les changements qui ont eu lieu dans le systme oprationnel depuis la dernire opration de collecte. Il ncessite un mcanisme de dtection des changements. Lextraction doit tre performante et doit viter de perturber les environnements de production.
1.2.Transformation des donnesLes bases de production peuvent contenir des donnes de mauvaise qualit (donnes manquantes, incompltes, aberrantes, en double, obsoltes). Cette mauvaise qualit a plusieurs origines : manque de contrle dans la saisie des donnes, incident de transfert lors du processus de collecte des informations, retard dans les mises jour Les consquences de la mauvaise qualit des donnes peuvent tre importantes : remise en cause des indicateurs de performance, dcrdibilisation du systme dinformation, perte financire La deuxime phase du processus dalimentation de lentrept consiste donc transformer les donnes extraites de manire obtenir un ensemble homogne. Les donnes subissent un filtrage, pour liminer les donnes manquantes ou aberrantes par exemple, et un formatage afin de normaliser les informations (unification du codage). Les doublons doivent tre dtects pour assurer la cohrence de lentrept. Les donnes de l'entrept ne sont pas simplement copies depuis les bases de production mais sont mme en gnral cres par agrgation ou calcul.
1.3.Chargement de donnesCette phase consiste injecter en une seule fois les informations collectes dans lentrept. Elle permet aussi de stocker les informations de manire correcte dans les tables de faits correspondantes du datawarehouse, dans le but de rendre les donnes disponibles pour lanalyse et le reporting.
6
2.
Les outils ETL
Afin deffectuer ces diffrentes oprations, un outil appel ETL (Extract, Transform, Load) est apparu, charg dautomatiser les traitements et de les rendre facilement paramtrables. Il doit tre capable dextraire des donnes dcrites sous des formats susceptibles de changer dans le temps et stockes sur des systmes amens voluer. Contrairement aux EII (Enterprise Information Integration) qui interrogent plusieurs sources en temps rel mais sans dplacer les donnes, les outils ETL les dplacent en gnral en mode asynchrone vers une nouvelle base. Loutil ETL fait parti dun sous-ensemble des EAI (Enterprise Application Integration), domaine plus gnral regroupant toutes les formes d'intgration entre des applications, des processus ou/et des interfaces. L'ETL se positionne sur l'intgration des donnes. Aprs avoir t paramtr suivant les besoins du dcisionnel, avec les donnes en entre, les donnes en sortie et les processus de transformation effectuer, lETL effectue lalimentation gnralement en mode batch1. Les mmes processus de transformation sont appliqus de manire rcurrente lors de chaque alimentation.EAI Avantages Description Bus inter applicatif qui orchestre les changes entre les applications. Fonctionne en mode synchrone. Traite des charges importantes. Pas de fonctions de transformation. Cots dacquisition et de mise en uvre levs. EII Hub de donnes pour interroger des sources htrognes, dot de fonction de mapping. Fonctionne en mode synchrone. Centralise laccs des sources htrognes. Pas de fonctions de transformation. Peu performant sur les requtes complexes. ETL Extrait les donnes sources htrognes, les transforme et les rinjecte dans une nouvelle base. Nettoyage et transformation des donnes. Une seule source de donnes interroge par loutil de restitution, gage de performance. Fonctionne en mode asynchrone. Flexibilit moindre sur les modifications.
Inconvnients
Tableau 1 : Trois mthodes phares du dcisionnel - source : 01Informatique (03/05)
1
Syn. traitement par lots. Un batch est un fichier contenant un ensemble de commandes qui seront traites automatiquement comme si elles taient entres au clavier par l'utilisateur, les unes aprs les autres.
7
3.
Le march des outils ETL
Le march des outils ETL se compose de plusieurs diteurs qui ont dvelopp des solutions aux caractristiques varies.
Schma 3 : March mondial des outils ETL - source : Forrester (mars 2005)
Les principaux outils sont : diteur Informatica SAS Ascential (IBM) DataMirror Cognos Microsoft Oracle Business Objects Hummingbirg Sunopsis ELT Solutions Ltd Solution ETL PowerCenter ETL Server DataStage Transformation Server DecisionStream SQL Server module DTS (Data Transformation Services) Warehouse Builder ActaWorks Data Integrator Genio Sunopsis ETL Transformation Manager (TM) Version 7.1.1 9.1.3 7.5 5.1 ? 2000 SP3 10.1.0.2.0 6.5 5.1 3.2 ? date 08/2004 08/2004 07/2004 04/2003 ? 08/2000 05/2004 04/2004 09/2004 06/2003 ?
Tableau 2 : Les principaux diteurs et leur solution ETL
8
OFFRE Moins Plus Prsence le march Moins
sur
STRATEGIE
Plus
Schma 4 : La performance des outils ETL - Source : Forrester
Nous allons prsenter les outils des principaux diteurs du march : les leaders Informatica, Ascential et SAS mais aussi certains outils en pleine volution comme DataMirror, Cognos, Microsoft, Oracle, Business Objects et Sunopsis.
3.1.Les leaders du march3.1.1. Informatica : PowerCenter2
Informatica PowerCenter fournit une plate-forme dintgration de donnes lchelle de lentreprise qui permet daccder aux donnes dune large gamme de systmes, de les transformer, de les intgrer et de les mettre disposition dautres systmes transactionnels, processus mtiers temps rel et collaborateurs de lentreprise. En rendant possible la cration un rfrentiel dinformation unique, cohrent et partag par toute lorganisation, PowerCenter aide les entreprises rduire les cots et la complexit de leurs systmes dinformation, facilite ladoption de nouvelles technologies et contribue lamlioration globale de leurs performances.2
http://www.informatica.com/fr/products/powercenter/default.htm
9
Grce Informatica PowerCenter, il est possible de : o Intgrer les donnes pour offrir aux utilisateurs mtiers un accs exhaustif aux donnes de lentreprise des donnes compltes, exactes et disponibles en temps voulu. o Monter en charge de faon rpondre aux besoins croissants dinformation des quipes mtiers Les donnes sont distribues dans un environnement scuris et volutif, garantissant un accs immdiat aux donnes dun nombre illimit de sources htrognes. o Simplifier la conception, la collaboration et la rutilisation pour rduire les dlais de livraison des quipes de dveloppement - Une gestion ingale des mtadonnes renforce la capacit des quipes satisfaire des besoins en constante volution et toujours plus complexes. PowerCenter est disponible en deux ditions : o PowerCenter Standard Edition : Logiciel permettant l'accs, l'intgration et la distribution de donnes, PowerCenter Standard Edition est une solution conomique pour exploiter les donnes issues de tous systmes vers tous autres systmes. PowerCenter Standard Edition peut tre install en moins de 30 minutes. o PowerCenter Advanced Edition : En plus des fonctionnalits de PowerCenter Standard Edition, PowerCenter Advanced Edition couvre tous les besoins dintgration de donnes de lentreprise avec une seule plate-forme, incluant de solides fonctionnalits danalyse de mtadonnes et de reporting, des fonctions conomiques de grid computing et des capacits avances de dveloppement collaboratif. Avec PowerCenter Advanced Edition, les entreprises bnficient pleinement des avantages rsultant de lutilisation dune plate-forme unique pour grer la totalit du cycle de lintgration de donnes : gains de productivit, rduction des cots de maintenance et conomies substantielles lies une prise en main immdiate. PowerCenter Advanced Edition peut tre install en moins dune heure. PowerCente PowerCenter r Standard Advanced Edition EditionX X X X X X X X X X X X X X X X X X X X X X X X X X X X
Caractristiques et fonctionnalitsPlate-forme principale PowerCenter Data Server (serveur de donnes) Rfrentiel de mtadonnes Outils de conception et de gestion Librairie complte dobjets de transformation Serveur de rfrentiel avec import/export XML Outils de scurit (rles et authentification) et intgration LDAP Planification et contrle centraliss de workflows Traitement des donnes relationnelles natives, XML et hirarchiques Extensibilit totale des transformations personnalises Clients dveloppeurs et administrateurs usage illimit Ensemble dAPI ouvertes pour lintgration avec des outils tiers Intgration totale avec Informatica PowerExchange Support des sources XML et fichiers plats
10
Caractristiques et fonctionnalitsDocumentation complte sur la plate-forme Connecteurs pour sources standards (2) Connecteurs pour cibles standards (2) Reporting prt lemploi (PowerAnalyzer) : Cration de rapports Mesures et alertes en temps rel Reporting ad hoc et rapports pr-configurs Intgration avec Excel
PowerCente PowerCenter r Standard Advanced Edition EditionX X X X X X X X X X X X X X X X X X X Option Option Option Option Option Option
Analyse des mtadonnes (SuperGlue) : Gnalogie intelligente de l'information au niveau du champ Reporting interactif sur lutilisation des mtadonnes Fonctions de recherche et options de personnalisation web Mtamodle extensible et ouvert bas sur le standard OMG/CWM Connectivit prconfigure pour un grand nombre de mtadonnes Dveloppement collaboratif Grid computing Fonctionnalits supplmentaires Data Cleansing (nettoyage de donnes) Option Data Profiling (profilage de donnes) Option Metadata Exchange Option Partitioning (partitionnement) Option PowerCenter Connect Option Real-time (temps rel) Option Tableau 3 : Caractristiques de PowerCenter - source : Informatica
3.1.2.
SAS : ETL Serveur3
Le serveur ETL de SAS permet de concevoir, dvelopper et exploiter les traitements dalimentation priodique des systmes dcisionnels et se compose : o dun environnement de dveloppement ETL intgrant les phases de dveloppement, test et production, o dun gnrateur de traitement rduisant la programmation au stricte minimum, o dun langage dcisionnel spcialis comportant plusieurs milliers de fonctions, o dun environnement de mtadonnes pour conserver la traabilit des donnes, o de connecteurs natifs aux SGBD/R et fichiers squentiels indexs, texte, bureautique, log web, etc. soit plusieurs dizaines de sources de donnes, o de connecteurs natifs et de dictionnaire mtier des principaux ERP,
3
http://www.sas.com/offices/europe/france/software/technologies/etl.html
11
o de fonctions paramtrables de dtection et de correction de la qualit des donnes, o dun ordonnanceur intgr avec gestion vnementielle permettant dexploiter les traitements sur plusieurs serveurs. Le serveur ETL de SAS a t spcialement conu pour supporter des charges de traitements lourdes et sappuie sur la technologie multithreading du serveur SAS pour lextraction, la transformation et la prparation des grandes bases de donnes dcisionnelles. Il intgre directement des fonctions de vrification et standardisation des informations, qui assurent leur exactitude et leur qualit. Cette tape du traitement des donnes, souvent nglige, savre fondamentale pour pouvoir crer une relle valeur partir des donnes. Il a t spcialement conu pour supporter lalimentation des donnes des applications analytiques comme la connaissance du comportement des clients ou le reporting dynamique des ventes qui ncessitent des transformations spcifiques telles que la transposition ou lagrgation des donnes transactionnelles.
3.1.3.DataStage
Ascential : Datastage et Datastage TX4
DataStage, le module de gestion des mouvements de donnes de la Suite dIntgration de donnes, est totalement adapt la problmatique d'extraction, de transformation, d'intgration et de chargement de donnes (ETL) car il est fond sur des composants ouverts, optimiss et rutilisables permettant : o Le dveloppement de processus de mouvement et de transformation des flux de donnes par modlisation graphique ; o La rutilisation naturelle des environnements existants (modles, flux, programmes, etc.) La famille de produits DataStage constitue une solution ETL performante aux capacits de monte en charge illimites. Elle est offre des fonctions de gestion de mtadonnes et dassurance de la qualit des donnes pour la gestion et lintgration des applications stratgiques. Avantages de DataStage o Les dcisions business sont bases sur des donnes compltes et pertinentes. o Les temps de dveloppement et le retour sur investissement des applications dentreprise sont acclrs. o L'intgration de grands volumes de donnes quelle que soit la complexit des structures de ces donnes est assure. Cette offre ETL s'appuie sur une exprience russie auprs de plus de 2200 clients dans le monde et plus de 350 en France. Ascential est capable de simplifier et dassurer le dploiement russi dapplications dentreprise intensives en donnes en intgrant la gamme complte de profiling et de nettoyage de donnes, de gestion des metadonnes et4
http://www.ascential.fr/produits/datastage.html
12
dintgration des donnes, au sein dune suite unique de produits, totalement intgre. DataStage TX Ascential DataStage TX supporte les standards du march et rpond des exigences de connectivit, en permettant de rsoudre les problmes stratgiques en temps rel. L'architecture oriente solutions de DataStage TX est ouverte et volutive. La mise en oeuvre est acclre, les risques rduits et l'efficacit accrue. DataStage TX permet d'automatiser facilement et de faon transparente de gros volumes de transactions complexes sans codage additionnel. Grce son architecture ouverte et extrmement volutive, DataStage TX 6.7 offre un retour sur investissement beaucoup plus rapide. Avantages de DataStage TX o Intgration rapide et transparente d'un grand nombre des applications, bases de donnes et systmes de messagerie les plus utiliss ; o Prise en compte rapide et souple des exigences de gestion stratgiques volution rapide ; o Exploitation de la valeur de vos systmes et applications d'entreprise ; Respect des besoins en matire de solutions d'intgration compltes ou bases sur des projets.
3.2.Les challengers3.2.1. DataMirror : Transformation Server5
Elment central dIntgration Suite de DataMirror, Transformation Server est une solution dintgration de donnes hautement performante et Peer-to-Peer qui permet aux entreprises de gagner du temps et dconomiser des ressources en leur fournissant lintgration de donnes sans aucun besoin de programmation, dans tous leurs systmes informatiques. Transformation Server tend la fonctionnalit ETL en permettant aux entreprises de capturer, de transformer et de transfrer des donnes commerciales et dentreprise, en temps rel, entre DB2 UDB, Microsoft SQL Server, Oracle, PointBase, Sybase, Teradata et XML vers de multiples platesformes informatiques. La technologie de Transformation Server pour la capture, la transformation et le transfert des donnes (CTF) amliore lefficacit oprationnelle et fait gagner du temps et des ressources en supprimant les transferts de donnes redondants et en conomisant la bande passante du rseau. Que les donnes soient intgres en temps rel ou intervalles rguliers, seules les donnes modifies sont captures puis transfres du systme source vers le systme cible. Supportant en natif les principales bases de donnes, Transformation Server est idal pour mettre en oeuvre des applications de gestion en temps rel et on demand, telles que la distribution de donnes, lintgration dapplications dentreprise, le-Business, la business intelligence, le CRM (Customer Relationship Management) et le BAM (Business Activity Monitoring).5
http://www.datamirror.com/fr/products/tserver/default.aspx
13
Avantages de Transformation Server o Intgration de donnes sre et dynamique, sans aucune programmation, o Solution souple et adaptable presque tous les environnements informatiques, o Partage dynamique des informations en temps rel, travers toute lentreprise et au-del, o Visualisation et surveillance faciles des rseaux dintgration complexes, laide de reprsentations graphiques, o Identification et rsolution rapides des problmes de rseau, grce une surveillance centralise, o Performances et efficacit oprationnelles accrues, grce un solide gestionnaire des communications, o Optimisation du retour sur investissement, grce une mise en place rapide et des cots de maintenance rduits.
3.2.2.
Cognos : DecisionStream6
Le logiciel ETL (extraction, transformation et chargement) DecisionStream rassemble des donnes disparates en une base unifie de Business Intelligence pour excuter rapidement rapports et analyses partir des donnes d'exploitation disponibles. Les entrepts de donnes dimensionnels constituent une base cohrente, prcise et rutilisable en rendant conformes les principales dimensions de l'entreprise (temps, produit, client, etc.) pour autoriser le reporting l'chelle des diffrents services de l'entreprise. Un environnement visuel intuitif vous permet de concevoir rapidement et facilement le cadre de vos donnes sans programmation. Cognos DecisionStream offre un accs rapide aux donnes BI en gnrant toutes les mtadonnes requises pour dvelopper un environnement de Business Intelligence et le maintenir. Avantages de DecisionStream o Les entrepts de donnes dimensionnels organisent les donnes par sujet/service (ventes, finances) et par catgorie (client, produit). o Le moteur ETL, bas sur serveur et multi plate-forme, traite de gros volumes de donnes dans des fentres de mise jour, sans investissement matriel important. o L'interface graphique intuitive rend les processus de transformation simples et rapides pour l'utilisateur. o Le cadre dimensionnel flexible s'adapte aux changements et peut voluer d'une solution ddie un dpartement, par exemple, un service de plateforme d'entreprise. o Intgration parfaite des meilleurs logiciels de Business Intelligence au monde, les logiciels Cognos d'analyse, de reporting, de tableau de bord et de scorecarding.
6
http://www.cognos.com/fr/products/business_intelligence/data_preparation/
14
3.2.3.
Microsoft : Data Transformation Services
Les Services de Transformation des Donnes (DTS) permettent dimporter et dexporter des cls primaires et trangres entre des produits de base de donnes pris en charge, de programmer la rcupration de donnes en plusieurs tapes et denregistrer des lots DTS sous forme de code Visual Basic. Cet outil ETL est uniquement intgr SQL Server.
3.2.4.
Oracle : Data Integration
Larchitecture de Warehouse Builder gnere du code pour la base de donnes cible Oracle9i. Le code gnr garantit une haute performance du processus de chargement des donnes et offre les fonctionnalits dun outil ETL volutif. Warehouse Builder dispose dun environnement graphique pour crer les transformations appliquer aux donnes (Mapping Editor). Cet outil ETL est uniquement intgr au SGBD Oracle9i.
3.2.5.
BusinessObjects : Data Integrator7
BusinessObjects Data Integrator est une plate-forme dintgration de donnes productive et volutive. Avec Data Integrator, un outil ETL complet, il est facilement possible dexplorer, dextraire et dalimenter les bases dcisionnelles avec la frquence de son choix. Data Integrator garantit que les utilisateurs disposent toujours dinformations prcises et fiables au jour le jour. L'intgration des processus ETL et des fonctions BI permet de disposer d'avantages essentiels en matire de gestion des mtadonnes, d'analyse d' impacts, d'optimisation des cycles de vie des systmes dcisionnels et de rduction des cots de maintenance. Les utilisateurs peuvent se fier leurs rapports BI dans la mesure o ils peuvent en tablir l'origine et obtenir une traabilit jusqu'au systme source. Data Integrator permet de dfinir trs facilement des process de traitements des donnes laide dune interface graphique et de puissantes fonctions de transformation. Cet ETL se connecte lensemble des sources de donnes et possde des connecteurs natifs sur des ERP tels que SAP. Data Integrator propose une riche interface graphique partir de laquelle il est possible de dfinir les processus ETL d'extraction, de transformation et de chargement, dassurer l'intgrit des donnes, de collaborer avec les dveloppeurs et de dployer des applications dans tous les types d'environnement. Business Objects Data Integrator est un outil d'intgration de donnes batch et temps rel conu pour simplifier et acclrer les flux de donnes et leur partage dans toute l'entreprise.
3.2.6.
Hummingbird : Genio8
Hummingbird ETL est une solution d'intgration de donnes recouvrant les domaines fonctionnels de l'ETL (extraction, transformation, chargement de donnes) et de l'EAI (intgration des applications d'entreprise). Cette solution permet de transformer, nettoyer et enrichir l'information pour ensuite la diriger travers tout l'ventail des systmes dcisionnels et des applications stratgiques de l'entreprise 7 8
http://www.france.businessobjects.com/produits/dataintegration/dataintegrator/default.htm http://www.hummingbird.com/international/france/products/etl/overview.htm
15
et ce dans le cadre d'une grande varit de projets du type datawarehouses, datamarts, etc. Hummingbird ETL est capable d'assurer toutes les oprations d'change de donnes quels que soient le format, la syntaxe, la source ou la cible de ces donnes (depuis le support XML jusqu' la connectivit mainframe, depuis les SGBD relationnels jusqu' l'OLTP multidimensionnel). Dans tous les types de projets ETL, Hummingbird ETL garantit une troite intgration avec n'importe quel environnement d'entreprise, offrant un support et une connectivit en natif, c'est--dire sans aucune programmation ni prparation des donnes. Cette solution permet ainsi l'entreprise d'conomiser du temps et des ressources en prennisant son environnement informatique htrogne. Hummingbird ETL permet de connecter n'importe quelle source de donnes n'importe quel systme cible travers toute l'entreprise, aidant ainsi les organisations exploiter plus efficacement leurs donnes en vue d'acclrer et d'optimiser leur processus stratgique de prise de dcision.
3.2.7.ETL9
Sunopsis : Sunopsis ETL et Sunopsis Real-time ETL
Sunopsis ETL permet une distribution optimise des processus et offre d'excellentes performances sur les gros volumes, mme avec des transformations complexes. Compar aux approches ETL traditionnelles, typiquement des scripts manuels ou des outils moteur centralis, Sunopsis ETL permet d'conomiser jusqu' 90% du temps et des cots d'implmentation et de maintenance. Avec le support, par dfaut, de toutes les sources de donnes grce aux standards de connectivit, Sunopsis ETL couvre tous les besoins avec la mme flexibilit. L'architecture distribue de Sunopsis ETL gnre du code natif SQL pour tirer parti des composants existants du systme d'information, comme les moteurs de bases de donnes sur lesquels les applications et les data warehouses sont installs. Cette architecture apporte un double avantage l'entreprise : en l'absence de serveur ddi et de moteur de transformation installer, les cots de la solution ETL sont considrablement rduits. Et parce que les moteurs de base de donnes sont extrmement fiables et optimiss pour traiter de larges volumes de donnes et des transformations complexes, les processus ETL bnficient de ces mmes avantages.
9
http://www.sunopsis.com/corporate/fr/products/sunopsisv3/default_etl.htm
16
Real-Time ETL10 Sunopsis Real-Time ETL est une solution pour l'ETL en batch et en temps rel. Grce son architecture innovante qui optimise l'excution des processus de manire distribue, loutil est performant mme pour des transformations complexes, sans compromettre sa facilit d'utilisation. Parce que seules certaines informations et non toutes - doivent tre analyses et restitues en temps rel, l'approche de Sunopsis Real-Time ETL permet de grer les processus de transfert de donnes la fois en batch et en temps rel. Avec la fonction intgre "Changed Data Capture", cet outil ETL dtecte les changements en temps rel sur toutes les bases sources. Les transformations sur les donnes sont effectues la vole. L'information est propage en temps rel sur les systmes cibles, via une connectivit directe ou en utilisant le MOM intgr Sunopsis MQ. Sunopsis Real-Time ETL s'appuie sur le code natif SQL qu'il gnre pour les moteurs de base de donnes dploys dans le systme d'information pour excuter les processus ETL, et utilise pleinement les fonctionnalits de manipulation de donnes de ces moteurs. Ceci donne un avantage unique Sunopsis ETL : des agrgations aux statistiques en passant par les outils de chargement natifs, il utilise entirement les fonctions les plus appropries pour chaque processus raliser.
10
http://www.sunopsis.com/corporate/fr/products/sunopsisv3/default_rte.htm
17
4.
Les caractristiques11
4.1.Transformation des donnes : plusieurs approchesLes diffrents outils ETL du march peuvent tre classs en plusieurs catgories. Nous allons en prsenter trois, qui sont celles retenues par les principaux diteurs : o Les transformations sont excutes sur un serveur ETL de manire centralise (engine-based), o Les transformations sont ralises laide de fonctions intgres dans la base de donnes (database- embedded), o Une description des transformations est utilise afin de gnrer du code qui pourra tre dploy sur tout autre systme (code-generators). Les entreprises peuvent aussi choisir de dvelopper elles-mmes leur propre outil ETL.
4.1.1.
Les serveurs ETL
Cette approche est lapproche traditionnelle, utilise ds les annes 90. Avec ce type darchitecture, linformation est extraite des sources de production, transforme, ligne par ligne, sur un serveur en utilisant un langage propritaire puis charge dans la base de donnes cible.
Schma 5 : transformation des donnes - approche traditionnelle
Voir annexe 1 : Tableau rcapitulatif classement des diteurs d'outils ETL en fonction des diffrentes caractristiques.11
18
Tous les processus ont lieu sur le serveur et non sur les systmes sources. Il peut donc tre ncessaire dacheter un serveur pour hberger lapplication, ce qui augmente les cots. Cependant, lapprentissage est trs rapide. Pourtant, cette architecture n'apporte pas la flexibilit ou la libert de crer d'autres transformations sur les donnes, ncessites par certains projets.
4.1.2.
Utilisation de fonctions intgres
Plusieurs diteurs de SGBD intgrent des fonctions ETL dans leurs produits, ce qui rduit les cots, et permet de simplifier l'environnement dcisionnel. Le SGBD est utilis comme moteur pour effectuer les transformations et les agrgations. On peut donc se demander pourquoi acheter un outil ETL alors que le SGBD peut raliser les mmes fonctions moindre cot. En effet, les diteurs de SGBD proposent des fonctions qui, la fois, concurrencent et appuient les outils ETL indpendants. Il y a encore quelques annes, les SGBD ne permettaient que des transformations basiques. Depuis le milieu des annes 90, les diteurs ont considrablement augment le nombre et amlior les fonctions ETL des SGBD. Ces outils ETL fonctionnent comme des gnrateurs de code et montrent que SQL peut suffire pour excuter les transformations, mme les plus complexes. Il faut cependant noter que toutes les fonctions des outils ETL ne font pas forcment partie de cette solution mme si les nouvelles versions incluent toujours plus de fonctions. De plus, ces outils demandent du codage manuel et l'volution entre deux versions successives reste faible : la productivit et les possibilits techniques ne sont donc pas optimises. Le dfaut le plus important de cette solution est que le code ne peut tre utilis que sur le SGBD de l'diteur lui-mme.
4.1.3.
Les outils gnrateurs de code
Cette solution s'appuie sur le principe que l'outil ETL peut utiliser le SGBD comme moteur mais en rsolvant le principal problme des fonctions intgres : l'utilisation de l'outil indpendamment du SGBD lui-mme. La description des processus d'alimentation aboutit la gnration automatique de code qui sera ensuite intgre dans les chanes d'exploitation. Une interface graphique permet de crer un diagramme qui reprsente l'extraction depuis la source, les transformations pertinentes puis le chargement dans les tables cibles. La gnration de code est lapproche la plus flexible car le code ainsi gnr peut sintgrer dans toutes les architectures, ne requiert pas de serveur additionnel et est indpendante de toute base de donnes propritaire. En gnral, le code gnr est du code SQL : ce langage s'est beaucoup dvelopp ces dernires annes et permet aujourd'hui d'effectuer plus de tches en tant plus riche et plus performant. L'avantage de cette architecture est qu'il ny a pas besoin de coder manuellement, ni dinstaller de serveur ddi ou de moteur de transformations. Les cots engendrs par le choix d'une telle solution sont donc moindres. Par ailleurs, les outils gnrateurs de code permettent lintgration des donnes en batch ou en temps rel. Cette approche supporte des processus plus complexes que les serveurs ETL et peut donc effectuer des traitements eux aussi plus complexes. Cependant, l'utilisation de ces outils est moins intuitive que ceux utilisant l'approche traditionnelle. 19
Les outils ETL gnrateurs de code s'orientent vers un fonctionnement TEL ou ELT, c'est--dire que la phase de transformation lieu avant ou aprs celles dextraction et de chargement des donnes. Avec un outil ELT, le SGBD sert de moteur des transformations : les donnes sources sont charges en masse directement des bases de production vers l'entrept de donnes et les transformations sont excutes en bloc par le SGBD cible de l'entrept. Les transformations de donnes se font l'aide d'outils graphiques, puis l'outil gnre du code SQL contenant les instructions des transformations et qui sera excut par le SGBD de l'entrept de donnes.
Schma 6 : une autre approche (Approche ELT par Sunopsis)
4.1.4.
Dveloppement manuel dun outil ETL
Avant les outils ETL spcialiss, des solutions de transformation de donnes existaient dj, dveloppes au sein mme des services informatiques de l'entreprise. Cette solution, aujourd'hui, est gnralement choisie lorsque le projet ne concerne quun volume de donnes peu important (jusqu 20 tables environ). Pour cette tche, lachat dun outil ETL reprsenterait un cot financier important, ainsi que des cots de formation. Cependant, le dveloppement manuel dun outil ETL prend du temps et demande des comptences spcifiques en programmation (dveloppement du programme, maintenance et mise jour du code). De plus, le code manuel ne permet pas toujours d'effectuer les transformations les plus complexes et de grer un contrle de qualit des donnes. Le codage manuel reste nanmoins un moyen qui perdure, malgr la maturit atteinte par les outils ETL du march.
20
4.1.5.Outil ETL Gnrateur de code
Comparaison des diffrentes approchesAvantages Inconvnients Environnement graphique moins intuitif
Prise en charge de transformations complexes Production de code compil compatible avec de nombreuses plateformes Pas dachat de matriel ni de formation sur un logiciel propritaire Cot moindre Possibilit de configurer le serveur pour optimiser les performances Pas dinterfrence avec dautres applications Interface graphique intuitive Pas dachat de matriel Cots rduits Environnement simplifi
Fonction ETL intgre
Ncessit d'acheter un serveur plus performant Le serveur peut tre un goulot dtranglement Utilisation de langages et de logiciels propritaires Qualits et fonctionnalits variables Transformations de complexit moindre Utilisation limite au SGBD de l'diteur Ncessit de codage manuel
Serveur
Tableau 4 : Comparaison des diffrentes approches
4.2.Temps rel / BatchLapproche en temps rel montre peu dimpact sur la phase de restitution (reporting, tableau de bord), qui se contente de croiser les donnes qui lui sont fournies. Tout se joue au niveau du processus dinterrogation des donnes. Lanalyse se pratique en gnral en mode asynchrone, pour des raisons de performance et de cohrence des donnes. Les outils ETL fonctionnent principalement en mode asynchrone (batch), et souvent la nuit pour ne pas avoir d'impact sur les ressources machine et rseau pendant les heures de bureau. Ils sont capables dapporter de la cohrence aux informations et de consolider les donnes dans un entrept, en garantissant les performances. Cependant, lvolution des architectures permet aux outils ETL de dtecter les modifications survenues dans les bases de production afin dalimenter lentrept au fur et mesure. 21
Ainsi, la plupart des outils ETL fonctionnent en mode asynchrone mais proposent des modules de traitement des donnes en temps rel. Les outils ETL peuvent donc fonctionner en deux modes : temps rel (synchrone) ou batch (asynchrone).
4.2.1.
Temps rel mode synchrone
Aujourd'hui, les besoins d'analyse et de reporting en temps rel restent marginaux alors que la demande dapplication en temps rel est de plus en plus importante, particulirement dans des domaines tels que les tlcoms ou le secteur bancaire, par exemple. Cependant, les outils de requtes multi-sources en temps rel (EAI par exemple) ne grent pas la qualit des donnes (cohrence, transformation) par manque dun rfrentiel global. Ce mode de traitement des donnes se base sur un dtecteur de modification, qui propage l'entrept de donnes les changements des bases de production. Le raccourcissement des dlais de rafrachissement des donnes implique des serveurs plus robustes, donc plus chers. De plus, les diffrentes couches de larchitecture dcisionnelle doivent dialoguer en permanence pour fonctionner en mode synchrone. Malgr la complexit et le surcot entran par le fonctionnement en temps rel, les diteurs dETL intgrent des modules de traitement des donnes en mode synchrone dans leur outil.
4.2.2.
Mode batch mode asynchrone
Les outils asynchrones sont ceux permettant de faire transiter linformation au fil de leau entre les applications sans impliquer leur disponibilit immdiate mais en garantissant le traitement de lvnement. Les outils batch, qui effectuent le traitement des donnes par lot, sont conus pour traiter de gros volumes de donnes.
4.3.ETL et gestion des mtadonnesLes outils ETL orients mtadonnes permettent de s'assurer que les donnes lues et crites rpondent aux contraintes de l'intgrit des donnes. Cela permet de constituer une architecture particulirement adapte aux environnements multi-utilisateurs. L'objectif est de concevoir un environnement unique avec un dictionnaire unique. Les rapports d'analyses se basant sur un entrept de donnes construit l'aide d'un outil orient mtadonnes sont fiables, puisque on peut tablir l'origine des donnes et effectuer une traabilit jusqu'au systme source. Le dictionnaire des mtadonnes comporte des informations sur les donnes sources / cibles, sur les transformations: o Description des donnes sources et cibles (description technique, fonctionnelle, mtier, administrative) o Description des processus d'alimentation o Rgles de gestion (contrles qualitatifs, calculs d'indicateurs, rgles de transformation) o Comptes-rendus d'excution (historique des alimentations ) 22
Ce dictionnaire des mtadonnes pour vocation de devenir le dictionnaire de rfrence pour l'ensemble des outil d'analyse et de restitution. Pour assurer la performance des outils, certaines caractristiques du dictionnaire de mtadonnes sont importantes, parmi lesquelles : o Personnalisation : possibilit dajouter des modifications, que lditeur navait pas prises en compte. o Format de stockage libre pour pouvoir intgrer des informations avec dautres produits. o Partage des mtadonnes avec dautres applications La stratgie du dictionnaire de mtadonnes tendu toute l'entreprise ne s'appuie pas sur une alimentation en temps rel. Il deviendrait une sorte d'interface entre tous les dictionnaires de mtadonnes des applications du systme d'information. Son rle serait alors de coordonner et de donner une vision cohrente des concepts prsents dans l'entreprise, en facilitant le dialogue entre les applications.
4.4.Autres caractristiques4.4.1. Architecture et environnement technique
Les outils disposent darchitecture compatible avec celle des donnes existantes. Ils sont compatibles avec les plateformes serveur et de conception, les bases de donnes sources/cibles usuelles.
4.4.2.
Prix des outils en fonction des configurations choisies
Le prix dun outil ETL est important, dautant plus quil est difficile dvaluer le gain rel quil va apporter lentreprise. Il sagit donc de dterminer loutil ETL dont le prix correspondra au budget et dont les performances seront adaptes au projet, cest--dire celui qui aura le meilleur rapport performance/prix. On peut donc classer les outils ETL du march en fonction de leur configuration (solution plus ou moins complte) et de leur prix : Prix faibleDe $80K $150K Business Objects Hummingbird IBM Pervasive Sunopsis De $40K $90K Business Objects DataMirror Hummingbird IBM Microsoft Pervasive Sunopsis
Prix moyenDe $200K $450K DataMirror ETI Group 1 iWay Microsoft De $100K $255K Ascential ETI Group 1 iWay Oracle
Prix levDe $8000K $1.4M Ascential Informatica Oracle SAS De $350K $500K Informatica SAS
Configuration complte
Configuration intermdiaire
23
Prix faible
Prix moyen
Prix lev
Moins de $40K De $50K $90K De $105K $360K Business Objects Ascential ETI DataMirror Group 1 Informatica IBM Hummingbird SAS Petite iWay Oracle configuration Microsoft Oracle Pervasive Sunopsis Tableau 5 : Prix des outils ETL en fonction de leur configuration source : Forrester
4.4.3.
Interfaces graphiques
La plupart des outils ETL disposent dinterfaces graphiques pour que les utilisateurs puissent effectuer les transformations des donnes sources de faon plus intuitive, rapide et conviviale, en utilisant le principe du glisser-dposer. Des assistants automatiss peuvent guider les dveloppeurs tout au long du processus de cration de lentrept et de lintgration des donnes dans celui-ci.
Interface graphique PowerCenter (Informatica)
24
ConclusionAvantages de lETL Les grandes forces des ETL sont : o leur souplesse : ils sont fortement paramtrables o leur facilit dutilisation : utilisables par des non informaticiens aprs formation o leur facilit de maintenance et leur prennit Les bases de donnes comprennent souvent des outils dalimentation qui peuvent extraire des donnes, effectuer des transformations basiques et charger des donnes. Mais ces outils nont pas les avantages dun ETL et sont souvent difficilement paramtrables, pas ergonomiques et noffrent pas beaucoup de possibilit de transformation de donnes. Limites de lETL Cots en ressources matrielles et en temps : Ils font subir diffrents traitements de gros volumes de donnes. Un outil ETL ncessite donc un fort besoin en machines, dbit et maintenance. Les traitements tant trs gourmands, lalimentation sexcute souvent la nuit, pour ne pas impacter les ressources machine et rseau pendant les heures de bureau. Temps rel : La dure des traitements et le temps machine consomm est tel que cela est difficilement compatible avec des traitements en temps rel. La plupart des diteurs d'ETL essaye dvoluer dans ce sens en dveloppant leur propres outils, ou en passant des accords avec des acteurs du march de l'EAI. Cependant, au-del des considrations stratgiques et technologiques, on peut se demander si une application dcisionnelle gagnerait en pertinence avec un datawarehouse actualis en permanence. volution de lETL Au cours de ces dernires annes, le march de l'ETL a considrablement volu. Le crneau des ETL pourrait avoir subir une nouvelle rvolution dans les annes qui viennent la faveur de lmergence de trois nouveaux concepts touchant au traitement des donnes : o la cration d'un rfrentiel de mtadonnes commun l'ensemble des applications du systme d'information, sans ncessiter la centralisation au pralable des contenus traiter : le MDM12 (Master Data Management). o les technologies d'intgration en temps rel et lEAI. En effet, dans un contexte o la plupart les responsables seront aids dans leurs prises de12
Voir annexe 3 : Master Data Management (MDM)
25
dcision, les entreprises gagnantes seront celles capables de ragir au plus vite. La plupart des outils ETL ne fonctionnent pas en temps rel mais les diteurs intgrent les fonctionnalits des EAI afin de pouvoir prendre en compte les donnes en temps rel. La tendance sera donc plutt de fusionner les outils ETL et EAI en un seul produit.
26
BibliographieOuvrages La construction du datawarehouse Du datamart au dataweb JF Goglin, Herms - 2me dition (2001) Publications Le Monde Informatique (dec 2004 janv 2005) Pages Internet LE LIVRE BLANC EAI - MEDIADEVhttp://www.dsi.cnrs.fr/ref-partage/Documents/EAI/livre_blancMEDIADEV.pdf
01Informatique plusieurs articles sur le thme du dcisionnelhttp://www.01net.com/
Les sites des diffrents outils ETL tudisSunopsis : www.sunopsis.com Informatica : www.informatica.com Ascential : www.ascential.fr/ Hummingbird : www.hummingbird.com/international/france SAS : www.sas.com Cognos : www.cognos.com/fr/ Business Objects : www.france.businessobjects.com/
The Evolution of ETL - Wayne Eckersonhttp://tdwi.org/research/display.aspx?ID=6716
Will SQL become the industry standard language for ETL? John Rauscherhttp://databasedadvisor.com/doc/14213
Panorama des outils d'ETLhttp://solutions.journaldunet.com/0208/020827_bi_panorama1.shtml
[JargonF - dictionnaire informatique] Dfinition de ETLhttp://www.linux-france.org/prj/jargonf/E/ETL.html
Formation : Prsentation et panorama des outils ETLhttp://formation.journaldunet.com/formation/827/presentation_et_panorama_des_outils _etl/
How to evaluate enterprise ETL P. Russom (12/2004)http://eu.informatica.com/AAFB/mailer.asp
27
GlossaireDATA WAREHOUSE ou ENTREPOT DE DONNES Le Data Warehouse, ou Entrept de Donnes, est une base spcifiquement constitue pour procder des analyses dcisionnelles. Il est constitu puis aliment l'aide d'outils ETL qui y chargent les donnes de production rgulirement remises jour. Les datamarts ou magasins sont des sous ensembles du DWH (ED) qui rassemblent les donnes spcifiques un mtier dans l'entreprise. Ces bases sont interroges et manipules l'aide d'outils de requte et d'analyse multidimensionnelle. DCISIONNEL Ce terme regroupe les outils ou techniques permettant de trier, de croiser et de manipuler des fins d'analyse les donnes gres par le systmes d'information de l'entreprise. L'analyse dcisionnelle soutient les prises de dcision stratgiques en permettant de visualiser les donnes notamment l'aide d'indicateurs mtier. EAI (Enterprise Application Integration) Intgration des applications dans l'entreprise. Le but est de faire fonctionner ensemble (en particulier en matire d'change transparent de donnes) les programmes existant dans une entreprise, en vrifiant leur interoprabilit, et grer l'htrognit gnrale. Ce sont des logiciels qui permettent la compatibilit entre des applications dj existantes, non compatibles lorigine. ETL (Extract Transform Load) Les outils ETL sont utiliss pour la constitution des entrepts de donnes. Ils servent extraire les donnes des diffrentes bases de production, leur donner une prsentation homogne et fiable pour l'analyse (nettoyage des donnes, suppression des doublons) et les charger dans l'entrept de donnes. MTADONNE Information sur une information. Les mtadonnes sont cruciales pour le fonctionnement et la maintenance d'un datawarehouse. SID (Systme dInformation Dcisionnel) Le systme d'information dcisionnel est un ensemble de donnes organises de faon spcifique, facilement accessible et appropries la prise de dcision ou encore une reprsentation intelligente de ces donnes au travers d'outils spcialiss. La finalit d'un systme dcisionnel est le pilotage de l'entreprise.
28
Annexes
Annexe 1.Tableau rcapitulatif......................................................................31 Annexe 2.Principaux outils ETL du march.................................................32 Annexe 3.Master Data Management (MDM).................................................34
29
Annexe 1.Tableau rcapitulatif diteur Informatica SAS Ascential (IBM) DataMirror Cognos Microsoft Oracle Business Objects Sunopsis ELT Solutions Ltd x x x Gnrateu r de code x x x x x x x x x x x x x x Serveu r Fonctio n intgre Temps rel x x x x x x Mode batch x Gestion des mtadonne s x x x ? x
30
Annexe 2.Principaux outils ETL du march diteur ProduitData Transformation Services
Caractristiques
Prix ( partir de...)Intgr l'offre SQL Server (100 euros/utilisateur + 5000 euros)
Microsoft
Alimentation en mode batch interprt (moins rapide). diteur indpendant, Informatica a progressivement dvelopp une offre de BI (outils de restitution) et volue aujourd'hui vers le dictionnaire de mtadonnes. PowerCenter est galement capable de se connecter sur le bus EAI de WebMethods pour rcuprer des informations en temps rel. Petit dernier arriv sur le march de l'ETL, Sunopsis propose un kit de dveloppement plus qu'un moteur d'ETL proprement dit. Il permet de gnrer les processus d'alimentation qui sont ensuite excuts par un serveur d'application J2EE Leader sur le march de l'ETL, Ascential volue vers le dictionnaire de mtadonnes avec le rachat des technologies MetaRecon (analyse et documente les donnes avec des metadonnes) et Integrity (nettoyage et qualification des donnes par matching, scoring, etc.). Offre dcline en plusieurs modules capables de s'interfacer avec les MOM et bus EAI du march. Apparu il y a environ un an, DecisionStream a clairement t conu pour la suite BI de Cognos. Accords avec Iway sur la connectivit Spcialiste de la connectivit, Hummingbird a dvelopp une offre de BI base sur le rachat du produit Genio ct ETL. La V8 prvue vers la fin de l'anne s'interfacera avec la plateforme de Tibco et MQSeries. Genio gre un dictionnaire de mtadonnes tendu. Conu pour la suite BI d'Oracle, Oracle9i Datawarehouse Builder bnficie des technologies de clustering du leader du march de la base de donnes. Apparu avec la restructuration de l'offre BI d'Oracle, Datawarehouse Builder a t class comme le meilleur ETL pour la transformation des donnes par le MetaGroup.
Informatica
PowerCenter
155 000 euros par serveur de production
Sunopsis
Sunopsis v3.2
30 000 euros
Ascential
DataStage
250 000 euros pour l'offre complte (50 000 euros par module environ)
Cognos
DecisionStrea m
Hummingbir d
Genio (Hummingbird ETL)
46 000 euros par CPU
Oracle
Oracle9i Datawarehous e Builder
4985 euros par utilisateur
31
diteur
Produit
CaractristiquesIntgr Business Objects Enterprise Suite 6, l'ETL de BO est issu du rachat de la socit Acta qui disposait d'une technologie originale base sur un serveur de cache; ce dernier nettoie les donnes avant de les injecter dans un datamart.
Prix ( partir de...)
Business Objects
Business Data Integrator
nc
Tableau 6 : Principaux outils ETL du march 13
13
http://www.zdnet.fr/techupdate/infrastructure/imprimer.htm?AT=2135959-39020938t-39000766c
32
Annexe 3.Master Data Management (MDM) MDM pour Master Data Management14Grer la qualit et la cohrence des donnes contenues dans les bases et systmes de lentreprise, telle est la vocation de cette mthode applicative.
29 Novembre 2004 > Que recouvre le concept de Master Data Management ? En gnral, une entreprise dispose de plusieurs bases de donnes ranges chacune au sein d'un systme d'information ou derrire une application mtier particulire (gestion comptable, ventes, gestion des ressources humaines, serveur de suivi de production, etc.). C'est notamment le cas pour des structures ayant opt pour une approche best-of-breed l'inverse d'une politique technologique articule autour d'un progiciel de gestion intgre. Dans cette logique, les processus de mise jour de donnes sont raliss paralllement par des quipes diffrentes par le biais d'outils htrognes. Un contexte structurel qui engendre des risques d'incohrences entre applicatifs. D'o l'importance de s'attacher l'harmonisation des donnes. C'est bien l l'objectif de la mthode de "Gestion des donnes de base" (MDM - pour Master Data Management en anglais). > Comment fonctionne cette mthode ? Comme son nom l'indique, elle consiste regrouper l'ensemble des donnes dites "de base" de l'entreprise (Master Data). Un rfrentiel standardis qui a pour but de jouer le rle de pr requis lors de la mise jour de tel ou tel systme. Concrtement, ce rfrentiel contient l'ensemble des objets essentiels la vie de l'entreprise et dcrit les liens qu'ils entretiennent entre eux : numros de rfrence clients, fournisseurs, partenaires, etc. Grce cette couche gnralement associe des mcanismes de contrle et de validation, les objets sont modifis de faon cohrente et les doublons vits. Au final, ce dispositif a pour but de garantir la qualit des donnes mtier en phase de production. > Quels sont les champs d'intervention du Master Data Management ? Cette dmarche prsente un intrt dans de nombreux domaines. Ici, on peut notamment voquer la mise en oeuvre d'une dmarche de communication multicanal. Une approche qui ncessite de bnficier d'une certaine cohrence entre contenus diffuss quel que soit le moyen de communication utilis (site Internet, centre de contacts, etc.). Autre champ gnralement voqu : celui de l'analyse dcisionnelle et du reporting qui peut impliquer des fonctions de contrle des donnes manipuler pour assurer la rgularit des rapports de rsultats. > Quelle diffrence avec les fonctions d'ETL et d'EII ? Comme on l'a vu, le Master Data Management fournit une brique de rfrence pour contrler l'homognit des donnes du systme d'information. De leur ct, les mcanismes d'ETL (pour extraction, transfert et chargement de donnes) et d'EII (ou intgration des informations d'entreprise) prennent en charge leur manipulation.
14
http://solutions.journaldunet.com/0411/041129_mdm.shtml
33