etl overview iup vannes

Download etl overview iup vannes

Post on 07-Jun-2015

965 views

Category:

Documents

0 download

Embed Size (px)

TRANSCRIPT

UNIVERSIT DE BRETAGNE-SUD IUP MIS RUE YVES MAINGUY 56000 VANNES

tude comparativedes diffrents outils d'ETL (Extract, Transform, Load) du march

ETUDE RALISE DANS LE CADRE DU COURS DE SYSTME DCISIONNEL

CHLO FRIGUET MARIE COUSSEAU MASTER 1 STAT SOUTENANCE : 12 MAI 2005

Mise en contexte..............................................................................................3 1.Principe de lalimentation.............................................................................51.1.Extraction des donnes......................................................................................5 1.2.Transformation des donnes.............................................................................6 1.3.Chargement de donnes....................................................................................6

2.Les outils ETL................................................................................................7 3.Le march des outils ETL.............................................................................83.1.Les leaders du march.....................................................................................103.1.1.Informatica : PowerCenter....................................................................................10 3.1.2.SAS : ETL Serveur...............................................................................................12 3.1.3.Ascential : Datastage et Datastage TX.................................................................12

3.2.Les challengers................................................................................................133.2.1.DataMirror : Transformation Server......................................................................13 3.2.2.Cognos : DecisionStream.....................................................................................14 3.2.3.Microsoft : Data Transformation Services............................................................15 3.2.4.Oracle : Data Integration.......................................................................................15 3.2.5.BusinessObjects : Data Integrator........................................................................15 3.2.6.Hummingbird : Genio............................................................................................16 3.2.7.Sunopsis : Sunopsis ETL et Sunopsis Real-time ETL..........................................16

4.Les caractristiques....................................................................................194.1.Transformation des donnes : plusieurs approches........................................194.1.1.Les serveurs ETL..................................................................................................19 4.1.2.Utilisation de fonctions intgres..........................................................................20 4.1.3.Les outils gnrateurs de code.............................................................................20 4.1.4.Dveloppement manuel dun outil ETL.................................................................21 4.1.5.Comparaison des diffrentes approches..............................................................22

4.2.Temps rel / Batch ..........................................................................................224.2.1.Temps rel mode synchrone.............................................................................23 4.2.2.Mode batch mode asynchrone...........................................................................23

4.3.ETL et gestion des mtadonnes....................................................................23 4.4.Autres caractristiques.....................................................................................244.4.1.Architecture et environnement technique.............................................................24 4.4.2.Prix des outils en fonction des configurations choisies.........................................24 4.4.3.Interfaces graphiques............................................................................................25

Conclusion......................................................................................................26 Bibliographie..................................................................................................28 Glossaire.........................................................................................................29 Annexes...........................................................................................................30

2

Mise en contexteUn Systme d'Information Dcisionnel (SID) est un outil destin recueillir, organiser, mettre en forme et diffuser des donnes de manire en faire des informations. Un SID est un dispositif double face : il combine des donnes d'origines diverses (oprationnelles ou externes) et les met disposition des utilisateurs selon des objectifs informationnels.

Schma 1 : Reprsentation schmatique d'un datawarehouse

Les Systmes Dcisionnels se caractrisent par : o d'importants volumes de donnes qui voluent rapidement, o des exigences de temps d'accs, o l'absence de mises jour transactionnelles, o des besoins volutifs, o des requtes imprvisibles et pouvant rapprocher des donnes "loignes". En gnral, les donnes sources, qui peuvent reprsenter un gros volume, ne sont ni cohrentes smantiquement, ni lies entre elles d'une manire adapte la perspective dcisionnelle. De plus, les environnements d'o proviennent ces donnes sont conus et organiss d'une manire qui se prte mal l'implmentation d'applications dcisionnelles. Ces contraintes sont prendre en compte lors de la mise en place d'un entrept de donnes. D'une manire gnrale, la mise disposition des donnes implique quatre tapes : o Collecte des donnes : approvisionnement du SID en donnes ( partir des bases de production (oprationnelles) ou de l'extrieur),

3

o Intgration des donnes : pour assurer la cohrence globale des donnes (modle unifi) et leur mise disposition en un point unique (entrept), o Diffusion des donnes : mise disposition des applications, sous forme dimensionnelle, des donnes puises dans l'entrept, o Prsentation des donnes : accs aux donnes organises (forme dimensionnelle) par les utilisateurs au moyen de services logiciels. galement appele reporting, cette tape se charge de diffuser et de prsenter les informations valeur ajoute de telle sorte quelles apparaissent de la faon la plus lisible possible pour le dcideur. Nous allons nous intresser plus particulirement aux deux premires fonctions : collecte et intgration des donnes. Le Systme de Collecte et d'Intgration des donnes (SCI) est un sous systme d'un SID complexe mais essentiel : c'est sur lui que repose le SID. En effet, la base d'intgration des donnes est l'entrept de donnes lui-mme. La diffusion des donnes se fait partir de cet entrept. Le SCI doit avoir un impact minimal sur la fonction oprationnelle mais il doit, en mme temps, permettre le rafrachissement priodique des donnes en fonction des besoins des utilisateurs. Le rle du SCI est de collecter les donnes partir de diffrentes sources et de les mettre en forme, conformment un modle (intgration). Un mme outil peut effectuer les fonctions de collecte, de transformation et de chargement des donnes. C'est le cas des outils ETL.

4

1.

Principe de lalimentation

Lalimentation dun entrept de donnes se droule en trois tapes : lextraction des donnes partir des bases sources, leur transformation puis le chargement dans lentrept.

Transform

Schma 2 : Alimentation d'un datawarehouse

1.1.Extraction des donnesLa premire phase de la construction dun entrept de donnes consiste extraire les donnes utiles des systmes oprationnels, sans pour autant perturber les environnements de production. Ces donnes sont dans de nombreux cas htrognes, complexes et diffuses : o Htrognes : on rencontre plusieurs SGBD diffrents et parfois plusieurs mthodes daccs o Complexes : les donnes sont organises en vue de traitements transactionnels o Diffuses : les donnes proviennent de plusieurs environnements matriels, voire de diffrents sites connects par un rseau L'extracteur est un composant logiciel simple dont le but est de prlever un flux de donnes partir des systmes de production pour alimenter le systme dcisionnel. Son rle est prdominant dans la capacit du systme dcisionnel se prserver des volutions structurelles des systmes en amont. On ralise un extracteur par nature de flux prlever sur les applications oprationnelles. L'extracteur met disposition du systme d'information dcisionnel un flux de donnes au format fixe, valid en phase de spcification. L'extraction peut tre de deux types : o totale : on extrait la globalit du flux chaque traitement. Technique adapte dans le cas d'une volumtrie rduite. o incrmentale ou "Delta" : on ne traite que les enregistrements crs, modifis ou supprims depuis la dernire extraction.

5

Les donnes sont extraites des bases de production la cration de lentrept et lors des rafrachissements. la cration de lentrept, un premier chargement est effectu. Cela consiste prendre une copie intgrale des donnes oprationnelles intressant le SID. Le rafrachissement priodique se fait par collecte dynamique, en ne capturant que les changements qui ont eu lieu dans le systme oprationnel depuis la dernire opration de collecte. Il ncessite un mcanisme de dtection des changements. Lextraction doit tre performante et doit viter de perturber les environnements de production.

1.2.Transformation des donnesLes bases de production peuvent contenir des donnes de mauvaise qualit (donnes manquantes, incompltes, aberrantes, en double, obsoltes). Cette mauvaise qualit a plusieurs origines : manque de contrle dans la saisie des donnes, incident de transfert lors du processus de collecte des informations, retard dans les mises