hug france - 20160114 industrialisation_process_big_data canalplus
TRANSCRIPT
Copyright Groupe CANAL+ 2016 – CONFIDENTIEL 1
HUG France – 14 Jan 2016
Industrialisation des processus Big Data chez
CANAL+
Pascal PERISSEAU, Technical Architect B.I & Big Data CANAL+@pperisseauStephen CLAIRVILLE, Big Data Project Manager CANAL+ @stefun_
2Copyright Groupe CANAL+ 2016 – CONFIDENTIEL 2
Sommaire
• Pourquoi le BIG DATA chez CANAL+ ?
• Architecture et outils
• Intégration et industrialisation du SI Big Data au SI décisionnel
• Retours d’expériences
3Copyright Groupe CANAL+ 2016 – CONFIDENTIEL 3
Pourquoi le Big Data chez CANAL+ ?
La collecte des données d’usages
4Copyright Groupe CANAL+ 2016 – CONFIDENTIEL 4
Les raisons du changement
x3 STB collectés depuis 2010
4 M «devices»
≅ 200 M logs/jour
Une croissance importante des « devices » connectés
5Copyright Groupe CANAL+ 2016 – CONFIDENTIEL 5
Les raisons du changement
Mise en oeuvre d’une solution permettant :• Accroître la capacité (tirer profit de l’historique de nos abonnés)
tout en abaissant le coût de stockage.• Réaliser des traitements complexes sur des volumes important de
données.• Pérenniser le DataWareHouse historique (Teradata) sur le
périmètre Legacy.
• Choix d’une solution distribuée sur Hadoop en 2013.
6Copyright Groupe CANAL+ 2016 – CONFIDENTIEL 6
Architecture et outils
• 1 cluster dans une Appliance H3 Teradata (Hadoop/Aster)• +2 millions de dossiers et fichiers• 20 serveurs de développement et production (MN, DN, ED, LD)• ≅32K runs de jobs mensuels
196.29
53.5
Capacité en To
79%
21%
Statut HDFS
DisponibleUtilisé
7Copyright Groupe CANAL+ 2016 – CONFIDENTIEL 7
Intégration et industrialisation du SI Big Data au SI décisionnel
Lignes directrices de l’industrialisation
• Exploitation et supervision des flux• Homogénéisation et simplification des développements • Maintenabilité et évolution des plateformes• Intégration aux normes et standards existants • Interconnexion avec les flux du système Legacy (Control-M)
8Copyright Groupe CANAL+ 2016 – CONFIDENTIEL 8
Mise en œuvre
• Mise en place d’une météo de traitement et de suivi des runs des jobs
• Développement de patterns de développement en shell/hql…• Utilisation de fonctions et utilitaires génériques• Versionning des scripts en cas de rollbacks • Ordonnanceur commun à tous les flux
Intégration et industrialisation du SI Big Data au SI décisionnel
9Copyright Groupe CANAL+ 2016 – CONFIDENTIEL 9
Architecture et outils
10Copyright Groupe CANAL+ 2016 – CONFIDENTIEL 10
Architecture et outils
1 1
11Copyright Groupe CANAL+ 2016 – CONFIDENTIEL 11
Architecture et Outils
Etat des lieux
Arborescences et structures des fichiers en production/data├── .snapshot├── controlm├── projet_hdp└── tmp/data/projet_hdp├── 000_utilitaires└── 110_ceu/data/projet_hdp/110_ceu├── 1101_ceu_ceu├── 1102_ceu_wtr├── 1107_ceu_erk├── 1108_ceu_ofl├──1109_ceu_usg└── …
4 Projets Majeurs
9 Sous-projets
155 shells de flux
200 fichiers .hql
12Copyright Groupe CANAL+ 2016 – CONFIDENTIEL 12
Retours d’expériences
Dos & Don’ts• Intérêt de l’Open Source et des distributions • Warning sur la pérennité des outils• Limitation des outils par rapport aux «Top Level Projects » et
« early-releases »• Compatibilité des outils les uns avec les autres• Analyse d’impacts sur les traitements et optimisations
13Copyright Groupe CANAL+ 2016 – CONFIDENTIEL 13
Retours d’expériences
• En route vers le Dev-Ops Data Déploiement continu Livraison automatique des scripts
Les + Les -
Exploitation Niv.1 Expertise technique Niv.2/3
Uniformisation des dev. Diffusion et partage des normes aux équipes
Facilité de migrations
Copyright Groupe CANAL+ 2016 – CONFIDENTIEL 14
MerciQuestions ?