hug france - 20160114 industrialisation_process_big_data canalplus

14
Copyright Groupe CANAL+ 2016 – CONFIDENTIEL 1 HUG France – 14 Jan 2016 Industrialisation des processus Big Data chez CANAL+ Pascal PERISSEAU, Technical Architect B.I & Big Data CANAL+ @pperisseau Stephen CLAIRVILLE, Big Data Project Manager CANAL+ @stefun_

Upload: hugfrance

Post on 06-Jan-2017

706 views

Category:

Technology


0 download

TRANSCRIPT

Page 1: HUG France -  20160114 industrialisation_process_big_data CanalPlus

Copyright Groupe CANAL+ 2016 – CONFIDENTIEL 1

HUG France – 14 Jan 2016

Industrialisation des processus Big Data chez

CANAL+

Pascal PERISSEAU, Technical Architect B.I & Big Data CANAL+@pperisseauStephen CLAIRVILLE, Big Data Project Manager CANAL+ @stefun_

Page 2: HUG France -  20160114 industrialisation_process_big_data CanalPlus

2Copyright Groupe CANAL+ 2016 – CONFIDENTIEL 2

Sommaire

• Pourquoi le BIG DATA chez CANAL+ ?

• Architecture et outils

• Intégration et industrialisation du SI Big Data au SI décisionnel

• Retours d’expériences

Page 3: HUG France -  20160114 industrialisation_process_big_data CanalPlus

3Copyright Groupe CANAL+ 2016 – CONFIDENTIEL 3

Pourquoi le Big Data chez CANAL+ ?

La collecte des données d’usages

Page 4: HUG France -  20160114 industrialisation_process_big_data CanalPlus

4Copyright Groupe CANAL+ 2016 – CONFIDENTIEL 4

Les raisons du changement

x3 STB collectés depuis 2010

4 M «devices»

≅ 200 M logs/jour

Une croissance importante des « devices » connectés

Page 5: HUG France -  20160114 industrialisation_process_big_data CanalPlus

5Copyright Groupe CANAL+ 2016 – CONFIDENTIEL 5

Les raisons du changement

Mise en oeuvre d’une solution permettant :• Accroître la capacité (tirer profit de l’historique de nos abonnés)

tout en abaissant le coût de stockage.• Réaliser des traitements complexes sur des volumes important de

données.• Pérenniser le DataWareHouse historique (Teradata) sur le

périmètre Legacy.

• Choix d’une solution distribuée sur Hadoop en 2013.

Page 6: HUG France -  20160114 industrialisation_process_big_data CanalPlus

6Copyright Groupe CANAL+ 2016 – CONFIDENTIEL 6

Architecture et outils

• 1 cluster dans une Appliance H3 Teradata (Hadoop/Aster)• +2 millions de dossiers et fichiers• 20 serveurs de développement et production (MN, DN, ED, LD)• ≅32K runs de jobs mensuels

196.29

53.5

Capacité en To

79%

21%

Statut HDFS

DisponibleUtilisé

Page 7: HUG France -  20160114 industrialisation_process_big_data CanalPlus

7Copyright Groupe CANAL+ 2016 – CONFIDENTIEL 7

Intégration et industrialisation du SI Big Data au SI décisionnel

Lignes directrices de l’industrialisation

• Exploitation et supervision des flux• Homogénéisation et simplification des développements • Maintenabilité et évolution des plateformes• Intégration aux normes et standards existants • Interconnexion avec les flux du système Legacy (Control-M)

Page 8: HUG France -  20160114 industrialisation_process_big_data CanalPlus

8Copyright Groupe CANAL+ 2016 – CONFIDENTIEL 8

Mise en œuvre

• Mise en place d’une météo de traitement et de suivi des runs des jobs

• Développement de patterns de développement en shell/hql…• Utilisation de fonctions et utilitaires génériques• Versionning des scripts en cas de rollbacks • Ordonnanceur commun à tous les flux

Intégration et industrialisation du SI Big Data au SI décisionnel

Page 9: HUG France -  20160114 industrialisation_process_big_data CanalPlus

9Copyright Groupe CANAL+ 2016 – CONFIDENTIEL 9

Architecture et outils

Page 10: HUG France -  20160114 industrialisation_process_big_data CanalPlus

10Copyright Groupe CANAL+ 2016 – CONFIDENTIEL 10

Architecture et outils

1 1

Page 11: HUG France -  20160114 industrialisation_process_big_data CanalPlus

11Copyright Groupe CANAL+ 2016 – CONFIDENTIEL 11

Architecture et Outils

Etat des lieux

Arborescences et structures des fichiers en production/data├── .snapshot├── controlm├── projet_hdp└── tmp/data/projet_hdp├── 000_utilitaires└── 110_ceu/data/projet_hdp/110_ceu├── 1101_ceu_ceu├── 1102_ceu_wtr├── 1107_ceu_erk├── 1108_ceu_ofl├──1109_ceu_usg└── …

4 Projets Majeurs

9 Sous-projets

155 shells de flux

200 fichiers .hql

Page 12: HUG France -  20160114 industrialisation_process_big_data CanalPlus

12Copyright Groupe CANAL+ 2016 – CONFIDENTIEL 12

Retours d’expériences

Dos & Don’ts• Intérêt de l’Open Source et des distributions • Warning sur la pérennité des outils• Limitation des outils par rapport aux «Top Level Projects  » et

« early-releases »• Compatibilité des outils les uns avec les autres• Analyse d’impacts sur les traitements et optimisations

Page 13: HUG France -  20160114 industrialisation_process_big_data CanalPlus

13Copyright Groupe CANAL+ 2016 – CONFIDENTIEL 13

Retours d’expériences

• En route vers le Dev-Ops Data Déploiement continu Livraison automatique des scripts

Les + Les -

Exploitation Niv.1 Expertise technique Niv.2/3

Uniformisation des dev. Diffusion et partage des normes aux équipes

Facilité de migrations

Page 14: HUG France -  20160114 industrialisation_process_big_data CanalPlus

Copyright Groupe CANAL+ 2016 – CONFIDENTIEL 14

MerciQuestions ?