![Page 1: Hug france - Administration Hadoop et retour d’expérience BI avec Impala, limites et recommandations par Abed Ajraou et Cherif Tifrani de Solocal (Pages Jaunes)](https://reader034.vdocuments.net/reader034/viewer/2022042700/557cf3dad8b42a57118b4774/html5/thumbnails/1.jpg)
ADMINISTRATION HADOOP ET RETOUR D’EXPÉRIENCE BI
HUG FRANCE CHERIF TIFARANI
06/10/2014
![Page 2: Hug france - Administration Hadoop et retour d’expérience BI avec Impala, limites et recommandations par Abed Ajraou et Cherif Tifrani de Solocal (Pages Jaunes)](https://reader034.vdocuments.net/reader034/viewer/2022042700/557cf3dad8b42a57118b4774/html5/thumbnails/2.jpg)
SOMMAIRE
1
1. CONNAISSEZ-VOUS SOLOCAL GROUP
2. DIMENSIONNEMENT D’UN CLUSTER
3. DÉPLOIEMENT ET MAINTENANCE
4. SUPERVISION ET STRATÉGIE DE SAUVEGARDE /RESTAURATION
5. RETOUR D’EXPÉRIENCE HADOOP
1. Chargement de données/migration 2. Intégration outils BI/datamining via le connecteur ODBC
6. CONCLUSION
![Page 3: Hug france - Administration Hadoop et retour d’expérience BI avec Impala, limites et recommandations par Abed Ajraou et Cherif Tifrani de Solocal (Pages Jaunes)](https://reader034.vdocuments.net/reader034/viewer/2022042700/557cf3dad8b42a57118b4774/html5/thumbnails/3.jpg)
CONNAISSEZ-VOUS SOLOCAL GROUP
2
![Page 4: Hug france - Administration Hadoop et retour d’expérience BI avec Impala, limites et recommandations par Abed Ajraou et Cherif Tifrani de Solocal (Pages Jaunes)](https://reader034.vdocuments.net/reader034/viewer/2022042700/557cf3dad8b42a57118b4774/html5/thumbnails/4.jpg)
CONNAISSEZ-VOUS SOLOCAL GROUP
3
![Page 5: Hug france - Administration Hadoop et retour d’expérience BI avec Impala, limites et recommandations par Abed Ajraou et Cherif Tifrani de Solocal (Pages Jaunes)](https://reader034.vdocuments.net/reader034/viewer/2022042700/557cf3dad8b42a57118b4774/html5/thumbnails/5.jpg)
CONNAISSEZ-VOUS SOLOCAL GROUP
4
![Page 6: Hug france - Administration Hadoop et retour d’expérience BI avec Impala, limites et recommandations par Abed Ajraou et Cherif Tifrani de Solocal (Pages Jaunes)](https://reader034.vdocuments.net/reader034/viewer/2022042700/557cf3dad8b42a57118b4774/html5/thumbnails/6.jpg)
5
DIMENSIONNEMENT D’UN CLUSTER
![Page 7: Hug france - Administration Hadoop et retour d’expérience BI avec Impala, limites et recommandations par Abed Ajraou et Cherif Tifrani de Solocal (Pages Jaunes)](https://reader034.vdocuments.net/reader034/viewer/2022042700/557cf3dad8b42a57118b4774/html5/thumbnails/7.jpg)
DIMENSIONNEMENT D’UN CLUSTER
6
Type serveur Capacité de stockage
Nombre de cœurs
Capacité Mémoire
Réseau
Equilibré 8-10 x 1 TB
2 x 6 Coeurs 4 GB / Coeur 2 x 10 GB
Intensif I/O 12-15 x 1 TB 2 x 6 Coeurs
4 GB / Coeur
2 x 10 GB
Intensif CPU 8-10 x 2 TB
2 x 8 Coeurs
4 GB / Coeur
2 x 10 GB
¾ Pourquoi les machines virtuelles sont déconseillées • Hadoop a besoin d’I/O performantes • Un cluster Hadoop a besoin de connaître sa topologie pour optimiser le placement des données
¾ Certains composants Hadoop peuvent être utilisés dans des machines virtuelles • Les nœuds front end et masters qui n’ont pas de contrainte forte d’I/O • Cependant, il faut prévoir d’une bande passante et d’une mémoire suffisante
![Page 8: Hug france - Administration Hadoop et retour d’expérience BI avec Impala, limites et recommandations par Abed Ajraou et Cherif Tifrani de Solocal (Pages Jaunes)](https://reader034.vdocuments.net/reader034/viewer/2022042700/557cf3dad8b42a57118b4774/html5/thumbnails/8.jpg)
DIMENSIONNEMENT D’UN CLUSTER
7
¾Remplir 2 baies en parallèle
¾Les deux baies dans le même data center. ¾Répartir les services sur les baies
• Un Serveur master NN dans chaque baie • Assurer au moins un service ZK et JN sur chaque baie
¾Vlan dédié afin d’assurer une communication fluide entre les serveurs.
![Page 9: Hug france - Administration Hadoop et retour d’expérience BI avec Impala, limites et recommandations par Abed Ajraou et Cherif Tifrani de Solocal (Pages Jaunes)](https://reader034.vdocuments.net/reader034/viewer/2022042700/557cf3dad8b42a57118b4774/html5/thumbnails/9.jpg)
8
DÉPLOIEMENT ET MAINTENANCE
![Page 10: Hug france - Administration Hadoop et retour d’expérience BI avec Impala, limites et recommandations par Abed Ajraou et Cherif Tifrani de Solocal (Pages Jaunes)](https://reader034.vdocuments.net/reader034/viewer/2022042700/557cf3dad8b42a57118b4774/html5/thumbnails/10.jpg)
DÉPLOIEMENT ET MAINTENANCE
9
¾Sécuriser les accès • Authentification forte via Kerberos, Habilitation par permissions Unix: propriétaire, groupe, … • Isolation des utilisateurs forte: portée par les permissions HDFS
¾Sécuriser les données • Isolation des données dans un projet, un cluster contient l’ensemble des données. L’isolation repose sur les permissions HDFS • Isolation des données entre les projets. L’isolation est portée par la gestion des groupes Unix
Knox : passerelle d’accès sécurisée et distribuée aux services d’un cluster hadoop
Sentry : contrôle d’accès fin à hive, impala
Falcon : gestion du cycle de vie des données stockées dans hadoop
![Page 11: Hug france - Administration Hadoop et retour d’expérience BI avec Impala, limites et recommandations par Abed Ajraou et Cherif Tifrani de Solocal (Pages Jaunes)](https://reader034.vdocuments.net/reader034/viewer/2022042700/557cf3dad8b42a57118b4774/html5/thumbnails/11.jpg)
DÉPLOIEMENT ET MAINTENANCE
10
¾Ne pas oublier de mettre en place et maintenir à jour: • Un miroir local : OS, distribution hadoop, outils connexes • Serveur support dédié kerberos
¾Utiliser plusieurs baies et nommer les serveurs en fonction de cela
¾Favoriser les outils du monde DevOps (chef, puppet) • Restreindre les accès directs aux machines.
¾Penser HA par défaut
• Répliquer le serveur front end
¾ D’une manière générale, il est essentiel d’industrialiser la mise en production et de limiter au maximum la masse de code à maintenir en interne
![Page 12: Hug france - Administration Hadoop et retour d’expérience BI avec Impala, limites et recommandations par Abed Ajraou et Cherif Tifrani de Solocal (Pages Jaunes)](https://reader034.vdocuments.net/reader034/viewer/2022042700/557cf3dad8b42a57118b4774/html5/thumbnails/12.jpg)
SUPERVISION ET STRATÉGIE DE SAUVEGARDE/RESTAURATION
11
![Page 13: Hug france - Administration Hadoop et retour d’expérience BI avec Impala, limites et recommandations par Abed Ajraou et Cherif Tifrani de Solocal (Pages Jaunes)](https://reader034.vdocuments.net/reader034/viewer/2022042700/557cf3dad8b42a57118b4774/html5/thumbnails/13.jpg)
SUPERVISION ET STRATÉGIE DE SAUVEGARDE/RESTAURATION
12
¾ Ganglia:
• Collecte des métriques système et applicative dans une base RRD • Mise à disposition à l’exploitant • Agrégation des métriques de plusieurs clusters
« Ganglia est le standard commun aux solutions sur hadoop pour la Remontée de métrique » ¾ Nagios:
• Alerting sur la base des métriques collectées par ganglia
« Nagios peut être remplacé par votre outil d’alerting interne » La bonne pratique est de s’interfacer avec, pas de le remplacer
![Page 14: Hug france - Administration Hadoop et retour d’expérience BI avec Impala, limites et recommandations par Abed Ajraou et Cherif Tifrani de Solocal (Pages Jaunes)](https://reader034.vdocuments.net/reader034/viewer/2022042700/557cf3dad8b42a57118b4774/html5/thumbnails/14.jpg)
SUPERVISION ET STRATÉGIE DE SAUVEGARDE/RESTAURATION
13
¾ Chaque composant d’hadoop fourni
• Une interface basique en HTML (*.Http.Address dans les configurations) - Namenode : http://$hostname:50070/ - Resource manager: http://$hostname:8088/
• Une API REST
¾ Des interfaces graphiques fournissant une vue agrégée existent
• Cloudera manager : interface de gestion de cloudera
¾HDFS fournit un mécanisme de snapshot en temps constant
¾Distcp : permet de faire une copie distribuée d’un cluster A vers un Cluster B • À ordonnancer dans une crontab, controlM, …
¾Sauvegarde des méta informations du namenode • fsimage et le WAL (fichier edits)
![Page 15: Hug france - Administration Hadoop et retour d’expérience BI avec Impala, limites et recommandations par Abed Ajraou et Cherif Tifrani de Solocal (Pages Jaunes)](https://reader034.vdocuments.net/reader034/viewer/2022042700/557cf3dad8b42a57118b4774/html5/thumbnails/15.jpg)
14
RETOUR D’EXPÉRIENCE HADOOP
![Page 16: Hug france - Administration Hadoop et retour d’expérience BI avec Impala, limites et recommandations par Abed Ajraou et Cherif Tifrani de Solocal (Pages Jaunes)](https://reader034.vdocuments.net/reader034/viewer/2022042700/557cf3dad8b42a57118b4774/html5/thumbnails/16.jpg)
15
RETOUR D’EXPÉRIENCE MIGRATION HADOOP
CONTEXTE Points clés
• La plateforme de stockage et d’analyse des données mobile Pages Jaunes connait une croissance forte et rapide en volumes de données.
• Le coût du stockage de la solution existante basés sur Netezza n’est plus tenable à court terme
• Hadoop a été identifié comme une solution de déchargement d’entrepôt permettant d’atteindre l’objectif de réduction des coûts et optimisation des performances d’analyses
• Cadrage d’un projet de migration et d’une plateforme Hadoop
• Réalisation technique et fonctionnelle d’interfaçage entre Hadoop et Netezza
• Intégration de la plateforme Hadoop avec les outils décisionnels existants
![Page 17: Hug france - Administration Hadoop et retour d’expérience BI avec Impala, limites et recommandations par Abed Ajraou et Cherif Tifrani de Solocal (Pages Jaunes)](https://reader034.vdocuments.net/reader034/viewer/2022042700/557cf3dad8b42a57118b4774/html5/thumbnails/17.jpg)
INTÉGRER HADOOP DANS LE DATA CENTER
16
¾ Différentes sources de données et différents types de données
¾ Une plateforme distribuée
¾ Différents types d’accès
![Page 18: Hug france - Administration Hadoop et retour d’expérience BI avec Impala, limites et recommandations par Abed Ajraou et Cherif Tifrani de Solocal (Pages Jaunes)](https://reader034.vdocuments.net/reader034/viewer/2022042700/557cf3dad8b42a57118b4774/html5/thumbnails/18.jpg)
CHARGEMENT DE DONNÉES/MIGRATION
17
¾ 183 tables ¾ 18 mois d’historiques ¾ 22 TO de données brutes collectées ¾ 66 TO de données répliquées ¾ 80 TO de capacité de stockage brut (réplication incluse) ¾ Transfèrt des données avec Sqoop (en utilisant Cloudera Connector for Netezza et sqoop1) ¾ Compression des tables en mode parquet avec Impala
![Page 19: Hug france - Administration Hadoop et retour d’expérience BI avec Impala, limites et recommandations par Abed Ajraou et Cherif Tifrani de Solocal (Pages Jaunes)](https://reader034.vdocuments.net/reader034/viewer/2022042700/557cf3dad8b42a57118b4774/html5/thumbnails/19.jpg)
INTÉGRATION OUTILS BI/DATAMINING
18
¾ Impala :Un moteur de requêtage SQL en temps réel sur hadoop (MPP)
• Utilisant la même base de données de métadonnées que hive • Bypass MapReduce(lecture directe des données) • Prise en charge des formats de fichiers HDFS (text files, sequence files compressé, avro data files, treveni) • Optimisé pour les requêtes d'entrepôt de données (en particulier, parquet)
¾ Hive vs Impala TextFile vs Parquet
Low-latency queries for a BI user experience
TextFile
Parquet
![Page 20: Hug france - Administration Hadoop et retour d’expérience BI avec Impala, limites et recommandations par Abed Ajraou et Cherif Tifrani de Solocal (Pages Jaunes)](https://reader034.vdocuments.net/reader034/viewer/2022042700/557cf3dad8b42a57118b4774/html5/thumbnails/20.jpg)
INTÉGRATION OUTILS BI/DATAMINING
19
![Page 21: Hug france - Administration Hadoop et retour d’expérience BI avec Impala, limites et recommandations par Abed Ajraou et Cherif Tifrani de Solocal (Pages Jaunes)](https://reader034.vdocuments.net/reader034/viewer/2022042700/557cf3dad8b42a57118b4774/html5/thumbnails/21.jpg)
INTÉGRATION OUTILS BI/DATAMINING VIA LE CONNECTEUR ODBC
20
¾ Limites Impala:
• Aucune tolérance de pannes, 9 Si un nœud tombe en panne , toutes les requêtes qui s’exécutent sur ce nœud tombent en panne
• Impala ne prend pas en charge certaines opérations HiveQL 9 DESCRIBE DATABASE/COLUMN 9 SHOW PARTITION/COLUMNS/INDEXES) 9 Beaucoup d'entre elles sont envisagées pour les futures versions
• Impala ne couvre pas les processus de traitement de type ETL qui sont offerts par Hive
• Ne gère pas les type de données complexes (Array, MAP, STRUCT)
• Très consommateur en mémoire (prévoir 128go),
![Page 22: Hug france - Administration Hadoop et retour d’expérience BI avec Impala, limites et recommandations par Abed Ajraou et Cherif Tifrani de Solocal (Pages Jaunes)](https://reader034.vdocuments.net/reader034/viewer/2022042700/557cf3dad8b42a57118b4774/html5/thumbnails/22.jpg)
CONCLUSION ¾Ne pas confondre Hadoop avec un outil de BI temps réel
• A besoin d’être complété surtout sur le plan DataViz
¾ Big Data ne veut pas dire Open data • Penser aux enjeux sécurité en amont • Confidentialité
¾Faire monter en compétences les équipes sur le volet infra et applicatif
• Une formation est nécessaire mais pas suffisante • Donner un maximum de pouvoir aux utilisateurs
¾Ne pas négliger les coûts cachés
• Le coût de migration d’un existant (Netezza vers Hadoop)
¾Adopter une approche DEVOPS et utiliser des outils comme PUPPET, CHEF,
¾Être en capacité d’absorber les nouvelles versions et technologies
21
![Page 23: Hug france - Administration Hadoop et retour d’expérience BI avec Impala, limites et recommandations par Abed Ajraou et Cherif Tifrani de Solocal (Pages Jaunes)](https://reader034.vdocuments.net/reader034/viewer/2022042700/557cf3dad8b42a57118b4774/html5/thumbnails/23.jpg)
22
QUESTIONS ?