valtech - big data : détails d’une mise en œuvre
DESCRIPTION
Big Data : Détails d’une mise en œuvre Construction d’une solution d’analyse d’e-reputation Collecter et stocker les données : Quelle infrastructure ? Corréler et agréger les données : Quelle analyse ? Restituer et exploiter : Quels résultats ? Présentation animée par Hervé Desaunois, Responsable Technique, Valtech [email protected] Evénement - Big Data : ne dormez pas sur vos données ! Valtech - 29/11TRANSCRIPT
Big Data
Hervé Desaunois Responsable IT
Détails d’une mise en œuvre
Méthodologie
Architecture!
Cas d’utilisation Valtech
Tendance Big Data
Sommaire
Ò Présentation Ò Cas d’utilisation Ò Architecture Ò Cas Pratique Ò Conclusion Ò Références Ò Annexes
3
Méthodologie
Big Data / Méthodologie
La mise en place d’une démarche Big Data est toujours composée de trois étapes :
Ò Collecter, stocker les données. Ò Analyser, explorer, corréler, agréger les données.
Ò Visualiser, exploiter.
Architecture
Architecture Big Data
Audio, Vidéo, Image
Docs, Texte, XML
Web logs, Clicks,
Social, Graphs,
RSS,
Capteurs, Graphs,
RSS,
Spatial, GPS Autres
Base de données Orientée colonne
NoSQL
Distributed File
System
Map Reduce
Base de données SQL
Analytiques , Business Intelligent
CO
LLECTER
LES D
ON
NEES
STOC
KA
GE &
OR
GA
NISATIO
N
EXTRA
CTIO
N
AN
ALYSER
&
VISU
ALISER
BUSINESS
SQL
Architecture Big Data
Audio, Vidéo, Image
Docs, Texte, XML
Web logs, Clicks,
Social, Graphs,
RSS,
Capteurs, Graphs,
RSS,
Spatial, GPS Autres
SQL
CO
LLECTER
LES D
ON
NEES
STOC
KA
GE &
OR
GA
NISATIO
N
EXTRA
CTIO
N
AN
ALYSER
&
VISU
ALISER
BUSINESS
HBase, Big Table, Cassandra,
DynamoDB, …
HDFS, GFS, S3,
…
Oracle, DB2, MySQL, …
Cas d’utilisation Valtech eReputation
Sommaire
Ò Présentation Ò Cas d’utilisation Ò Architecture Ò Cas Pratique Ò Conclusion Ò Références Ò Annexes
9
Itération I
Cas d’utilisation Valtech eReputation
eReputation Server
ERM MapReduce
DynamoDB S3
Histogramme Client RIA GWT
Collecter les données
Web Service / Rest Google Custom Search API
Connecteurs Web Service
Web Service / Rest Twitter Search API
Web Service / Rest Facebook Search API
Stockage
Base de données Orientée Colonne
Organisation
Modèle de données – Attributs, éléments et tables
Organisation
Modèle de données – Attributs, éléments et tables
Extraction
Amazon Elastic MapReduce
Analyser
Stocker les réponses sur S3
Analyser
Visualisation du résultat sur S3
Visualiser
Client RIA GWT
Démo eReputation Valtech
BIG DATA Complexité
Big Data
Big Data + Business Intelligent = ROI
Big Data Self Intelligent ?
Data Scientist
Sommaire
Ò Présentation Ò Cas d’utilisation Ò Architecture Ò Cas Pratique Ò Conclusion Ò Références Ò Annexes
21
Itération II
Cas d’utilisation Valtech eReputation
eReputation Server
MapReduce
DynamoDB S3
New New
New SaaS
New
Aujourd'hui
• Volumes de données importants (Tera, Peta, ..)
• De l’infiniment petit (génomique) à l’infiniment grand (astrophysique)
• Du plus quotidien (reconnaissance de l’écriture manuscrite sur les enveloppes) au moins quotidien (aide au pilotage aéronautique)
• Du plus ouvert (e-commerce) au plus sécuritaire (détection de la fraude dans la téléphonie mobile ou les cartes bancaires)
• Du plus industriel (contrôle qualité…) au plus théorique (sciences humaines, biologie…)
• Du plus alimentaire (agronomie et agroalimentaire) au plus divertissant (prévisions d’audience TV) • Systèmes d’aide à la décision plus ou moins automatiques
© Stéphane Tufféry
Machine Learning
L'apprentissage automatique (machine learning en
anglais), un des champs d'étude de l'intelligence artificielle, est la discipline scientifique concernée par le développement, l'analyse et l'implémentation de méthodes automatisables qui permettent à une machine (au sens large) d'évoluer grâce à un processus d'apprentissage, et ainsi de remplir des tâches qu'il est difficile ou impossible de remplir par des moyens algorithmiques plus classiques.
Analyse - Algorithme Machine Learning
Recommandation
Classification
Cluster
Analyse sémantique
Natural Language Processing
Utilisation d’une solution de
”Catégorisation de document – Machine learning”
Analyse sémantique
Catégorisation : Expertise java Ò 26 mai 2008 – Grâce à son expertise Java, Valtech Technology s'associe avec
Talend pour améliorer l'agilité des systèmes d'information de ses clients. Ò Cédric Bertrand, Consultant confirmé JAVA/J2EE, Valtech de Paris (Ile-de-France). Ò Valtech Agency propose une triple maîtrise dans les domaines du conseil, ... Des
compétences de développement Java, .. Ò Valtech: conseil en management, en technologies. Conseil et projets ebusiness,
agence web, Offshore, Formation nouvelles technologies, objet, Java EE Ò Au travers du déroulement itératif d'un projet, vous utiliserez des techniques moins
connues de programmation Java comme la gestion poussée des Threads
Natural Language Processing
Analyser
Algorithme de clusters K-Means
Data Scientist
L’intelligence des données Web Mining & Text Mining
Analyser -
Algorithme Data Mining
Tendance Big Data
Gartner talk
« D'ici 2015, 4,4 millions d'emplois informatiques seront créés dans le monde pour soutenir le Big Data, dont 1,9 millions aux Etat-Unis », a déclaré Peter Sondergaard, senior vice-président et responsable mondial de la recherche chez Gartner.
Wanted « Data Scientist »
100 000 to 500 000 $
Valtech Web Scientiste
L’intelligence des données Web Mining & Text Mining
Big Data tendance Cloud
Big Data full solution
Thank you
Tarification!
Ò ERM : http://aws.amazon.com/fr/elasticmapreduce/#pricing
Ò DynamoDB : http://aws.amazon.com/fr/dynamodb/#pricing
Ò S3 : http://aws.amazon.com/fr/s3/pricing/ Ò EC2 : http://aws.amazon.com/fr/ec2/pricing/