datasio - big data : enjeux et technologies
DESCRIPTION
Enjeux et technologies du Big Data Présentation par François Royer, Fondateur et Directeur Général, Datasio - Retour sur l'émergence du Big Data aux USA et en France. - Tour d'horizon technologique: Hadoop, poids lourd du Big Data, et ses challengers - Fiche d'identité du Data Scientist - Le Data Mining comme avantage compétitif Evénement - Big Data : ne dormez pas sur vos données ! Valtech - 29/11TRANSCRIPT
© Datasio 2012
Enjeux et technologiesBig Data
© Datasio 2012
© Datasio 2012
Big Data et Data Science dans la presse
© Datasio 2012
ad'opportunités de création de valeurade retours d'expériencesade technologies “hot”ade mise en oeuvre et d'approches pratiquesad'aspects humains
Nous parlerons ...
© Datasio 2012
rde casser l'existantrle catalogue d'outilsrles aspects théoriques du Big Data
Nous éviterons ...
© Datasio 2012
1 Big Data & Data Mining – les enjeux
Agenda
2 Hadoop, poids lourd du Big Data
3 Profession: Data Scientist
© Datasio 2012
1 Big Data & Data Mining
Agenda
© Datasio 2012
Données métier
© Datasio 2012
Autres sourcesde donnéesintra-entreprise(logs web, CRM ...)
Données métier
© Datasio 2012
Autres sourcesde donnéesintra-entreprise(logs web, CRM ...)
Données externesDonnées
métier
© Datasio 2012
Applications Big Data
© Datasio 2012
{Applications Big Data
© Datasio 2012
{Applications Big Data
© Datasio 2012
{{
Applications Big Data
© Datasio 2012
{{
Applications Big Data
Carte volée!
© Datasio 2012
Applications Big Data
Suivi d'e-reputation
© Datasio 2012
Applications Big Data
Estimer la production d'iPhonesd'après les numéros de série ...
© Datasio 2012
Déduplication de données
SAAS_clients_20120304_45lhsdSAAS_clients_20120304_45lhsd CRM_2012_72CRM_2012_72
MauriceMaurice
hasPrenom
AvèneAvène
hasNom MauriceMaurice
hasPrenom
AvèneAvène
hasNom
2 rue de Grenelle2 rue de Grenelle
hasAddress
2 avenue du Lauragais2 avenue du Lauragais
hasAddress
ParisParis
hasCity
hasZipcode
ToulouseToulouse
hasCity
hasZipcode
75007750073100031000
© Datasio 2012
Déduplication de données
SAAS_clients_20120304_45lhsdSAAS_clients_20120304_45lhsd CRM_2012_72CRM_2012_72sameAs
MauriceMaurice
hasPrenom
AvèneAvène
hasNom MauriceMaurice
hasPrenom
AvèneAvène
hasNom
2 rue de Grenelle2 rue de Grenelle
hasAddress
2 avenue du Lauragais2 avenue du Lauragais
hasAddress
ParisParis
hasCity
hasZipcode
ToulouseToulouse
hasCity
hasZipcode
75007750073100031000
© Datasio 2012
Applications Big Data
● Optimisation A/B● Corrélation usage du site web
+ transactions● Suivi de l'engagement et
monitoring du churn
In-game events
Logs web server
© Datasio 2012
Logs Graphes d'interaction
Quelles données, quelle croissance?
Croissance linéaire + paliers Croissance exponentielle !!
© Datasio 2012
© Datasio 2012
OptimisationPrédiction
Business insightAnalytique
Traitements distribués
Stockagedistribué
© Datasio 2012
Verticaux Big Data
© Datasio 2012
FUSION DE DONNEESStats vols,Prix billetsweb logs
social networks...
Statistiques des vols et d'opérations au solhistoriques et temps réel(retards, grèves, pertes de bagage ...)
Influence entre utilisateursAffinité / réponse aux campagnes marketingSensibilité aux variations de prix
E-réputationMonitoring de la satisfaction client(forums ...)
20100916 130748 Economy Incoming 18
20100916 131131 Economy Outgoing 99
20100916 131324 Economy Incoming 214
20100916 131735 Economy Outgoing 72
20100916 183403 Economy Overbooked 0
Historique client
Réseaux d'interaction
Monitoring WEBRéponse de l'usager à la qualité de service
Données CRM et marketing
© Datasio 2012
Flightcaster et la prédiction de retards
● Pourquoi ne pas utiliser les alertes de la compagnie aérienne?
● Pourquoi attend-on si longtemps sur la piste?
● Pourquoi y-a-t'il écrit “à l'heure” alors que l'avion n'est toujours pas arrivé?
● Qu'est-ce qui cause les retards?● Quelles les sont les compagnies les plus
ponctuelles?
Apprentissage machine – architecture sous Amazon Web ServicesBasé sur l'historique des retards, la météo ...
© Datasio 2012
General Electrics et la maintenance prédictive
● GE Aviations Integrated Vehicle Health Management
● “Preventive maintenance” basée sur les mesures collectées en vol et au sol
● Calcule les probabilités de panne avant leur occurrence et diminue les coûts de maintenance
© Datasio 2012
Point de départBesoin businessEntrepôt de données
© Datasio 2012
2 Hadoop, poids lourd du Big Data
Agenda
Qui l'utilise?Comment ça marche?
© Datasio 2012
Data mining sur click streamAnalyse d'imageProduction d'indexMoteur d'enchères
Conversion de 11 millions d'articles en PDF
Spam screening(> 20 milliards de msg / jour)
Entrepôt de données > 30 PetaOctets (2011)
Qui utilise Hadoop?
© Datasio 2012
2003
Google Filesystem
© Datasio 2012
20032004
Google Filesystem
Publication deMapReduce
© Datasio 2012
20032004
Google Filesystem
Publication deMapReduce
2006
Création du projet Apache
© Datasio 2012
20032004
Google Filesystem
Publication deMapReduce
20062008
Création du projet Apache
10000 machines @ Yahoo!
© Datasio 2012
20032004
Google Filesystem
Publication deMapReduce
2012
Cluster 100 PB@ Facebook
20062008
Ouverture du code source
10000 machines @ Yahoo!
© Datasio 2012
HDFS(Hadoop Distributed Filesystem)
© Datasio 2012
HDFS(Hadoop Distributed Filesystem)
Map/Reduce(Distributed processing)
Zook
eepe
r(R
esou
rce m
a nag
emen
t)
© Datasio 2012
HDFS(Hadoop Distributed Filesystem)
Map/Reduce(Distributed processing)
Cascading(Data flow)
Pig(Data DSL)
Hive(SQL)
Zook
eepe
r(R
esou
rce m
a nag
emen
t)
© Datasio 2012
HDFS(Hadoop Distributed Filesystem)
Map/Reduce(Distributed processing)
Cascading(Data flow)
Pig(Data DSL)
Hive(SQL)
Zook
eepe
r(R
esou
rce m
a nag
emen
t)
Hbas
e (D
istrib
uted
K ey V
alue)
Cascalog(Data flow)
© Datasio 2012
Traitement
Stockage
CPU
DISK
CLUSTER
HDFS = système de fichier distribué
© Datasio 2012
Rack Rack Rack
Noeud NoeudNoeud Noeud Noeud
Traitement
Stockage
CPU
DISK
CLUSTER
Rack-awareness + data locality
© Datasio 2012
bloc1bloc2 bloc2
bloc1bloc1bloc2bloc3 bloc3
bloc4 bloc4
bloc3
bloc4
Rack Rack Rack
Noeud NoeudNoeud Noeud Noeud
CLUSTER
Fichiers distribués en blocs, avec facteur de réplication N (ici, N=3)
© Datasio 2012
Rack Rack Rack
Noeud NoeudNoeud Noeud Noeud
CLUSTER
Map MapMapMap Map
ReduceReduceReduce
Map/Reduce = “diviser pour régner”
© Datasio 2012
Map/Reduce = “diviser pour régner”
© Datasio 2012
Map/Reduce = “diviser pour régner”
© Datasio 2012
Au-delà de Map/Reduce
● Requête sur données structurées et semi-structurées
● Jobs Map/Reduce à l'exécution● Syntaxe “SQL”● Extensible (types, UDFs)● Metadonnées en BD (MySQL)● Join, Group By, Nesting
hive> SELECT a.IP FROM logs a where a.tstamp = '<DATE>';
© Datasio 2012
Mahout – “intelligence artificielle” à grande échelle
● Règles d'association et Frequent Itemsets
● Recommendation d'articles● Clustering et K-means● Arbres de décision …● PageRank
© Datasio 2012
Mahout – “intelligence artificielle” à grande échelle
● Règles d'association et Frequent Itemsets
● Recommendation d'articles● Clustering et K-means● Arbres de décision …● PageRank
{Millions et + de transactions
© Datasio 2012
3 Profession: Data Scientist
Agenda
Son rôle dans l'entrepriseComment le recruter? Comment le former?Journée type d'un Data Scientist
© Datasio 2012
“The sexiest job in the next 10 years will be statistician”Hal Varian, Chief Economist at Google
© Datasio 2012
Mesures
© Datasio 2012
Mesures
Signal
© Datasio 2012
Mesures
Signal
Information
© Datasio 2012
Mesures
Signal
Information
Connaissance
© Datasio 2012
Docteur es-sciences ...Informaticien ...Consultant ...Statisticien ...“Data hacker” ...
Java, Scala, ClojurePython, PerlR, Matlab, SAS
Machine learning
CV du Data Scientist
© Datasio 2012
PostgresMySQL
LogsLogsLogs
Boîte à outils
Hadoop / HDFS
cascalog
Pig
© Datasio 2012
Nettoyagede données
Choix du modèle Tuning
● K-Means● Clustering● Régression logistique● SVM● Réseaux de neurones● Naive Bayes● Random Forest● Survival modeling
● Descente de gradient● Maximum de vraisemblance● Meta-optimisation● Méthodes d'ensemble
● Scatterplots● Kernel smoothing● Robust EM
Mode opératoire
© Datasio 2012
Data visualization
(Source: D3)
© Datasio 2012