datasio - big data : enjeux et technologies

59
© Datasio 2012 Enjeux et technologies Big Data

Upload: valtech

Post on 24-Apr-2015

2.487 views

Category:

Technology


3 download

DESCRIPTION

Enjeux et technologies du Big Data Présentation par François Royer, Fondateur et Directeur Général, Datasio - Retour sur l'émergence du Big Data aux USA et en France. - Tour d'horizon technologique: Hadoop, poids lourd du Big Data, et ses challengers - Fiche d'identité du Data Scientist - Le Data Mining comme avantage compétitif Evénement - Big Data : ne dormez pas sur vos données ! Valtech - 29/11

TRANSCRIPT

Page 1: Datasio - Big Data : Enjeux et technologies

© Datasio 2012

Enjeux et technologiesBig Data

Page 2: Datasio - Big Data : Enjeux et technologies

© Datasio 2012

Page 3: Datasio - Big Data : Enjeux et technologies

© Datasio 2012

Big Data et Data Science dans la presse

Page 4: Datasio - Big Data : Enjeux et technologies

© Datasio 2012

ad'opportunités de création de valeurade retours d'expériencesade technologies “hot”ade mise en oeuvre et d'approches pratiquesad'aspects humains

Nous parlerons ...

Page 5: Datasio - Big Data : Enjeux et technologies

© Datasio 2012

rde casser l'existantrle catalogue d'outilsrles aspects théoriques du Big Data

Nous éviterons ...

Page 6: Datasio - Big Data : Enjeux et technologies

© Datasio 2012

1 Big Data & Data Mining – les enjeux

Agenda

2 Hadoop, poids lourd du Big Data

3 Profession: Data Scientist

Page 7: Datasio - Big Data : Enjeux et technologies

© Datasio 2012

1 Big Data & Data Mining

Agenda

Page 8: Datasio - Big Data : Enjeux et technologies

© Datasio 2012

Données métier

Page 9: Datasio - Big Data : Enjeux et technologies

© Datasio 2012

Autres sourcesde donnéesintra-entreprise(logs web, CRM ...)

Données métier

Page 10: Datasio - Big Data : Enjeux et technologies

© Datasio 2012

Autres sourcesde donnéesintra-entreprise(logs web, CRM ...)

Données externesDonnées

métier

Page 11: Datasio - Big Data : Enjeux et technologies

© Datasio 2012

Applications Big Data

Page 12: Datasio - Big Data : Enjeux et technologies

© Datasio 2012

{Applications Big Data

Page 13: Datasio - Big Data : Enjeux et technologies

© Datasio 2012

{Applications Big Data

Page 14: Datasio - Big Data : Enjeux et technologies

© Datasio 2012

{{

Applications Big Data

Page 15: Datasio - Big Data : Enjeux et technologies

© Datasio 2012

{{

Applications Big Data

Carte volée!

Page 16: Datasio - Big Data : Enjeux et technologies

© Datasio 2012

Applications Big Data

Suivi d'e-reputation

Page 17: Datasio - Big Data : Enjeux et technologies

© Datasio 2012

Applications Big Data

Estimer la production d'iPhonesd'après les numéros de série ...

Page 18: Datasio - Big Data : Enjeux et technologies

© Datasio 2012

Déduplication de données

SAAS_clients_20120304_45lhsdSAAS_clients_20120304_45lhsd CRM_2012_72CRM_2012_72

MauriceMaurice

hasPrenom

AvèneAvène

hasNom MauriceMaurice

hasPrenom

AvèneAvène

hasNom

2 rue de Grenelle2 rue de Grenelle

hasAddress

2 avenue du Lauragais2 avenue du Lauragais

hasAddress

ParisParis

hasCity

hasZipcode

ToulouseToulouse

hasCity

hasZipcode

75007750073100031000

Page 19: Datasio - Big Data : Enjeux et technologies

© Datasio 2012

Déduplication de données

SAAS_clients_20120304_45lhsdSAAS_clients_20120304_45lhsd CRM_2012_72CRM_2012_72sameAs

MauriceMaurice

hasPrenom

AvèneAvène

hasNom MauriceMaurice

hasPrenom

AvèneAvène

hasNom

2 rue de Grenelle2 rue de Grenelle

hasAddress

2 avenue du Lauragais2 avenue du Lauragais

hasAddress

ParisParis

hasCity

hasZipcode

ToulouseToulouse

hasCity

hasZipcode

75007750073100031000

Page 20: Datasio - Big Data : Enjeux et technologies

© Datasio 2012

Applications Big Data

● Optimisation A/B● Corrélation usage du site web

+ transactions● Suivi de l'engagement et

monitoring du churn

In-game events

Logs web server

Page 21: Datasio - Big Data : Enjeux et technologies

© Datasio 2012

Logs Graphes d'interaction

Quelles données, quelle croissance?

Croissance linéaire + paliers Croissance exponentielle !!

Page 22: Datasio - Big Data : Enjeux et technologies

© Datasio 2012

Page 23: Datasio - Big Data : Enjeux et technologies

© Datasio 2012

OptimisationPrédiction

Business insightAnalytique

Traitements distribués

Stockagedistribué

Page 24: Datasio - Big Data : Enjeux et technologies

© Datasio 2012

Verticaux Big Data

Page 25: Datasio - Big Data : Enjeux et technologies

© Datasio 2012

FUSION DE DONNEESStats vols,Prix billetsweb logs

social networks...

Statistiques des vols et d'opérations au solhistoriques et temps réel(retards, grèves, pertes de bagage ...)

Influence entre utilisateursAffinité / réponse aux campagnes marketingSensibilité aux variations de prix

E-réputationMonitoring de la satisfaction client(forums ...)

20100916 130748 Economy Incoming 18

20100916 131131 Economy Outgoing 99

20100916 131324 Economy Incoming 214

20100916 131735 Economy Outgoing 72

20100916 183403 Economy Overbooked 0

Historique client

Réseaux d'interaction

Monitoring WEBRéponse de l'usager à la qualité de service

Données CRM et marketing

Page 26: Datasio - Big Data : Enjeux et technologies

© Datasio 2012

Flightcaster et la prédiction de retards

● Pourquoi ne pas utiliser les alertes de la compagnie aérienne?

● Pourquoi attend-on si longtemps sur la piste?

● Pourquoi y-a-t'il écrit “à l'heure” alors que l'avion n'est toujours pas arrivé?

● Qu'est-ce qui cause les retards?● Quelles les sont les compagnies les plus

ponctuelles?

Apprentissage machine – architecture sous Amazon Web ServicesBasé sur l'historique des retards, la météo ...

Page 27: Datasio - Big Data : Enjeux et technologies

© Datasio 2012

General Electrics et la maintenance prédictive

● GE Aviations Integrated Vehicle Health Management

● “Preventive maintenance” basée sur les mesures collectées en vol et au sol

● Calcule les probabilités de panne avant leur occurrence et diminue les coûts de maintenance

Page 28: Datasio - Big Data : Enjeux et technologies

© Datasio 2012

Point de départBesoin businessEntrepôt de données

Page 29: Datasio - Big Data : Enjeux et technologies

© Datasio 2012

2 Hadoop, poids lourd du Big Data

Agenda

Qui l'utilise?Comment ça marche?

Page 30: Datasio - Big Data : Enjeux et technologies

© Datasio 2012

Data mining sur click streamAnalyse d'imageProduction d'indexMoteur d'enchères

Conversion de 11 millions d'articles en PDF

Spam screening(> 20 milliards de msg / jour)

Entrepôt de données > 30 PetaOctets (2011)

Qui utilise Hadoop?

Page 31: Datasio - Big Data : Enjeux et technologies

© Datasio 2012

2003

Google Filesystem

Page 32: Datasio - Big Data : Enjeux et technologies

© Datasio 2012

20032004

Google Filesystem

Publication deMapReduce

Page 33: Datasio - Big Data : Enjeux et technologies

© Datasio 2012

20032004

Google Filesystem

Publication deMapReduce

2006

Création du projet Apache

Page 34: Datasio - Big Data : Enjeux et technologies

© Datasio 2012

20032004

Google Filesystem

Publication deMapReduce

20062008

Création du projet Apache

10000 machines @ Yahoo!

Page 35: Datasio - Big Data : Enjeux et technologies

© Datasio 2012

20032004

Google Filesystem

Publication deMapReduce

2012

Cluster 100 PB@ Facebook

20062008

Ouverture du code source

10000 machines @ Yahoo!

Page 36: Datasio - Big Data : Enjeux et technologies

© Datasio 2012

HDFS(Hadoop Distributed Filesystem)

Page 37: Datasio - Big Data : Enjeux et technologies

© Datasio 2012

HDFS(Hadoop Distributed Filesystem)

Map/Reduce(Distributed processing)

Zook

eepe

r(R

esou

rce m

a nag

emen

t)

Page 38: Datasio - Big Data : Enjeux et technologies

© Datasio 2012

HDFS(Hadoop Distributed Filesystem)

Map/Reduce(Distributed processing)

Cascading(Data flow)

Pig(Data DSL)

Hive(SQL)

Zook

eepe

r(R

esou

rce m

a nag

emen

t)

Page 39: Datasio - Big Data : Enjeux et technologies

© Datasio 2012

HDFS(Hadoop Distributed Filesystem)

Map/Reduce(Distributed processing)

Cascading(Data flow)

Pig(Data DSL)

Hive(SQL)

Zook

eepe

r(R

esou

rce m

a nag

emen

t)

Hbas

e (D

istrib

uted

K ey V

alue)

Cascalog(Data flow)

Page 40: Datasio - Big Data : Enjeux et technologies

© Datasio 2012

Traitement

Stockage

CPU

DISK

CLUSTER

HDFS = système de fichier distribué

Page 41: Datasio - Big Data : Enjeux et technologies

© Datasio 2012

Rack Rack Rack

Noeud NoeudNoeud Noeud Noeud

Traitement

Stockage

CPU

DISK

CLUSTER

Rack-awareness + data locality

Page 42: Datasio - Big Data : Enjeux et technologies

© Datasio 2012

bloc1bloc2 bloc2

bloc1bloc1bloc2bloc3 bloc3

bloc4 bloc4

bloc3

bloc4

Rack Rack Rack

Noeud NoeudNoeud Noeud Noeud

CLUSTER

Fichiers distribués en blocs, avec facteur de réplication N (ici, N=3)

Page 43: Datasio - Big Data : Enjeux et technologies

© Datasio 2012

Rack Rack Rack

Noeud NoeudNoeud Noeud Noeud

CLUSTER

Map MapMapMap Map

ReduceReduceReduce

Map/Reduce = “diviser pour régner”

Page 44: Datasio - Big Data : Enjeux et technologies

© Datasio 2012

Map/Reduce = “diviser pour régner”

Page 45: Datasio - Big Data : Enjeux et technologies

© Datasio 2012

Map/Reduce = “diviser pour régner”

Page 46: Datasio - Big Data : Enjeux et technologies

© Datasio 2012

Au-delà de Map/Reduce

● Requête sur données structurées et semi-structurées

● Jobs Map/Reduce à l'exécution● Syntaxe “SQL”● Extensible (types, UDFs)● Metadonnées en BD (MySQL)● Join, Group By, Nesting

hive> SELECT a.IP FROM logs a where a.tstamp = '<DATE>';

Page 47: Datasio - Big Data : Enjeux et technologies

© Datasio 2012

Mahout – “intelligence artificielle” à grande échelle

● Règles d'association et Frequent Itemsets

● Recommendation d'articles● Clustering et K-means● Arbres de décision …● PageRank

Page 48: Datasio - Big Data : Enjeux et technologies

© Datasio 2012

Mahout – “intelligence artificielle” à grande échelle

● Règles d'association et Frequent Itemsets

● Recommendation d'articles● Clustering et K-means● Arbres de décision …● PageRank

{Millions et + de transactions

Page 49: Datasio - Big Data : Enjeux et technologies

© Datasio 2012

3 Profession: Data Scientist

Agenda

Son rôle dans l'entrepriseComment le recruter? Comment le former?Journée type d'un Data Scientist

Page 50: Datasio - Big Data : Enjeux et technologies

© Datasio 2012

“The sexiest job in the next 10 years will be statistician”Hal Varian, Chief Economist at Google

Page 51: Datasio - Big Data : Enjeux et technologies

© Datasio 2012

Mesures

Page 52: Datasio - Big Data : Enjeux et technologies

© Datasio 2012

Mesures

Signal

Page 53: Datasio - Big Data : Enjeux et technologies

© Datasio 2012

Mesures

Signal

Information

Page 54: Datasio - Big Data : Enjeux et technologies

© Datasio 2012

Mesures

Signal

Information

Connaissance

Page 55: Datasio - Big Data : Enjeux et technologies

© Datasio 2012

Docteur es-sciences ...Informaticien ...Consultant ...Statisticien ...“Data hacker” ...

Java, Scala, ClojurePython, PerlR, Matlab, SAS

Machine learning

CV du Data Scientist

Page 56: Datasio - Big Data : Enjeux et technologies

© Datasio 2012

PostgresMySQL

LogsLogsLogs

Boîte à outils

Hadoop / HDFS

cascalog

Pig

Page 57: Datasio - Big Data : Enjeux et technologies

© Datasio 2012

Nettoyagede données

Choix du modèle Tuning

● K-Means● Clustering● Régression logistique● SVM● Réseaux de neurones● Naive Bayes● Random Forest● Survival modeling

● Descente de gradient● Maximum de vraisemblance● Meta-optimisation● Méthodes d'ensemble

● Scatterplots● Kernel smoothing● Robust EM

Mode opératoire

Page 58: Datasio - Big Data : Enjeux et technologies

© Datasio 2012

Data visualization

(Source: D3)

Page 59: Datasio - Big Data : Enjeux et technologies

© Datasio 2012

[email protected]