karim baina big data ensias december 2016

64
Les Big Data catalyseur de la Transformation Digitale des Systèmes d'Information Rabat, Morocco, December, 19th, 2016 Prof. Karim Baïna [email protected], [email protected] Professeur d'Enseignement Supérieur ENSIAS, Université Mohammed V de Rabat, Maroc Co-responsable du Diplôme Universitaire « Big Data Scientist » Ex-Responsable de l'équipe Alqualsadi sur les Architectures d'Entreprises du Laboratoire International Associé CNRS (LIA) : DATANET - Big Data et Réseaux à Large échelle Chef du Département Génie Logiciel et Chef de Service de Coopération

Upload: karim-baina

Post on 16-Apr-2017

775 views

Category:

Education


2 download

TRANSCRIPT

Page 1: Karim Baina Big Data ENSIAS December 2016

Les Big Datacatalyseur de la Transformation Digitale

des Systèmes d'Information

Rabat, Morocco, December, 19th, 2016

Prof. Karim Baï[email protected], [email protected]

Professeur d'Enseignement SupérieurENSIAS, Université Mohammed V de Rabat, Maroc

Co-responsable du Diplôme Universitaire « Big Data Scientist »Ex-Responsable de l'équipe Alqualsadi sur les Architectures d'Entreprisesdu Laboratoire International Associé CNRS (LIA) : DATANET - Big Data et Réseaux à Large échelle

Chef du Département Génie Logiciel et Chef de Service de Coopération

Page 2: Karim Baina Big Data ENSIAS December 2016

© Karim Baïna 2016 2/64

L'Univers digital

Rabat, Morocco, December, 19th, 2016

Page 3: Karim Baina Big Data ENSIAS December 2016

© Karim Baïna 2016 3/64

Dans le monde digital, la collecte des données se fait sans intervention

humaine, en temps réel & en mode push● Tout objet du monde réel a

maintenant la possibilité de parler (émettre de l'information en temps réel) et communiquer son état sans intervention humaine vers les SI

– Agriculture : arbre, bassin, puits ...

– Production : machine, matière première, produit ...

– Transport & Logistique : colis, chaussure, voiture, avion ...

– Commerce : marchandise, rayon, caisse ...

– Maison & ville intelligente : objets domestiques, places de parking, poubelles, routes, feu rouge, égouts, compteurs énergies, ...

source intel.com

source Hongkiat.com

Page 4: Karim Baina Big Data ENSIAS December 2016

© Karim Baïna 2016 4/64

Dans l'économie digitale, l'intelligence des algorithmes est partie intégrante des

processus métiers« Software is eating the world », 2011

- co-fondateur de Andreessen-Horowitz ayant investi dans Facebook, Groupon, Skype, Twitter, Zynga, Foursquare, etc.)- Investisseur Personnel dans LinkedIn.- Co-développeur de Mosaic (premier navigateur web complet sur tout OS)- co-fondateur de SGI (Silicon Graphics),Fondateur de Netscape (première entreprise entièrement orientée vers Internet)

NATUGAFA Marc Andreessen

Derek Roos

« no matter what the industry, every company today needs think and act like a software company to succeed », 2014

- co-fondateur & CEO de Mendix

ALPHABET ou APPLE dépassent la capitalisation boursière de Exon Mobil ou de Coca Cola

Page 5: Karim Baina Big Data ENSIAS December 2016

© Karim Baïna 2016 5/64

l'Univers digital en pleine expansion pilote la croissance et l'intégration de

l'économie digitale

source intel.com

source Hongkiat.com

● 90% des données mondiales ont été produites durant les 5 dernières années

● +1,2 T (10¹²) de recherche sur Google

● +4 Md (10⁹) heures de vidéo sur Youtube

● +1 Md d'utilisateurs actifs sur Facebook passant 700 M min par mois

● +500 M d'utilisateurs postant +55 M Tweets / jour

● +30 Md Tag RFID Tag en 2013 (1.3 md in 2005)

● +6 Md de téléphones portables

● +4,6 Md de téléphone caméra

● +420 M de « wearable » moniteurs de santé sans fil

● +200 M de compteurs intelligents en 2014 (76 M en 2009)

● +100 M de GPS activé

Page 6: Karim Baina Big Data ENSIAS December 2016

© Karim Baïna 2016 6/64

Transformation desSystèmes d'Information

Rabat, Morocco, December, 19th, 2016

Page 7: Karim Baina Big Data ENSIAS December 2016

© Karim Baïna 2016 7/64

Système d'Information

● "Role of information technology within an Information System is to capture, transmit, store, retrieve, manipulate, or display information used in one or more business processes" Alter'1996

Page 8: Karim Baina Big Data ENSIAS December 2016

© Karim Baïna 2016 8/64

Système d'Information

● Le Modèle intégré de Système d'Information de Schultheis & Sumner's 1998 fait intervenir l'interaction 4 composants :

1. L'Organisation (structures sociales et objectifs)

2. Architecture Technologique (infrastructure hardware & software)

3. Architecture métier (modèles procédures)

4. Architecture Informationnelle (modèles de données)

Page 9: Karim Baina Big Data ENSIAS December 2016

© Karim Baïna 2016 9/64

Transformation d'un SI

● La transformation d'un SI consiste en un ensemble de projets (Programme) visant à améliorer un ou plusieurs aspect d'un SI

– Transformation digitale en est un exemple.

AS-ISsource

TO-BEcible

Transformation

Organisation HumaineArchitecture MétierArchitecture InformationnelleArchitecture Technologique

Organisation HumaineArchitecture MétierArchitecture InformationnelleArchitecture Technologique

Page 10: Karim Baina Big Data ENSIAS December 2016

© Karim Baïna 2016 10/64

Les Big Data

Rabat, Morocco, December, 19th, 2016

Page 11: Karim Baina Big Data ENSIAS December 2016

© Karim Baïna 2016 11/64

Big Data 5 V● VOLUME

– de 2013 à 2020, la taille de l'univers digital sera multipliée par 10 de 4.4 à 44 trillion (10^12) GB

– La taille de l'univers digital plus que double chaque 2 ans

● VELOCITY (Fréquence de production de la donnée)

– Une voiture moderne embarque plus de 100 capteurs

– 2,3 Trillion (10^12) GB de données sont générées chaque jours dans le monde

● VARIETY

– 80% des données universelles sont non-structurées (inexploitables par les systèmes traditionnels)

● VERACITY

– Données incertaines, entre 30 % – 80 % followers fictifs sur twitter (selon la popularité du compte)

– La circulation des hoax (canulars), spam, fake post est reprise (retwittée) plus que les démentis.

● VALUE (VA mesurable générée à la société ou à l'entreprise)

– améliorer soins de santé, mieux comprendre & servir clients/citoyens, optimiser processus métiers & booster performance, améliorer sécurité & mieux maîtriser risques à l'international, obtenir de nouveaux avantages compétitifs, et créer de nouveaux modèles business radicaux, etc.

Doug Laney, « 3D Data Management: Controlling Data Volume, Velocity, and Variety. », 2001 research report, META Group (now Gartner)

Samsung 16TB (Technologie SSD)Le plus large HD

Page 12: Karim Baina Big Data ENSIAS December 2016

© Karim Baïna 2016 12/64

Big Data – étude d'opportunité de Recherche (index de volume de

recherche google)

https://www.google.com/trends/

Le marché du Big Data s'élèverait à 40 milliards de dollars pour l'année 2015

et il connaîtra, selon les prévisions, une croissance de 14% chaque année jusqu'en 2020

Page 13: Karim Baina Big Data ENSIAS December 2016

© Karim Baïna 2016 13/64

Big Data -Un domaine au carrefour de plusieurs disciplines :

maturité, démocratisation & économie d'échelle

IoT/IoE

Digital Humanities

Social Networking

Information Systems

ComputationalLinguistics

Page 14: Karim Baina Big Data ENSIAS December 2016

© Karim Baïna 2016 14/64

IoT/IoE

Digital Humanities

Social Networking

Information Systems

Cloud &Grid

Computing

ComputationalLinguistics

Big Data -Un domaine au carrefour de plusieurs disciplines :

maturité, démocratisation & économie d'échelle

Page 15: Karim Baina Big Data ENSIAS December 2016

© Karim Baïna 2016 15/64

IoT/IoE

Digital Humanities

Social Networking

Information Systems

KM

Data Management

Cloud &Grid

Computing

ComputationalLinguistics

Big Data -Un domaine au carrefour de plusieurs disciplines :

maturité, démocratisation & économie d'échelle

Page 16: Karim Baina Big Data ENSIAS December 2016

© Karim Baïna 2016 16/64

IoT/IoE

Digital Humanities

Social Networking

Information Systems

Maths &Statistics

& OR

ComputationalLinguistics

KM

Data Management

Cloud &Grid

Computing

Big Data -Un domaine au carrefour de plusieurs disciplines :

maturité, démocratisation & économie d'échelle

Page 17: Karim Baina Big Data ENSIAS December 2016

© Karim Baïna 2016 17/64

IoT/IoE

Digital Humanities

Social Networking

Software engineering

Information Systems

Maths &Statistics

& OR

ComputationalLinguistics

KM

Data Management

Cloud &Grid

Computing

Big Data -Un domaine au carrefour de plusieurs disciplines :

maturité, démocratisation & économie d'échelle

Page 18: Karim Baina Big Data ENSIAS December 2016

© Karim Baïna 2016 18/64

La transformation Big Data

est au cœur de

la transformation digitale

Rabat, Morocco, December, 19th, 2016

Page 19: Karim Baina Big Data ENSIAS December 2016

© Karim Baïna 2016 19/64

Plan

● Introduction

● L'Univers Digital

● Les Systèmes d'Information

● Les Big Data

● Les Systèmes d'Information pour Les Big Data - Transformation Disruptive

– des Données

– des Technologies

– des Processus

– des Personnes

● Études de Cas et Opportunités de création de la Valeur

Rabat, Morocco, December, 19th, 2016

Page 20: Karim Baina Big Data ENSIAS December 2016

© Karim Baïna 2016 20/64

Les Systèmes d'Informationpour

Les Big Data

« Transformation disruptive des Données »

Rabat, Morocco, December, 19th, 2016

Page 21: Karim Baina Big Data ENSIAS December 2016

© Karim Baïna 2016 21/64

Big Data – Perception du Volume de l'univers digital

Lune

Terre

2/3 6,6x

TeraB (10**12 B) → PetaB (10**15 B) → ExaB (10**18 B) → ZetaB (10**21 B)

Page 22: Karim Baina Big Data ENSIAS December 2016

© Karim Baïna 2016 22/64

Variété - Big Data :multitude des formats de données

OLAP

non-structured

semi-structured

structured

● Contrairement au SI traditionnels, les données massives sont produites par Les SI à l'ère du Big Data sont capables de Croiser

– de multiples sources de données (internes et externes)

– de formats multiples (ou même sans format)

– Avec ou sans contrainte de schéma (ELT ou « schema on read »)

● Le Traitement de la Langue Naturelle fait partie intégrantes des SI à l'ère du Big Data

80 % des données produites sont non- structurées et donc non exploitables par les SI traditionnels

Page 23: Karim Baina Big Data ENSIAS December 2016

© Karim Baïna 2016 23/64

Variété Big Data - multitude des formats de données

Panama Papers 11,5 Million de documents multi-format

Page 24: Karim Baina Big Data ENSIAS December 2016

© Karim Baïna 2016 24/64

Les Systèmes d'Informationpour

Les Big Data

« Transformation disruptive des Technologies »

Rabat, Morocco, December, 19th, 2016

Page 25: Karim Baina Big Data ENSIAS December 2016

© Karim Baïna 2016 25/64

Volume - Big Data « data-intensive » Paradigm shift : Data Locality

Principle 1 : spread data across a cluster of computersPrinciple 2 : keep work physically close to the data

(partition/fragmentation)

● Le volume des données (en PétaOctets 10^15 Octets) et la complexité des calculs sont plus importants que la fréquence des calculs (en milliers). Et les traitements parallèles ne partagent pas les données initiales seulement des résultats intermédiaires.

Data at Rest

Page 26: Karim Baina Big Data ENSIAS December 2016

© Karim Baïna 2016 26/64

Volume - Big Data Paradigm shift :Synchronous batch processing

Data at Rest

Page 27: Karim Baina Big Data ENSIAS December 2016

© Karim Baïna 2016 27/64

Variété - Big Data Paradigme shift :Cohabitations de Syntaxe & Sémantique variables de données

● Avant les Big Data : syntaxe et sémantique statique

– Toutes les informations d'une entité ou relation obéissent à un schéma unique (modèle relationnel)

● Avec les Big Data : syntaxe et sémantique ad-hoc

– Il peut y avoir autant de schémas que de faits (modèle NoSQL)

Page 28: Karim Baina Big Data ENSIAS December 2016

© Karim Baïna 2016 28/64

Variété - Big Data paradigm shift :Schema on Run/Read (aka ELT)

● Avant les Big Data : Schema on Load/Write (aka ETL)– L'Objet & les dimensions d'analyse sont pré-organisées selon l’utilisation envisagée

– Collecte des données de production structurées selon un format initial

– Stockage dans un hyper-cube structuré.

– A chaque fois que les données évoluent, il y a nécessité de mise à niveau du datawarehouse et remise en question de la stratégie d’organisation de l’information (Cycle de vie très long et rigide)

● Avec le Big Data - Schema on Run/Read (aka ELT) :– Collecte des données non ou semi-structurées depuis les sources

– Stockage les données brutes sans structures explicites

– Exploration et Analyse les données « programmatoirement » le programme s'adapte au format et pas l'inverse !!

– Stockage dans une structure cible pour de futures analyses

– Cycle de vie court, flexible et Compatible avec la démarche inductive (zéro hypothèse)

Page 29: Karim Baina Big Data ENSIAS December 2016

© Karim Baïna 2016 29/64

Vélocité - Big Data paradigm shift :Real Time Analysis Processing (RTAP)

● Les données (événements) arrivent vers les calculs et sont traitées à la volée et en mémoire (in memory) avant même d'être stockées

● Les traitements de plusieurs millions d'événements par seconde.

Pattern recognition/correlation/scoring rules

Data in MotionUne entreprise de la taille de HP (en 2013) génère 100 Md d'événements par jour ~ 12 million d'événements par seconde

Page 30: Karim Baina Big Data ENSIAS December 2016

© Karim Baïna 2016 30/64

Big Data – un écosystème de nouveaux concepts et technologies

Page 31: Karim Baina Big Data ENSIAS December 2016

© Karim Baïna 2016 31/64

Big Data – un écosystème de nouveaux concepts et technologies

Cloudera ©

Page 32: Karim Baina Big Data ENSIAS December 2016

© Karim Baïna 2016 32/64

Les Systèmes d'Informationpour les Big Data

« Transformation disruptive des Processus »

Rabat, Morocco, December, 19th, 2016

Page 33: Karim Baina Big Data ENSIAS December 2016

© Karim Baïna 2016 33/64

● Avant les Big Data : réactivité hors contexte– Procédé métier sans état : n'a pas de mémoire

– Procédé métier malvoyant : traitement hors contexte ne prenant que les informations explicites

– Procédé métier réactif : request/response

● Avec les Big Data : proactivité contextuelle– Procédé métier avec état : possède une mémoire du dossier permettant

un traitement personnalisé (recommandation personnalisée)

– Procédé métier voyant et pré-voyant : prend en compte tout le contexte du dossier et des dossiers similaires (recommandation item & sociale)

– Procédé métier proactif : prédictif et préventif (recommandation hybride)

K. Baïna & A. Ismaïli Alaoui 2015

Big Data paradigm shift : Processus métiers enrichis par les Big Data

Page 34: Karim Baina Big Data ENSIAS December 2016

© Karim Baïna 2016 34/64

Big Data paradigm shift : Démarche inductive d'ingénierie des données● SI Avant les Big Data : Démarche DÉDUCTIVE (expérimentale)

– Le chercheur a une vue théorique du monde naturel, basée sur des concepts et théories acceptés, et cherche à vérifier certaines hypothèses quant aux causes d'un phénomène. Ces hypothèses sont ensuite testées au cours de l'analyse, et c'est par le jeu de leurs acceptations/rejets que se construisent les théories explicatives. Les scientifiques qui pratiquent cette approche sont qualifiés de rationalistes.

● SI Avec les Big Data : Démarche INDUCTIVE/INFERENTIELLE (observationnelle, corrélative, régressive)

– Les données (observations) sont collectées sans formuler préalablement d'hypothèse et les explications sont dérivées de ces données par généralisation des faits observés pour produire un modèle scientifique de la réalité dit prévisionnel.

« patterns »

Page 35: Karim Baina Big Data ENSIAS December 2016

© Karim Baïna 2016 35/64

Big Data paradigm shift : Processus technique & Architecture d'ingénierie

des données

(Real Time Processing)

Big Data Zone

atake

(Batch Processing)

● Zone Big Data :

● Big Data Lake (Traitement de données au repos) : Acquisition, Extraction Nettoyage/Annotation, Intégration/Aggrégation, Représentation, et Stockage des données d'une manière [non, semi] ou structurée.

● Real Time Processing (RTAP des données au mouvement) : Management Big Data et Analyses en temps réel

● Bac à sable Analytique « Analytics Sand Box » : Modélisation, Analyse, et Interpretation des données à travers une démarche inductive/inférentielle sur un échantillon.

● Boucle d'apprentissage continue entre la zone Big Data et le bac à sable Analytique (processus déductif/inductif)

● Environnement Business Intelligence : Navigation de datamarts structurés, Reporting des indicateurs, Actionnement des Alertes, Intégration avec des processus métiers.

Inspired from EMC (except RTAP part)

Page 36: Karim Baina Big Data ENSIAS December 2016

© Karim Baïna 2016 36/64

Les Systèmes d'Informationpour

Les Big Data

« Transformation disruptive des Personnes »

Rabat, Morocco, December, 19th, 2016

Page 37: Karim Baina Big Data ENSIAS December 2016

© Karim Baïna 2016 37/64

SI pour les Big Data – nouveaux Profils de Personnes

● Le citoyen digital

– News publisher

– Distributor

– E-journalist

– Big Data producer

● L'instant digital (la fierté et la e-réputation engendrée par la publication d'un tweet, d'une image ou d'un événement) devient pour lui plus important que l'instant réel

Page 38: Karim Baina Big Data ENSIAS December 2016

© Karim Baïna 2016 38/64

Dev Ops Engineer

Builds the cluster

Data Analyst

SQL & NoSQL guruBig Data Developer/Insight Developer

Insight Developer, Productise insight

Data Scientist

Data Manager,Machine learning expert

Data Innovator

Business Analyst,Data Value services

INFRA DATA ENGINEERING DATA SCIENCE DATA INNOVATION

SI pour les Big Data – nouveaux Profils de personnes

TECHNOLOGIES ALGORITHMES OPPORTUNITES

Page 39: Karim Baina Big Data ENSIAS December 2016

© Karim Baïna 2016 39/64

● Pour devenir Spécialiste de Big Data

– Un Statisticien devra apprendre à manipuler des données distribuées et qui ne tiennent pas en mémoire RAM d'une seule machine

– Un analyste métier ingénieur BI (ou analyste d'affaires - Business Analyst) devra apprendre à écrire et exécuter des algorithmes décisionnels à l'échelle et faire du reporting sur des données stockées en format brute

– Un DBA devra apprendre à manipuler des données non-structurées

– Un ingénieur Génie Logiciel devra apprendre la modélisation statistique, l'apprentissage machine et la communication des résultats

© Prof. Bill Howe

SI pour les Big Data – nouveaux Profils de Personnes

Page 40: Karim Baina Big Data ENSIAS December 2016

© Karim Baïna 2016 40/64

● D'un point de vue organisationnel, en plus de la Direction des SI, de nouvelles Direction et de nouveaux métier stratégiques voient le jour

– Chief Data Officer (CDO)

– Digitalisation Strategist

SI pour les Big Data – nouveaux Profils de Personnes

Page 41: Karim Baina Big Data ENSIAS December 2016

© Karim Baïna 2016 41/64

Les Systèmes d'InformationPour

Les Big Data –

études de cas et opportunités de création de la Valeur

Rabat, Morocco, December, 19th, 2016

Page 42: Karim Baina Big Data ENSIAS December 2016

© Karim Baïna 2016 42/64

Valeur - Big Data paradigm shift : 3 P

● PERSONNALISATION

– Prise en compte personnalisée du comportement, pour proposer, suggérer et recommander

● PREDICTION / PREVISION

– Explication de phénomènes, Simulation des tendances et Prévision des conséquences

● PREVENTION

– Proposition de mesures, d’actions anticipatives pour limiter l’impact d’un phénomène

Page 43: Karim Baina Big Data ENSIAS December 2016

© Karim Baïna 2016 43/64

Valeur - Big Data paradigm shift : 3 P

● PERSONNALISATION

– Analyse de corrélation d'événements complexes pour produire des éléments de connaissances

– Reconnaissance personnalisée et efficace des comportements anormaux pour suggérer/recommander des actions adécquates.

– Identification d'informations actionables parmi des larges masses de données et réduire le taux de faux positifs (Veracité) à des niveaux gérables (actions/interventions sont coûteuses).

● PREDICTION / PREVISION

– Analyse de Prédiction : déduction & explication qu'un événement risque de se produire (Prévision), exactement quand (Prédiction), et prévoir les conséquences.

● PREVENTION

– Analyse de Prévention : proposition d'actions correctives/préventives pour limiter l'impact d'un événement

Page 44: Karim Baina Big Data ENSIAS December 2016

© Karim Baïna 2016 44/64

● e-Gov et e-citoyen

– Analyser les problèmes du quotidien pour mieux servir le citoyen

● Commerce & Marketing

– Analyser la satisfaction Client et prédire le churn (attrition)

– Détecter les nouveaux usages et besoins et Acquérir de nouveaux clients

– Fructifier les clients acquis grâce aux systèmes de recommandation

● Industrie & Production

– Analyser la qualité des procédés de production

– Réduire les pertes et les redondances

● Sécurité & cyber-sécurité

– Détecter les Fraudes

– Détecter les anomalies liées à la cybersécurité

Baïna & Ismaïli Alaoui 2015

Valeur du Big Data résulte de la richesse des données + la force des algorithmes

Page 45: Karim Baina Big Data ENSIAS December 2016

© Karim Baïna 2016 45/64

Val

Recommandationde services/produits

Prévision Catastrophes naturelles

...

Prévision des évolutiondes épidémies

Traitement des échanges boursiers

Sécurité territoriale

Mesure de la Perception du citoyen

Mesure de la Satisfaction du client

Anticiper les picsde la circulation

Sécurité du citoyen

Valeur

Page 46: Karim Baina Big Data ENSIAS December 2016

© Karim Baïna 2016 46/64

● Sécurité du citoyen : La ville de Chicago a pu réduire le crime et améliorer la sécurité des citoyens grâce une plateforme geospatiale analytique temps réel (WindyGrid utilisant MongoDB). Elle analyse des données depuis plus de 30 différent départements – localisations des bus, appels 911, et même des Tweets afin de mieux comprendre et réagir face aux urgences.

Sécurité routière

Circulation routière

Valeur du Big Data résulte de la richesse des données + la force des algorithmes

Page 47: Karim Baina Big Data ENSIAS December 2016

© Karim Baïna 2016 47/64

● Analyse de Sentiment : Une organisation ne peut pas rester juste indifférente à l'égard d'une crise de réactions sur un réseau social (ex. Twitter) plus de 30 min par ex. L'analyse temps réelle fournit un moyen d'alerter si les sentiments sur Twitter autour d'un problème la concernant tournent au vinaigre.

Analyse de satisfaction du client /perception du citoyen

Valeur du Big Data résulte de la richesse des données + la force des algorithmes

Page 48: Karim Baina Big Data ENSIAS December 2016

© Karim Baïna 2016 48/64

● Analyse temps réel de churn (taux d'attrition) : L'analyse temps réel fournit une meilleure perception de l'engagement actuel du client, et améliore la détection du moement critique ou un client décide de partir ou de rester.

Recommending system

Valeur du Big Data résulte de la richesse des données + la force des algorithmes

Page 49: Karim Baina Big Data ENSIAS December 2016

© Karim Baïna 2016 49/64

● Traitement des échanges boursiers : des secondes de grandes valeurs peut être éliminées du temps de réactions des entreprises financières. Il est possible d'agir sur la base de nouvelles informations en temps réel, comme le rapport national de l'emploi (Current Employment Statistics – CES by Bureau of Labor Statistics – BLS) édité le premier vendredi de chaque mois. Le négoce à base de ce rapport génarelement commence après 10 seconds de sa publication sur le web.

Recommending system

Valeur du Big Data résulte de la richesse des données + la force des algorithmes

Page 50: Karim Baina Big Data ENSIAS December 2016

© Karim Baïna 2016 50/64

● Recommandation de services/produits : Plus que Facebook qui vous proposent des amis ou des thèmes, Amazon exploite les données sur les produits pour lesquels vous (ou vos ressemblants) êtes réellement passer au paiement pour vous les proposer. Les psychologues parlent du pouvoir de suggestion – mettre quelque chose que quelqu'un pourrait vouloir l'une devant l'autre pourrait créer une envie irrésistible d'achat indépendamment de la réelle nécessité du produit.

systèmes de recommandation

Valeur du Big Data résulte de la richesse des données + la force des algorithmes

Page 51: Karim Baina Big Data ENSIAS December 2016

© Karim Baïna 2016 51/64

Baïna & Ismaïli Alaoui 2015

Big Data - Valeur & Visualisation : Algorithme du Bonheur

Page 52: Karim Baina Big Data ENSIAS December 2016

© Karim Baïna 2016 52/64

Big Data - Valeur & Visualisation : Algorithme du Bonheur

Un échantillonJson de Tweeter

Un dictionnaired'émotion

Page 53: Karim Baina Big Data ENSIAS December 2016

© Karim Baïna 2016 53/64

Big Data - Valeur & Visualisation : Algorithme du

Bonheur (en 7 mini-requêtes HiveQL)I) Charger Dictionnaire d'émotioncreate table dictionary (word string, rating int)

ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';LOAD DATA LOCAL INPATH '/home/hadoop/AFINN.txt' into TABLE dictionary;

II) Charger Tweets depuis stockage flumecreate external table load_tweets(id BIGINT, text STRING, country STRING) ROW FORMAT SERDE 'com.cloudera.hive.serde.JSONSerDe' LOCATION '/user/flume/tweets'Tokeniser les tweetscreate table split_words as select id as id, split(text,' ') as words, country from load_tweets;Applatir les mots des tweetscreate table tweet_word as

select id as id, word, location from split_words LATERAL VIEW explode(words) w as word;

III) Croiser Tweets & Dictionnairecreate table tweet_word_join as

select tweet_word.id, tweet_word.word, country, dictionary.ratingfrom tweet_word LEFT OUTER JOIN dictionary ON(tweet_word.word =dictionary.word);

Calculer moyenne score de chaque Tweetcreate table tweet_rating_avg as

select id, country, AVG(rating) as rating from tweet_word_join GROUP BY id, country order by rating DESC;Calculer moyenne score de chaque Payscreate table location_rating_avg as

select country, AVG(rating) as rating from tweet_rating_avg GROUP BY country order by rating DESC;

-Like

Page 54: Karim Baina Big Data ENSIAS December 2016

© Karim Baïna 2016 54/64

Big Data - Valeur & Visualisation : Détection

d'Anomalies (AD) – macro ségmentationanomaly

outlier

Cluster 2

Cluster 1

anomaly

Linear regression

K-Means (clustering)1) Générer un Modèle de ce qui est normal pour tous les individus observés :regrouper les données en utilisant de sméthodes supervisées ou non supervisées ex. Classification/Clustering

2) Détecter les anomalies : Trouver des données qui ne confirme pas le schéma/pattern normal

Détecter les observations qui dévient énormément des comportements attendus.

Quand cela se produit, lever l'alerte.

Ex : analyse globales de comportements des utilisateurs/employés/citoyens/clients, matériels, Interactions inter-application, ..

unsupervised algorithm

supervised algorithm

Page 55: Karim Baina Big Data ENSIAS December 2016

© Karim Baïna 2016 55/64

Big Data - Valeur & Visualisation : Détection de changement de

comportement (B.A.D) – micro ségmentation1) Générer un Modèle de ce qui est normal pour un individu :Si le scoring de la donnée courante n'est pas aberrante (assez proches des données récentes), l'ajouter à un buffer de référence

2) Détécter le changement de comportement : Superviser en continu les changement en termes de comportement entre les observations courantes et le buffer de référence sur la base de distance.

Détecter l'écart dans le scoring de l'observation courante. Quand cela se produit, lever l'alerte.

Ex : analyse micro du comportement de chaque utilisateur/employé/citoyen/client, matériel, Interaction inter-application, ..

Page 56: Karim Baina Big Data ENSIAS December 2016

© Karim Baïna 2016 56/64

Big Data - Valeur & Visualisation : Crimes

d'Armes aux états unies

http://www.mastersindatascience.org/blog/10-cool-big-data-visualizations/

<= 30

> 30

Nombre Années perdues

Page 57: Karim Baina Big Data ENSIAS December 2016

© Karim Baïna 2016 57/64

Big Data - Valeur & Visualisation : intensité

séismiques dans le monde

http://www.mastersindatascience.org/blog/10-cool-big-data-visualizations/

Page 58: Karim Baina Big Data ENSIAS December 2016

© Karim Baïna 2016 58/64

Big Data - Valeur & Visualisation : importances et

durées des guerres dans le monde

http://www.mastersindatascience.org/blog/10-cool-big-data-visualizations/

Page 59: Karim Baina Big Data ENSIAS December 2016

© Karim Baïna 2016 59/64

Big Data - Valeur & Visualisation : Analyse des causes des appel 311 par type et par période du jour

http://www.mastersindatascience.org/blog/10-cool-big-data-visualizations/

Page 60: Karim Baina Big Data ENSIAS December 2016

© Karim Baïna 2016 60/64

Big Data - Valeur & Visualisation : Faits marquants des printemps

arabes selon la gravité, le pays, dans le temps

http://www.theguardian.com/world/interactive/2011/mar/22/middle-east-protest-interactive-timeline

Page 61: Karim Baina Big Data ENSIAS December 2016

© Karim Baïna 2016 61/64

Big Data - Valeur & Visualisation : Polarité des opinions sur les

réseaux sociaux par rapport à une féministe Arabe

Not all Arab tweeters agreed with Mona Eltahawy views of feminism in the Arab world

Visualizing Big Data:Social Network Analysisby Michael Lieberman, 2014

Page 62: Karim Baina Big Data ENSIAS December 2016

© Karim Baïna 2016 62/64

Valeur & Opportunités du Big Data – Améliorer le quotidien du

citoyen Marocain

Améliorer la Sécurité Routière – plus de campagnes et de signalisation dans les régions/véhicules à haut risque

Améliorer la qualité du transport – mieux desservir la demande en période de pic

Améliorer les services sociaux – mieux desservir les régions selon les spécialités manquantes

Réduire le chômage et augmenter l'employabilité – mieux connecter offreurs et demandeurs d'emploi, anticiper les besoins du marché d'emploi

Améliorer l'éducation – mieux servir les régions marginalisées

Page 63: Karim Baina Big Data ENSIAS December 2016

© Karim Baïna 2016 63/64

Valeur & Opportunités du Big Data – Sans oublier bien évidemment de

Préparer le Maroc de demainÉnergies

Desertec

Développement durable& Économie verte

Développement humain & Économie équitable

Environnement

Logistique

Industrie & Services

Page 64: Karim Baina Big Data ENSIAS December 2016

© Karim Baïna 2016 64/64

Prof. Karim Baïna [email protected], [email protected], @kbaina, www.slideshare.net/kbaina

Professeur d'Enseignement SupérieurENSIAS, Université Mohammed V de Rabat, Maroc

Co-responsable du Diplôme Universitaire « Big Data Scientist »Ex-Responsable de l'équipe Alqualsadi sur les Architectures d'Entreprisesdu Laboratoire International Associé CNRS (LIA) : DATANET - Big Data et Réseaux à Large échelle

Chef du Département Génie Logiciel et Chef de Service de Coopération

made with :

Rabat, Morocco, December, 19th, 2016

Les Big Datacatalyseur de la Transformation Digitale

des Systèmes d'Information