big data, bi, nosql, sgbd, big data et nosql - orsys.fr · deux exemples : splunk et logstash. -...

Big Data, BI, NoSQL, SGBD, Big Data et NoSQL

Face à l'explosion quantitative des données produites et collectées (capteurs, réseauxsociaux, contenus multimédias, transactions...), les technologies Big Data offrent de nouvellesperspectives : analyse rapide de grands volumes de données, identification en temps réeldes informations clés... Les stages ORSYS permettent de maîtriser les différentes solutionsproposées par les acteurs du Big Data (Hadoop, Spark, Storm, Cloudera, Talend, Tableau,ELK...) de l'administration des infrastructures jusqu'à l'organisation, l'analyse et la visualisationdes données.

Etat de l'art, conception

Big Data, état de l'art (réf. BGA) .... p.3

Big Data, synthèse technique (réf. BAG) .... p.5

Big Data, Data Science, Machine Learning, leur impact dans l’entreprise (réf. BMD) .... p.7

Big Data Foundation, certification (réf. BDT) .... p.9

Big Data, méthodes et solutions pratiques pour l'analyse des données (réf. BID) .... p.11

Bases de données NoSQL, enjeux et solutions (réf. NSQ) .... p.13

Data Mining : synthèse (réf. DMI) .... p.15

Master Data Management, la gouvernance des données (réf. CYE) .... p.17

Deep Learning et réseaux de neurones : les fondamentaux (réf. DRN) .... p.19

Machine learning, l'état de l'art (réf. MLE) .... p.21

Machine learning, méthodes et solutions (réf. MLA) .... p.23

Microsoft Azure Machine Learning, développer et exploiter des algorithmes (réf. AZL) .... p.25

Hadoop, installation et administration (réf. HOD) .... p.27

Elasticsearch, administration et exploitation (réf. ELA) .... p.29

Apache Cassandra, administration et exploitation (réf. SSA) .... p.31

MongoDB, mise en œuvre et administration (réf. MGO) .... p.33

Talend Open Studio for Big Data, exploiter vos données massives (réf. TAD) .... p.35

SQL Server 2016 Business Intelligence, nouveautés pour le Big Data (réf. MOV) .... p.37

Recherche et Datavisualisation

ElasticSearch, Logstash et Kibana : indexation, recherche et visualisation de données (réf. ELK) ....p.39

Data Clustering, organiser les données du Big Data (réf. DAU) .... p.41

Développer des applications de DataVisualisation (réf. DTV) .... p.43

DataVisualisation, créer des reportings visuels et interactifs avec Power Map et Power View (réf. AVI) ....p.45

Tableau Desktop, exploiter visuellement vos données (réf. TBL) .... p.47

Statistiques descriptives, introduction (réf. UES) .... p.49

Modélisation statistique (réf. STA) .... p.51

Environnement R, traitement de données et analyse statistique (réf. TDA) .... p.53

Technique de Big Data Analytics avec R (réf. DTA) .... p.55

Technique de Big Data Analytics avec Python (réf. BDA) .... p.57

ORSYS, La Grande Arche, Paroi Nord, 92044 Paris La Défense cedex. Tél : +33 (0)1 49 07 73 73. Fax : +33(0)1 49 07 73 78 page 1

Environnement R, manipulations et statistiques élémentaires (réf. MDR) .... p.59

Traitement de données Big Data en temps réel avec Spark et Storm (réf. DSS) .... p.61

Apache Hadoop, développer des applications pour le Big Data (réf. APH) .... p.63

MongoDB, prise en main et développement (réf. MNO) .... p.65

Spark, développer des applications pour le Big Data (réf. SPK) .... p.67

Apache Storm, développer des applications pour le Big Data (réf. ASB) .... p.69

MapReduce et Aggregation Framework pour MongoDB (réf. RAG) .... p.71

100% E-Learning

Introduction à la datavisualisation, collecter, traiter et représenter les données (réf. 4TF) .... p.73

Hbase, introduction à la base de données NoSQL d'Hadoop (réf. 4TG) .... p.75

Redis, présentation de la base de données NoSQL pour une utilisation en PHP (réf. 4TH) .... p.77

HDFS, utiliser le système de fichiers distribué d'Hadoop (réf. 4TO) .... p.79

MapReduce, appliquer le paradigme dans tous les langages et le transposer sous Hadoop (réf. 4TP) ....p.81

Big Data, introduction à la plateforme Hadoop et à son écosystème (réf. 4TX) .... p.83


Séminaire de 2 jour(s)Réf : BGA

ParticipantsDSI, directeurs techniques,chefs de projet, architectes,responsables SI.

Pré-requisConnaissances de base desarchitectures techniques.

Prix 2018 : 1910€ HT

Dates des sessions

BRUXELLES04 oct. 2018, 10 déc. 2018

GENEVE04 oct. 2018, 10 déc. 2018

LUXEMBOURG04 oct. 2018, 10 déc. 2018

PARIS06 sep. 2018, 08 nov. 201810 déc. 2018

Modalitésd’évaluationLes apports théoriques et lespanoramas des techniqueset outils ne nécessitentpas d’avoir recours à uneévaluation des acquis.

Compétences duformateurLes experts qui animentla formation sont desspécialistes des matièresabordées. Ils ont étévalidés par nos équipespédagogiques tant sur leplan des connaissancesmétiers que sur celui de lapédagogie, et ce pour chaquecours qu’ils enseignent. Ilsont au minimum cinq à dixannées d’expérience dansleur domaine et occupentou ont occupé des postes àresponsabilité en entreprise.

Moyenspédagogiques ettechniques• Les moyens pédagogiqueset les méthodesd'enseignement utiliséssont principalement : aidesaudiovisuelles, documentationet support de cours, exercicespratiques d'application etcorrigés des exercices pourles stages pratiques, étudesde cas ou présentation de casréels pour les séminaires deformation.

• A l'issue de chaque stage ouséminaire, ORSYS fournit aux

Big Data, état de l'art> Big Data, BI, NoSQL, SGBD> Big Data et NoSQL

L'accroissement continuel des données numériques dans les entreprises et les organismes publics a conduità l'émergence du Big Data. Ce concept recouvre les questions de stockage et de conservation de vastesquantités de données, mais aussi celles liées au gisement potentiel de valeur que représentent ces massesde données. Ce séminaire présente les problèmes spécifiques du Big Data et les solutions techniquespotentielles, de la gestion des données aux différents types de traitement, qui témoignent d'une rupture parrapport aux moyens usuels d'analyse du fait des quantités traitées.

OBJECTIFS PEDAGOGIQUES

Découvrir les principaux concepts du Big DataIdentifier les enjeux économiquesEvaluer les avantages et les inconvénients du Big DataComprendre les principaux problèmes et les solutions potentiellesIdentifier les principales méthodes et champs d'application du Big Data

1) Introduction2) Big Data : traitements depuis l'acquisitionjusqu'au résultat3) Relations entre Cloud et Big Data4) Introduction à l'Open Data

5) Matériel pour les architectures de stockage6) Protection des données7) Méthodes de traitement et champsd'application8) Cas d'usage à travers des exemples etconclusion

1) Introduction

- Les origines du Big Data : un monde de données numériques, l'e-santé, chronologie.- Une définition par les quatre V : la provenance des données.- Une rupture : changements de quantité, de qualité, d'habitudes.- La valeur de la donnée : un changement d'importance.- La donnée en tant que matière première.- Le quatrième paradigme de la découverte scientifique.

2) Big Data : traitements depuis l'acquisition jusqu'au résultat

- L'enchaînement des opérations. L'acquisition.- Le recueil des données : crawling, scraping.- La gestion de flux événementiel (Complex Event Processing, CEP).- L'indexation du flux entrant.- L'intégration avec les anciennes données.- La qualité des données : un cinquième V ?- Les différents types de traitement : recherche, apprentissage (machine learning, transactionnel, datamining).- D'autres modèles d'enchaînement : Amazon, e-Santé.- Un ou plusieurs gisements de données ? De Hadoop à l'in-memory.- De l'analyse de tonalité à la découverte de connaissances.

3) Relations entre Cloud et Big Data

- Le modèle d'architecture des Clouds publics et privés.- Les services XaaS.- Les objectifs et avantages des architectures Cloud.- Les infrastructures.- Les égalités et les différences entre Cloud et Big Data.- Les Clouds de stockage.- Classification, sécurité et confidentialité des données.- La structure comme critère de classification : non structurée, structurée, semi-structurée.- Classification selon le cycle de vie : données temporaires ou permanentes, archives actives.- Difficultés en matière de sécurité : augmentation des volumétries, la distribution.- Les solutions potentielles.

4) Introduction à l'Open Data

- La philosophie des données ouvertes et les objectifs.- La libération des données publiques.- Les difficultés de la mise en œuvre.- Les caractéristiques essentielles des données ouvertes.- Les domaines d'application. Les bénéfices escomptés.

5) Matériel pour les architectures de stockage

- Les serveurs, disques, réseau et l'usage des disques SSD, l'importance de l'infrastructure réseau.


participants un questionnaired'évaluation du cours quiest ensuite analysé par noséquipes pédagogiques.

• Une feuille d’émargementpar demi-journée de présenceest fournie en fin de formationainsi qu’une attestation de finde formation si le stagiaire abien assisté à la totalité de lasession.

- Les architectures Cloud et les architectures plus traditionnelles.- Les avantages et les difficultés.- Le TCO. La consommation électrique : serveurs (IPNM), disques (MAID).- Le stockage objet : principe et avantages.- Le stockage objet par rapport aux stockages traditionnels NAS et SAN.- L'architecture logicielle.- Niveaux d'implantation de la gestion du stockage.- Le "Software Defined Storage".- Architecture centralisée (Hadoop File System).- L'architecture Peer-to-Peer et l'architecture mixte.- Les interfaces et connecteurs : S3, CDMI, FUSE, etc.- Avenir des autres stockages (NAS, SAN) par rapport au stockage objet.

6) Protection des données

- La conservation dans le temps face aux accroissements de volumétrie.- La sauvegarde, en ligne ou locale ?- L'archive traditionnelle et l'archive active.- Les liens avec la gestion de hiérarchie de stockage : avenir des bandes magnétiques.- La réplication multisites.- La dégradation des supports de stockage.

7) Méthodes de traitement et champs d'application

- Classification des méthodes d'analyse selon le volume des données et la puissance des traitements.- Hadoop : le modèle de traitement Map Reduce.- L'écosystème Hadoop : Hive, Pig. Les difficultés d'Hadoop.- OpenStack et le gestionnaire de données Ceph.- Le Complex Event Processing : un exemple ? Storm.- Du BI au Big Data.- Le décisionnel et le transactionnel renouvelés : les bases de données NoSQL.Typologie et exemples.- L'ingestion de données et l'indexation. Deux exemples : splunk et Logstash.- Les crawlers Open Source.- Recherche et analyse : Elasticsearch.- L'apprentissage : Mahout. In-memory.- Visualisation : temps réel ou non, sur le Cloud (Bime), comparaison QlikView, Tibco Spotfire, Tableau.- Une architecture générale du data mining via le Big Data.

8) Cas d'usage à travers des exemples et conclusion

- L'anticipation : besoins des utilisateurs dans les entreprises, maintenance des équipements.- La sécurité : des personnes, détection de fraude (postale, taxes), le réseau.- La recommandation. Analyses marketing et analyses d'impact.- Analyses de parcours. Distribution de contenu vidéo.- Big Data pour l'industrie automobile ? Pour l'industrie pétrolière ?- Faut-il se lancer dans un projet Big Data ?- Quel avenir pour les données ?- Gouvernance du stockage des données : rôle et recommandations, le Data Scientist, les compétences d'unprojet Big Data.


Cours de synthèse de 2jour(s)Réf : BAG

ParticipantsDataminers, chargés d'étudesstatistiques, développeurs,chefs de projet, consultantsen informatique décisionnelle.

Pré-requisConnaissances de basedes modèles relationnels,des statistiques et deslangages de programmation.Connaissances de base desconcepts de la BusinessIntelligence.

Prix 2018 : 1770€ HT

Dates des sessions

PARIS12 juil. 2018, 20 sep. 201829 nov. 2018

Modalitésd’évaluationL’objectif de cette formationétant essentiellement defournir une synthèse desméthodes et technologiesexistantes, il n’est pasnécessaire d’avoir recours àune évaluation des acquis.



Big Data, synthèse technique> Big Data, BI, NoSQL, SGBD> Big Data et NoSQL

Ce cours de synthèse vous présentera les enjeux et les apports du Big Data ainsi que les technologies poursa mise en œuvre. Vous apprendrez à gérer un projet de gestion de données massives depuis l'installationd'une plateforme Big Data, tout en passant par la gestion, l'analyse et la visualisation des données.


Découvrir les concepts clés du Big DataComprendre l'écosystème technologique d'un projet Big DataEvaluer les techniques de gestion des flux de données massivesImplémenter des modèles d'analyses statistiques pour répondre aux besoins métiersDécouvrir les outils de Data Visualisation

1) Comprendre les concepts clés et les enjeuxdu Big Data2) Technologies du Big Data3) Traitement des données Big Data

4) Méthodes d'analyse et traitements desdonnées pour le Big Data5) Data Visualisation, représenter des donnéesde façon visuelle6) Conclusion

Démonstration

Présenter la plateforme Hadoop et ses composants de base, utiliser un ETL pour gérer les données, créerdes modèles d'analyse et dashboards.

1) Comprendre les concepts clés et les enjeux du Big Data

- Les origines du Big Data.- La valeur de la donnée : un changement d'importance.- La donnée en tant que matière première.- Les chiffres clés du marché dans le monde et en France.- Les enjeux du Big Data : ROI, organisation, confidentialité des données.

DémonstrationPrésentation d'une architecture Big Data.

2) Technologies du Big Data

- Architecture et composants de la plateforme Hadoop 2.- Les modes de stockage (NoSQL, HDFS).- Fonctionnement de MapReduce et Yarn...- Principales distributions Hadoop : Hortonworks, Cloudera, MapR...- Les technologies émergentes : Spark, Storm, Machine Learning Azure...- Démarche d'installation d'une plateforme Hadoop.- Présentation des technologies spécifiques pour le Big Data (Talend, Tableau, Qlikview ...).

DémonstrationInstallation d'une plateforme Big Data complète.

3) Traitement des données Big Data

- Fonctionnement de Hadoop Distributed File System (HDFS).- Importer des données vers HDFS.- Traitement des données avec PIG.- Requêtes SQL avec HIVE.- Création de flux de données massives avec un ETL.

DémonstrationImplémentation de flux de données massives.

4) Méthodes d'analyse et traitements des données pour le Big Data

- Les méthodes d'exploration.- Segmentation et classification.- Machine Learning, estimation et prédiction.- Le temps réel, l'IA.- L'implémentation des modèles.

DémonstrationPrésentation de l'environnement Spark, Jupyter Notebook, R Notebook et Shiny. Mise en place d'analyses demachine-learning avec le langage R, Python et Scala.

5) Data Visualisation, représenter des données de façon visuelle


• A l'issue de chaque stage ouséminaire, ORSYS fournit auxparticipants un questionnaired'évaluation du cours quiest ensuite analysé par noséquipes pédagogiques.


- Principales solutions du marché.- Aller au-delà des rapports statiques.- La Data Visualisation et l'art de raconter des chiffres de manière créative et ludique.- Mesurer l'e-réputation, la notoriété d'une marque, l'expérience et la satisfaction clients...

DémonstrationPrésentation et utilisation d'un outil de Data Visualisation pour constituer des analyses dynamiques.

6) Conclusion

- Les conditions du succès.- Synthèse des meilleures pratiques.- Bibliographie.


Séminaire de 2 jour(s)Réf : BMD

ParticipantsDirigeants d'entreprise,directeurs financiers,responsables métier,responsables maîtrised'ouvrage, DSI, responsablesinformatiques, consultants,auditeurs, informaticiens.

Pré-requisAucune connaissanceparticulière.

Prix 2018 : 1910€ HT

Dates des sessions

PARIS24 sep. 2018, 13 déc. 2018





Big Data, Data Science, Machine Learning, leur impactdans l’entreprise> Big Data, BI, NoSQL, SGBD> Big Data et NoSQL

La révolution numérique est rendue possible par l'explosion du volume des données échangées au sein eten dehors des entreprises. Cette révolution a permis l'apparition de nombreux nouveaux usages et nousn'en sommes qu'au début. Sans entrer dans le détail de la technique ni des aspects architecturaux ou desmodèles de données, ce séminaire vous présentera une vision d'ensemble de l'impact que peuvent avoir leBig Data, la Data Science et le Machine Learning sur les nouveaux modèles d'entreprise.


Découvrir les fondamentaux du Big Data, de la Data Science et du Machine LearningEvaluer en quoi les données prennent une position prédominante dans les nouveaux business modelsComprendre le rôle de la Data Science au sein de l'organisation et de la gouvernance de l'informationPrésenter les enjeux des usages que représentent le machine learning, le deep learning et les impactsorganisationnelsJustifier l'ouverture du SI vers l'extérieur, tant en collecte de données qu'en fourniture

1) Historique et contexte de l'explosion desusages autour des données2) Le Big Data, la Data Science, la MachineLearning, l'IA3) La gestion du patrimoine informationnel et lepilotage de la valeur

4) Les acteurs du Big Data et les enjeuxorganisationnels associés5) Le Big Data étendu6) Les notions pour aller plus loin et quelquespistes pour se lancer

1) Historique et contexte de l'explosion des usages autour des données

- La révolution numérique est en route ... poussée par un tsunami informationnel !- Quelles sont les grandes briques fonctionnelles et techniques de la gestion du patrimoine informationnel ?- Qu'est ce que le Big Data ? Définition et périmètre général.- Un peu d'histoire sur les origines et l'explosion du Big Data.- Le Big Data n'est pas une mode et s'inscrit dans la révolution numérique comme le carburant del'innovation.- Le Big Data : les grands usages actuels.- Quelques grandes notions technologiques à retenir et comment surnager parmi tous ces acronymestechniques.- Quelle cohabitation entre les différentes générations de système de gestion des données ?- Quel futur pour toutes ces solutions et usages ? Quel est le niveau de maturité à date ?

EchangesRéflexion collective sur la révolution numérique.

2) Le Big Data, la Data Science, la Machine Learning, l'IA

- Créer et améliorer les facultés de l'entreprise grâce aux Big Data.- Les grandes briques applicatives au service du Big Data dans l'entreprise.- De l'analyse statistique à la Data Science : quels profils, pour quels bénéfices ?- Les principales déclinaisons de l'Intelligence Artificielle.- L'Intelligence Artificielle dans l'analyse prédictive.- Le Machine Learning ou la capacité d'apprentissage par la machine.- Apprendre par le traitement de masse de l'information recueillie : le Deep Learning.- L'Intelligence Artificielle, le Machine Learning et le Deep Learning : quels enjeux pour nos sociétés ?

EchangesRéflexion collective sur l'évolution de le Big Data, de la Data Science, du Machine Learning et l'IntelligenceArtificielle.

3) La gestion du patrimoine informationnel et le pilotage de la valeur

- La place des données dans la révolution numérique.- La place de la donnée dans les modèles d'entreprise disruptifs.- La valeur des données au coeur des enjeux métiers.- Peut-on connaître et piloter la valeur de son patrimoine informationnel ?- Quel est le risque d'infobésité ? Comment s'en prémunir ?- Les opportunités de monétisation de l'information.- Comment installer une culture de la donnée dans l'entreprise ?- Le poids et le coût de la qualité des données du patrimoine géré par l'entreprise.- L'apport de valeur par les données touche tous les métiers de nos clients.

Etude de casEtude de cas sur l'analyse de la valeur de la donnée.



4) Les acteurs du Big Data et les enjeux organisationnels associés

- Organisation, rôles et gouvernance : les nouveaux modèles à l'heure du Big Data.- Pourquoi les silos organisationnels sont un frein majeur à l'exploitation des données et comment yremédier ?- La Data Science : adapter les profils de statisticiens aux nouveaux enjeux.- Les spécialistes des nouveaux domaines et leurs méthodes de travail.- Les thématiques de mise en œuvre de la gouvernance des données.- Les acteurs de la gouvernance de la donnée.- Les acteurs en charge de la qualité de la donnée.- Quelles sont les grandes tendances règlementaires autour de la gestion des données et comment lesaborder ?

DémonstrationDémonstration de l'importance de la gouvernance des données.

5) Le Big Data étendu

- La place de l'entreprise dans son écosystème de données.- Les données à la frontière de l'entreprise (DMP).- Les données fournies par des partenaires : réseaux sociaux...- L'Internet des Objets (IoT) ou comment rendre son entreprise sensible aux nouveaux usages.- L'Open Data et ses apports dans l'analyse de données : nouvelles données, enrichissement, croisement dedonnées.- L'émergence des Chatbots ou l'automatisation de fonctions d'interface clients : quels impacts dans nosorganisations ?- L'expérience client augmentée, levier de la transformation digitale des entreprises.- La fourniture de données comme nouvelle source de revenus.- Les données, carburant de l'innovation métier.

DémonstrationDémonstrations sur l'innovation basée sur le Big Data, la Data Science et le Machine Learning.

6) Les notions pour aller plus loin et quelques pistes pour se lancer

- Quels sont les risques à ne pas prendre en compte la gestion du patrimoine informationnel ?- Les grandes tendances autour de la Data pour les trois années à venir.- Les solutions technologiques : Big Data et Machine Learning.- Mode d'emploi pour lancer une initiative Big Data.- Les techniques du Big Data : tour d'horizon.- Les métiers, fonctions et rôles autour de la donnée : la synthèse et les différents niveaux de mise en œuvre.- Pourquoi les entreprises se lancent-elles dans le Big Data ?


Stage pratique de 3 jour(s)Réf : BDT

ParticipantsResponsables SI, architectesIT, chefs de projet et toutepersonne souhaitant acquérirdes bases sur le Big Data.

Pré-requisConnaissances de base desarchitectures techniques.

Prix 2018 : 2570€ HT

Dates des sessions

PARIS17 sep. 2018, 03 déc. 2018

Modalitésd’évaluationPour les certifications, desexamens blancs permettentde mesurer le degré depréparation. Pour les cyclescertifiants, une journéed’examen est mise en place.




• Une feuille d’émargementpar demi-journée de présence

Big Data Foundation, certification> Big Data, BI, NoSQL, SGBD> Big Data et NoSQL

L'explosion quantitative des données numériques a contraint à trouver de nouvelles façons d'analyser lemonde, et cela a abouti à l'émergence du Big Data. Cette formation apportera aux participants les bases duBig Data et du Data Mining et les préparera au passage de la certification Big Data Foundation de l'EXIN.


Découvrir les fondamentaux du Big DataComprendre ce qu'est le Data MiningEvaluer les technologies émergentes du Big DataPasser la certification Big Data Foundation

1) Les fondamentaux du Big Data2) Mise en pratique des approches Big Data,synthèse3) Les sources du Big Data4) Les données et l'information

5) Data Mining6) Outil : Hadoop7) Outil : MongoDB8) Examen "Big Data Foundation" de l'EXIN

Certification

Le passage de l'examen s'effectue le dernier jour, en ligne et en anglais. Cela consiste en un QCM d'uneheure, comportant 40 questions. Un score minimum de 65% est requis pour réussir l'examen.

1) Les fondamentaux du Big Data

- L'histoire et les principaux bénéfices du Big Data.- Les trois dimensions du Big Data (volume, variété, vélocité).- Les technologies Hadoop et MongoDB.- Les limites du Big Data.- Les grands acteurs du marché. La vie privée.

2) Mise en pratique des approches Big Data, synthèse

- La fraude bancaire.- La relation client et le marketing.- L'internet des objets.- Le "People Analytics".

3) Les sources du Big Data

- Les principaux types de données.- Les données de l'entreprise (Oracle, SAP, Microsoft, Data Warhouses, données non-structurées).- Les liens avec les réseaux sociaux (Facebook, Twitter, autres).- Les données publiques (Opendata, économiques, financières, comportementales...).

4) Les données et l'information

- La notion de Datalake.- Collecter, préparer et gérer les données.- La modélisation de données.- La Data Sécurité, la Data Gouvernance, la Data Scientist.- La Metadata.

5) Data Mining

- Qu'est-ce que le Data Mining ?- Les différents types (classification, association...).- Quelques algorithmes essentiels (régression linéaires, régression polynomiale).- Notion de séries temporelles.- La Machine Learning et l'Intelligence Artificielle (IA).- Les outils (Weka, KNIME, R).- Principales application : Analyse sentiment sur Twitter, analyse des log réseau...

6) Outil : Hadoop

- Présentation de Hadoop (les principaux composants).- Architecture d'Hadoop. Installation et configuration.- MapReduce (Parallelisation automatique des programmes Hadoop).- DataProcessing avec Hadoop (Analyse de sentiment, analyse des logs).

7) Outil : MongoDB


est fournie en fin de formationainsi qu’une attestation de finde formation si le stagiaire abien assisté à la totalité de lasession.

- Présentation de MongoDB (fonctionnalités et concepts).- Réplication et Sharding.- Ecosystèmes (langages, drivers, outils, intégration avec Hadoop).- Installation et configuration.- Base de données de documents.- Modèle de données de documents (Analyse de sentiment, analyse des logs).

8) Examen "Big Data Foundation" de l'EXIN

- Examen blanc avec correction commentée.- Passage de l'examen "Big Data Foundation".


Stage pratique de 5 jour(s)Réf : BID

ParticipantsDataminers, chargés d'étudesstatistiques, développeurs,chefs de projet, consultantsen informatique décisionnelle.

Pré-requisConnaissances de basedes modèles relationnels,des statistiques et deslangages de programmation.Connaissances de base desconcepts de la BusinessIntelligence.

Prix 2018 : 3030€ HT

Dates des sessions

AIX10 sep. 2018, 19 nov. 2018

ANGERS10 sep. 2018, 19 nov. 2018

BORDEAUX17 sep. 2018, 03 déc. 2018

BRUXELLES10 sep. 2018, 26 nov. 2018

DIJON17 sep. 2018, 03 déc. 2018

GENEVE10 sep. 2018, 26 nov. 2018

GRENOBLE17 sep. 2018, 03 déc. 2018

LILLE10 sep. 2018, 19 nov. 2018

LIMOGES10 sep. 2018, 19 nov. 2018

LUXEMBOURG10 sep. 2018, 26 nov. 2018

LYON17 sep. 2018, 03 déc. 2018

MONTPELLIER10 sep. 2018, 19 nov. 2018

NANCY10 sep. 2018, 19 nov. 2018

NANTES10 sep. 2018, 19 nov. 2018

ORLEANS10 sep. 2018, 19 nov. 2018

PARIS09 juil. 2018, 27 aoû. 201810&24 sep. 2018, 08&22 oct.201812&19 nov. 2018, 10 déc.2018

RENNES10 sep. 2018, 19 nov. 2018

ROUEN10 sep. 2018, 19 nov. 2018

SOPHIA-ANTIPOLIS10 sep. 2018, 19 nov. 2018

STRASBOURG10 sep. 2018, 19 nov. 2018

TOULOUSE17 sep. 2018, 03 déc. 2018

Big Data, méthodes et solutions pratiques pour l'analysedes données> Big Data, BI, NoSQL, SGBD> Big Data et NoSQL

Ce stage vous permettra de comprendre les enjeux et les apports du Big Data ainsi que les technologies pourle mettre en œuvre. Vous apprendrez à intégrer des volumétries massives de données structurées et nonstructurées via un ETL, puis à les analyser grâce à des modèles statistiques et des dashboards dynamiques.


Comprendre les concepts et l'apport du Big Data par rapport aux enjeux métiersComprendre l'écosystème technologique nécessaire pour réaliser un projet Big DataAcquérir les compétences techniques pour gérer des flux de données complexes, non structurés et massifsImplémenter des modèles d'analyses statistiques pour répondre aux besoins métiersAppréhender un outil de data visualisation pour restituer des analyses dynamiques

1) Comprendre les concepts et les enjeux du BigData2) Les technologies du Big Data3) Gérer les données structurées et nonstructurées

4) Technique et méthodes Big data analytics5) Data visualisation et cas d'usage concrets6) Conclusion

Exercice

Mettre en place une plateforme Hadoop et ses composants de base, utiliser un ETL pour gérer les données,créer des modèles d'analyse et dashboards.

1) Comprendre les concepts et les enjeux du Big Data

- Origines et définition du Big Data.- Les chiffres clés du marché dans le monde et en France.- Les enjeux du Big Data : ROI, organisation, confidentialité des données.- Un exemple d'architecture Big Data.

2) Les technologies du Big Data

- Description de l'architecture et des composants de la plateforme Hadoop.- Les modes de stockage (NoSQL, HDFS).- Principes de fonctionnement de MapReduce, Spark, Storm...- Principales distributions du marché (Hortonworks, Cloudera, MapR, Elastic Map Reduce, Biginsights).- Installer une plateforme Hadoop.- Les technologies du datascientist.- Présentation des technologies spécifiques pour le Big Data (Tableau, Talend, Qlikview ...).

ExerciceInstallation d'une plateforme Big Data Hadoop (via Cloudera QuickStart ou autre).

3) Gérer les données structurées et non structurées

- Principes de fonctionnement de Hadoop Distributed File System (HDFS).- Importer des données externes vers HDFS.- Réaliser des requêtes SQL avec HIVE.- Utiliser PIG pour traiter la donnée.- Le principe des ETL (Talend...).- Gestion de streaming de données massive (NIFI, Kafka, Spark, Storm...)

ExerciceImplémentation de flux de données massives.

4) Technique et méthodes Big data analytics

- Machine Learning, une composante de l'intelligence artificielle.- Découvrir les trois familles : Régression, Classification et Clustering.- La préparation des données (data preparation, feature engineering).- Générer des modèles en R ou Python.- Ensemble Learning.- Découvrir les outils du marché : Jupyter Notebook, Dataïku, Amazon Machine Learning...

ExerciceMise en place d'analyses avec une des outils étudiés.

5) Data visualisation et cas d'usage concrets

- Définir le besoin de la data visualisation.


TOURS10 sep. 2018, 19 nov. 2018

Modalitésd’évaluationL’évaluation des acquis sefait tout au long de la sessionau travers des multiplesexercices à réaliser (50 à 70%du temps).





- Analyse et visualisation des données.- Peut concerner tous les types de données dans la DataViz ?- Les outils DataViz du marché.

ExerciceInstallation et utilisation d'un outil de Data Visualisation pour constituer des analyses dynamiques.

6) Conclusion

- Ce qu'il faut retenir.- Synthèse des bonnes pratiques.- Bibliographie.


Séminaire de 2 jour(s)Réf : NSQ

ParticipantsDirection informatique etfonctionnelle. Responsableinformatique, chef de projet,architecte, développeur.

Pré-requisConnaissances de base desarchitectures techniqueset du management SI.Connaissances de bases dedonnées.

Prix 2018 : 1910€ HT

Dates des sessions

BRUXELLES06 sep. 2018, 29 nov. 2018

GENEVE06 sep. 2018, 29 nov. 2018

LUXEMBOURG06 sep. 2018, 29 nov. 2018

PARIS20 sep. 2018, 29 nov. 2018



Moyenspédagogiques ettechniques• Les moyens pédagogiqueset les méthodesd'enseignement utiliséssont principalement : aidesaudiovisuelles, documentationet support de cours, exercicespratiques d'application etcorrigés des exercices pourles stages pratiques, étudesde cas ou présentation de cas

Bases de données NoSQL, enjeux et solutions> Big Data, BI, NoSQL, SGBD> Big Data et NoSQL

Les bases de données NoSQL proposent une nouvelle approche répondant à des besoins de volumétrieet de nouveaux types de données. Ce séminaire présente les raisons qui ont mené à ces bases, leurarchitecture, leurs bénéfices et leurs limites ainsi que les produits existants.


Identifier les différences des BDD SQL et des BDD NoSQLÉvaluer les avantages et les inconvénients inhérents aux technologies NoSQLAnalyser les principales solutions du monde NoSQLIdentifier les champs d'application des BDD NoSQLComprendre les différentes architectures, les modèles de données, les implémentations techniques.

1) Introduction au NoSQL2) Le Relationnel et le NoSQL.3) Les mondes du NoSQL

4) NoSQL et Big Data5) Choisir et mettre en place

1) Introduction au NoSQL

- L'historique du mouvement NoSQL.- Les différentes approches de gestion de BDD à travers le temps : hiérarchiques, relationnelles, objets, XML,NoSQL.- Les grands acteurs à l'origine du mouvement NoSQL et du Big Data analytique : Google et Amazon.- Données structurées, semi-structurées et non-structurées : provenance, typologie...- Vue synoptique des différents types de moteurs NoSQL du point de vue du modèle de données.- Le NoSQL, le Big Data et les architectures Cloud: principes d'architecture communs et divergents.- Les modes de distribution : avec maître et décentralisé.- Le positionnement du NoSQL au sein du Big Analytics : de l'ère de la transaction à l'ère de l'interaction.

Réflexion collectivePourquoi le NoSQL ? et pourquoi son succès ? Les besoins, l'évolution des architectures, la distribution etl'élasticité, le commodity hardware, quelques scénarios d'utilisation.

2) Le Relationnel et le NoSQL.

- Les bases de données relationnelles : leurs forces et leurs limites.- Structuration forte des données (schéma explicite) versus Structure souple (schéma implicite) et lamodélisation Agile.- Des qualités ACID aux qualités BASE.- Théorème CAP (cohérence, disponibilité, tolérance au partitionnement).- Les différents niveaux de cohérence.- Le langage SQL, la performance des jointures. L'accès par la clé en NoSQL.- L'évolution vers le distribué : extensibilité verticale et horizontale.- Comprendre le NoSQL par le modèle de l'agrégat et de la centralité de la donnée.

Réflexion collectiveComment choisir ? (le modèle de l'agrégat versus le modèle relationnel), comment gérer l'interopérabilité ?

3) Les mondes du NoSQL

- Monde du NoSQL à travers ses choix techniques et différentes bases NoSQL libres (du moins structuré auplus structuré).- L'architecture distribuée : principes, le shared-nothing.- Disponibilité et cohérence différée : gossip, timestamps, vector clock, règle de majorité, arbre de Merkle.- Les patterns et les modèles. Comment modéliser et travailler efficacement en NoSQL.- Différents modèles de connexion avec le client : sur cluster décentralisé, protocoles comme Thrift ouProtoBuf, REST...- Les bases orientées clé-valeur et en mémoire : Redis, Riak, Projet Voldemort, Aerospike.- Les bases orientées documents : Le format JSON. Couchbase Server, MongoDB, Elasticsearch.- Les bases orientées colonne distribuées pour le Big Data opérationnel : Hadoop, Hbase, Cassandra,Accumulo...- Les moteurs orientés graphes : Neo4j, OrientDB...- L'écosystème Hadoop : les différences avec les SGBDR, les relations avec le NoSQL.

DémonstrationDémonstrations techniques, du point de vue de développement, de la mise en œuvre et de l'administration,des principaux moteurs NoSQL libres.

4) NoSQL et Big Data

- Big Data analytique : l'écosystème Hadoop.- Stockage et traitements. Les différentes formes de stockage dans HDFS : SequenceFile, Apache Parquet.


réels pour les séminaires deformation.



- Différents types de traitements : MapReduce, Graphe orienté acyclique, flux, Machine Learning, de graphesdistribué...- Les architectures Big Data : traitements batch, micro-batch, flux. Architecture Lambda, architecture Kappa.- Les outils intégrés : Apache Spark, Apache Flink.- Les outils d'analyses de données : développement pour l'analyse Big Data, les outils du data scientist.- La pérennité des outils du Big Data analytique devant l'évolution très rapide des frameworks.

DémonstrationDémonstrations de l'usage d'une plate-forme intégrée de Big Data analytique comme Apache Spark.

5) Choisir et mettre en place

- Le type d'utilisation propice au NoSQL. À quels usages correspondent les bases NoSQL.- Les choix matériels.- Qu'est-ce qu'un modèle de données NoSQL ?- Comment aborder la migration ?- Les impacts sur le développement client. Comment développer efficacement avec des bases NoSQL ?- Quels outils de supervision et comment les choisir ?- Quelle est la complexité administrative et la courbe d'apprentissage ?- Cas d'utilisation dans des entreprises existantes.- Et les performances ? Quelques benchmarks ?- Qu'est-ce que NewSQL ?

Réflexion collectiveQuel est l'intérêt de déployer des moteurs NoSQL dans le contexte de chacun, et quel moteur NoSQLchoisir ?


Séminaire de 2 jour(s)Réf : DMI

ParticipantsResponsables Infocentre,responsables marketing,statisticiens, responsablesinformatiques, chefsde projets et expertsdécisionnels. Utilisateurset gestionnaires métiers debases de données.

Pré-requisConnaissances de baseen analyse décisionnelle.Connaissances de base enstatistiques.

Prix 2018 : 1910€ HT

Dates des sessions

PARIS04 oct. 2018, 06 déc. 2018




• A l'issue de chaque stage ouséminaire, ORSYS fournit auxparticipants un questionnaired'évaluation du cours qui

Data Mining : synthèse> Big Data, BI, NoSQL, SGBD> Big Data et NoSQL

Le Data Mining apporte des solutions pour l'extraction de connaissances à partir de données brutes. Ceséminaire, alliant principes théoriques et expériences pratiques, vous propose une synthèse sur le DataMining, ses applications, ses apports pour l'entreprise, ainsi que sur les méthodes et outils les plus utilisés.


Comprendre les principes et la finalité du Data Mining (DM)Identifier les principales techniques du DM et leur cas d'utilisationMettre en oeuvre sur un cas simple les méthodes de scoring et de géomarketingDécouvrir les méthodes prédictives et les méthodes descriptives du DMConnaître les principales étapes d'un projet Data Mining

1) Le Système d'Information Décisionnel (SID)2) Comprendre le Data Mining (DM)3) Les techniques du Data Mining4) La méthode descriptive du Clustering

5) Exemples d'application du DM6) Les données de l'entreprise7) Méthodologie de projet Data Mining8) Panorama des outils

1) Le Système d'Information Décisionnel (SID)

- Les enjeux du SID : besoins, domaines d'application.- Architecture type d'un SID, état de l'art.- Elaboration des informations décisionnelles.- Conception d'un SID : étapes, optimisation, organisation des données, dictionnaires.

2) Comprendre le Data Mining (DM)

- Définition et finalité du Data Mining (DM).- Quel lien entre le DM et les statistiques, quelle dépendance entre le DM et l'informatique ?- Différence entre DM et OLAP ?- Les attentes des entreprises, les réponses du DM.

3) Les techniques du Data Mining

- Les différentes familles du DM.- Les méthodes prédictives et les méthodes descriptives.- Analyse factorielle, typologique. La classification...- Les arbres de décisions, les réseaux de neurones...- Classification des techniques de DM.

4) La méthode descriptive du Clustering

- Définition et méthodologie.- Les critères pour structurer les données à classer.- Evaluation et validation des classes obtenues.- Les différentes sous-familles du Clustering.

ExemplePrésentation d'applications du Clustering.

5) Exemples d'application du DM

- Le scoring : définition, finalité, méthodologie.- Le géomarketing : définition, finalité, méthodologie.

ExempleMise en œuvre de la méthode de scoring. Cas pratique d'utilisation de géomarketing.

6) Les données de l'entreprise

- Rappel de la problématique des données du SI.- Qualité des données et administration des données.- Processus de collecte et d'exploration.- Création d'agrégats et de nouvelles données.- Transformation des données.

7) Méthodologie de projet Data Mining

- Définition du problème métier à résoudre et des objectifs à atteindre.- Inventorier, décrire et classer les données.- Concevoir et alimenter la base Data Mining.- Explorer, segmenter des entités analysées.


est ensuite analysé par noséquipes pédagogiques.


- Etablir et appliquer les modèles d'analyse.- Itérer, déployer auprès des utilisateurs.- Maintenir le modèle et le logiciel associé.

8) Panorama des outils

- Principaux outils du marché : SAS, R, IBM SPSS...- Zoom sur l'outil SAS et sur l'ETL Powercenter.- Quels critères de choix pour ce type d'outils ?


Cours de synthèse de 2jour(s)Réf : CYE

ParticipantsToute personne ayantà mettre en place unedémarche de gouvernancedes données d'une entrepriseet/ou un projet de Master DataManagement.


Prix 2018 : 1770€ HT

Dates des sessions

PARIS20 sep. 2018, 08 nov. 201820 déc. 2018

Modalitésd’évaluationL’objectif de cette formationétant essentiellement defournir une synthèse desméthodes et technologiesexistantes, il n’est pasnécessaire d’avoir recours àune évaluation des acquis.




Master Data Management, la gouvernance des données> Big Data, BI, NoSQL, SGBD> Big Data et NoSQL

Les enjeux concurrentiels et la nécessité accrue de transparence sur les données impose de disposerd'une méthodologie et d'une architecture de données maîtrisées et alignées sur les métiers. Ce cours vousprésentera les enjeux et les méthodes afin d'engager tous les Systèmes d'Information dans cette démarche.


Comprendre le rôle stratégique de la gestion des données pour l'entreprise.Comprendre les principes d'architecture des donnéesMettre en place une méthode de gouvernanceIntégrer la gestion des Master Data dans la démarcheSavoir identifier les acteurs du MDM et leur positionnement

1) Introduction2) La gouvernance des données3) Le Master Data Management

4) Cycle de vie des données5) Présentation des offres de MDM

1) Introduction

- Enjeux stratégiques des données pour l'entreprise.- Définition des notions "Donnée" et "Information".- Les différentes sources de données de l'entreprise.- Les différentes formes d'exploitation des données.- Système d'information opérationnel et décisionnel.- Architectures : Relationnelle/Big Data.

EchangesEchanges sur le rôle stratégique des données pour l'entreprise.

2) La gouvernance des données

- Définition et enjeux de la gouvernance des données.- L'approche COBIT dans la gouvernance des données.- Les acteurs de la gouvernance des données.- Outils de mesure pour l'évaluation de la maturité d'une entreprise.- Les grands principes de la démarche de gouvernance de données.- Références et état de l'art.

EchangesUne organisation met en place une démarche de gouvernance des données à l'occasion de la fusion de sonSI avec un nouveau SI provenant d'une acquisition. Etude de l'impact sur l'organisation et les SI

3) Le Master Data Management

- Positionnement du Master Data Management dans le Système d'Information d'entreprise.- Les étapes essentielles de la démarche Master Data Management.- Présentation des architectures Master Data Management.- L'administration des données référentielles (Master Data).- Audit et gestion de la qualité des données.- Synthèse des bonnes pratiques.- Le rôle des utilisateurs dans le dispositif MDM.

Réflexion collectiveEtude de cas d'un SI dépourvu de gestion de Master Data sur lequel on effectue une analyse des besoins enMD. Comparaison de deux approches possibles de mise en œuvre.

4) Cycle de vie des données

- Typologie et volume de données.- Archivage de base de données.- Confidentialité des données.- Gestion des données de test.- Décommisionnement d'applications.

EchangesEchanges sur la gestion des données et leur cycle de vie.

5) Présentation des offres de MDM

- Les tendances du marché- MDM dans les suites Informatic /IBM/SAP.- MDM Microsoft.- Talend MDM.




- Conclusion.

EchangesEchanges sur les stratégies d'approches possibles selon les contextes.


Séminaire de 3 jour(s)Réf : DRN

ParticipantsIngénieurs, Data Scientistsdésirant s'initier aux réseauxde neurones et au DeepLearning.

Pré-requisAvoir des bases enprogrammation. Avoirune bonne maîtrise desoutils informatiques et desstatistiques.

Prix 2018 : 2610€ HT

Dates des sessions

PARIS26 sep. 2018, 28 nov. 2018





Deep Learning et réseaux de neurones : lesfondamentaux> Big Data, BI, NoSQL, SGBD> Big Data et NoSQL

L'Intelligence Artificielle, après avoir bouleversé de nombreux domaines scientifiques, a commencé àrévolutionner un grand nombre de secteurs économiques (industrie, médecine, communication, etc.).Néanmoins, sa présentation dans les grands médias relève souvent du fantasme, très éloignée de ce quesont réellement les domaines du machine learning ou du deep learning. Ce séminaire vous permettra demaîtriser les concepts clé du deep learning et de ses différents domaines de spécialisation. Vous découvrirezégalement les principales architectures de réseau existant aujourd'hui.


Comprendre les clés fondamentales d'une approche Machine ou Deep LearningMaîtriser les bases théoriques et pratiques d'architecture et de convergence de réseaux de neuronesConnaître les différentes architectures fondamentales existantes et maîtriser leurs implémentationsfondamentalesMaîtriser les méthodologies de mise en place de réseaux de neurones, les points forts et les limites de cesoutils

1) Introduction IA, machine learning et deeplearning2) Concepts fondamentaux d'un réseau deneurones3) Outils usuels machine learning et deeplearning4) Convolutional Neural Networks (CNN)

5) Recurrent Neural Networks (RNN)6) Modèles générationnels : VAE et GAN7) Deep Reinforcement Learning

Méthodes pédagogiques

Ce séminaire se base sur des présentations, des échanges et des études de cas. Des outils comme Lasagneou Keras seront présentés.

1) Introduction IA, machine learning et deep learning

- Historique, concepts de base et applications de l'intelligence artificielle loin des fantasmes portés par cedomaine.- Intelligence collective : agréger une connaissance partagée par de nombreux agents virtuels.- Algorithmes génétiques : faire évoluer une population d'agents virtuels par sélection.- Machine Learning usuel : définition.- Types de tâches : Supervised Learning, Unsupervised Learning, Reinforcement Learning.- Types d'actions : classification, régression, clustering, estimation de densité, réduction de dimensionalité.- Exemples d'algorithmes Machine Learning : régression linéaire, Naive Bayes, Random Tree.- Machine Learning vs Deep Learning : pourquoi le ML reste aujourd'hui l'état de l'art (Random Forests &XGBoosts) ?

2) Concepts fondamentaux d'un réseau de neurones

- Rappel de bases mathématiques.- Le réseau de neurones : architecture, fonctions d'activation et de pondération des activations précédentes...- L'apprentissage d'un réseau de neurones : fonctions de coût, back-propagation, stochastic gradientdescent...- Modélisation d'un réseau de neurones : modélisation des données d'entrée et de sortie selon le type deproblème.- Approximer une fonction par un réseau de neurones. Approximer une distribution par un réseau deneurones.- Data Augmentation : comment équilibrer un dataset ?- Généralisation des résultats d'un réseau de neurones.- Initialisations et régularisations d'un réseau de neurones : L1/L2 Regularization, Batch Normalization.- Optimisations et algorithmes de convergence.

DémonstrationApproximation d'une fonction et d'une distribution par un réseau de neurones.

3) Outils usuels machine learning et deep learning

- Outils de gestion de donnée : Apache Spark, Apache Hadoop.- Outils Machine Learning usuel : Numpy, Scipy, Sci-kit.- Frameworks DL haut niveau : PyTorch, Keras, Lasagne.- Frameworks DL bas niveau : Theano, Torch, Caffe, Tensorflow.

DémonstrationApplications et limites des outils présentés.



4) Convolutional Neural Networks (CNN)

- Présentation des CNNs : principes fondamentaux et applications.- Fonctionnement fondamental d'un CNN : couche convolutionnelle, utilisation d'un kernel, padding et stride...- Architectures CNN ayant porté l'état de l'art en classification d'images : LeNet, VGG Networks, Network inNetwork...- Utilisation d'un modèle d'attention.- Application à un cas de figure de classification usuel (texte ou image).- CNNs pour la génération : super-résolution, segmentation pixel à pixel.- Principales stratégies d'augmentation des Feature Maps pour la génération d'une image.

Etude de casInnovations apportées par chaque architecture CNN et leurs applications plus globales (convolution 1x1 ouconnexions résiduelles).

5) Recurrent Neural Networks (RNN)

- Présentation des RNNs : principes fondamentaux et applications.- Fonctionnement fondamental du RNN : hidden activation, back propagation through time, unfolded version.- Evolutions vers les GRU (Gated Recurrent Units) et LSTM (Long Short Term Memory).- Problèmes de convergence et vanising gradient.- Types d'architectures classiques : prédiction d'une série temporelle, classification...- Architecture de type RNN Encoder Decoder. Utilisation d'un modèle d'attention.- Applications NLP : word/character encoding, traduction.- Applications vidéo : prédiction de la prochaine image générée d'une séquence vidéo.

DémonstrationDifférents états et évolutions apportées par les architectures Gated Recurrent Units et Long Short TermMemory.

6) Modèles générationnels : VAE et GAN

- Présentation des modèles générationnels Variational AutoEncoder (VAE) et Generative AdversarialNetworks (GAN).- Auto-encoder : réduction de dimensionnalité et génération limitée.- Variational AutoEncoder : modèle générationnel et approximation de la distribution d'une donnée.- Définition et utilisation de l'espace latent. Reparameterization trick.- Fondamentaux du Generative Adversarial Networks.- Convergence d'un GAN et difficultés rencontrées.- Convergence améliorée : Wasserstein GAN, BeGAN. Earth Moving Distance.- Applications de génération d'images ou de photographies, génération de texte, super résolution.

DémonstrationApplications des modèles générationnels et utilisation de l'espace latent.

7) Deep Reinforcement Learning

- Reinforcement Learning.- Utilisation d'un réseau de neurones pour approximer la fonction d'état.- Deep Q Learning : experience replay et application au contrôle d'un jeu vidéo.- Optimisations de la politique d'apprentissage. On-policy et off-policy. Actor critic architecture. A3C.- Applications : contrôle d'un jeu vidéo simple ou d'un système numérique.

DémonstrationContrôle d'un agent dans un environnement défini par un état et des actions possibles.


Séminaire de 2 jour(s)Réf : MLE

ParticipantsDirigeants d'entreprise (CEO,COO, CFO, SG, DRH...),DSI, les CDO, responsablesinformatique, consultants,responsables de projets BigData.

Pré-requisPosséder une cultureinformatique de base. Laconnaissance des bases desmathématiques statistiquesest un plus.

Prix 2018 : 1910€ HT

Dates des sessions

PARIS13 sep. 2018, 13 déc. 2018





Machine learning, l'état de l'art> Big Data, BI, NoSQL, SGBD> Big Data et NoSQL

Ce séminaire vise à prendre conscience des enjeux liés au traitement de la donnée par l'intelligenceartificielle, et en particulier par les algorithmes du machine learning. Il montre aux décideurs, par uneapproche vulgarisatrice et interactive, les mécanismes du machine learning, les solutions concrètes et ladémarche de projet à appliquer selon les cas d'usages en entreprise.


Comprendre les enjeux de l'utilisation du machine learning dans l'entreprisePositionner le machine learning dans la chaîne de traitement de la donnéeDistinguer les compétences nécessaires ou les profils à recruterIdentifier les clés de réussite d'un projet autour du machine learning

1) Histoire du machine learning et contexte duBig Data2) Les données à disposition : collecte etpréparation3) Les outils du marché pour le traitement de ladonnée et le machine learning4) Les différents types d'apprentissage enmachine learning

5) Les algorithmes du machine learning6) Procédure d'entraînement et d'évaluation desalgorithmes7) Mise en production d'un algorithme demachine learning8) Aspects éthiques et juridiques liés àl'Intelligence Artificielle


Illustration par des cas concrets. Présentation des principaux cas d'usage selon les secteurs d'activités(Automobile, industrie, biens de consommation, finance, santé énergie, agriculture, transports,télécommunication...).

1) Histoire du machine learning et contexte du Big Data

- Replacer à leur échelle les concepts d'Intelligence Artificielle, apprentissage automatique (machinelearning)...- Le lien avec les mathématiques, statistiques (inférentielles), data mining et data science.- Passer de l'analyse descriptive à l'analyse prédictive puis prescriptive.- Les applications du machine learning (moteurs de recherche, détection des spams, lecture des chèques).- La typologie des algorithmes de Dominique CARDON.- La communauté Data Science et les challenges Kaggle (ex. de Netflix).

Etude de casEtudes d'applications concrètes du machine learning (moteurs de recherche, détection des spams, lecturedes chèques).

2) Les données à disposition : collecte et préparation

- Données structurées, semi-structurées et non structurées.- Nature statistique des données (qualitatives ou quantitatives).- Objets connectés (IoT) et streaming.- Opportunités et limites de l'Open Data.- Identification des corrélations, problème de la multicolinéarité.- Réduction des dimensions par Analyse des Composantes Principales.- Détection et correction des valeurs aberrantes.- Les ETL (Extract Transform Load).- Le Web scraping.

DémonstrationDémonstration d'un ETL (Extract Transform Load). Recueil de données Web.

3) Les outils du marché pour le traitement de la donnée et le machine learning

- Les logiciels traditionnels (SAS, SPSS, Stata...) et leur ouverture à l'Open Source.- Choisir entre les deux leaders Open Source : Python et R.- Plateformes Cloud (Azure, AWS, Google Cloud Platform) et solutions SAAS (IBM Watson, Dataïku).- Nouveaux postes en entreprises : data engineer, data scientist, data analyst, etc.- Associer les bonnes compétences à ces différents outils.- Les API en ligne (IBM Watson, Microsoft Cortana Intelligence...).- Les chats bot (agent conversationnel).

DémonstrationDémonstration d'un chat bot (agent conversationnel) et d'Azure Machine Learning.

4) Les différents types d'apprentissage en machine learning




- Apprentissage supervisé : répéter un exemple.- Apprentissage non supervisé : découvrir les données.- Online (machine) learning par opposition aux techniques batch.- Reinforcement learning : optimisation d'une récompense.- Autres types d'apprentissage (par transfert, séquentiel, actif...).- Illustrations (moteurs de recommandation...).

DémonstrationDémonstrations sur les différents types d'apprentissage machine learning possibles.

5) Les algorithmes du machine learning

- Régression linéaire simple et multiple. Limites des approches linéaires.- Régression polynomiale (LASSO). Séries temporelles.- Régression logistique et applications en scoring.- Classification hiérarchique et non hiérarchique (KMeans).- Classification par arbres de décision ou approche Naïve Bayes.- Ramdom Forest (développement des arbres de décision).- Gradiant Boosting. Réseaux de neurones. Machine à support de vecteurs.- Deep learning : exemples et raisons du succès actuel.- Text Mining : analyse des corpus de données textuelles.

DémonstrationDémonstration des différents algorithmes de base sous R ou Python.

6) Procédure d'entraînement et d'évaluation des algorithmes

- Séparation du jeu de données en plusieurs : entraînement, test et validation.- Techniques de bootstrap (bagging).- Exemple de la validation croisée.- Définition d'une métrique de performance.- Descente de gradient stochastique (minimisation de la métrique).- Courbes ROC et de lift pour évaluer et comparer les algorithmes.- Matrice de confusion : faux positifs et faux négatifs.

DémonstrationDémonstration du choix du meilleur algorithme.

7) Mise en production d'un algorithme de machine learning

- Description d'une plateforme Big Data.- Principe de fonctionnement des API.- Du développement à la mise en production.- Stratégie de maintenance corrective et évolutive.- Evaluation du coût de fonctionnement en production.

DémonstrationDémonstration d'API de géolocalisation et d'analyse de sentiments.

8) Aspects éthiques et juridiques liés à l'Intelligence Artificielle

- Missions de la CNIL et évolutions à venir.- Question du droit d'accès aux données personnelles.- Question de la propriété intellectuelle des algorithmes.- Nouveaux rôles dans l'entreprise : Chief Data Officer et Data Protection Officer.- Question de l'impartialité des algorithmes.- Attention au biais de confirmation.- Les secteurs et les métiers touchés par l'automatisation.

Réflexion collectiveRéflexion en commun pour identifier les clés de réussite.


Stage pratique de 3 jour(s)Réf : MLA

ParticipantsIngénieurs / chefs de projetsouhaitant considérer lestechniques d'apprentissageautomatique dans larésolution de problèmesindustriels.

Pré-requisBonnes connaissances enstatistiques de base, ouconnaissances équivalentes àcelles apportées par le stage"Statistiques, maîtriser lesfondamentaux" (Réf. STA).

Prix 2018 : 1990€ HT

Dates des sessions

PARIS09 juil. 2018





Machine learning, méthodes et solutions> Big Data, BI, NoSQL, SGBD> Big Data et NoSQL

Le machine learning couvre l'ensemble des méthodes et concepts qui permettent d'extraire automatiquementà partir de données, des modèles de prédiction et de prise de décision. Vous mettrez en œuvre toute lachaîne de conception appliquée au machine learning dans un contexte Big Data batch et streaming.


Comprendre les différents modèles d'apprentissageModéliser un problème pratique sous forme abstraiteIdentifier les méthodes d'apprentissage pertinentes pour résoudre un problèmeAppliquer et évaluer les méthodes identifiées sur un problèmeFaire le lien entre les différentes techniques d'apprentissage

1) Introduction au machine learning2) Procédures d'évaluation de modèles3) Les modèles prédictifs l'approche fréquentiste

4) Les modèles et apprentissage bayésiens5) Machine learning en production


Chaque algorithme de la formation est d'abord présenté théoriquement suivi d'une démonstration danschacun des trois langages R, Python et Scala.

Travaux pratiques

Les stagiaires sont libres de choisir R, Python ou Scala pour d'effectuer les exercices sur plusieurs jeux dedonnées d'une très grande variété.

1) Introduction au machine learning

- Le Big Data et le machine learning.- Les algorithmes d'apprentissage supervisés, non supervisés et par renforcement.- Les étapes de construction d'un modèle prédictif.- Détecter les valeurs aberrantes et traiter les données manquantes.- Comment choisir l'algorithme et les variables de l'algorithme.

DémonstrationPrise en main de l'environnement Spark avec R, Python et Scala à l'aide de Jupiter Notebook. Visualiserplusieurs exemples de modèles fournis.

2) Procédures d'évaluation de modèles

- Les techniques de ré-échantillonnage en jeu d'apprentissage, de validation et de test.- Test de représentativité des données d'apprentissage.- Mesures de performance des modèles prédictifs.- Matrice de confusion, de coût et la courbe ROC et AUC.

Travaux pratiquesEvaluation et comparaison des différents algorithmes sur les modèles fournis.

3) Les modèles prédictifs l'approche fréquentiste

- Apprentissage statistique.- Conditionnement des données et réduction de dimension.- Machines à vecteurs supports et méthodes à noyaux.- Quantification Vectorielle.- Réseaux de neurones et deep learning.- Ensemble learning et arbres de décision.- Bandits optimisme face à l'incertitude.

Travaux pratiquesMise en œuvre des familles d'algorithmes en utilisant des jeux de données variés.

4) Les modèles et apprentissage bayésiens

- Principes d'inférence et d'apprentissage bayésiens.- Modèles graphiques : réseaux bayésiens, champs de Markov, inférence et apprentissage.- Méthodes bayésiennes : Naive Bayes, mélanges de gaussiennes, processus gaussiens.- Modèles markoviens : processus markoviens, chaînes de Markov, chaînes de Markov cachées, filtragebayésien.

Travaux pratiquesMise en œuvre des familles d'algorithmes en utilisant des jeux de données variés.




5) Machine learning en production

- Les spécificités liées au développement d'un modèle en environnement distribué.- Le déploiement Big Data avec Spark et la MLlib.- Le Cloud : Amazon, Microsoft Azure ML, IBM Bluemix...- La maintenance du modèle.

Travaux pratiquesMise en production d'un modèle prédictif avec l'intégration dans des processus de batch et dans des flux detraitements.


Stage pratique de 3 jour(s)Réf : AZL

ParticipantsData Scientists, data miners,statisticiens, développeursen charge de la mise enproduction des modèles.

Pré-requisConnaissances de baseen statistiques (centrage,dispersion, corrélation,tests d'hypothèses). Desnotions de programmation oud'algorithmique peuvent êtreutiles.

Prix 2018 : 1990€ HT

Dates des sessions

PARIS17 sep. 2018, 26 nov. 2018





Microsoft Azure Machine Learning, développer etexploiter des algorithmes> Big Data, BI, NoSQL, SGBD> Big Data et NoSQL

Les algorithmes s'imposent comme l'un des sujets prédominants du Big Data. Ce sont les outils desméthodes exploratoires, explicatives ou prédictives que l'on applique aux données, dans le cadre du MachineLearning. Ce cours vous permettra d'acquérir les compétences nécessaires à l'utilisation d'Azure MachineLearning.


Prendre en main l'interface d'Azure Machine LearningChoisir parmi plusieurs algorithmes équivalents selon une problématiqueDécouvrir les bases des langages R et Python pour augmenter les capacités d'Azure Machine LearningExploiter une expérience au travers d'un Web Service

1) Prise en main de l'interface Azure MachineLearning2) Créer une expérience de Machine Learning3) Savoir paramétrer les grandes famillesd'algorithmes

4) Traiter d'autres types de données5) Découvrir le nouvel outil Azure MachineLearning Workbench

Exercice

Cas pratiques sur des données réalistes et volumineuses

1) Prise en main de l'interface Azure Machine Learning

- L'offre Azure. Facturation à l'usage.- Prise en main de l'interface Machine Learning Studio.- Créer un dataset. Se connecter à une source de données.- Construire une expérience de ML.- Définir un Web Service prédictif.- La Gallery Cortana Intelligence.

Travaux pratiquesPrise en main de l'interface Azure ML. Création d'un dataset. Définition d'un Web Service prédictif.

2) Créer une expérience de Machine Learning

- Utiliser l'arbre de choix des algorithmes.- Détecter les valeurs aberrantes.- Choisir les variables de l'algorithme (features sélection).- Initialiser le modèle, entraîner le modèle, évaluer le modèle.- Reformer un modèle prédictif.- Transformer les variables de l’algorithme (features engineering).- Limiter les lignes d’un jeu de données.

Travaux pratiquesÉvaluer des différents algorithmes à l'aide de la courbe ROC.

3) Savoir paramétrer les grandes familles d'algorithmes

- Algorithmes de clustering (approche non supervisée).- Algorithmes de régression linéaire.- Algorithmes de régression logistique ou ordinale.- Algorithmes de classification (approche supervisée) binaire ou one-versus-all.- Méthodes ensemblistes (forêt, jungle…).- Packages R et Python. Le framework Vowpall Wabbit.- Paramétrage des algorithmes.

Travaux pratiquesParamétrer des familles d'algorithmes avec R/Python.

4) Traiter d'autres types de données

- Analyser les séries temporelles, détecter les anomalies.- Analyse de données textuelles avec les packages R.- Appliquer un algorithme Vowpal Wabbit (Latent Dirichlet Analysis).- Exploiter les images avec notebooks Jupyter.

Travaux pratiquesTraitement des données texte ou image.




5) Découvrir le nouvel outil Azure Machine Learning Workbench

- Nouvelles briques Azure pour le ML (Experimentation / Model Management).- Rôle et installation du client Workbench.- Inspection et préparation des données (transformations par exemple, transformations avancées).- Développement dans un notebook.- Suivi des exécutions et des métriques d’évaluation.- Scénarios de déploiement (local/Spark/Docker).

Travaux pratiquesPréparation de données avec Azure ML Workbench.


Stage pratique de 4 jour(s)Réf : HOD

ParticipantsAdministrateurs de clusterHadoop, développeurs.

Pré-requisBonnes connaissancesde l'administration Linux.Expérience requise.

Prix 2018 : 2490€ HT

Dates des sessions

PARIS04 sep. 2018, 13 nov. 2018





• Une feuille d’émargementpar demi-journée de présenceest fournie en fin de formationainsi qu’une attestation de fin

Hadoop, installation et administration> Big Data, BI, NoSQL, SGBD> Big Data et NoSQL

La plateforme Apache Hadoop permet de faciliter la création d'applications distribuées. Ce stage vouspermettra de comprendre son architecture et vous donnera les connaissances nécessaires pour installer,configurer et administrer un cluster Hadoop. Vous apprendrez également à l'optimiser et le maintenir dans letemps.


Découvrir les concepts et les enjeux liés à HadoopComprendre le fonctionnement de la plateforme et de ses composantsInstaller la plateforme et la gérerOptimiser la plateforme

1) Présentation du Framework Apache Hadoop2) Préparations et configuration du clusterHadoop3) Installation d'une plateforme Hadoop4) Gestion d'un cluster Hadoop

5) Gestion des données dans HDFS6) Configuration avancée7) Monitoring et optimisation Tuning


Méthode pédagogique de type "magistrale" avec des exercices pratiques à l'appui, après chaque notion ougroupe de notions exposées.

Travaux pratiques

Installation du cluster Hadoop et paramétrage.

1) Présentation du Framework Apache Hadoop

- Enjeux du Big Data et apports du framework Hadoop.- Présentation de l'architecture Hadoop.- Description des principaux composants de la plateforme Hadoop.- Présentation des distributions principales du marché et des outils complémentaires (Cloudera, MapR,Dataiku...).- Avantages/inconvénients de la plateforme.

2) Préparations et configuration du cluster Hadoop

- Principes de fonctionnement de Hadoop Distributed File System (HDFS).- Principes de fonctionnement de MapReduce.- Design "type" du cluster.- Critères de choix du matériel.

Travaux pratiquesConfiguration du cluster Hadoop.

3) Installation d'une plateforme Hadoop

- Type de déploiement.- Installation d'Hadoop.- Installation d'autres composants (Hive, Pig, HBase, Flume...).

Travaux pratiquesInstallation d'une plateforme Hadoop et des composants principaux.

4) Gestion d'un cluster Hadoop

- Gestion des nœuds du cluster Hadoop.- Les TaskTracker, JobTracker pour MapReduce.- Gestion des tâches via les schedulers.- Gestion des logs.- Utiliser un manager.

Travaux pratiquesLister les jobs, statut des queues, statut des jobs, gestion des tâches, accès à la web UI.

5) Gestion des données dans HDFS

- Import de données externes (fichiers, bases de données relationnelles) vers HDFS.- Manipulation des fichiers HDFS.

Travaux pratiquesImporter des données externes avec Flume, consulter des bases de données relationnelles avec Sqoop.


de formation si le stagiaire abien assisté à la totalité de lasession.

6) Configuration avancée

- Gestion des autorisations et de la sécurité.- Reprise sur échec d'un name node (MRV1).- NameNode high availability (MRV2/YARN).

Travaux pratiquesConfiguration d'un service-level authentication (SLA) et d'un Access Control List (ACL).

7) Monitoring et optimisation Tuning

- Monitoring (Ambari, Ganglia...).- Benchmarking/profiling d'un cluster.- Les outils Apache GridMix, Vaaidya.- Choisir la taille des blocs.- Autres options de tuning (utilisation de la compression, configuration mémoire...).

Travaux pratiquesAppréhender les commandes au fil de l'eau de monitoring et d'optimisation de cluster.


Stage pratique de 3 jour(s)Réf : ELA

ParticipantsCTO, COO, chefs deprojets techniques,responsables d'applications,responsables des opérations,administrateurs techniques.

Pré-requisConnaissances de baseen développement.Connaissances de base enadministration du systèmed'exploitation Windows ouLinux/Unix.

Prix 2018 : 1990€ HT

Dates des sessions

PARIS03 sep. 2018, 14 nov. 201817 déc. 2018





Elasticsearch, administration et exploitation> Big Data, BI, NoSQL, SGBD> Big Data et NoSQL

Elasticsearch est un moteur de recherche et d'indexation de données proposant des fonctionnalités derecherche et d'analyse innovantes. Ce stage vous apprendra les principes clés de recherche de données etles possibilités offertes par Elasticsearch et à installer, à configurer et à administrer Elasticsearch.


Comprendre le fonctionnement d'Elasticsearch, logstash et KibanaEvaluer les possibilités offertes par Elasticsearch, logstash et KibanaInstaller et configurer ElasticsearchAdministrer et surveiller un cluster Elasticsearch

1) Installation et utilisation d'Elasticsearch,logstash et Kibana2) Fonctionnement d'Elasticsearch3) Possibilités offertes par Elasticsearchlogstash et Kibana

4) Configuration de la recherche et del'indexation5) Configuration et administration du cluster6) Administration du cluster

1) Installation et utilisation d'Elasticsearch, logstash et Kibana

- Développement d'applications utilisant Elasticsearch.- Impact sur le design d'applications existantes.- Prérequis et types d'installations.- Configuration et mise en œuvre.

Travaux pratiquesInstallation d'Elasticsearch, logstash et Kibana.

2) Fonctionnement d'Elasticsearch

- Présentation d'Apache Lucene.- Architecture as a Cloud et concepts clés (cluster, node, etc.).- Le format JSON. L'API REST.- Scoring et pertinence des requêtes.- Recherches simples.- Stockage de données.- Le rôle de logstash et de Kibana.

Travaux pratiquesStockage de données dans Elasticsearch. Importation de données. Administration et premières requêtessimples de recherche.

3) Possibilités offertes par Elasticsearch logstash et Kibana

- Traitement de gros volumes de requêtes et d'indexation.- Indexation et recherches sur les documents et des données.- Analyse de documents et de données.- Calcul des listes de réponses.- Filtrage et tri des résultats.- Suggestion de requêtes.

Travaux pratiquesManipulation de l'indexation. Mise en œuvre de requêtes, de filtrage et de tri de résultats. Configuration pourle traitement des gros volumes.

4) Configuration de la recherche et de l'indexation

- Gros volumes de requêtes et d'indexation.- L'indexation des données.- Les requêtes de recherche.- Les recherches avancées.- La percolation.

Travaux pratiquesConfiguration de l'extraction de données issues de fichiers non structurés et de la recherche de donnéesavancée.

5) Configuration et administration du cluster

- Configuration du cluster Elasticsearch.- Préparation du cluster Elasticsearch pour le traitement des gros volumes.- Configuration des nodes.- Gestion des templates.




- Administration du cluster Elasticsearch.

Travaux pratiquesRevue détaillée du fichier elasticsearch.yml. Mise en œuvre d'un cluster Elasticsearch.

6) Administration du cluster

- Surveillance du cluster.- La répartition de charge.- L'allocation des nodes.- Alias d'index. Plug-ins Elasticsearch.- Propriétés "Transient" et "Persistent".- Principes de la sauvegarde et la restauration.

ExempleUtilisation des Plug-ins et de scripts Elasticsearch.


Stage pratique de 3 jour(s)Réf : SSA

ParticipantsCette formation s'adresseaux administrateurs et auxdéveloppeurs qui souhaitentutiliser Apache Cassandracomme base de donnéesNoSQL.

Pré-requisConnaissances de base del'administration de Linux ouWindows. Connaissances debase d'une base de donnéesrelationnelle.

Dates des sessions





• Une feuille d’émargementpar demi-journée de présenceest fournie en fin de formation

Apache Cassandra, administration et exploitation> Big Data, BI, NoSQL, SGBD> Big Data et NoSQL

Cette formation vous permettra d'acquérir de solides connaissances sur la mise en œuvre et l'administrationd'Apache Cassandra. Elle vous permettra également de comprendre l'architecture et le fonctionnementd'Apache Cassandra afin d'être capable d'analyser les problèmes et d'optimiser votre système.


Découvrir l'architecture du SGBD NoSQL Apache CassandraInstaller et configurer le SGBD NoSQL Apache CassandraCréer une base de données et manipuler ses objetsDécouvrir les principes de l'optimisation et du développement

1) Présentation du SGBD Apache Cassandra2) Installation et prise en main d'ApacheCassandra3) Les bases de données sous ApacheCassandra4) Interrogation des données sous ApacheCassandra

5) Administration et exploitation d'ApacheCassandra6) Développement sous Apache Cassandra7) Gestion des performances sous ApacheCassandra

1) Présentation du SGBD Apache Cassandra

- Apache Cassandra dans le monde du NoSQL.- Les cas d'utilisation d'Apache Cassandra.- Les éléments à prendre en compte pour utiliser Apache Cassandra.- Choix technique et architecture Apache Cassandra.

2) Installation et prise en main d'Apache Cassandra

- Les prérequis d'installation (sources, plateformes, etc.).- Configuration d'Apache Cassandra.- Mise en place d'une topologie du Cluster.- Validation de l'installation.

Travaux pratiquesInstallation de Cassandra et test de bon fonctionnement.

3) Les bases de données sous Apache Cassandra

- Rappel sur les différents modèles de stockage du NoSQL.- Mise en place du modèle de données orienté colonne.- Les objets sous Apache Cassandra : Keyspace, familles de colonnes, supercolonnes, colonnes composites.- Exemple concret de mise en œuvre.

Travaux pratiquesCréation de bases de données et manipulation des objets créés.

4) Interrogation des données sous Apache Cassandra

- Utilisation du langage déclaratif CQL.- Prise en main du client interactif CQL pour réaliser les différentes opérations.- Accéder à Apache Cassandra via des API.- Les différentes opérations possibles sur les objets.

Travaux pratiquesRéalisation de requêtes via les différents outils d'accès à Apache Cassandra.

5) Administration et exploitation d'Apache Cassandra

- Les différents outils d'administration (NodeTool).- Supervision et monitoring d'Apache Cassandra.- Surveillance du Cluster.- L'import et l'export des données.

Travaux pratiquesMise en œuvre de la supervision et du monitoring pour Apache Cassandra.

6) Développement sous Apache Cassandra

- Comprendre et utiliser l'API Thrift.- Examiner une application Apache Cassandra.- Les objets sous Apache Cassandra : colonnes composites, listes ordonnées, rangs espacés, indicessecondaires.


ainsi qu’une attestation de finde formation si le stagiaire abien assisté à la totalité de lasession.

- Gestion de la cohérence en lecture/écriture.

Travaux pratiquesMise en œuvre de l'API Thrift.

7) Gestion des performances sous Apache Cassandra

- L'indexation sous Apache Cassandra.- Architecture optimale pour Apache Cassandra.

Travaux pratiquesMise en œuvre de l'indexation sous Apache Cassandra.


Stage pratique de 3 jour(s)Réf : MGO

ParticipantsCe stage s'adresse à tous lesinformaticiens ayant à installeret à exploiter MongoDBou voulant une premièreapproche de l'administration.

Pré-requisBonnes connaissances d'unlangage de programmation.Connaissances de base del'administration en ligne decommande. Connaissancesouhaitable du langagePython ou Java.

Prix 2018 : 1920€ HT

Dates des sessions

AIX15 oct. 2018, 17 déc. 2018

BORDEAUX03 sep. 2018, 12 nov. 2018

BRUXELLES17 sep. 2018, 10 déc. 2018

GENEVE17 sep. 2018, 10 déc. 2018

GRENOBLE03 sep. 2018, 12 nov. 2018

LILLE15 oct. 2018, 17 déc. 2018

LUXEMBOURG17 sep. 2018, 10 déc. 2018

LYON03 sep. 2018, 12 nov. 2018

MONTPELLIER15 oct. 2018, 17 déc. 2018

NANTES15 oct. 2018, 17 déc. 2018

PARIS23 juil. 2018, 03 sep. 201826 nov. 2018

RENNES15 oct. 2018, 17 déc. 2018

SOPHIA-ANTIPOLIS15 oct. 2018, 17 déc. 2018

STRASBOURG15 oct. 2018, 17 déc. 2018

TOULOUSE03 sep. 2018, 12 nov. 2018


Compétences duformateur

MongoDB, mise en œuvre et administration> Big Data, BI, NoSQL, SGBD> Big Data et NoSQL

OBJECTIFS

Ce cours vous permettra de comprendre le pourquoi de l'émergence du mouvement NoSQL, les différentessolutions techniques et le positionnement de la base de données NoSQL MongoDB dans ce nouvelécosystème. Il vous apportera également les connaissances nécessaires à l'installation et à la prise en mainde MongoDB.

1) Présentation du mouvement NoSQL et deMongoDB2) Prise en main de MongoDB3) Travailler avec les documents

4) Réplication et Sharding5) Performances et indexation6) Administration de MongoDB

Travaux pratiques

Chaque chapitre sera accompagné de démonstrations et d'exercices pratiques.

1) Présentation du mouvement NoSQL et de MongoDB

- Bref historique de l'évolution des bases de données et des différents modèles.- L'importance du modèle relationnel et l'émergence du mouvement NoSQL.- Les différentes solutions du NoSQL et le positionnement de MongoDB.- Les choix techniques de MongoDB et quelques exemples pratiques d'utilisation.

2) Prise en main de MongoDB

- Installation sur Windows et Linux.- L'invite interactive (shell) et l'administration.- Présentation des différentes API de développement : PHP, Ruby, Python, Java.- Création de bases de données.- Le schéma des données. Les différents scénarios de schémas.

Travaux pratiquesInstallation de MongoDB et prise en main de l'invite de commandes.

3) Travailler avec les documents

- Comprendre et utiliser les espaces de noms, les collections et les documents.- Les formats JSON et BSON.- Les types de données élémentaires et les types spéciaux.- Les instructions CRUD à travers les API : Create, Read, Update, Delete.- Les méthodes d'importation et d'exportation de données.

Travaux pratiquesCréer et manipuler un document à l'invite de commande et à l'aide d'un langage client.

4) Réplication et Sharding

- La réplication maître-esclave.- Fonctionnement de la bascule automatique du nœud maître.- Mise en place du sharding.- Gestion du serveur de configuration de sharding.

Travaux pratiquesMise en place du sharding couplé à des réplicats.

5) Performances et indexation

- Structure des index dans MongoDB.- Stratégies d'indexation et optimisation des requêtes.- Obtenir des indicateurs et assurer la supervision.- Intégrer MongoDB dans Nagios, Cacti ou Zabbix.

Travaux pratiquesCréation d'index et supervision des performances sur une base fortement sollicitée.

6) Administration de MongoDB

- Sauvegarde de données. La sécurité des accès.- Les interfaces graphiques d'administration.- Gérer la journalisation.

Travaux pratiquesSauvegarde de données et utilisation d'une interface graphique d'administration.


Les experts qui animentla formation sont desspécialistes des matièresabordées. Ils ont étévalidés par nos équipespédagogiques tant sur leplan des connaissancesmétiers que sur celui de lapédagogie, et ce pour chaquecours qu’ils enseignent. Ilsont au minimum cinq à dixannées d’expérience dansleur domaine et occupentou ont occupé des postes àresponsabilité en entreprise.





Stage pratique de 2 jour(s)Réf : TAD

ParticipantsGestionnaires de données,architectes, consultants eninformatique décisionnelle.

Pré-requisExpérience dans l'utilisationde l'outil Talend Open StudioFor Data Integration oucompétences acquises durantla formation TOT.

Prix 2018 : 1630€ HT

Dates des sessions

PARIS04 oct. 2018, 03 déc. 2018





Talend Open Studio for Big Data, exploiter vos donnéesmassives> Big Data, BI, NoSQL, SGBD> Big Data et NoSQL

La plateforme d'intégration de données de Talend étend ses possibilités aux technologies Big Data que sontHadoop (HDFS, HBase, HCatalog, Hive et Pig) et les bases NoSQL Cassandra et MongoDB. Ce stage vousapportera les bases pour bien utiliser les composants Talend crées pour communiquer avec les systèmes BigData.


Ecrire des données sur HDFS et dans des BDD NoSQL avec des jobs TalendAdopter des bonnes pratiques et concevoir des Systèmes d’informations flexibles et robustesRéaliser des jobs de transformation à l'aide de Pig et HiveUtiliser Scoop pour faciliter la migration de bases de données relationnelles dans Hadoop

1) Présentation de Talend Open Studio for BigData2) Intégration de données dans un cluster et desbases de données Nosql3) Import / Export avec SQOOP

4) Effectuer des manipulations sur les données5) Architecture et bonnes pratiques dans uncluster Hadoop6) Analyser et entreposer vos données avec Hive

Travaux pratiques

Succession de mini-projets donnant lieu à la conception de jobs Talend Big Data de difficulté croissante.

1) Présentation de Talend Open Studio for Big Data

- Problématique du Big Data : le modèle de 3V, les cas d'usage.- L'écosystème Hadoop (HDFS, MapReduce, HBase, Hive, Pig...).- Données non structurées et bases de données NoSQL.- TOS for Big Data versus TOS for Data Integration.

Travaux pratiquesInstallation/configuration de TOS for Big Data et d'un cluster Hadoop (Cloudera ou Hortonworks), vérificationdu bon fonctionnement.

2) Intégration de données dans un cluster et des bases de données Nosql

- Définition des métadonnées de connexion du cluster Hadoop.- Connexion à une base de MongoDB, Neo4j, Cassandra ou Hbase et export de données.- Intégration simple de données avec un cluster HADOOP.- Capture de tweets (composants d’extension) et importation directe dans HDFS.

Travaux pratiquesLire des tweets et les stocker sous forme de fichiers dans HDFS, analyser la fréquence des thèmes abordéset mémorisation du résultat dans HBase

3) Import / Export avec SQOOP

- Utiliser Scoop pour importer, exporter, mettre à jour des données entre systèmes RDBMS et HDFS.- Importer/exporter partiellement, de façon incrémentale de tables.- Importer/Exporter une base SQL depuis et vers HDFS.- Les formats de stockage dans le Big Data (AVRO, Parquet, ORC…).

Travaux pratiquesRéaliser une migration de tables relationnelles sur HDFS et réciproquement.

4) Effectuer des manipulations sur les données

- Présentation de la brique PIG et de son langage PigLatin.- Principaux composants Pig de Talend, conception de flux Pig.- Développement de routines UDF.

Travaux pratiquesDégager les tendances d’utilisation d’un site Web à partir de l’analyse de ses logs.

5) Architecture et bonnes pratiques dans un cluster Hadoop

- Concevoir un stockage efficient dans HADOOP.- Datalake versus Datawarehouse, doit-on choisir ?- HADOOP et le Plan de Retour d’Activité (PRA) en cas d’incident majeur.- Automatiser ses workflows.

Travaux pratiques



Créer son datalake et automatiser son fonctionnement.

6) Analyser et entreposer vos données avec Hive

- Métadonnées de connexion et de schéma Hive.- Le langage HiveQL.- Conception de flux Hive, exécution de requêtes.- Mettre en œuvre les composants ELT de Hive.

Travaux pratiquesStocker dans HBase l’évolution du cours d’une action, consolider ce flux avec Hive de manière à matérialiserson évolution heure par heure pour une journée donnée.


Stage pratique de 2 jour(s)Réf : MOV

ParticipantsDéveloppeurs, Analystesprogrammeurs.

Pré-requisConnaissances de baseen développement SQLet BI Microsoft. Bonnesconnaissances en basede données. Expériencenécessaire en informatiquedécisionnelle.

Prix 2018 : 1470€ HT

Dates des sessions

AIX13 sep. 2018, 29 nov. 2018



LILLE13 sep. 2018, 29 nov. 2018

LYON03 sep. 2018, 22 nov. 2018


NANTES13 sep. 2018, 29 nov. 2018

PARIS11 oct. 2018, 13 déc. 2018

RENNES13 sep. 2018, 29 nov. 2018





Compétences duformateurLes experts qui animentla formation sont desspécialistes des matièresabordées. Ils ont étévalidés par nos équipespédagogiques tant sur leplan des connaissancesmétiers que sur celui de lapédagogie, et ce pour chaquecours qu’ils enseignent. Ilsont au minimum cinq à dixannées d’expérience dansleur domaine et occupent

SQL Server 2016 Business Intelligence, nouveautés pourle Big Data> Big Data, BI, NoSQL, SGBD> Big Data et NoSQL

Ce cours présente les nouvelles fonctionnalités adressant des problématiques Big Data dans SQLServer 2016. Chaque sujet sera présenté et mise en œuvre à l'aide des outils Microsoft associés. Vous ydécouvrirez également les possibilités offertes par SQL Server R Services pour la Data Science.


Comprendre ce qu'est le Big DataComprendre l'architecture de Polybase dans SQL ServerSavoir comment configurer et exploiter PolybaseConnaître les composants Big Data présents dans Azure Feature Pack pour Integration ServicesUtiliser des composants Big Data dans SQL Server Integration ServicesComprendre ce qu'est la Data Science et utiliser SQL Server R Services

1) Introduction au Big Data2) Le Big Data avec SQL Server et Polybase3) Utilisation de l'ETL Integration Services SQLServer 2016 pour le Big Data

4) Data Science avec R5) SQL Server R Services


Ateliers développés autour de scénarios réels d'entreprise.

1) Introduction au Big Data

- Qu'est ce que le Big Data ?- Comparaison des approches Business Intelligence et Big Data.- Concepts clés du Big Data.- Architecture Big Data, composants d'une solution Big Data.- Exemples de distribution Big Data.

ExempleExemples de mises en oeuvre de projets Big Data, présentation d'architectures et de distributions.

2) Le Big Data avec SQL Server et Polybase

- Polybase, la couche d'abstraction entre le SQL et des données externes : présentation de l'architecture.- Configuration de Polybase : paramétrage pour la connectivité du stockage d'objets blob Azure et PolyBaseHadoop.- Interrogation de Polybase : construction de requêtes basées sur des tables externes configurées avecPolybase

DémonstrationConfiguration et interrogation de Polybase, configuration d'une table externe, construction d'une requêteinterrogeant à la fois des données Polybase et des données d'une base SQL.

3) Utilisation de l'ETL Integration Services SQL Server 2016 pour le Big Data

- Integration Services dans SQL Server 2016 : présentation rapide de l'ETL de SQL Server- Azure Feature Pack pour Integration Services : présentation du contenu et de l'installation.- Présentation des composants Big Data dans Integration Services, liste des composants (tâches ettransformations).

Travaux pratiquesDémonstration et exemple d'implémentation. Développement de packages SSIS pour le Big Data.

4) Data Science avec R

- Présentation de la Data Science.- Introduction au langage R.- Les types de données R.- Les fonctions R.- Présentation de l'environnement de développement R Studio.

Travaux pratiquesDéveloppement R avec RStudio. Manipulation des types de données de base. Création de fonctions.

5) SQL Server R Services

- Pourquoi utiliser un serveur R ?- Présentation de SQL Server R Services.- Installation du serveur SQL Server R Services.


ou ont occupé des postes àresponsabilité en entreprise.




- Fonctions du package RevoScaleR.

DémonstrationDémonstration d'utilisation du package RevoScaleR.


Stage pratique de 2 jour(s)Réf : ELK

ParticipantsCTO, chefs de projetstechniques, responsablesd'applications, responsablesdes opérations.

Pré-requisConnaissances de baseen développement et enadministration du systèmed'exploitation Windows ouLinux/Unix.

Prix 2018 : 1630€ HT

Dates des sessions

PARIS03 sep. 2018, 06 déc. 2018





ElasticSearch, Logstash et Kibana : indexation, rechercheet visualisation de données> Big Data, BI, NoSQL, SGBD> Big Data et NoSQL

Elasticsearch est un moteur de recherche et d'indexation de données proposant des fonctionnalités derecherche et d'analyse innovantes. Vous le mettrez en œuvre dans ce cours pour indexer, chercher etvisualiser des données et des documents et découvrirez les principales approches de développementassociées.


Comprendre les principes clés d'installation et de configuration d'Elasticsearch, logstash et KibanaEvaluer les possibilités offertes par Elasticsearch, logstash et KibanaSavoir utiliser Elasticsearch, logstash et Kibana pour indexer, chercher et visualiser des données et desdocumentsDécouvrir les principales approches de développement d'applications

1) Présentation et installation d'Elasticsearch,logstash et Kibana2) Fonctionnement d'Elasticsearch

3) Possibilités offertes par Elasticsearch4) Indexer, chercher et visualiser des données etdes documents

1) Présentation et installation d'Elasticsearch, logstash et Kibana

- Présentation et histoire d'Elasticsearch, logstash et Kibana.- Les prérequis d'installation. Installation type "as a Cloud".- La mise en œuvre d'Elasticsearch, logstash et Kibana.- La configuration d'Elasticsearch.- Les principes clés l'administration d'Elasticsearch.- Le développement d'applications en utilisant Elasticsearch.- L'impact d'Elasticsearch sur l'architecture et les applications existantes.- Rôles de logstash et de Kibana.

Etude de casArchitecture d'une installation type utilisant un serveur Elasticsearch pour de gros volumes de requêtes etd'indexation.

2) Fonctionnement d'Elasticsearch

- Présentation d'Apache Lucene.- L'architecture et les concepts clés.- Le format d'échange JSON par Service Container.- L'API REST.- Le scoring et la pertinence de requêtes.- Le stockage de données et la recherche simple.

Travaux pratiquesStockage de données dans Elasticsearch. Premières requêtes de recherche simples.

3) Possibilités offertes par Elasticsearch

- L'indexation des documents et des données.- La recherche sur les documents et les données.- L'analyse de documents et de données.- Le calcul des listes de réponses.- Le filtrage et le tri des résultats.- Les suggestions de requêtes.- Le surlignage des résultats.

Travaux pratiquesManipulation et modification de l'indexation de données avec Elasticsearch. Mise en œuvre de requêtes, defiltrage et de tri de résultats.

4) Indexer, chercher et visualiser des données et des documents

- Comment donner un sens aux données avec Elasticsearch et Kibana.- Démarche d'amélioration de l'indexation des données.- Démarche d'amélioration des requêtes de recherche.- La pertinence géographique des recherches.- La percolation.

Travaux pratiquesRecherche de données avancées avec Elasticsearch. Cas de mots ayant la même signification.


Stage pratique de 2 jour(s)Réf : DAU

ParticipantsData analyst, développeurs,chefs de projets ou toutespersonnes s'intéressant auxtechniques de clustering dedonnées.

Pré-requisConnaissances de base de laprogrammation.

Prix 2018 : 1630€ HT

Dates des sessions

PARIS04 oct. 2018, 06 déc. 2018






Data Clustering, organiser les données du Big Data> Big Data, BI, NoSQL, SGBD> Big Data et NoSQL

Le clustering de données vise à regrouper, au sein de "données massives", des données similaires afind'identifier des connaissances pertinentes et permettre une prise de décision adaptée. Ce cours vouspermettra de comprendre les fondamentaux du clustering de données et de les mettre en pratique sur descas concrets.


Découvrir les principaux aspects du clustering de donnéesComprendre les approches et les techniques de clustering de donnéesAppliquer les outils et algorithmes pour le clustering de donnéesSavoir mesurer les performances et la qualité d'un jeu de données

1) Introduction au clustering de données2) Clustering simple et clustering hiérarchique3) Techniques de clustering4) Outils pratiques et algorithmes pour leclustering de données

5) Mesures Qualité et Performance6) Clustering de données à partir d'un réseaulexical7) Clustering de documents

1) Introduction au clustering de données

- Approches supervisées et non supervisées.- Méthodes floues et strictes.- Théorie des graphes, différents types de structures de données.- Calcul de similarité (TF, TF-IDF...).- Propriétés des jeux de données.

2) Clustering simple et clustering hiérarchique

- Clustering simple.- Clusterings hiérarchiques et composés.- Utilité du clustering hiérarchique.- Présentation du résultat.

DémonstrationCas d'utilisations de techniques de clustering.

3) Techniques de clustering

- Approches orientées K-means.- Approches par agglomération.- Approches basées sur un modèle physique (modèle énergie, ressort...).- Approches "divisives".- Approches par marche aléatoire.- Algorithmes incrémentaux.

DémonstrationAvantages/inconvénients des approches étudiées.

4) Outils pratiques et algorithmes pour le clustering de données

- K-means simple, Graclus, Cluto.- Algorithme hiérarchique : Louvain.- InfoMap, Fast Modularity.- NCut, approche Girvan Newman...- Extraction d'arbres couvrants et composition.

Travaux pratiquesApplication de K-means sur un jeu de données. Application de "Fast Modularity" sur un jeu de donnéessimple.

5) Mesures Qualité et Performance

- Introduction à la performance et à la complexité.- Mesures de qualité.- Critères : Cut, Perf, Cond, Cov, MQ, Mod, Critère de Dunn...- Trouver le bon algorithme : technique des diagrammes d'Inselberg.

Travaux pratiquesMesure de la qualité sur un jeu de données.

6) Clustering de données à partir d'un réseau lexical



- Présentation du jeu de données.- Analyse des propriétés du réseau.- Exécution d'algorithmes de clustering.- Affichage du résultat.- Calcul de la qualité des partitionnements effectués.

Travaux pratiquesMise en œuvre d'algorithmes de clustering sur un réseau lexical et sur des documents Web, pdf...

7) Clustering de documents

- Présentation du jeu de données.- Analyse des propriétés du réseau.- Calcul de mesures de similarité.- Exécution d'algorithmes de clustering.- Affichage du résultat.- Calcul de la qualité.

Travaux pratiquesMise en œuvre d'algorithmes de clustering sur une base documentaire, calcul de mesures de similarité,clustering, analyse de la qualité.


Stage pratique de 4 jour(s)Réf : DTV

ParticipantsDéveloppeurs logicielsouhaitant réaliser de manièrepratique des visualisations dedonnées.

Pré-requisConnaissances de base endéveloppement logiciel.

Prix 2018 : 2490€ HT

Dates des sessions

PARIS18 sep. 2018, 11 déc. 2018






Développer des applications de DataVisualisationoutils et frameworks> Big Data, BI, NoSQL, SGBD> Big Data et NoSQL

Après avoir découvert les concepts de base et les techniques liés à la représentation visuelle des données,vous apprendrez à développer des applications de visualisation de données basées sur les principaux outilset Frameworks JavaScript de DataVisualisation.


Découvrir ce qu'est la visualisation de donnéesComprendre les clés pour la conception de visualisations de donnéesUtiliser des APIs pour la visualisation des donnéesDévelopper avec les principaux Frameworks de visualisation des donnéesEntrez ici un objectif pédagogique

1) Introduction à la visualisation d'information2) Sémiologie graphique : la base de lavisualisation3) Transitions animées et légendes interactives4) Outils pour la visualisation d'informations

5) Visualisation de réseaux6) Visualisation de diagrammes7) Visualisation de l'OpenData et Cartographie

1) Introduction à la visualisation d'information

- Définition, notions et objectifs. Rôle de l'utilisateur et de l'interaction.- Diagrammes courants : histogrammes, pie chart, 3D.- Visualisation multidimensionnelles : nuages de points, diagrammes d'inselberg.- Visualisation multi-niveaux : données hiérarchiques, full zoom.- Techniques de visualisations : fisheyes, vue hyperbolique.- Visualisation de réseaux : hiérarchiques, radiales.- Visualisation par modèle de force : modèle énergie, ressort.

2) Sémiologie graphique : la base de la visualisation

- Le système visuel humain.- Les variables visuelles.- Les propriétés perceptives.- Extension de la sémiologie : le mouvement.

Etude de casUtilisation des différentes variables visuelles.

3) Transitions animées et légendes interactives

- Définition, notions et buts.- Animations et légendes interactives dans des visualisations.- Manipulation des variables visuelles.- Règles à respecter.- Valeurs ajoutées.

Travaux pratiquesManipulation des variables visuelles. Création de transitions animées.

4) Outils pour la visualisation d'informations

- Frameworks JavaScript de DataVisualisation.- Frameworks de DataVisualisation basés sur d'autres langages (Java, Python...).- Quelques outils supplémentaires.

Travaux pratiquesPrise en main de Frameworks.

5) Visualisation de réseaux

- Types de réseaux (sans échelle, petit monde...).- Analyse d'un réseau (réseau lexical, réseau social, corpus de textes...).- Réalisation d'une visualisation orientée réseaux (en JavaScript).- Mise en place et choix des différents leviers d'interaction : full zoom, sélection...

Travaux pratiquesDéveloppement d'applications de visualisation orientée réseaux.

6) Visualisation de diagrammes

- Etude d'un jeu de données.



- Réalisation de plusieurs visualisations interactives orientées diagrammes (en JavaScript).- Mise en place et choix de différents leviers d'interaction : légendes interactives, survol etc.

Travaux pratiquesDéveloppement d'applications de visualisation orientée diagrammes.

7) Visualisation de l'OpenData et Cartographie

- Présentation de l'Open Data.- Visualisation de l'Open Data Paris avec des Frameworks de Visualisation.- Etude de frameworks de cartographie en JavaScript.

Travaux pratiquesVisualisations de données basées sur l'Open Data.


Stage pratique de 1 jour(s)Réf : AVI

ParticipantsPersonnes ayant en chargela réalisation de tableaux debord avec Excel.

Pré-requisBonnes connaissancesd'Excel et des formules decalcul.

Prix 2018 : 920€ HT

Dates des sessions

PARIS10 sep. 2018, 14 déc. 2018






DataVisualisation, créer des reportings visuels etinteractifs avec Power Map et Power Viewpour Excel versions 2016 et 2013> Big Data, BI, NoSQL, SGBD> Big Data et NoSQL

Power BI pour Excel offre des outils puissants pour créer des analyses interactives et visuelles sur lesdonnées. Grâce à des composants graphiques destinés à filtrer et à naviguer dans les données, à des cartesinteractives et outils de représentation géospatiale, vous serez en mesure d'en exploiter toute la richesse.


Maîtriser la présentation des données d'Excel avec des rapports Power ViewExplorer les données dans des rapports interactifsPrésenter des données géolocalisées sur des cartes PowerMapExploiter la dimension chronologique sur la carte

1) Présentation de l'offre BI de Microsoft2) Concevoir des tableaux de bord avec PowerView

3) Introduction à Power Map 3D Map4) Aller plus loin avec Power Map

1) Présentation de l'offre BI de Microsoft

- Quelles sources de données utiliser ? Comment se connecter ?- Les outils et compléments d'Excel pour importer et manipuler les données.- Les outils pour la présentation et la réalisation de tableau de bord : Power View et Power Map.

Travaux pratiquesActiver les compléments. Importer des listes de données. Mettre sous forme de tableau. Charger le modèlede données. Réaliser une première présentation simple.

2) Concevoir des tableaux de bord avec Power View

- Activer le complément Power View et Inserer un rapport Power View.- Choisir une source des données interne Excel ou une source externe. Charger et exploiter le modèle desdonnées.- Les éléments d'un rapport Power View : tables, graphiques, cartes et filtres.- Utiliser les formats de table : listes, carte de visite, matrice.- Choisir les données à présenter et utiliser une mosaïque pour filtrer. Créer une mosaïque avec des imageset photos.- Choisir et insérer un graphique. Définir les éléments à représenter.- Insérer une carte géographique.

Travaux pratiquesConception d'un tableau de bord interactif. Filtrage des données. Navigation dans les données.

3) Introduction à Power Map 3D Map

- Préparer les données pour une représentation cartographique.- Insérer une carte Power Map et utiliser le volet Carte et la liste des Champs.- Choisir et présenter des indicateurs. Choisir les fonctions statistiques à appliquer.- Utiliser le rapport de fiabilité. Modifier le Mappage des données.- Utiliser Histogramme, Bulle, heat Map et Régions.- Appliquer des filtres sur la carte.- Définir et utiliser des calques.

Travaux pratiquesUtiliser et formater des listes de données géographiques. Concevoir des présentations cartographiques enutilisant des jeux de données différents.

4) Aller plus loin avec Power Map

- Créer une scène, gérer les scènes. Utiliser les thèmes.- Organiser une visite guidée et créer une vidéo.- Gérer la chronologie avec des événements datés.- Utiliser des régions personnalisées.

Travaux pratiquesRéaliser une vue animée des différentes cartes réalisées. Réaliser une animation chronologique.


Stage pratique de 2 jour(s)Réf : TBL

ParticipantsAnalystes, utilisateurs etexperts métier, chefs deprojets, consultants.


Prix 2018 : 1470€ HT

Dates des sessions

PARIS04 oct. 2018, 03 déc. 2018






Tableau Desktop, exploiter visuellement vos données> Big Data, BI, NoSQL, SGBD> Big Data et NoSQL

Outil de visualisation de données, Tableau Desktop permet d'explorer les données, de les analyser et deles présenter dans un format graphique et visuel. A l'issue de ce stage pratique, vous serez à même deconcevoir des visualisations de données évoluées et interactives.


Manipuler et combiner les données de différentes sourcesCréer des représentations visuelles telles que des tableaux croisés, des graphiques et des cartesRendre interactif des tableaux de bords regroupant plusieurs visualisationsPrésenter dynamiquement vos données à l'aide d'une histoire

1) Découverte de Tableau2) Création de vues de données3) Manipulations avancées

4) Combinaison de données5) Les tableaux de bords et les histoires dedonnées


Les parties magistrales sont largement rythmées par des travaux pratiques placés au centre de la formation.

Travaux pratiques

Créations de tableaux illustrant les différents éléments graphiques et conteneurs au fil de la formation. Un casd'usage complet clôture la session.

1) Découverte de Tableau

- Comprendre la visualisation de données.- Découvrir Tableau Software.- Se connecter à sa source de données : base de données SQL, fichier Excel, données Web, cubemultidimensionnel.- Les types de données des champs d'une source. Traitement des types de données. Changer le type dedonnées d'un champ.- Créer une vue simple.- Découvrir les filtres et les tris simples.

Travaux pratiquesLancement de Tableau Desktop, connexion à une source de données et création d'une vue.

2) Création de vues de données

- Création manuelle de vue : glisser déposer les champs, organiser les lignes et colonnes, naviguer dans leshiérarchies.- Le "montre-moi", suggestion automatique de vue par Tableau (création automatique de vue).- Création de tableaux à double entrée ou tableaux croisés dynamiques.- Les graphiques en courbes.- Création d'histogrammes.- Le regroupement de graphiques.- Explorer les données dans des cartes. Associer un rôle géographique approprié a un champ.

Travaux pratiquesCréation de vues : tableaux, courbes, histogrammes, cartes.

3) Manipulations avancées

- Création de mesures.- Création et modification d'un champ calculé.- Les filtres avancés : conditions, limites.- Création de filtres contextuels.- Les paramètres à utiliser dans les calculs.

Travaux pratiquesMise en forme et combinaison des vues.

4) Combinaison de données

- Comprendre les principes de l'union et de la fusion de données.- Utilisation avancée des sources de données.- Lier des données, utiliser les jointures.- Utiliser les filtres.- Utilisations et précautions.

Travaux pratiquesRapprochement et affichage de deux ensembles de données.



5) Les tableaux de bords et les histoires de données

- La mise en forme simple : ajouter des vues et des objets, organiser leur disposition sur le tableau de bord.- Gérer les filtres.- Gérer les actions pour ajouter de l'interactivité à vos données.- Utiliser les conteneurs pour ajuster automatiquement la taille et la position des objets.- Créer une histoire de données.

Travaux pratiquesCréation et mise en forme de tableaux de bords. Création d'histoire de données. Sur la base de sources dedonnées et d'un souhait de résultat, réaliser un projet de bout en bout.


Stage pratique de 2 jour(s)Réf : UES

ParticipantsProfessionnels ayantbesoin de faire des calculsstatistiques au quotidienpour traiter leurs données.Analystes de données,chargés de projets d'aideà la décision, futurs DataScientists.


Prix 2018 : 1630€ HT

Dates des sessions

PARIS20 sep. 2018, 06 déc. 2018





Statistiques descriptives, introduction> Big Data, BI, NoSQL, SGBD> Big Data et NoSQL

La "statistique" est une discipline qui collecte, classe, résume, interprète et explique les données. Lacomplexité et le volume de données à traiter augmentant, la maîtrise de ces techniques est donc essentiellepour aborder la "Data Science". Ce stage très pratique vous apportera les bases nécessaires pour l'aborder.


Comprendre l'intérêt de la statistique descriptiveComprendre comment traiter des données brutesComprendre les outils statistiques de base et leur calculPoser une problématique statistique et rechercher la méthode appropriée

1) Définition2) Formalisation mathématiques3) Traitement statistique des données à unedimension

4) Variables aléatoires5) Statistique descriptive à deux dimensions :les tableaux de contigence6) Cas pratique : utilisation des données desparticipants


Chaque participant apportera un fichier de données qu'il utilise professionnellement afin de calculer desstatistiques de base.

Travaux pratiques

Une après midi complète est consacrée à la pratique des statistiques descriptives sur des données choisiespar les participants.

1) Définition

- Définition de la statistique descriptive. L'étude de l'incertitude.- Comparaison de produits calibrés à des données aléatoires.- Introduction à l'aléa des données statistiques.- Conclusion : la question que se pose un statisticien.

ExerciceEtude de la problématique du statisticien : repérage des différences entre des produits standardisés etd'autres présentant un aléa.

2) Formalisation mathématiques

- Indexation de 1 à n. La valeur absolue.- Le Symbole Sigma pour l'écriture de sommes.- Le Carré et la Racine Carrée.- Effectif, fréquence, quartile, centile : explication et représentations graphiques.- Calcul d'intervalles : le traitement des données continues.

ExerciceApplication de chaque notion présentée sur des exercices.

3) Traitement statistique des données à une dimension

- Type de données : qualitative ou quantitative.- Données avec effectif : calcul de fréquences et interprétation.- Tri et traitement des données : mise en forme statistique de différents exemples de données brutes.- Représentations graphiques.- Paramètres de position : moyenne, mode, médiane.- Les paramètres de dispersion : étendue, quantiles, décile, variance.- La variance : une moyenne "d'écarts".

ExerciceTransformation, tri et représentation des données. Mesure de leur dispersion.

4) Variables aléatoires

- Définition. Catégorie de variables.- Exemples et examen de variables aléatoires.- Courbes de distribution.- Explications des intervalles de confiance.- La loi la plus connue : la loi normale.

ExerciceUtilisation d'une table de loi normale.




5) Statistique descriptive à deux dimensions : les tableaux de contigence

- Les données.- Représentations graphiques.- La covariance.- Le coefficient de corrélation linéaire.

ExerciceCalcul de covariances et de coefficients de corrélation. Analyse.

6) Cas pratique : utilisation des données des participants

- Mise en évidence de la problématique statistique.- Mise en forme des données.- Calcul des statistiques de base et représentations graphiques.- Recherche de la méthode appropriée au problème.


Stage pratique de 2 jour(s)Réf : STA

ParticipantsResponsables Infocentre,responsables marketing,responsables Qualité,utilisateurs et gestionnairesmétiers de bases de données,futurs Data Scientist.

Pré-requisConnaissances de baseen mathématiques etstatistiques ou connaissanceséquivalentes à cellesapportées par le stage"Statistiques descriptives,introduction" (réf. UES).Connaissances de baseExcel.

Prix 2018 : 1470€ HT

Dates des sessions

PARIS17 sep. 2018, 22 nov. 2018




Modélisation statistique> Big Data, BI, NoSQL, SGBD> Big Data et NoSQL

Ce stage présente l'essentiel de la modélisation statistique. Il vous permettra de comprendre leur rôle dansle monde de l'analyse décisionnelle, du Big Data et du Data Mining, ainsi que les mécanismes qui permettentde transformer et d'affiner des données pour en tirer des informations métiers utiles.


Dimensionner un échantillon de populationCalculer des paramètres de position et dispersion (médiane, étendue, quantile, écart-type)Exploiter les paramètres statistiques pour comprendre une série de donnéesValider la précision d'une estimation, à l'aide des intervalles de confianceDécouvrir des outils comme R et Excel pour la mise en œuvre des modèles étudiés

1) Rappels des fondamentaux de la statistiquedescriptive2) Démarche et modélisation d'une analysestatistique3) Paramètre de position et de dispersion

4) Tests et intervalle de confiance5) Panorama des outils

1) Rappels des fondamentaux de la statistique descriptive

- Définition de la statistique descriptive.- Analyse d'une population.- Méthodes d'échantillonnage.- Variables qualitatives et quantitatives.- Effectifs et calcul des fréquences.- Effectifs cumulés croissants et décroissants.- Représentation graphique des variables qualitatives et quantitatives.

Etude de casApplication pratique sur excel d'analyses statistiques et interprétation

2) Démarche et modélisation d'une analyse statistique

- Statistique descriptive.- Phase d'apprentissage.- Statistique prédictive pour estimer et anticiper.- Modélisation statistique d'un phénomène.

3) Paramètre de position et de dispersion

- Mode, valeur modale, valeur la plus probable.- Moyenne d'une population (ou d'un échantillon).- Médiane, partager une série numérique.- Etendue, différence entre valeurs extrêmes.- Utiliser les quantiles.- Ecart-Type, calculer la dispersion d'un ensemble de données.- Calcul de la variance et de la covariance.

Etude de casCalcul de paramètres de position et de dispersion sur différents échantillonnages et comparaisons desrésultats.

4) Tests et intervalle de confiance

- Lois statistiques et intervalle de confiance.- Tests statistiques courants (Test de Student, Analyse de variances, Khi²).- Valider la précision d'une estimation. Amplitude de l'intervalle.

Etude de casExercices sur le logiciel R.

5) Panorama des outils

- Zoom sur le logiciel Open Source "R".- Initiation au logiciel Open Source "R".

Travaux pratiquesUtilisation de packages pour faire les analyses statistiques.


Stage pratique de 2 jour(s)Réf : TDA

ParticipantsUtilisateurs finaux,statisticiens, analystes typeData Miner, acteurs impliquésdans l'analyse/fouille desdonnées.

Pré-requisConnaissances de base enstatistiques (régressions,analyse en composantesprincipales, classification)et des concepts deprogrammation.

Prix 2018 : 1470€ HT

Dates des sessions

PARIS04 oct. 2018, 06 déc. 2018





Environnement R, traitement de données et analysestatistique> Big Data, BI, NoSQL, SGBD> Big Data et NoSQL

R est un environnement logiciel Open Source spécialisé dans le calcul et l'analyse statistique. Ce stage vousprésentera ses concepts et ses fonctionnalités. Il vous montrera comment manipuler les données et leurappliquer des modèles statistiques dans le cadre de cet environnement.


Installer l'environnement d'analyse RUtiliser la console de R, et les environnements de travail Tinn-R et RStudioCréer et regrouper plusieurs types d'objets de RCréer des programmes d'analyse avec RElaborer des graphiques avec RUtiliser les packages de R pour mettre en œuvre des modélisations statistiques (régression, ACP...)

1) Introduction2) Premiers pas3) Objets et notions de programmation R

4) Création et utilisation de fonctions5) Génération, gestion et visualisation desdonnées6) Analyses statistiques

Exercice

Mise en pratique des connaissances théoriques sur la base de jeux de données variés.

1) Introduction

- Présentation du logiciel R et de ses fonctionnalités.- Avantages et inconvénients.- Accès au site de téléchargement de l'outil et installation.

ExerciceInstallation de l'environnement d'analyse.

2) Premiers pas

- Environnement de base (console, script).- Utilisation de la console.- Création et sauvegarde d'un script.- Le répertoire sous R Installation.- Aide et commentaires.- Les autres éditeurs Tinn-R et R Studio.

ExerciceCréation de scripts.

3) Objets et notions de programmation R

- Les objets de type vecteurs, matrix, array, factor, data.frame, list.- Manipulation des objets, classe d'objet, fonctions spécifiques, jointure.- Sauvegarde, suppression de mémoire.- Notions de boucle (for et while), condition (if), switch.

ExerciceManipulation des types d'objets.

4) Création et utilisation de fonctions

- Structure d'une fonction.- Fonctions de type mathématique.- Fonctions de type chaîne de caractères.- Fonctions liées au temps/date.- Opérations ensemblistes.- Les tables de contingences.

ExerciceCréation et utilisation de fonctions.

5) Génération, gestion et visualisation des données

- Les données : séquences régulières et aléatoires.- Données exemples de R.- Importation et exportation de données.- Modifier les données d'un objet.




- Exemples de graphiques construits avec R.- Création des graphiques de base.- Les options graphiques, partager une fenêtre graphique, sauvegarder un graphique.

ExerciceExercice d'application sur les données.

6) Analyses statistiques

- Présentation de la notion de package (librairie).- Télécharger/charger des packages.- Quelques packages utiles.- Cas de la régression linéaire multiple.- Cas de l'analyse en composantes principales ACP.- Cas de la classification CAH.

ExerciceExercice d'application sur les packages.


Stage pratique de 4 jour(s)Réf : DTA

ParticipantsResponsables Infocentre(Datamining, Marketing,Qualité...), utilisateurs etgestionnaires métiers debases de données.


Prix 2018 : 2490€ HT

Dates des sessions

PARIS11 sep. 2018, 20 nov. 2018





Technique de Big Data Analytics avec Rmodélisation et représentation des données> Big Data, BI, NoSQL, SGBD> Big Data et NoSQL

Le Big Bata Analytics repose sur la maîtrise des techniques d'exploration de données fondamentales :statistiques descriptives, prédictives ou exploratoires. Ce stage pratique vous présentera des méthodes tellesque les régressions et les ACP et vous apprendra à les mettre en œuvre avec le logiciel R, RStudio et Shiny.


Comprendre le principe de la modélisation statistiqueChoisir entre la régression et la classification en fonction du type de donnéesÉvaluer les performances prédictives d'un algorithmeCréer des sélections et des classements dans de grands volumes de données pour dégager des tendances

1) Introduction2) Analyse en composantes3) La modélisation4) Procédures d'évaluation de modèles

5) Les algorithmes non supervisés6) Les algorithmes supervisés7) Analyse de données textuelles

1) Introduction

- Introduction au langage R.- Les types de données dans R.- Importation-exportation de données.- Techniques pour tracer des courbes et des graphiques.

Mise en situationPrise en main des scripts et Notebooks.

2) Analyse en composantes

- Analyse en Composantes Principales.- Analyse Factorielle des Correspondances.- Analyse des Correspondances Multiples.- Analyse Factorielle pour Données Mixtes.- Classification Hiérarchique sur Composantes Principales.

Travaux pratiquesMise en œuvre de la diminution du nombres des variables et identification des facteurs sous-jacents desdimensions associées à une variabilité importante.

3) La modélisation

- Les étapes de construction d'un modèle.- Les algorithmes supervisés et non supervisés.- Le choix entre la régression et la classification.

Travaux pratiquesMise en place d'échantillonnage de jeux de donnes. Effectuer des tests d'évaluations sur plusieurs modèlesfournis.




5) Les algorithmes non supervisés

- Le clustering hiérarchique.- Le clustering non hiérarchique.- Les approches mixtes.

Travaux pratiquesTraitements de clustering non supervisés sur plusieurs jeux de données.

6) Les algorithmes supervisés

- Le principe de régression linéaire univariée.




- La régression multivariée.- La régression polynomiale.- La régression régularisée.- Le Naive Bayes.- La régression logistique.

Travaux pratiquesMise en œuvre des régressions et des classification sur plusieurs types de données.

7) Analyse de données textuelles

- Collecte et prétraitement des données textuelles.- Extraction d'entités primaires, d'entités nommées et résolution référentielle.- Étiquetage grammatical, analyse syntaxique, analyse sémantique.- Lemmatisation. Représentation vectorielle des textes. Pondération TF-IDF.


Stage pratique de 4 jour(s)Réf : BDA

ParticipantsResponsables Infocentre(Datamining, Marketing,Qualité...), utilisateurs etgestionnaires métiers debases de données.


Prix 2018 : 2490€ HT

Dates des sessions

PARIS02 oct. 2018, 11 déc. 2018





Technique de Big Data Analytics avec Pythonmodélisation et représentation des données> Big Data, BI, NoSQL, SGBD> Big Data et NoSQL

Le Big Bata Analytics repose sur la maîtrise des techniques d'exploration de données fondamentales :statistiques descriptives, prédictives ou exploratoires. Ce stage pratique vous présentera des méthodes tellesque les régressions et les ACP et vous apprendra à les mettre en œuvre avec le logiciel Python.


Comprendre le principe de la modélisation statistiqueChoisir entre la régression et la classification en fonction du type de donnéesÉvaluer les performances prédictives d'un algorithmeCréer des sélections et des classements dans de grands volumes de données pour dégager des tendances

1) Introduction à la modélisation2) Procédures d'évaluation de modèles3) Les algorithmes supervisés

4) Les algorithmes non supervisés5) Analyse en composantes6) Analyse de données textuelles

Travaux pratiques

Développement/réalisation d'analyses sur le logiciel Python, avec les modules pandas, NumPy, SciPy,MatPlotLib, seaborn, scikit-learn et statsmodels.

1) Introduction à la modélisation

- Introduction au langage Python.- Introduction au logiciel Jupiter Notebook.- Les étapes de construction d'un modèle.- Les algorithmes supervisés et non supervisés.- Le choix entre la régression et la classification.

Travaux pratiquesInstallation de Python 3, d'Anaconda et de Jupiter Notebook.




3) Les algorithmes supervisés

- Le principe de régression linéaire univariée.- La régression multivariée.- La régression polynomiale.- La régression régularisée.- Le Naive Bayes.- La régression logistique.

Travaux pratiquesMise en œuvre des régressions et des classification sur plusieurs types de données.

4) Les algorithmes non supervisés

- Le clustering hiérarchique.- Le clustering non hiérarchique.- Les approches mixtes.

Travaux pratiquesTraitements de clustering non supervisés sur plusieurs jeux de données.

5) Analyse en composantes

- Analyse en Composantes Principales.- Analyse Factorielle des Correspondances.- Analyse des Correspondances Multiples.- Analyse Factorielle pour Données Mixtes.- Classification Hiérarchique sur Composantes Principales.




Travaux pratiquesMise en œuvre de la diminution du nombres des variables et identification des facteurs sous-jacents desdimensions associées à une variabilité importante.

6) Analyse de données textuelles

- Collecte et prétraitement des données textuelles.- Extraction d'entités primaires, d'entités nommées et résolution référentielle.- Étiquetage grammatical, analyse syntaxique, analyse sémantique.- Lemmatisation.- Représentation vectorielle des textes.- Pondération TF-IDF.- Word2Vec.

Travaux pratiquesExplorer le contenu d'une base de textes, en utilisant l'analyse sémantique latente.


Stage pratique de 2 jour(s)Réf : MDR

ParticipantsStatisticiens, analystes,ingénieurs, développeurs.Toute personne ayant àmanipuler des données, àtraiter numériquement etreprésenter graphiquementdes données, à réaliser desstatistiques sous R.

Pré-requisConnaissances debase du logiciel R, ouconnaissances équivalentesà celles apportées par lestage "Environnement R,initiation" (réf. TDA).

Prix 2018 : 1630€ HT

Dates des sessions

PARIS01 oct. 2018, 03 déc. 2018




• A l'issue de chaque stage ouséminaire, ORSYS fournit aux

Environnement R, manipulations et statistiquesélémentaires> Big Data, BI, NoSQL, SGBD> Big Data et NoSQL

R est un logiciel statistique qui dispose d'outils graphiques de qualité pour présenter les données. Afinde bénéficier de cette richesse, il faut être capable de préparer ces données, de les transformer et de lesexploiter avec R. Ce stage vous propose d'approfondir les compétences des utilisateurs de R.


Constituer des jeux de données à analyser à partir de multiples sourcesManipuler les données pour les transformer à partir de fonctions diversesTracer des courbes et des graphiques avec RAppliquer plusieurs algorithmes de calcul d'indicateurs statistiques

1) Rappels2) Importation-exportation et production dedonnées3) Manipulation de données, fonctions

4) Techniques pour tracer des courbes et desgraphiques5) Mathématiques et statistiques élémentaires

1) Rappels

- L'environnement RStudio.- Les types de données dans R, les listes, les DataFrames, les facteurs et les variables ordinales.- Les dates et les séries temporelles.

Travaux pratiquesPrise en main des scripts dans l'environnement RStudio.

2) Importation-exportation et production de données

- Lire un fichier texte ASCII, Excel, SPSS, Minitab, SAS ou Matlab.- Lire des données au clavier et utiliser le copier-coller.- Lecture/écriture des fichiers, bases de données.

Travaux pratiquesLecture/Ecriture des données à partir des fichiers, base de données, DataLake et dans le format R.

3) Manipulation de données, fonctions

- Opérations sur les matrices ou les DataFrames.- Les fonctions outer, apply, lapply, sapply et mapply.- Opérations logiques et relationnelles.- Manipulation de chaînes de caractères. Manipulation de dates et d'unités de temps.

Travaux pratiquesTraîter les matrices et DataFrames. Utiliser les fonctions lapply ou sapply pour remplacer les boucles for.

4) Techniques pour tracer des courbes et des graphiques

- Les fenêtres graphiques : manipulation, sauvegarde.- Les fonctions de tracé de bas niveau.- La gestion des couleurs et paramètres graphiques.- L'ajout de texte, titres, axes et légendes.- Diagrammes en croix, tuyaux d'orgue, empilé ou circulaire. Boîte à moustaches.- Graphe de la fonction de répartition empirique. Histogramme en densité à amplitudes de classes égales ouinégales.- Polygone des fréquences. Représentations graphiques dans un cadre bivarié.

Travaux pratiquesMise en œuvre des techniques pour tracer des courbes et des graphiques.

5) Mathématiques et statistiques élémentaires

- Structuration des variables suivant leur type.- Résumés numériques.- Mesures d'association.- Notions sur la génération de nombres au hasard et de variable aléatoire.- Loi des grands nombres et théorème de la limite centrale.- Intervalles de confiance.- Tests d'hypothèses usuels. Autres tests d'hypothèses.- Analyse de la variance à un facteur, deux facteurs ou à mesures répétées.

Travaux pratiques


participants un questionnaired'évaluation du cours quiest ensuite analysé par noséquipes pédagogiques.


Mise en œuvre de l'algorithme de détermination du type d'une variable. L'interprétation d'un intervalle deconfiance.


Stage pratique de 3 jour(s)Réf : DSS

ParticipantsConcepteurs, développeurs,architectes.

Pré-requisBonnes connaissances endéveloppement logiciel.Une compréhension desproblèmes liés au Big Dataest un plus.

Prix 2018 : 1990€ HT

Dates des sessions

PARIS08 oct. 2018, 10 déc. 2018






Traitement de données Big Data en temps réel avec Sparket Storm> Big Data, BI, NoSQL, SGBD> Big Data et NoSQL

Le Big Data, connu pour sa capacité à traiter des données massives, intègre avec l'arrivée d'outils commeSpark et Storm la composante temps réel. Vous découvrirez dans ce cours les atouts de ces outils, leursystème de calcul distribué temps réel ainsi que la notion de diffusion en continue (Streaming Big Data).


Comprendre les fondamentaux du développement d'applications Big Data en temps réelEvaluer les outils Spark et StormAppliquer les systèmes de calcul distribué temps réel de Storm et de SparkTraiter des grosses quantités de données en temps réel

1) Introduction à l'architecture temps réel2) L'architecture Kafka3) L'architecture Apache Storm4) Le traitement des messages Storm

5) L'architecture d'Apache Spark6) Le temps réel avec Spark Streaming7) Les autres acteurs du marché

1) Introduction à l'architecture temps réel

- Traitements temps réel.- Les architectures LAMDA.- Les architectures KAPPA.- Les architectures SMACK.

Travaux pratiquesEtude de l'implémentation d'une architecture KAPPA pour Spark et Strom.

2) L'architecture Kafka

- L'aperçu de Kafka Producers, Brokers, Consumers.- Les fichiers journaux de Kafka.- Les schémas Avro. Utilisation de ZooKeeper.

Travaux pratiquesÉtude de la configuration de Kafka dans l'architecture KAPPA.

3) L'architecture Apache Storm

- Définition de l'environnement de développement.- Création de projets basés sur Storm.- Définition des composants Storm (Spout et Bolt).- Définition des flux Storm.- Modèle de données (clé, valeur).- Rôles des Nimbus et ZooKeeper.

Etude de casÉtude de l'implémentation de l'architecture KAPPA pour Storm.

4) Le traitement des messages Storm

- Programmation de services avec Clojure, Java, Python.- Cycle de vie d'un message.- L'API Storm pour la définition de la fiabilité.- Stratégie de mise en place de la fiabilité pour une application utilisant le Big Data.

Travaux pratiquesMise en œuvre d'un projet de traitement des réseaux sociaux en temps réel dans l'architecture KAPPA.

5) L'architecture d'Apache Spark

- Les différentes versions de Spark (Scala, Python, R et Java).- Comparaison avec l'environnement Storm.- Les différents modules de Spark.- Les différents types d'architecture : Standalone, Apache Mesos ou Hadoop YARN.

Travaux pratiquesEtude de l'implémentation de l'architecture SMACK pour Spark.

6) Le temps réel avec Spark Streaming

- Présentation des RDD.- Créer, manipuler et réutiliser des RDD.



- Accumulateurs et variables broadcastées.- Principe de fonctionnement.- Les différents types de sources.- Comparaison avec Apache Storm.

Travaux pratiquesMise en œuvre d'un projet de traitement des réseaux sociaux en temps réel.

7) Les autres acteurs du marché

- L'architecture d'Apache Apex.- Comparaison entre Samza et Storm.- Comparaison entre Apex et Flink.- L'intégration Spark Streaming à l'aide de Talend.

Travaux pratiquesMise en œuvre d'un projet de traitement des réseaux sociaux en temps réel.


Stage pratique de 4 jour(s)Réf : APH

ParticipantsConcepteurs, développeurs.

Pré-requisBonne expérience endéveloppement Java. Desconnaissances en architectureWeb constituent un plus.

Prix 2018 : 2490€ HT

Dates des sessions

AIX04 sep. 2018, 27 nov. 2018


BRUXELLES02 oct. 2018, 04 déc. 2018

GENEVE02 oct. 2018, 04 déc. 2018


LILLE04 sep. 2018, 27 nov. 2018

LUXEMBOURG02 oct. 2018, 04 déc. 2018

LYON11 sep. 2018, 20 nov. 2018


NANTES04 sep. 2018, 27 nov. 2018

PARIS04 sep. 2018, 20 nov. 2018

RENNES04 sep. 2018, 27 nov. 2018





Compétences duformateurLes experts qui animentla formation sont desspécialistes des matièresabordées. Ils ont étévalidés par nos équipespédagogiques tant sur leplan des connaissancesmétiers que sur celui de lapédagogie, et ce pour chaque

Apache Hadoop, développer des applications pour le BigData> Big Data, BI, NoSQL, SGBD> Big Data et NoSQL

Ce stage vous apprendra à développer des applications vous permettant de traiter des données distribuéesen mode batch. Vous collecterez, stockerez et traiterez des données de formats hétérogènes avec ApacheHadoop afin de mettre en place des chaînes de traitement intégrées à votre système d'information.


Construire un programme à base de Map ReduceIntégrer Hadoop HBase dans un workflow d'entrepriseTravailler avec Apache Hive et Pig depuis HDFSUtiliser un graphe de tâches avec Hadoop

1) Le Big Data2) Collecte de données et application de MapReduce3) Le stockage des données avec HBase

4) Le stockage des données sur HDFS5) Spring Data Hadoop


Cours 30%, travaux pratiques 70%.

Travaux pratiques

Développement d'applications pour le Big Data.

1) Le Big Data

- Définition du périmètre du Big Data.- Le rôle du projet Hadoop.- Les concepts de base des projets Big Data.- Présentation du Cloud Computing.- Différence entre Cloud Computing privé et public.- Les architectures Big Data à base du projet Hadoop.

DémonstrationUsage d'Hadoop et de GoogleApp.

2) Collecte de données et application de Map Reduce

- Analyse des flux de données dans l'entreprise.- Données structurées et non-structurées.- Les principes de l'analyse sémantique des données d'entreprise.- Graphe des tâches à base de MapReduce.- La granularité de cohérence des données.- Transfert de données depuis un système de persistance dans Hadoop.- Transfert de données d'un Cloud dans Hadoop.

Travaux pratiquesGérer la collecte d'informations clientèles par Map Reduce. Configuration de l'implémentation YARN.Développement d'une tâche basée sur Map Reduce.

3) Le stockage des données avec HBase

- Plusieurs types de base de données XML.- Patterns d'usages et application au Cloud.- Application de Hadoop database au sein d'un workflow.- Utilisation des projets Hive/Pig.- Utilisation du projet HCatalog.- L'API Java HBase.

Travaux pratiquesGérer les modifications d'un catalogue de données fournisseur.

4) Le stockage des données sur HDFS

- Patterns d'usages et application au Cloud.- Architecture et installation d'un système HDFS, journal, NameNode, DataNode.- Opérations, commandes et gestion des commandes.- L'API HDFS Java.- Analyse de données avec Apache Pig.- Le langage Pig Latin. Utiliser Apache Pig avec Java.


cours qu’ils enseignent. Ilsont au minimum cinq à dixannées d’expérience dansleur domaine et occupentou ont occupé des postes àresponsabilité en entreprise.




- Requêtage avec Apache Hive.- Réplication de données. Partage de données sur une architecture HDFS.

Travaux pratiquesAdministrer un référentiel client partagé sur Hadoop. Utilisation de la console de visualisation.

5) Spring Data Hadoop

- Introduction à Spring et Spring Data.- Le namespace Hadoop pour Spring.- Utiliser Spring pour simplifier la configuration Hadoop.- Configuration du cache distribué.- Définition des Jobs et dépendance entre Jobs.- Intégration des outils (Pig, Hive...).

Travaux pratiquesRefondre la gestion du catalogue de données fournisseur via Spring Data.


Stage pratique de 3 jour(s)Réf : MNO

ParticipantsCe stage s'adresse à tousles informaticiens ayant àdévelopper sous MongoDB.

Pré-requisBonnes connaissances enprogrammation.

Prix 2018 : 1990€ HT

Dates des sessions

PARIS17 sep. 2018, 19 nov. 2018






MongoDB, prise en main et développement> Big Data, BI, NoSQL, SGBD> Big Data et NoSQL

Cette formation très pratique permettra aux développeurs de concevoir des applications en utilisant lesystème de gestion de base de données NoSQL MongoDB. Parmi les principaux points étudiés figurentl'installation, la modélisation, la manipulation des données, les différentes API...


Installer le SGBD MongoDBConfigurer le SGBD MongoDBManipuler les objets et les données dans MongoDBImplémenter une application sous MongoDBAméliorer les performances

1) Introduction à MongoDB2) Connexion et utilisation de MongoDB3) Modélisation et indexation4) Gestion des drivers

5) Introduction à la réplication et au Sharding6) Gestion des performances et diagnostic7) Extension de MongoDB

1) Introduction à MongoDB

- Introduction au SDBG NoSQL MongoDB.- Les caractéristiques du NoSQL.- La modélisation sous MongoDB.- Les différents formats utilisés par MongoDB : JSON, BSON.- Préparation à l'installation de MongoDB.- Connexion et test de MongoDB.

Travaux pratiquesInstallation de MongoDB sur un poste de développement et intégration d'une base de données exemple.

2) Connexion et utilisation de MongoDB

- Utilisation du Shell Mongo.- Manipulation des objets et données : les opérations CRUD.- Utilisation des objets : collections, documents...- Utilisation des API (PHP, JAVA...).

Travaux pratiquesUtilisation du Shell Mongo et manipulation des objets et des données.

3) Modélisation et indexation

- Le schéma design : réflexion sur la modélisation à utiliser.- L'indexation sous MongoDB.- Le profiling et l'optimisation des requêtes.- Fonctionnement de MongoDB : transaction, isolation, verrou...- Gestion des performances sous MongoDB.

Travaux pratiquesModélisation d'un cas pratique et indexation des données.

4) Gestion des drivers

- Les drivers disponibles pour MongoDB. Modèle d'API.- Utilisation de l'API PHP ou Java.

Travaux pratiquesManipulation des données à travers des API (PHP ou JAVA).

5) Introduction à la réplication et au Sharding

- Principes de la réplication sous MongoDB.- Notions et principes de fonctionnement des Replica Set.- Le Sharding : concept, fonctionnement, limite...- Couple Replica Set et Sharding.- Mise en œuvre du Replica couplé à du Sharding.- Suivi des performances liées au Sharding.

Travaux pratiquesMise en place du Sharding des données de manière automatique ou manuelle.

6) Gestion des performances et diagnostic

- L'analyse des plans d'exécution.



- Les logs MongoDB.- Le suivi des indicateurs et des performances.- Les outils de suivi des performances : explain, mongostat, mongotop.- L'agrégation Pipeline : présentation et concept.

Travaux pratiquesAnalyse des plans d'exécution et optimisation des requêtes.

7) Extension de MongoDB

- Indexer les requêtes géospatiales.- GridFS nécessaire au stockage de "large objects".- Agréger.


Stage pratique de 3 jour(s)Réf : SPK

ParticipantsDéveloppeurs, architectes.

Pré-requisBonnes connaissances dulangage Java.

Prix 2018 : 1990€ HT

Dates des sessions

PARIS10 sep. 2018, 03 déc. 2018





• Une feuille d’émargementpar demi-journée de présenceest fournie en fin de formationainsi qu’une attestation de finde formation si le stagiaire a

Spark, développer des applications pour le Big Data> Big Data, BI, NoSQL, SGBD> Big Data et NoSQL

Vous développerez des applications en Java en vue de traiter en temps réel des données issues du Big Data.Vous collecterez, stockerez et traiterez avec Spark des données de formats hétérogènes afin de mettre enplace des chaînes de traitement intégrées à votre système d'information.


Maîtriser les concepts fondamentaux de SparkDévelopper des applications avec Spark StreamingFaire de la programmation parallèle avec Spark sur un clusterExploiter des données avec Spark SQLAvoir une première approche du Machine Learning

1) Présentation d'Apache Spark2) Programmer avec les Resilient DistributedDataset (RDD)3) Manipuler des données structurées avecSpark SQL4) Spark sur un cluster

5) Analyser en temps réel avec Spark Streaming6) Manipuler des graphes avec GraphX7) Machine Learning avec Spark

Travaux pratiques

Mise en pratique des notions vues en cours à l'aide du langage Java.

1) Présentation d'Apache Spark

- Historique du Framework.- Les différentes versions de Spark (Scala, Python et Java).- Comparaison avec l'environnement Apache Hadoop.- Les différents modules de Spark.

Travaux pratiquesInstallation et configuration de Spark. Exécution d'un premier exemple avec le comptage de mots.

2) Programmer avec les Resilient Distributed Dataset (RDD)

- Présentation des RDD.- Créer, manipuler et réutiliser des RDD.- Accumulateurs et variables broadcastées.- Utiliser des partitions.

Travaux pratiquesManipulation de différents Datasets à l'aide de RDD et utilisation de l'API fournie par Spark.

3) Manipuler des données structurées avec Spark SQL

- SQL, DataFrames et Datasets.- Les différents types de sources de données.- Interopérabilité avec les RDD.- Performance de Spark SQL.- JDBC/ODBC server et Spark SQL CLI.

Travaux pratiquesManipulation de Datasets via des requêtes SQL. Connexion avec une base externe via JDBC.

4) Spark sur un cluster

- Les différents types d'architecture : Standalone, Apache Mesos ou Hadoop YARN.- Configurer un cluster en mode Standalone.- Packager une application avec ses dépendances.- Déployer des applications avec Spark-submit.- Dimensionner un cluster .

Travaux pratiquesMise en place d'un cluster Spark.

5) Analyser en temps réel avec Spark Streaming

- Principe de fonctionnement.- Présentation des Discretized Streams (DStreams).- Les différents types de sources.- Manipulation de l'API.- Comparaison avec Apache Storm.


bien assisté à la totalité de lasession. Travaux pratiques

Consommation de logs avec Spark Streaming.

6) Manipuler des graphes avec GraphX

- Présentation de GraphX.- Les différentes opérations.- Créer des graphes.- Vertex and Edge RDD.- Présentation de différents algorithmes.

Travaux pratiquesManipulation de l'API GraphX à travers différents exemples.

7) Machine Learning avec Spark

- Introduction au Machine Learning.- Les différentes classes d'algorithmes.- Présentation de SparkML et MLlib.- Implémentations des différents algorithmes dans MLlib.

Travaux pratiquesUtilisation de SparkML et MLlib.


Stage pratique de 3 jour(s)Réf : ASB

ParticipantsConcepteurs, développeurs.

Pré-requisIl est important d'avoirune expérience dans ledéveloppement, si possible enJava. Une compréhension desproblèmes liés au Big Dataest un plus.

Prix 2018 : 1990€ HT

Dates des sessions

PARIS17 sep. 2018, 19 nov. 2018






Apache Storm, développer des applications pour le BigData> Big Data, BI, NoSQL, SGBD> Big Data et NoSQL

Vous apprendrez dans cette formation à développer des applications vous permettant de traiter en temps réeldes données et services placés dans le Cloud. Vous découvrirez également les atouts de Storm par rapportau Big Data traditionnel et comprendrez son système de calcul distribué temps réel.


Traiter en temps réel des données placées dans le CloudCoordonner des échangesDévelopper des services pour le CloudSynchroniser des données entre un Cloud privé et un réseau social

1) Le Big Data2) Introduction au projet Apache Storm3) Scalabilité horizontale4) Traitement des messages garantis

5) Tolérance aux pannes6) Développement de services pour le Cloud7) Interconnexion avec les réseaux sociaux


Cours 30% travaux pratique 70%.

Travaux pratiques

Développement d'applications pour le Big Data.

1) Le Big Data

- Définition du périmètre du Big Data. Le projet Hadoop, positionnement du projet Storm.- Les concepts de base des projets Big Data.- Différence entre Cloud Computing privé et public.- Les architectures Big Data à base du projet Storm.

DémonstrationExemples d'utilisation de Storm.

2) Introduction au projet Apache Storm

- Définition de l'environnement de développement.- Création de projets basés sur Storm.- Définition des composants Storm (spout et bolt).- Définition des flux Storm.- Modèle de données (clé, valeur).

Travaux pratiquesUtiliser l'API Storm pour gérer les enregistrements d'utilisateurs.

3) Scalabilité horizontale

- Définition de la haute disponibilité.- Les topologies possibles.- Parallélisation des calculs et traitement de données.- Scalabilité des serveurs Web.- Utilisation de Storm cluster.- Scalabilité des bases de données.

Travaux pratiquesGérer la montée en charge via l'augmentation des serveurs Web.

4) Traitement des messages garantis

- Définition d'un message "entièrement traité".- Cycle de vie d'un message.- L'API Storm pour la définition de la fiabilité.- Stratégie de mise en place de la fiabilité pour une application utilisant le Big Data.

Travaux pratiquesRéguler les messages client et assurer leur suivi.

5) Tolérance aux pannes

- Gestion des Bolts.- Le projet Apache Kafka.



- Définition des transactions.- Topologie transactionnelle et Storm cluster.- Rôles des Nimbus et ZooKeeper.

Travaux pratiquesUtiliser ZooKeeper pour la négociation distribuée.

6) Développement de services pour le Cloud

- Programmation de services avec les différents langages Clojure, Java, Ruby, Python.- Introduction à de nouveaux langages.

Travaux pratiquesAppliquer l'interopérabilité dans le Big Data temps réel.

7) Interconnexion avec les réseaux sociaux

- L'utilisation de Twitter4J.- Configuration de la sécurité d'accès.- Gestion d'événements avec Storm.- Définition de callback.

Travaux pratiquesSynchroniser des données entre un Cloud privé et un réseau social.


Stage pratique de 3 jour(s)Réf : RAG

ParticipantsResponsables de projets,développeurs désirantcomprendre l'agrégation dedonnées sur MongoDB.

Pré-requisConnaissances de base deMongoDB.

Prix 2018 : 1990€ HT

Dates des sessions

PARIS17 sep. 2018, 10 déc. 2018






MapReduce et Aggregation Framework pour MongoDB> Big Data, BI, NoSQL, SGBD> Big Data et NoSQL

L'agrégation de données sert particulièrement à la génération des graphiques et à la synthèse des donnéespermettant la prise de décisions. Cette formation vous permettra de mettre en pratique l'agrégation dedonnées sous MongoDB en utilisant les outils 'Aggregation framework' et 'MapReduce'.


Comprendre ce qu'est l'agrégation de donnéesComprendre la logique et le fonctionnement de MapReduceSavoir appliquer l'environnement d'Aggregation FrameworkComprendre les différences en termes de performances et les cas d'utilisations.

1) Introduction2) Aggregation Framework3) Map Reduce

4) Comparaison des performances5) Conclusion

1) Introduction

- Pourquoi agréger les données ?- Principe de l'agrégation de données.- Problématiques générales liées à l'agrégation de données.- Présentation des différents outils pour l'agrégation de données sous MongoDB.- Présentation de l'environnement, de l'évolution et du contexte de développement des FrameworksMapReduce et Aggregation.- Présentation des deux Frameworks (fonctionnement et cas d'utilisations).

2) Aggregation Framework

- Principe et fonctionnement.- Exemple simple d'agrégation.- La notion de "pipeline" d'agrégation.- Parallèle entre SQL et Aggregation.- Études des différentes étapes du pipeline : $match, $group, $project, $skip, $limit, $unwind...- Études des différentes fonctions d'agrégation : $min, $max, $push, $addToSet, $first, $last...- Études des autres fonctions : booléennes, manipulation de données, manipulation de dates...- Études des limites du Framework d'agrégation.

Travaux pratiquesEtude des différents opérateurs et fonctions, mesures de performances. Pratique finale sur un cas concret.

3) Map Reduce

- Pourquoi utiliser MapReduce ?- Le principe et le fonctionnement (fonction map, reduce et finalize).- Exemple simple d'utilisation.- Comprendre la logique et le fonctionnement de manière détaillée.- Utilisation Full et Incrémentale : exemple et impact sur les performances.- Personnalisation de la structure de sortie.- La double agrégation.- Étude des limites de l'outil.

Travaux pratiquesEtude de cas allant des cas les plus courants aux cas les plus complexes.

4) Comparaison des performances

- Présentation du cas d'utilisation de MapReduce et d'Aggregation Framework.- Comparaison sur un jeu de données concrètes.- Mesures de performances.

Travaux pratiquesComparaison des deux Frameworks. Identification des avantages et des inconvénients des deux approchessur différents jeux de données.

5) Conclusion

- Bilan sur la formation.- Revue des notions abordées.- Questions et discussions autour de ces deux Frameworks.


Stage pratique de 02h11jour(s)Réf : 4TF

ParticipantsCette vidéo s'adresse auxdécideurs, aux chefs deprojet, aux créatifs maiségalement aux développeursqui veulent découvrircomment les biais peuventinfluer nos décisions et notremanière d'interpréter lesdonnées.


Prix 2018 : 25€ HT

Dates des sessions

PARIS31 déc. 2018





Introduction à la datavisualisation, collecter, traiter etreprésenter les données> Big Data, BI, NoSQL, SGBD> Big Data et NoSQL

OBJECTIFS

Cette vidéo de formation, qui débute par un rapide historique sur la datavisualisation, a pour but de vousaider à comprendre quelles sont les règles à respecter pour créer des graphiques efficaces. Nous verronsqu'une mauvaise représentation graphique peut induire en erreur le lecteur et mener à de mauvaisesdécisions. Ainsi, au cours de cette vidéo, nous verrons quels processus mettre en oeuvre pour récolter lesdonnées puis les traiter avant de les afficher. Nous évoquerons aussi les règles à respecter pour appliquerle bon type de graphique, comment le réaliser et le mettre en forme de façon efficiente en choisissant lesbonnes couleurs et les bons axes de lecture. Quelques séquences de mise en pratique vous montrentconcrètement comment récolter, traiter les données et concevoir des graphiques pertinents (Excel, Tableau,Sanddance, CartoDB...).

1) Introduction2) Les biais

3) Collecte et traitement des données4) Représentation des données

1) Introduction

- Principes et concepts de la datavisualisation- Histoire de la datavisualisation

2) Les biais

- Les biais : comment le cerveau traite l'information- Corrélation, causalité et interprétation- Biais et statistiques

3) Collecte et traitement des données

- Acquisition : où et comment trouver des données ?- Traitement : comment obtenir des données utilisables ?- Filtrer, explorer : trouver l'information dans vos données- Mise en pratique : récupérer des données de sites web, nettoyer avec Google Refine

4) Représentation des données

- Quel graphique pour quelles données ?- Affiner la représentation graphique- Mettre en avant l'information en optimisant le graphique- Présentation d'outils : Excel, Livegap- Présentation d'outils : Carto, Raw, Sanddance- Présentation d'outils : Tableau, d3js, Vega


Stage pratique de 01h45jour(s)Réf : 4TG

ParticipantsCette vidéo de formations'adresse aux décideurscomme aux développeurs.


Prix 2018 : 25€ HT

Dates des sessions

PARIS31 déc. 2018






Hbase, introduction à la base de données NoSQLd'Hadoop> Big Data, BI, NoSQL, SGBD> Big Data et NoSQL

OBJECTIFS

Cette vidéo a pour vocation de présenter HBase, la base de données NoSQL distribuée d'Hadoop. Ainsi,vous apprendrez dans quel cas l'utiliser et de quelle manière elle vous aidera à développer une applicationBig Data. Dans un premier temps, nous présenterons les concepts fondamentaux sur lesquels repose HBaseen étudiant la structure et le format des données stockées. Puis, nous exécuterons des opérations basiquesen ligne de commande afin de réaliser des opérations sur les tables et sur les données elles-mêmes. Celles-ci seront ensuite utilisées dans des exemples Java pour illustrer le développement et la mise en placed'applications Big Data. Pour terminer, nous étudierons plus en détails les services HBase, ses dépendanceset les notions de très haute disponibilité pour un déploiement en production.

1) Introduction à Hbase2) Modèle de données sous Hbase

3) Utiliser HBase en Java4) Administrer Hbase

1) Introduction à Hbase

- HBase dans l’écosystème Hadoop- Différences entre HBase et un SGBDR- Lancer HBase et s’y connecter

2) Modèle de données sous Hbase

- Composants du modèle de données sous HBase- Stockage physique des données- Opérations HBase- Créer une table HBase- Remplir et interroger HBase dans le terminal

3) Utiliser HBase en Java

- Se connecter à HBase en Java- Lancer des opérations HBase- Réaliser un scan sur HBase- HBase en entrée ou sortie de MapReduce

4) Administrer Hbase

- Comprendre les services HBase- Notion de répartition et d’équilibrage- Dépendances d’HBase : HDFS et Zookeeper- Haute disponibilité pour HBase


Stage pratique de 02h00jour(s)Réf : 4TH

ParticipantsCette vidéo de formation surRedis, REmote DIctionaryServer, s'adresse auxdéveloppeurs et auxdécideurs informatiques quidésirent comprendre pourquoiet comment utiliser cette basede données ultra performante.


Prix 2018 : 25€ HT

Dates des sessions

PARIS31 déc. 2018





Redis, présentation de la base de données NoSQL pourune utilisation en PHP> Big Data, BI, NoSQL, SGBD> Big Data et NoSQL

OBJECTIFS

Cette vidéo a pour vocation de présenter ses spécificités en s'appuyant sur des exemples concrets.Après avoir présenté le positionnement de Redis dans le milieu des bases de données NoSQL, nousallons présenter un à un les différents types de données en nous appuyant sur des exemples en ligne decommande, et en PHP, grâce à la librairie predis. Ainsi, seront développés la manipulation des chaînes decaractères et de nombres, la gestion de l'expiration automatique des clés puis les types plus complexestels que les ensembles via les hashes, les sets et les sorted sets. Un exemple de pub/sub sera égalementréalisé afin de mettre en œuvre ce patron de conception consistant à souscrire à une chaîne de diffusion pourrecevoir un message publié. Enfin, nous étudierons le fonctionnement de la persistance des données sur ledisque et le fonctionnement des services Redis Sentinel et Redis Cluster pour assurer la haute disponibilité etla scalabilité horizontale.

1) Introduction à Redis2) Faire communiquer PHP et Redis

3) Utiliser des commandes et types avancés4) Administrer Redis

1) Introduction à Redis

- Qu’est-ce que le « NoSQL » ?- A quoi sert Redis ?- Installer et démarrer Redis

2) Faire communiquer PHP et Redis

- Protocole de communication- Choisir un client PHP pour communiquer avec Redis- Manipuler les chaînes de caractères dans Redis- Faire expirer des données dans Redis- Utiliser le type « hash » de Redis- Exploiter les listes de Redis

3) Utiliser des commandes et types avancés

- Manipuler les sets- Découvrir les sorted sets- Trier les sorted set- Réaliser du pubsub avec Redis

4) Administrer Redis

- Réaliser une sauvegarde de la base sur le disque- Automatiser les sauvegardes sur le disque- Découvrir Redis Sentinel- Comprendre Redis Cluster


Stage pratique de 01h58jour(s)Réf : 4TO

ParticipantsCette vidéo de formations'adresse à tout développeur,administrateur système oudécideur informatique.


Prix 2018 : 25€ HT

Dates des sessions

PARIS31 déc. 2018






HDFS, utiliser le système de fichiers distribué d'Hadoop> Big Data, BI, NoSQL, SGBD> Big Data et NoSQL

OBJECTIFS

Cette vidéo présente l'HDFS (Hadoop Distributed File System) et ses particularités afin d'en obtenir uneconnaissance approfondie. Elle va vous permettre également de développer une application se basant surl'HDFS - en lien ou non avec Hadoop - et de profiter ainsi de ses possibilités de réplication et de très hautedisponibilité. Après une introduction rapide des systèmes de fichiers en général puis d'Hadoop, nous nouspencherons sur les spécificités de l'HDFS : parallélisation et réplication des fichiers par blocs. Ensuite, nousdétaillerons HadoopFS, une couche d'abstraction permettant d'interagir avec des systèmes de fichiers, qu'ilssoient locaux ou distribués comme l'HDFS, Amazon S3, Cassandra, CephFS. Nous étudierons les interfacesqu'offre HadoopFS pour contrôler les systèmes de fichiers compatibles et notamment l'HDFS, que ce soiten ligne de commande, en programmation Java ou via des appels HTTP. Nous illustrerons chacune de cespossibilités par des exemples simples et concrets. Enfin, nous nous pencherons plus spécifiquement sur lefonctionnement profond de l'HDFS et de ses services afin de comprendre au mieux ses particularités : lanotion de NameNode, de DataNode et les points essentiels du stockage dans l'HDFS.

1) Présentation de l’HDFS2) Notions principales et fonctionnement

3) Prise en main4) Mise en place d'un cluster HDFS

1) Présentation de l’HDFS

- Introduction aux systèmes de fichiers- Histoire de l’HDFS- Couche d’abstraction HadoopFS

2) Notions principales et fonctionnement

- Réplication- Notion de block size- Compression dans l’HDFS- Permissions du système de fichiers- Vérification de l’intégrité du système : La commande FSCK- Équilibrage du cluster : Le balancer

3) Prise en main

- Contrôle de l’HDFS via la ligne de commande- API Java pour les opérations sur l’HDFS- WebHDFS pour l’accès à l’HDFS en HTTP- HDFS en entrée et en sortie des MapReduce

4) Mise en place d'un cluster HDFS

- Schéma global de fonctionnement- Anatomie d’une lecture/d’une écriture sur l’HDFS- Services de l’HDFS- Fédération de clusters HDFS, snapshots et corbeille- Mise en place de la haute disponibilité


Stage pratique de 02h33jour(s)Réf : 4TP

ParticipantsCette vidéo de formations'adresse à tousles développeurs etadministrateurs système.


Prix 2018 : 25€ HT

Dates des sessions

PARIS31 déc. 2018






MapReduce, appliquer le paradigme dans tous leslangages et le transposer sous Hadoop> Big Data, BI, NoSQL, SGBD> Big Data et NoSQL

OBJECTIFS

Cette vidéo a pour vocation de présenter le paradigme MapReduce, ses spécificités et ses finalités.Après une étude succincte de la théorie du paradigme MapReduce, notamment le rôle des deux fonctionsessentielles : la fonction map() et la fonction reduce(), nous l'appliquerons sur un exemple simple et concret.Aussi, nous analyserons en MapReduce des journaux Apache communément appelés access log et cedans plusieurs langages : Java, Scala, mais également Python, JavaScript, PHP et même Bash ! Dansun second temps, nous nous focaliserons sur les fonctions MapReduce au sein de la plateforme Big DataHadoop. Après avoir étudié leur fonctionnement au sein du framework d'Apache, nous exécuterons unexemple développé en Java, puis regarderons comment lancer un MapReduce programmé précédemmentdans n'importe quel langage grâce à Hadoop Streaming. Nous utiliserons également Hadoop Pipes pourfaire fonctionner un MapReduce codé en C++. Enfin, nous développerons des fonctions MapReduce pluscomplexes afin de nous familiariser avec les notions avancées du paradigme et de nous entraîner à la façonde penser pour concevoir des algorithmes performants. Les notions de jointures, de secondary sort ou declé composite seront alors présentées. Nous finirons par des outils permettant de multiplier nos possibilités,en combinant les fonctions MapReduce avec Sqoop pour l'échange de données avec MySQL et Oozie pourautomatiser les workflows.

1) Présentation du paradigme MapReduce2) MapReduce dans différents langages3) MapReduce dans Hadoop

4) Exemples avancés de MapReduce5) Plus loin grâce à Hadoop

1) Présentation du paradigme MapReduce

- Histoire du paradigme MapReduce- Principe général- Fonction map() en détails- Fonction reduce() en détails

2) MapReduce dans différents langages

- Analyse des journaux d’accès : Cas d’un MapReduce simple- Développement de notre MapReduce en Java- Développement de notre MapReduce en Scala- Développement de notre MapReduce en Python- Développement de notre MapReduce en JavaScript- Développement de notre MapReduce en PHP- Développement de notre MapReduce en Bash

3) MapReduce dans Hadoop

- Implémentation des MapReduce sous YARN- Adaptation de notre code Java pour Hadoop- Suivi de l’évolution du job sous Hadoop- Hadoop streaming : Lancement de nos autres MapReduce grâce à des exécutables- Hadoop Pipes : Exécution de MapReduce en C++

4) Exemples avancés de MapReduce

- Compter le nombre de visiteurs uniques par page- Opérer une jointure de données- Utiliser une clé composite- Réaliser un tri secondaire (secondary sort)

5) Plus loin grâce à Hadoop

- Compteurs- Journaux- Importation/exportation des données de MySQL grâce à Sqoop- Réalisation des workflows de MapReduce grâce à Oozie


Stage pratique de 01h21jour(s)Réf : 4TX

ParticipantsCette vidéo de formations'adresse à tous lesinformaticiens qui veulentavoir un premier aperçud'Hadoop.


Prix 2018 : 33€ HT

Dates des sessions

PARIS31 déc. 2018





Big Data, introduction à la plateforme Hadoop et à sonécosystème> Big Data, BI, NoSQL, SGBD> Big Data et NoSQL

OBJECTIFS

Cette vidéo a pour objectif de vous présenter le Big Data en général et plus spécifiquement la plateformeHadoop et ses concepts clés, afin de comprendre son fonctionnement et ses possibilités. Après avoir définiles notions de NoSQL et de Big Data, nous lancerons l'installation d'un environnement Hadoop. Celui-ciétant complexe et composé de nombreuses couches, nous utiliserons les distributions Hadoop commeHortonworks, MapR et Cloudera. Puis, nous introduirons le paradigme Map Reduce qui permettra de réaliserdes algorithmes de calcul distribué. Nous l'illustrerons par un exemple simple en Java. Nous détaillerons,ensuite, les concepts principaux autour du stockage et du traitement des données dans Hadoop. Nous lesmettrons en pratique par des exemples simples illustrant la théorie. Enfin, nous terminerons en étudiant unecollection d'outils basés sur Hadoop et leurs différentes possibilités et utilités. Nous évoquerons entre autresla base NoSQL d'Hadoop : HBase, les outils de traitement Pig, Hive et Spark.

1) Origines d'Hadoop2) Installation d'un environnement Hadoop debase3) Stockage de fichiers : HDFS

4) Paradigme MapReduce5) Développement d'un premier MapReduce6) Écosystème Hadoop

1) Origines d'Hadoop

- Qu'est-ce que le NoSQL ?- Définition du Big Data- Histoire d'Hadoop

2) Installation d'un environnement Hadoop de base

- Écosystème complexe- Distributions Hadoop- Introduction à CDH : Cloudera Hadoop- Démarrage d'une QuickStart VM

3) Stockage de fichiers : HDFS

- Présentation de l'HDFS- Manipulation de fichiers en ligne de commande

4) Paradigme MapReduce

- Principe général- Fonction Map- Fonction Reduce

5) Développement d'un premier MapReduce

- Mapper- Reducer- Lanceur- Lancement de votre premier MapReduce- Combineur

6) Écosystème Hadoop

- Hbase- Hive- Pig- Zookeeper- Sqoop- Oozie- Flume- Kafka- Spark


big data, bi, nosql, sgbd, big data et nosql - orsys.fr · deux exemples : splunk et logstash. -...

Documents