slides trophee big data

50

Upload: piero-geiger

Post on 29-Nov-2014

1.168 views

Category:

Documents


6 download

DESCRIPTION

 

TRANSCRIPT

  • 1. Gaia Satellite Data Processing ChallengesObjectifs Innovation Prochaines tapesGaia is a cornerstone mission of the European Space Agency The data processing is very intense in terms of IO and many The data sent by the external Data Processing centres will beto be launched towards tests with different alternatives and increasing amounts of gathered and integrated in a central repository, analysing andthe end of 2013. It will scan the sky for 5 years measuring data have been performed. We will outline some of the verifying its integrity in order to find possible flaws in thewith unprecedented accuracy the positions and motions of problems found along the way. Since 2008 we have had a processing will be far from trivial and need significant IOmore than 1000 million stars from the Galaxy. This data will fruitful collaboration with Intersystems Cache which has been demands due to the large number of records.allow us to create a 3D model of the Milky Way. Gaia which non-traditional in many aspects as we have had costumer-will revolutionize may fields of Astronomy. provider contacts at multiple levels (management, experts, Sometime in 2020 the final catalogue should be made developers), this has proven very beneficial for both parties available to the scientific community, the archive and dataPrsentation and has lead to fast turn-around time in getting new versions, access mechanism is starting to shape now and will also beThe satellite will send to ground every day its observations problems fixed, new features. It has also allowed us to highly demanding in terms of data access. Oftenamounting to 50 GB, this data will be processed continuously optimize the system for our needs and obtain adequate disentangling instrument or processing artifacts from realin order to asses the satellite performance. The daily performance without going for expensive top hardware issues will require the execution of user provided algorithmsprocessing is critical in terms of robustness and reliability as it solutions. which can discover hidden correlations within the data.is needed in order to adjust the instrument settings on boardGaia to meet the scientific requirements. Rsultats Information additionnelles We have now in place the core systems which will be needed The trend in astronomy and other scientific fields in the lastAt the end of the mission we will have of the order 100 TB of to start receiving and processing the data sent by Gaia by the decades has been to build more sensitive and powerfulraw compressed data. end of the year, so far one of the main worries in the project instruments, larger antenas and better satellites/ which was the performance and scalability of the data access observatories, this has led to a huge increase in the amountThe long term processing of this data involves 6 European rate needed for the processing has been solved. of data to be processed. Simultaneously this has beenData Processing Centres and will be done multiple times with compensated by the developments in in the IT Industry at theincreasing amounts of data. The estimated size of the data software and hardware levels. The processing of Gaias dataprocessed after the 5 year mission will be in the order of 1 presents unmatched challenges in this respect and will openPbyte and the final catalogue should be published by 2021. the road too future missions.In order to achieve the necessary precision every factoraffecting the observations needs to be modelled, this meansadapting the model as we process the data in an iterativemanner. The core processing implemented in Java will useover 200 million stars and their 160,000 millionmeasurements. A direct solution is not computationallyaffordable due to the huge number of unknowns, instead aniterative process adjusting the stars positions, motions, Porteur du projetsatellite orientation, and calibrations has been designed and Jose Luis Hernndez Muoz, Gaia Operational Data andimplemented. Calibration Engineer - European Space Agency Partenaires Intersystems, Jose Ruperez, Jose Costa, Robert Bira
  • 2. Alephd, we help publishersObjectifs Innovation Prochaines tapesAlephdD permet aux diteurs de mdias web et aux AlephD est la premire solution doptimisation des revenus AlephD cherche aujourdhui des investisseurs pour acclrergestionnaires dinventaires despaces publicitaires de tirer des diteurs de site pour le RTB, en tempsrel son dveloppement et attaquer le march international :profit des technologies denchres en temps rel (RTB). et indpendante dune plateforme. europen dans un premier temps, puis amricain. LesGrce une technologie big data temps rel, AlephD rend En effet, il existe aujourdhui deux types de solutions : principaux investissements prvus concernent le recrutementpossible une optimisation utilisateur par utilisateur de la vente - des solutions statiques , qui optimisent les paramtres dingnieurs, de statisticiens et de business developers. Pardespaces sur les plateformes denchres (AppNexus, une fois par jour par ex. Ces solutions ne prennent pas en ailleurs, AlephD continue son travail avec ses clientsRubicon, Google...). compte les particularits de chaque utilisateur, et manquent existants, dveloppant de nouveaux algorithmes, avec donc une bonne partie des opportunits doptimisation comme objectif de convaincre dimportants nouveaux clientsPrsentation - des solutions in-house de plateformes, qui sont des dici au deuxime semestre.Larrive du RTB donne aux acheteurs et aux vendeurs botes noires. Ces options ont mauvaise rputation chez lesdespaces publicitaires la possibilit de personnaliser leurs annonceurs, qui dtectent et fuient les diteurs y recourantordres en temps rel, utilisateur par utilisateur. Cela car peu transparentes et remettant en cause lquit desncessite le dploiement dune infrastructure serveur enchres.complexe (big data, temps rel) et la mise en placedalgorithmes de dcision. RsultatsLes donnes traites sont des logs denchres de publicits Les donnes recueillies permettent de comprendre commenten ligne. Concrtement, AlephD obtient, pour chaque seffectuent les enchres, au degr de granularit le plus fin.affichage de publicit sur le site dun de ses clients, les Elles permettent ainsi de dcouvrir et donc de modliser lesinformations sur le prix et les paramtres de lenchre comportements des acheteurs de publicit.correspondante. Ces informations sont recueillies en temps Sur les donnes disponibles, la technologie dAlephD permetrel par nos serveurs, qui les mettent ensuite sur un cluster dobtenir une amlioration des revenus de lordre de 30%.Hadoop.Aujourdhui, AlephD ne traite que les donnes issues de laplateforme denchre AppNexus, qui est la solution la plustransparente et qui connait le plus de croissanceactuellement.AlephD a dvelopp une technologie propritaire unique pourtraiter ces donnes et optimiser les paramtres denchre entemps rel. Cette technologie repose sur deux piliers :- une infrastructure big data, utilisant les technologiesHadoop et Hive. AlephD dveloppe des algorithmes en Map/Reduce pour exploiter au mieux ces Tera-octets de donnes ; Porteur du projet- une infrastructure temps rel de prise de dcision, cest-- Vincent Lepage - Directeur Gnral AlephD SASdire capable de rpondre en moins de 10ms une requte Nicolas Grislain Prsident AlephD SASde paramtres denchre, avec plusieurs milliers de requtes Partenairespar secondes. Pubsquared Audience Square
  • 3. Artimon, service de collecte et danalyse de mtriques large chelle.Objectifs Innovation Prochaines tapesOffrir un service de centralisation de mtriques caractre Lutilisation dun format universel de mtriques permet de ne Les tapes venir pour ce projet sont linstrumentation detechnique et fonctionnel permettant un suivi temps-rel et pas avoir autant doutils de monitoring (technique ou nouvelles applications et lexploitation des mtriqueshistorique du fonctionnement de lentreprise. business) que de primtres, il en dcoule des possibilits produites. La disponibilit de mtriques vise centrer les danalyses croises riches denseignements (quel est limpact processus de dcisions de lentreprise autour de donnesPrsentation dune augmentation de temprature sur le comportement des objectives.Le projet Artimon dfinit un format universel de mtriques, les bases de donnes et in fine sur les temps de traitements desdiffrents primtres fonctionnels et techniques de requtes issues des sites Web). Information additionnelleslentreprise produisent des indicateurs (de type compteurs ou Ce projet sinscrit dans une dmarche Big Data plus largejauges) sous ce format. Ces indicateurs sont collects toutes La facilit dinstrumentation des applicatifs permet de inities ds 2009 au sein du groupe Crdit Mutuel Arka.les minutes sur lensemble des machines du groupe Crdit rapidement disposer de mtriques clairant les mtiers surMutuel Arka et remonts sur la plate-forme Big Data base lactivit de leur primtre. Les spcialistes des diffrents Ce projet a t ralis par des quipes internes du Crditsur Hadoop. domaines ont le sentiment de ne plus tre aveugles et Mutuel Arka. cantonns des chiffres J+1.Ce projet a t initi dans les quipes techniques du groupeCrdit Mutuel Arka qui ont mis au point linfrastructure de Rsultatscollecte et de stockage. Les premires mtriques collectes Lanalyse de la distribution statistique des indicateurs permetfurent techniques (tempratures de machines, espaces de faire de la dtection danomalie, par exemple lorsquunedisques disponibles, charge machine, ...) et ont t utilises machine est sur le point de tomber en panne suite unpour la mise au point de fonctions danalyse de ce type de dfaut de refroidissement, ou que le volume doprations dundonnes. Ces fonctions danalyse sont capables de certain type est atypique par rapport au volumedclencher des alertes, permettant une raction rapide des habituellement observ le mme jour sur la mme plagesituations anormales. horaire.Une fois la chane complte mise au point sur le primtre En cas dincident, la priorit est donne au rtablissement dudes donnes initiales, les quipes en charge des primtres service, la disponibilit des mtriques sur la priodefonctionnels (spcialistes mtier et dveloppeurs) ont t prcdant la survenue de lincident permet lorsque laaccompagnes dans linstrumentation de leurs applications et situation est rtablie de procder une analyse post-mortemla mise au point de fonctions danalyse propres leurs de lindicent et la mise en place de mcanismes dalertesmtiers. adapts.Les travaux sur ce projet ont dbut en 2009, le primtre de Lexistence de mtriques dont la signification est matrisecollecte sest agrandi graduellement pour couvrir depuis fin permet de mettre en place des contrats de services (SLA)2012 lensemble des serveurs du groupe Crdit Mutuel bass sur des lments objectifs. Lhistorisation de cesArka. mtriques permet de tester diffrents modes de calculs des indicateurs de SLA afin de dterminer par exemple si un abaissement de seuil est ou non compatible avec la ralit de Porteur du projet la production. Matthias Herberts - Engineer Credit Mutuel Arkea
  • 4. BELOGIK: rendre les logs intelligentesObjectifs InnovationLe projet vise amliorer la connaissance de Outscale sur le Linnovation pour Outscale est de produire une connaissancecomportement de ses clients dans lutilisation de ses services intime du comportement de son infrastructure. La mise dIaaS. Linfrastructure de production de Outscale est disposition dune nergie informatique lastique et sansdcentralise sur plusieurs sites physiques dans le monde et limite gnre des usages et des comportements de la partfonctionne sur plusieurs fuseaux horaires. des clients en complte rupture avec lhbergement traditionnel capacit finie. Linnovation rside donner corps au concept de Customer Insight dans un contextePrsentation technologique, cest une rupture majeure avec les pratiquesLinfrastructure de Outscale produit des millions de lignes de marketing en vigueur dans cette industrie. Les bnfices pourdonnes machines par jour sur le fonctionnement de Outscale sont immenses avec un capacit de provisionnerlinfrastructure : ouverture dinstance, fermeture dinstance, plus finement ses ressources physiques et surtout dadapterconsommation des ressources, augmentation des terme son offre de services ces nouveauxressources, trace derreurs, communication rseau, . comportements. Un effet de bord induit est dacclrer leCroissant de 50% par an, le nombre doprations dune traitement de lanalyse des donnes machines en situationinfrastructure cloud dpasse les 500 oprations la seconde danomalie. Cest un projet stratgique pour leet les traces laisses par linfrastructure sont de plus en plus dveloppement de lentreprise.nombreuses.Les solutions actuelles de traitement de donnes ne Rsultatspermettent ni dagrger les donnes au regard de la diversit Lobjet du projet consiste collecter toutes les donnes,des formats produits par les quipements techniques, ni de permettant ventuellement une fouille en temps rel ettraiter les volumes engendrs. surtout de construire les indicateurs mtiers permettant auLe projet est bas sur la solution BELOGIK danalyse de log Product Manager de Outscale de proposer des nouvellesas a service. offres de service.Lobjet du projet consiste : collecter lchelle du big data les donnes machines, permettre la fouille en temps rel dans les donnes machines, gnrer lintgralit des indicateurs mtiers. Porteur du projet Christophe Ballihaut - Prsident BelogikLe projet est en phase de prototypage des indicateursmtiers avant de passer la phase de monte en charge de Partenairesla solution et de qualification des performances. Le partenaire du projet est Outscale, Le Cloud Franais, oprateur de services cloud computing. Le fournisseur dun des plus grands diteurs de logiciels mondiaux sappuie sur les services dOutscale pour oprer lensemble de ses activits SaaS. Laurent Seror Prsident
  • 5. Moving Data & BIME: Harnessing the power of Google BigQueryObjectifs Innovation Prochaines tapesMoving Data improves mobile performance by ensuring the Scaling a database is hard and scaling analytical databases Roll-out of the product to a larger number of customersquality and serviceability of telephone and broadband is even harder. BIME powered by Google BigQuery offers an dealing with ever increasing volumes of data.networks in the Australian Outback. The company has analytical database as a service that scales to petabytes ofdeveloped advanced methods to collect and disseminate data. It means that Moving Data doesnt require sophisticatedalerts and statistics from mobile devices and supporting infrastructure and an operational team to analyze data. BIMEmobile networks. When dealing with millions of network- + Google BigQuery provide Moving Data with a reliable, quickgenerated events, trend analysis rather than specific alerts and infinitely scalable pay-as-you-go service to tap databecomes critical to make the right decisions fast. generated by the Internet of Things.Moving Data had two needs that only BIME could satisfy. It With Moving Data based in Australia and BIME in France, thisneeded tools to enable interactive, visual analysis of Big Data project has been undertaken across disparate time-emerging network issues. They also wanted to communicate zones. However, with everything in the cloud, execution hasinsights to their current clients via collaborative and online been fast at all stages: testing, implementation and clientdashboards, as well as promote insights to other validation, even in a Big Data context. The scalability of thetelecommunications clients with similar data, which is BIME-BigQuery combo can facilitate the regularstandardized across the industry, for a fee. They needed Big incrementation in the volume of data.Data analytics in real-time. RsultatsPrsentation Moving Datas prime benefit consists of harnessing eventstype of data processed, approximate volume: and audit data and communicating insights to clients (majorFor the initial project, the type and volume of data processed Australian telco companies) as quickly and as concisely asby BIME and Big Query was 500 million radius records, possible. Dashboards with KPIs reduce the customer10,000 network probes, 120.6 million sessions, 960 device decision-cycle for further analytical actions.models.With each future project the amount of data processed isprojected to increase exponentially.Resources used: human skills, technical tools:BIME cloud BI runs in any browser, queries datasets stored inBigQuery at the speed of thought and, thanks to its powerfulcalculation engine, displays results in interactive analysisdashboards, in seconds.BIMEs BigData project manager worked in parallel with theclient on the dashboard setup and design. At Moving Data,CEO and founder Craig Morton worked on the project alongwith an in-house IT engineer. Porteur du projet Rachel Delacour - CEO Bime
  • 6. Moving Data & BIME: Harnessing the power of Google BigQueryObjectifs Innovation Prochaines tapesMoving Data improves mobile performance by ensuring the Scaling a database is hard and scaling analytical databases Roll-out of the product to a larger number of customersquality and serviceability of telephone and broadband is even harder. BIME powered by Google BigQuery offers an dealing with ever increasing volumes of data.networks in the Australian Outback. The company has analytical database as a service that scales to petabytes ofdeveloped advanced methods to collect and disseminate data. It means that Moving Data doesnt require sophisticatedalerts and statistics from mobile devices and supporting infrastructure and an operational team to analyze data. BIMEmobile networks. When dealing with millions of network- + Google BigQuery provide Moving Data with a reliable, quickgenerated events, trend analysis rather than specific alerts and infinitely scalable pay-as-you-go service to tap databecomes critical to make the right decisions fast. generated by the Internet of Things.Moving Data had two needs that only BIME could satisfy. It With Moving Data based in Australia and BIME in France, thisneeded tools to enable interactive, visual analysis of Big Data project has been undertaken across disparate time-emerging network issues. They also wanted to communicate zones. However, with everything in the cloud, execution hasinsights to their current clients via collaborative and online been fast at all stages: testing, implementation and clientdashboards, as well as promote insights to other validation, even in a Big Data context. The scalability of thetelecommunications clients with similar data, which is BIME-BigQuery combo can facilitate the regularstandardized across the industry, for a fee. They needed Big incrementation in the volume of data.Data analytics in real-time. RsultatsPrsentation Moving Datas prime benefit consists of harnessing eventstype of data processed, approximate volume: and audit data and communicating insights to clients (majorFor the initial project, the type and volume of data processed Australian telco companies) as quickly and as concisely asby BIME and Big Query was 500 million radius records, possible. Dashboards with KPIs reduce the customer10,000 network probes, 120.6 million sessions, 960 device decision-cycle for further analytical actions.models.With each future project the amount of data processed isprojected to increase exponentially.Resources used: human skills, technical tools:BIME cloud BI runs in any browser, queries datasets stored inBigQuery at the speed of thought and, thanks to its powerfulcalculation engine, displays results in interactive analysisdashboards, in seconds.BIMEs BigData project manager worked in parallel with theclient on the dashboard setup and design. At Moving Data,CEO and founder Craig Morton worked on the project alongwith an in-house IT engineer. Porteur du projet Rachel Delacour - CEO Bime
  • 7. ICANIC : Intellectual Capital AnalyticsObjectifs Innovation Prochaines tapesLobjectif est de crer un instrument de mesure de la valeur Les brevets sont jusqu prsent considrs comme ne Finalisation et lancement commercial de la V1 pour fin 2013.intrinsque des brevets, fond sur des critres objectifs et pouvant relever que dapprciation dexpert et le projet de La prochaine tape sera dtendre la capacit de notationstatistiques, qui sapplique lensemble des brevets du traiter les brevets comme des donnes quil est possible de aux brevets amricains et asiatiques.monde.. traiter statistiquement pour en tirer du sens constitue une rvolution dans cet univers.PrsentationLes volumes sont considrables puisquil sagit de traiter Rsultatslensemble des donnes sur les brevets contenues dans les La valorisation commerciale dIcanic seffectuera de troisbases des offices de proprit intellectuelle. manires : Mise en place de web-crawlers et de flux XML permettant par son utilisation par les entreprises et leurs dindustrialiser la rcupration en temps rel des interlocuteurs financiers, auxquels il donnera le moyen informations brevets dvaluer objectivement la valeur dun portefeuille de Mise en place dune architecture de stockage et dune brevets architecture de calcul / r-estimation de scores temps rel en direction des investisseurs financiers par la cration en environnement Big Data dindices boursiers de type CAC 40 qui permettront Analyse de type text-mining sur les textes de brevets didentifier la performance des entreprises inventives et permettant de crer des donnes qualifiantes structures de diriger lpargne vers elles. partir de donnes non structures Lintgration des notes dans les analyses vendues par Croisement des donnes qualifiantes du brevet avec les des agences de notation sociale. Lanalyse de la capacit donnes administratives et de citations. dinnovation des entreprises est un complment naturel Mise en place de modles statistiques de dure de vie, aux analyses existantes de ces agences, telles que permettant destimer la dure de vie rsiduelle dun Vigeo. brevet en fonction de ses caractristiques intrinsques Dveloppement de web services de restitution des Le schma suivant rsume la valorisation escompte de donnes (en cours) loutil : Porteur du projet Patrick Terroir Directeur Gnral Dlgu CDC Propritintellectuelle Partenaires Bluestone est notre partenaire pour les travaux de modlisation statistique. Arnaud Laroche est notre directeur de mission depuis 2010. Fourniture des donnes et hbergement : Questel Expertise sur la vie des brevets : Marks&Clerk France
  • 8. Cedexis RadarObjectif du projet Aspects Novateurs Etapes venir et dmarche Big Data dans lentrepriseLobjectif de Cedexis Radar est de comparer de faon neutre Cedexis Radar ne ralise pas ses mesures depuis quelques Cedexis envisage de collecter et dutiliser toujours plus deet objective la qualit de service des fournisseurs de services points dtermins (et un unique rseau) dans le monde. Le donnes pour optimiser laiguillage de trafic vers le meilleurdhbergement et de diffusion de contenus (CDN, Clouds) systme de mesure repose sur la collecte de donnes diffuseur/hbergeur de contenus. Cest le cas avec Cedexispour aiguiller les utlisateurs finaux vers le meilleur prestataire (techniques) issues des vrais utilisateurs qui excutent la Fusion qui permet daiguiller le trafic en fonction deet amliorer la performance dun service en ligne. sonde Cedexis Radar lorsquils consultent les sites dditeurs nombreuses variables personnalises telles que lnergie intgrant celle-ci. Chaque jour, Cedexis collecte, traite et utilise par linfrastructure, la charge des serveurs (et/ou desPrsentation utilise en temps-rel prs dun milliard de mesures issues des mtriques lies ces serveurs comme lusage de mmoireAucun prestataire (hbergeur, CDN, Cloud) nest performant utilisateurs finaux rpartis dans 230 pays et 34 000 rseaux RAM, ltat des disques durs, etc), le cot des prestataires etpartout, tout le temps et pour tous les utilisateurs finaux. Ces daccs (FAI, entreprises). bien plus encore... toujours dans lobjectif danticiper ouvariations sont lies de multiples facteurs provenant - par contourner une ventuelle dfaillance de leur infrastructureexemple - de la distance entre lutilisateur final et le serveur Valorisation observe de la donne pour amliorer la performance des applicatifs hbergs etdorigine, de la latence, du chemin daccs aux serveurs du Autrefois, les donnes de monitoring dinfrastructures diffusion de contenus Internet.prestataire ou la saturation/dgradation momentane de ntaient utilises que de faon passive, cest--dire aprssegments du rseau public. analyse longue. Cedexis a voulu rendre actives ces donnes : Les mesures de Cedexis Radar servent ainsi Les donnes collectes par Cedexis Radar permettent de prendre une dcision automatise (en temps rel) dusagelever le voile sur la vritable qualit de services des dun prestataire pour amliorer la performance et laprestataires. Elles sont utilises par laiguilleur de trafic DNS disponibilit des services en ligne pour chaque utilisateur Cedexis OpenMix pour diriger le trafic vers le meilleur travers le monde, quelque soit son terminal et son rseauprestataire et ceci, en prenant en compte les donnes de daccs.Radar et/ou les critres dfinis par lditeur de contenus(performance, gographie, cots, capacit technique / bandepassante, engagements contractuels...).Les diteurs ont ainsi lassurance que chaque utilisateur deses services pourra visualiser ses contenus ou utiliser sesservices de faon optimale. porteur de projet et noms des partenaires Socit : Cedexis Service : Cedexis Radar
  • 9. Distributed e-commerce : bringing online shops to high-traffic content websitesObjectifs Innovation Prochaines tapesAmener des magasins en ligne directement dans des sites de Cette application ouvre les portes dun nouveau march : Notre rseau de partenaires stend tous les mois, aussi biencontenu lchange de donnes qualifies et smantises entre le en termes de magasins en ligne que dditeurs. monde du contenu et de lachat, qui jusquici ne se parlaientPrsentation que par bannires agressives interposes. A linverse, nous Informations supplmentairesNous crons un lien entre le monde du contenu et de lachat, tchons de reproduire un maximum de lexprience utilisateur http://corporate.chefjerome.comen dveloppant une gamme dinterfaces qui permettent dun magasin, directement dans la page dorigine. [email protected] des magasins en ligne directement dans des sites L o la plupart des usages BigData se contentent dede contenu, dans des formats reprenant les codes de la chercher de vagues corrlations dans des volumes depublicit en ligne classique. donnes importantes, loriginalit de notre approche est deGrce une analyse smantique, nous affichons au sein de privilgier une comprhension profonde et smantique decette interface des produits parfaitement qualifis, afin de donnes complexes et intriques.permettre un utilisateur de commencer ou de complter unpanier sans mme quitter la page. RsultatsNous avons lanc en Dcembre 2012 dans le domaine de Nos interfaces sont non-intrusives, parfaitement qualifies etlalimentaire, en apportant des supermarchs en ligne apportent un service supplmentaire la page qui les(CasinoExpress, CasinoDrive, MesCoursesCasino, Mon- hberge, ce qui nous permet datteindre des taux de clicsMarch) dans des sites culinaires (lAtelierDesChefs, Cvous, absolument stupfiants, signe dun nouveau vecteurblogs, forums) dacquisition de clients et de montisation du contenu. Porteur du projet Jerome SAS Partenaires Groupe SEB Franois-Xavier Meyer Groupe CASINO Patrick Garrel
  • 10. CLIRIS, plate-forme de pilotage des points de vente par lanalyse des flux shoppersObjectifs Innovation Prochaines tapesDlivrer aux Retailers des indicateurs-cls de performance Accs de nouveaux leviers de pilotage de leur rseau, Nouveaux modules :indits et dvelopper ainsi de nouveaux leviers doptimisation auparavant inexploits : cartographie des mesures de performancedes ventes grce lanalyse du comportement des attractivit des vitrines, des points de vente gestion de la planification des ressources RH duneshoppers . adquation des quipes de vente au flux client, boutique optimisation du plan merchandising et circulation des module prdictifPrsentation clients au sein des boutiques, module de simulation de lactivit dun rseau et duneConception et mis en uvre dune plateforme danalyse de optimisation du calendrier des oprations commerciales boutiquedonnes Big Data. impact des oprations commercialesCliris reoit chaque jour un volume de donnes exceptionneldepuis les box en points de vente et les SI clients. Ce flux de Rsultatsdonnes asynchrone est intgr de faon priodique, avec Fiabilit des donnesune actualisation chaque minute possible. Les informations Prise en compte et exploitation en temps relsont consolides, croises et structures avant dtre Restitution dindicateurs de pilotage indits etrestitues sur notre portail de reporting permettant une personnalisssupervision de la performance des points de vente et lditionde tableaux de bord. Porteur du projet Anne Steinberg Directeur Marketing
  • 11. ELLICIBLEObjectifs Innovation Prochaines tapesPour rpondre aux volutions technologiques et la Ellicible sappuie sur une technologie europenne novatrice Rel projet dentreprise associant tant la direction gnraledemande du realtime marketing o linformation produite et apporte la commodit du search grand public au poste que les experts mtier et les marketeurs, lobjectif denest plus segmente en silos fonctionnels mais selon les de travail du professionnel en marketing direct. Dans les www.ellicible.fr est de crer avec cette technologie innovanteusages de la cible, Coface Services a entrepris la refonte de slections, elle rend la donne accessible immdiatement et unique sur son march de nouvelles opportunits deson offre Solutions Data . Lance le 20 mars 2013, limine les temps de latence dans laffichage des rsultats. dveloppement en Solutions Data .www.ellicible.fr est une plateforme marketing direct big Exprim dune autre manire, lapplication utilisant le moteur Dans les tapes venir pour accompagner les besoinsdata en temps rel et haut dbit. Sa vocation est de cibler, de ParStream ralise grande chelle un facetted search utilisateurs, sera associe cet outil une politiquetrier, ventiler, explorer, segmenter, surveiller et extraire des sur plus dune centaine de dimensions en temps rel. dintgration de donnes complmentaires avec la possibilitpopulations dentreprises dans un espace multidimensionnel Loutil associe cette technique novatrice une politique de recherche textuelle.de plusieurs dizaines de milliards de donnes. dintgration de nouvelles sources partenaires visant des donnes riches et volumineuses tant nationales ouPrsentation internationales que mtiers.Ellicible intgre le moteur big data analytics de ParStream La combinaison technique et donnes permet deGmbH. Elle transforme le concept de ciblage et comptage rpondre aux nouveaux usages et demandes de nos clients haut dbit temps rel en ralit oprationnelle sur des la recherche de performances permettant de cibler le plusdonnes volumineuses. juste et le plus rapidement possible leurs clients potentiels.Ce moteur repose sur une approche innovante dindexcompresss trs hautes performances couple un Rsultatstraitement parallle de requtes. Cette mcanique permet Ellicible permet de traiter des milliers de requtes trs fortelaccs aux donnes haut dbit et trs faible latence. volumtrie dinformations (milliards de donnes) en tempsCest ainsi que sous une faible empreinte nergtique et rel (millisecondes). Lutilisateur, travers la combinaison dematrielle des milliers de requtes sont traites sur de trs multiples critres, compte de manire instantane desfortes volumtries dinformations (milliards de donnes) en potentiels au fur et mesure de llaboration de ces stratgiestemps rel (millisecondes). et identifie des entreprises. Le rle dEllicible est deAvec cette technologie novatrice associe ses solutions construire des groupes homognes pour mettre en place desmtiers, Coface Services a su surmonter les problmatiques oprations de marketing direct diffrencies en fonction detechniques traditionnelles des bases de donnes. Ellicible segments identifis.saffranchit de lUX essai-erreur et de la gestion destches complexes et asynchrones tout en maintenant unetrs forte ractivit data avec de faibles ressources.Ces performances compares aux technologiestraditionnelles, ou mme avec NoSql, bouleversent lesusages de la profession du marketing direct habitue des Porteur du projettemps de calcul et daffichage importants avant davoir le Bernard Simon Responsable Marketing Data Solutionsrsultat dun ciblage. COFACE SERVICES Partenaires Partream GMBH : Peter Livaudais, Sr. Director Solutions
  • 12. Tableau de bord des TerritoiresObjectifs Innovation Prochaines tapesProposer aux utilisateurs une base de donnes toujours Linnovation du projet tient (i) la mise disposition de Data Publica est dveloppeur de jeux de donnes , cest-jour de lensemble des donnes de description lensemble des donnes structure selon la dimension -dire quil produit des jeux de donnes pour ses clients.(dmographiques, conomiques, immobilier, activit, mobilit, gographique, (ii) la mise jour automatique et permanente Pour cette production, Data Publica identifie les sources,) des territoires (bassin demplois, communes, ) et (iii) la disponibilit en ligne customise au besoin du client, extrait les donnes brutes des sources, transforme les en terme de gographie et de dimensions de contenu. donnes brutes en donnes structures et livre ses donnes,Prsentation sous forme de flux ou de visualisation. Ces jeux de donnesLes donnes sont issues de toutes les sources publiques sont produits sur mesure (le client spcifie ses besoins etaccessibles en ligne et susceptibles de contribuer au portrait Data Publica produit le jeu de donnes suivant sesdes territoires. spcifications) ou sur tagre (Data Publica dfinit et produit le jeu de donnes aprs une analyse des besoins duLe volume est dabord dimensionn par le nombre de march). Les jeux de donnes sont livrs en DaaS (Data as aterritoires, de lordre de 37.000, et quelques dizaines/ Service) et facturs sous forme dabonnement (un jeu decentaines de donnes par territoire. Ces donnes sont donnes est un objet vivant mis jour en permanence).chacune rafrachies une ou plusieurs fois par an, ce qui faitde la mise jour automatique une difficult significative duprojet.Ce projet est dploy, les donnes tant dores et djaccessibles pour les clients de Data Publica. Porteur du projet Franois Bancilhon PDG DATA PUBLICA Partenaires F. Laine, PDG CetaData
  • 13. Domirama, un outil dexploration des historiques de comptes au service de nos clientsObjectifs Innovation Prochaines tapesLobjectif de ce projet est la cration dun outil permettant Laspect le plus novateur est de redonner la matrise de leurs Les volutions visant enrichir les oprations denos socitaires et clients deffectuer des recherches sur oprations nos socitaires et clients, et ce sur une mtadonnes seront sources de cration de valeurlhistorique des oprations ralises sur leurs comptes profondeur dhistorique sans quivalent puisque nos supplmentaire.bancaires et denrichir ces historiques par des mtadonnes concurrents se limitent gnralement dans le meilleur despersonnalises. cas 12 mois dhistorique. Informations supplmentaires Ce projet sinscrit dans une dmarche Big Data plus largePrsentation Rsultats visant valoriser le patrimoine donnes du groupe CrditLes donnes manipules dans le cadre de ce projet sont La possibilit deffectuer des recherches en temps rel sur Mutuel Arka.constitues de lensemble des mouvements bancaires de nos lhistorique de leurs oprations permet nos clientsclients depuis mai 2001. La date retenue correspond au dapprhender la gestion de leurs finances dans dexcellentes Ce projet a t ralis par des quipes internes du Crditmoment o les oprations en francs ne reprsentaient plus conditions. Mutuel Arka, garantissant au groupe lexclusivit de laquune part infime du flux, et ce afin dviter davoir grer matrise des technologies mises en uvre, gage davantageune approche multi-devises. concurrentiel durable.Ce projet est lun des premiers sappuyant sur la plate-formeBig Data base sur Hadoop mise en place ds 2009 auCrdit Mutuel Arka. Il est issu dun travail conjoint entre lesquipes en charge du primtre banque distance pour lesaspects restitution, les quipes des diffrents mtiers(comptes vue, livrets, cartes, SEPA) pour la fourniture desdonnes, et lquipe Big Data/Hadoop pour la mise au pointdu moteur de recherche.Les donnes sont stockes dans HBase, permettant unaccs en temps-rel celles-ci. Le moteur de recherche estoptimis pour nindexer les oprations qu la demande,offrant ainsi des performances leves. Une recherchecomplexe sur prs de 12 annes dhistorique seffectue dans90% des cas en moins de 500ms.Ce service est en production depuis fin 2011 pour nossocitaires et clients des fdrations du Crdit Mutuel deBretagne, du Sud-Ouest et du Massif-Central, de Fortunoainsi que de la Banque Prive Europenne. Porteur du projet Matthias Herberts Engineer CREDIT MUTUEL ARKEA
  • 14. BIG DATA GETS PERSONALObjectifs Innovation Prochaines tapes Rcompenser les clients les plus fidles de lenseigne En relation avec les marques nous constituons au fil de La personnalisation des offres a permis de doubler le taux de avec des offres personnalises lanne une banque de coupons. Pendant la phase de retour des coupons par rapport des coupons non Crer une occasion supplmentaire de venir en magasin prparation du mailing, nous entrons les offres disponibles personnaliss. Exploiter et valoriser lintgralit des donnes de dans un outil propre dunnhumby. Lalgorithme dallocation transactions intgr cet outil a t dvelopp grce lexprience Tesco Ce premier mailing personnalis a t envoy partir de Amliorer le retour sur investissement du programme de en Angleterre et Kroger aux Etats Unis. Il permet parmi des fvrier 2012. Au fur et mesure que les mailings ont t reus Fidlit millions de possibilits de slectionner la combinaison par les clients et analyss en terme de performance, le doffres la plus pertinente pour chaque client en regard de ciblage des clients a t optimis pour privilgier les clientsPrsentation son comportement dachat. Le niveau de rcompense des les plus apptant ce type doffre. Ceci a galement permisNous avons cr avec Monoprix un rendez-vous mensuel offres peut lui aussi tre personnalis selon sa fidlit de dvelopper des supports pour les clients sensibles ddi aux clients les plus Fidles pour les rcompenser avec lenseigne. dautres canaux de communication tels que les emails et lesdes offres personnalises sur leurs marques et rayons coupons caisse. Nous pouvons ainsi optimiser chaque pointprfrs. Lexploitation des big data nous permet de Rsultats de contact avec le client.personnaliser un mailing intgrant 8 coupons envoy Plus de 33 millions de transactions des clients les plusenviron 600 000 clients par mois. Fidles Monoprix sur tous les formats (y compris le site Informations supplmentaires marchand) ont t analyses, reprsentant environ 350 Lquipe ddie chez dunnhumby est compose de : millions articles achets. 1 Project Manager pour adapter loutil Media Centre pour Cet outil dallocation doffres et de contenus au niveau client la base de donnes Monoprix permet une vritable personnalisation de la communication. Il 1 Data Manager est capable de traiter cette norme quantit de donnes : en 1 Analyste pour slectionner les clients ligibles pour les moins dune heure les offres sont alloues parmi les milliers offres proposs de possibilits. 1 Campaign Manager pour organiser et coordonner la Plus de 80% des clients cibls reoit une version unique de mise en place du ciblage ce mailing Chez Monoprix le projet tait men par lquipe Fidlit avec deux personnes ddies la mise en place oprationnelle. La conception et cration du mailing tait men par lagence Rosa Parks. Porteur du projet Hannah Whittall Directrice Coms & Media DUNNHUMBY France Partenaires Monoprix Stphanie Guillonneau Directrice Fidlit
  • 15. ECO2DATAObjectifs Innovation Prochaines tapesRpondre aux impratifs daccs linformation dans un eCO2data est ce jour la plus grande base de donnes sur Nous travaillons actuellement sur 2 axes :march rglement en croissance et dcentralis. Permettre le march du carbone. Elle innove dans la mesure ou les Extension de la plateforme au domaine de la foret. Laaux acteurs du march de la finance environnementale donnes sont rcupres systmatiquement et ce en temps foret est le poumon de notre plante car elle stockedavoir accs un niveau de transparence et de traabilit du rel l ou nos concurrent reposent essentiellement sur un naturellement le CO2. Des projets dinvestissements deniveau dun march mature alors que le march est encore traitement manuel des donnes. Cet aspect de la plateforme taille massive sont pour linstant bloqus car il nexistetrs jeune. nous permet de proposer des services indits comme celui pas ce jour doutil de suivi dun investissement forestier des eCO2data alerts qui permettent nos clients de grande chelle sous lgide des normes internationalesPrsentation recevoir des alertes emails ds quun de leur portefeuille de lONU. Nous sommes associs une entrepriseLe but du projet est de construire un tableau de bord temps environnemental connait un changement. franco-allemande du secteur de la dfense et quirel qui centralise toutes les informations relatives aux projets possde un rseau satellitaire de premier plan pourde rduction de gaz effet de serres qui gnrent des crdits Rsultats connecter les donnes satelitaires notre outil etcarbones. Ces projets sont jusquici la meilleure arme mis en Lune des principales valorisation de la donne est le fait de proposer eCO2data Forest afin de combattre laplace au niveau international contre la menace du travailler sur les donnes non structures pour recontruire problmatique de la deforrestation et plus gnralementrchauffement climatique et constituent ce titre un enjeu la vole le portefeuille de nimporte quel acteur du march. de la conservation de la foret.dcisif. Ces projets sont rpartis travers le monde et Ainsi BNP , BNP Aribitrage , Banque Nationale de Nouvelle plateforme sur le march du Gas Naturelobtiennent chaque jour 1 crdit pour chaque tonne de CO2 Paris ou encore BNP, SA sont automatiquement Liqufi (LNG). Nous appliquons actuellement notreconomise. Un projet prend de 18 36 mois se aggrg en un seul participant et permet nos clients technologie propritaire au march du LNG qui connaitconcrtiser. Il est soutenu par un conglomrat trs vaste daccder un niveau de transparence ingal jusquici. une croissance rapide et pour lequel il existe les mmesdacteurs privs et publics et est valu par des organismes problmatiques de suivi de lactivit du march et deexternes tout au long de sa vie qui peut durer plus de 20 ans. monitoring des acteurs que sur nos prcdentes ralisations. En dtournant lusage initial des balises de positionnement AIS contenues dans chaque navire on cr une carte interactive et temps rel de lacheminement des volumes de LNG actuellement en transit travers le monde. Porteur du projet Franois Cazor Prsident Kpler SAS
  • 16. Artmis : De la logique du service public la logique de rendre le service au public Objectifs Innovation Rsultats campagnes multicanaux sur mesure : rendre le service au La solution propose couvre lensemble du protocole Pour lanne 2013 les perspectives sur la big data sontpublic dcisionnel de traitement de la donne avec trois briques nombreuses :Pour cela, gnrer des campagnes multicanaux qui ont pour fonctionnelles : Industrialisation de lapplication destine laide laobjectifs : Brique 1 : Collecter : cette brique est au cur de la dcision, De cibler : le ciblage est le facteur cls de succs dune donne, lobjectif est simple, une donne active, propre et Intgration des donnes clients complmentaires, campagne de communication russie : quel client ? Sur juste. Pour cela : auditer, redresser, enrichir et fiabiliser. Intgration dune couche de donnes relatives aux quel sujet ? Avec quel discours ? Avec quel canal de Brique 2 : Comprendre pour mieux cibler : avec un outil potentiels de marchs : par communes et par Iris. contact (Tlphone, SMS, Email) ? daide la dcision sur lanalyse de la performance Enrichissement des tableaux de bord : part de march De fidliser : En identifiant les bons clients et en les commerciale construit sur le principe du go- modale, taux de pntration mobilit, identification des remerciant (Opration de parrainage). En identifiant les rfrencement de lindividu : 1 point = 1 client. zones potentielles de dveloppement. clients en phase dabandon (Relance commerciale et Brique 3 : Agir : par des campagnes multicanaux cibles analyse des causes). pour fidliser les clients. Prospecter : Changer vos De prospecter : Avec une meilleure connaissance de habitudes de mobilit au moins une fois dans lanne , client, il est plus facile de crer le profil type et de avec une meilleure connaissance client, la recherche des rechercher les jumeaux (Bases de donnes scores : Par jumeaux par le scoring des donnes est plus efficace. zone gographique, donnes sociologiques et donnes comportementales). Dinformer en mode sur mesure : En fonction de la nature des perturbations (Exemple : Travaux), des zones gographiques impactes et des statuts des clients (Exemple : Personnes mobilit rduite). De crer du ROI sur les campagnes : LEmailing permet le dploiement dune stratgie de tracking avec : taux douverture, liste des ouvreurs et taux de rebond. Porteur du projet Daniel Aubaret Directeur Marketing EFFIA SYNERGIES
  • 17. BRAND IMAGE & BIG DATA : COMMENT VALORISER LA DONNEE ISSUE DES RESEAUX SOCIAUX POUR NOURRIR LA STRATEGIE DE MARQUEObjectifs Innovation Prochaines tapesComprendre et valoriser la donne issue des plateformes des Approche en rupture avec les approches classiques de Dploiement dune offre complte destination desrseaux sociaux pour : valorisation de la donne (type CRM), pour lesquelles les annonceurs.1- Monitorer et mesurer en temps rel le ROI/ROE de ses cots dentre sont forts (notamment en outil & systme) Partenariat avec agences de communication sur laactions de communication pour valorisation terme souvent limite et en silo de la couverture vnementielle.2- Comprendre les mcanismes de viralit et identifier les donne (CRM & stratgie relationnelle / marketing / Couverture dvnement mondiaux dans une logique de PRleaders dopinion communication). (worldcup 2014 / fashion weeks / olympic games).3- Saisir les tendances, et identifier des territoires de marque Ici lapproche est smart , donc cost-effective, et permet de4- Dtecter les ambassadeurs des marques de demain faon simple et immdiate de tracker, mesurer, piloter des5- Comprendre les proximits de produits et de marques donnes individuelles publiques pour des usages marketingdans une perspective de cross-sell / faciliter les logiques de multiples et immdiats (cf. objectifs du projet).partenariat entre marques (via du maching learning). Alors que le tracking de donnes issues des rseaux sociaux6- Enrichissement des bases de donnes clients des sest beaucoup dvelopp ces dernires annes, notreannonceurs partir de donnes publiques issues des valeur-ajoute rside non pas dans la barrire technologiquerseaux sociaux ncessaire leur rcupration, mais surtout dans leur valorisation oriente usages .Prsentation La dmarche consiste en la rcupration en temps rel Rsultats de lensemble des donnes issues des plateformes de Au-del de simples tableaux de reporting, nous valorisons la rseaux sociaux (Twitter / Facebook / Instagram / donne par le dploiement de modles statistiques ad-hoc et Pinterest, Youtube, Tumblr) reli un vnement ou complexes (ce qui constitue vritablement le coeur de mtier sujet dintrt. Puis analyser cette donne pour la de notre entreprise). valoriser, et multiplier ses usages, pour nourrir la stratgie Notamment, utilisation de techniques telles que: marketing, et plus spcifiquement la stratgie de marque. Rseaux de neurones & modles baysiens : outil de La volumtrie reste assez limite, mais ncessite recommandation. nanmoins lusage de technologies big data notamment Analyse de donnes: segmentation / scoring oriente en ce qui concerne la collecte et le traitement de flux de connaissance client donnes en temps rel (Node.j, Base de donnes Sries temporelles : impact & ROI des actions de NoSQL, Map Reduce). communication Les ressources mises disposition : 2 hommes temps Analyses smantiques plein pendant 4 mois Le dploiement sest fait sur 1 an et demi, dans une dmarche test & learn aprs une premire implmentation russie lors des jeux olympiques de Londres, puis lors de la couverture systmatique dvnement mondiaux, en dployant chaque fois de nouveaux usages et de nouvelles dmarches analytiques. Porteur du projet Quentin Michard Directeur Gnral Ekimetrics SAS
  • 18. Roland-Garros SlamTrackerObjectifs Innovation Prochaines tapesLe Roland-Garros SlamTracker dvelopp par IBM permet de Laspect innovant de ce projet consiste mettre la La dmarche Big data continue la FFT. Au del de lanalysefournir aux fans de tennis une information complte et disposition des joueurs mais galement des spectateurs une prdictive utilise dans le SlamTracker dans le contexte desprcise sur le droulement des matchs Roland-Garros, solution habituellement dveloppe pour aider les entreprises matchs, des analyses des mdias sociaux sont conduitesavec notamment lutilisation de lanalyse prdictive pour mieux prvoir leurs ventes, les niveaux de stocks durant la dure du turnoi pour tudier les flux dintrt qui fontdterminer les cls du match : 3 critres dfinis en dbut de ncessaires, lefficacit des campagnes de promotion. lumire au cours du tournoi, tant au niveau des joueurs,match, sur la base des donnes compltes des tournois du quau niveau de lenvironnement et de lorganisation duGrand Chelem. Rsultats tournoi. Avec le Slamtracker, les donnes prennent vie Prsentation les cls du match permettent dutiliser de faon Informations SupplmentairesAvec plus de 41 millions de points collects lors des 8 intelligente tous les scores passs et de leur donner un Lanalyse prdictive applique Roland-Garros a permisdernires annes de Grand Chelem, la Fdration Franaise sens pour mieux anticiper le match qui va se jouer et dutiliser de nombreuses informations des matchs passsde Tennis et IBM disposent dun historique colossal sur les comprendre les points forts de chaque adversaire pour dterminer des styles de joueurs et mieux analyser lesscores dtaills des matchs. Et les joueurs de tennis se la courbe de dynamique donnent une vision temps rel comportements. Les critres sont classs par type :rencontrent frquemment lors des tournois, ils ont dj jou de lascendant des joueurs, avec visualisation graphique - offensifsles uns contre les autres. Lanalyse pousse de leurs scores de chaque type de point en fonction du temps - dfensifsa permis de montrer que chacun a un comportement assez les statistiques mises jour en temps rel permettent de - enduranceprvisible et un style de jeu, en fonction de son adversaire. mieux comprendre les lments cls du match en - styleCes scores, coupls avec la solution danalyse prdictive comparant les adversaires. Loutil est sans cesse affin pour devenir plus pertinent. OnIBM Smarter Analytics (SPSS Modeler) permettent de dfinir voit que si un joueur atteint ses 3 cls et lautre aucune cl,les critres cls que chaque joueur doit atteindre pour dans 98% des cas, le gagnant est celui qui a atteint ses 3maximiser ses chances de gagner. Le systme va choisir les cls. Des statistiques assez pousses existent maintenant3 critres les plus pertinents par joueur parmi une sur la fiabilit du modle.cinquantaine de possibilits. Chaque joueur naura pas La finale Nadal-Djokovic de Roland-Garros 2012 est assezforcment les mmes critres que son adversaire. parlante car Nadal a gagn, en atteignant ses cls moins de 1% prs ! Djokovic na atteint quune seule cl mais ntaitLe projet a t test lors de ldition 2011 de Roland-Garros pas si loin des 2 autres.puis lanc Wimbledon, utilis lUS Open et pendantlAustralian Open. Lors de lannonce officielle pour ldition2012 de Roland-Garros, la FFT a donc bnfici dunesolution dj bien teste et prouve sur les autres tournois.Les cls du Match sont mis disposition des joueurs et deleurs quipes mais galement depuis 2012 sur le site webpublic de Roland Garros afin de permettre chaque Porteur du projetspectateur denrichir son exprience du match en bnficiant Alex Loth DSI Roland-Garros Fdration Franaise dedes informations supplmentaires mises sa disposition, et Tennisen permettant de suivre leur volution au cours du match, parune mise jour en temps rel des indicateurs. Partenaires IBM France Claire Herrenschmidt
  • 19. Search AnalyticsObjectifs du projet : Innovation Prochaines tapesAmliorer la pertinence du moteur de recherche de Lexploitation des donnes de webanalyse permet Le modle de prdiction et la mthodologie labors pourPagesJaunes. PagesJaunes damliorer en continu, de faon automatique cette mission sont en cours dinternalisation et dintgration et collaborative (donc moindre cot) la pertinence de son dans les process mtiers.Prsentation du projet : moteur. Les applications potentiellement drives de cette missionLa catgorisation des requtes est cruciale pour la pertinence sont multiples. Larchitecture mise en place permet pardes rsultats affichs par PagesJaunes. Si un visiteur tape exemple denvisager une personnalisation des rsultats, uneacacias, Toulouse , on peut penser quil veut acheter des Rsultats volution du systme de montisation de PagesJaunesacacias. Cela signifie quon catgorise acacias en objet La prcision du ciblage des requtes mal catgorises a (fonde sur le taux de clic, etc) ou encore la prise en compte( Quoi ? ). Et si lutilisateur cherchait en fait ladresse dun augment dun facteur 10. de nouveaux critres pour le classement des blocs-rponses.restaurant appel Les Acacias Toulouse ? Il fautcomprendre Les Acacias comme le nom dune entreprise( Qui ? ). Dans un cas, la rponse attendue est une liste de Informations supplmentairesppinires, dans lautre, ladresse dun restaurant bien Cette mission constitue un excellent exemple de ce queidentifi. lAnalytics peut apporter aux organisations, condition dyLa correction des requtes mal catgorises est un enjeu construire la bonne architecture de donnes, ce qui permetmajeur pour lannuaire, et pour les professionnels rpertoris, de dvelopper ensuite des applications adaptes pourpuisque 74 % des recherches effectues sur PagesJaunes.fr amliorer la performance.aboutissent un contact professionnel physique.La mission de fifty-five tait dexploiter les donnes dewebanalyse de PagesJaunes pour tablir un modle deprdiction permettant dautomatiser la dtection de requtesmal catgorises.Sappuyant sur lanalyse de 3 terabytes de logs dewebanalyse et des dernires technologies de big data et demachine learning, lquipe de fifty-five, composedingnieurs, de data scientists et de spcialistes dedatavisualisation, a amlior dun facteur 10 le ciblage descatgories mal catgorises.La mission sest droule en 3 tapes : collecte, traitement,puis visualisation de la donne.Aprs la mise en place dun Data Management Platform(DMP) pour structurer la donne, fifty-five a labor unmodle de machine learning calculant un score de prdiction.Lquipe a ensuite cr une interface interactive ddie pourrendre lisible lintelligence extraite de lanalyse des donnes. Porteur du projet Lan Anh VU HONG Responsable Marketing - 55 SAS
  • 20. Focusmatic : Accurate Digital ReachObjectifs Innovation Prochaines tapesFocusmatic propose plusieurs applications du Big Data au Notre projet est novateur car il aide des oprationnels en Lentreprise toute entire est tourne vers le BigData. A datemarketing digital pour le rendre oprationnel , cest--dire extrayant de la valeur mtier des donnes sociales. Cela est nous avons des fonctionnalits analytiques sur notre outil,utilisable par le mtier. Un de nos exemples est la mesure de possible car il y a trois innovations technologiques : capable de grer la big data. Nous travaillons continuer limpact dinvestissements mdias de type co-branding ou la 1. business intelligence sur des Big Data amliorer les capacits danalyses smantiques, notammentpriorisation dune liste longue de partenaires potentiels. 2. calculs orients mtier : calcul daudience par exemple en travaillant sur la clusterisation et le maintient temps rel (nombre de personnes ayant vus) au lieu dun reporting des clusters de messages. Cela permet de rpondre laPrsentation du nombre de messages. Tous nayant pas le mme question : De quels sujets parle-t-on ? .Notre projet consiste collecter les donnes pertinentes sur impactle web et les rseaux sociaux pour nos clients. Nous 3. le tout en temps rel pour apporter des rponses auorganisons cela par univers logique dcoute comme par moment o les questions sont posesexemple une marque et ses concurrents ou encore desusages. RsultatsNous collectons chiffres, textes, images et vidos sur les Nous aidons nos clients isoler les donnes qui sont utiles principales plateformes de rseaux sociaux, les blogs, etc. leur question business et de les traiter instantanment. LesSelon les projets nous rcoltons typiquement de 50,000 donnes servent prendre des dcisions, typiquement1,000,000 de messages par jour et conservons toute dinvestissement de co-marketing ou de focalisation deslhistorique pour le client. Cela monte rapidement des efforts commerciaux.volumes trs levs. On est typiquement en big data car lesvolumes traiter comprennent aussi lhistorique, les flux sonttrs variables et les donnes htrognes. Dans le casdune de nos plateforme, celle qui absorbe parfois jusqu1,000,000 de messages par jour, il y a un pic 20h le soircouvrant en gnral la moiti du volume de la journe.Ce genre de projet passe par une phase de comprhensionde besoin du client et un travail pour paramtrer notreplateforme gnrique au client. Ce travail qui est plusbusiness que technique prend une deux semaines.Le projet commence ensuite mais la performance du systmeest amliore en continue car lanalyse smantique sappuienotamment sur des algorithmes de machine learning quiprennent compte des rsultats passs valids ou infirmspour mieux prdire le futur. Cela sapplique notamment cequi est analyse smantique (sentiment, motions, etc.) Porteur du projet Malekzadeh Amirhossein Prsident Focusmatic
  • 21. Gamned Le Big Data au service de lAdvertising IntelligenceObjectifs Innovation Informations supplmentairesAjouter de la Data Intelligence pour le RTB (Real Time Gamned innove dans le domaine du RTB par lutilisation du Dans le cadre du rachat de Gamned par LeadMedia,Bidding) pour mieux cibler et acheter des espaces Big Data dont les technologies ont t prouves et valides linfrastructure Big Data de Gamned va tre gnralise pourpublicitaires en temps rel et mieux personnaliser laffichage dans dautres domaines tels que les secteurs tous les domaines ncessitant stockage et/ou calcul enpublicitaire pour les Internautes pharmaceutiques, industriels et aronautiques. masse. Les comptences mtier de fouille de donnes dj prsente chez Gamned et LeadMedia vont aussi treAjouter de la valeur sur le reporting, pour le Media Traders en Ces technologies font maintenant partie du cur fusionnes pour rpondre plus largement aux besoins desinterne, et pour nos clients qui doivent avoir accs des technologique de Gamned. clients.informations disponibles en temps rel pour optimiser lescampagnes publicitaires, avec une bonne profondeur et un Rsultatsbon historique. En rsum : nous stockons plusieurs milliards dimpressions nouvellesPrsentation par mois,Pour stocker, grer et analyser une trs grosse quantit de nous en extrayons, en temps-rel ou en diffr, desdonnes, nous avons mis en place une infrastructure Big partitionnements et des indicateurs pour :Data base sur Hadoop, Hive, HBase. Cette infrastructure personnaliser laffichage par Internaute,est flexible pour le stockage, extensible et nous donne une crer un reporting solide pour nos clie