big data

31
Big Data 1

Upload: sameh-mbm

Post on 15-Apr-2017

96 views

Category:

Internet


0 download

TRANSCRIPT

Page 1: Big data

Big Data

1

Page 2: Big data

Plan Problématique

Définition du Big Data

Big Data et 3V Data wahrehouse VS Big Data

Domaines d’utilisations Les techniques de traitement

ConclusionBig Data et Aspect Mobile

2

Page 3: Big data

Rappel• 1 kilo-octet (ko) = 1 024 octets 210 • 1 mégaoctet (Mo) = 1 024 ko = 1 048 576 octets 220

• 1 gigaoctet (Go) = 1 024 Mo = 1,073 milliard d'octets 230

• 1 téraoctet (To) = 1 024 Go = 1 099,512 milliards d'octets 240

• 1 pétatoctet (Po) = 1 024 To = 1 259 000 milliards d'octets 250

• 1 exaoctet (Eo) = 1 024 Po = 1,15 milliard de milliards d'octets 260

• 1 zettaoctet (Zo) = 1 024 Eo = 1 180 milliards de milliards d'octets 270

• 1 yottaoctet (Yo) = 1 024 Zo = 1,208 million de milliards de milliards d'octets 280 3

Page 4: Big data

Problématique• 1.8 Zettaoctets ont été produits en 2011 (l’équivalent d’un milliard de disque durs de grande capacité récents, un chiffre qui continue à augmenter de 50% chaque année)• 2,5 trillions d’octets de données généré chaque jour• 90% des données dans le monde ont été créées au cours des deux

dernières années seulement.(Ces données proviennent de partout : de capteurs utilisés pour collecter les informations climatiques, des messages sur les sites de médias sociaux, d'images numériques et de vidéos publiées en ligne, d'enregistrements transactionnels d'achats en ligne et de signaux GPS de téléphones mobiles…)

4

Page 5: Big data

…de données stockées en 2011 (*)1,8 Zo

Bases de données

Capteurs

Puces Internet

Réseaux sociaux

Appareilsnumériques Moyens de paiement

Ordinateurs

RFID

Mobilité

…de données générées sur internet en 2010

800 Md Go

Videos

…de croissance des données Sur la seule année 2012

48%

…de croissance annuellesdes données non structurées

50 à 75%

5

Page 6: Big data

Problématique

Ces données sont appelées Big Data ou volumes massifs de données.

6

Page 7: Big data

Définition• Les big data (grosses données), parfois appelées données

massives, sont des ensembles de données tellement volumineux qu'ils en deviennent difficiles à travailler avec des outils classiques de gestion de base de données ou de gestion de l'information.

• Il s’agit donc d’un ensemble de technologies, d’architecture, d’outils et de procédures permettant à une organisation de très rapidement capter, traiter et analyser de larges quantités et contenus hétérogènes , structurées ,non-structurées, et d’en extraire les informations pertinentes à un coût accessible.

7

Page 8: Big data

Big Data et 3V

• La difficulté de traitement du « Big Data » s’explique par

Leur volume, Leur variété,Leur vélocité

8

Page 9: Big data

Big Data et 3V• Volume

Quantité de données généré est très importante.

La taille des données détermine la valeur et le potentiel des données en cours d'examen. Le nom «Big Data» contient un terme liée à la taille

• Variété Pas de données relationnelles traditionnelles Les données sont brutes, semi-structurées voire non structurées Des données complexes provenant du web, du format texte et des images .

Les analyses sont d’autant plus complexes qu’elles portent de plus en plus sur les liens entre des données de natures différentes.

• Velocité La fréquence à laquelle les données sont générées, capturées et partagées. Permet de répondre aux exigences et aux défis qui nous attendent dans le chemin de la croissance et le

développement.9

Page 10: Big data

Data warehouse VS Big Data

• Les environnements d’analyses Big data ne visent pas à remplacer les data warehouse traditionnels mais à les compléter

• Solution big data: technologie• Data warehouse : architecture

10

Page 11: Big data

Data warehouse VS Big Data

DATA WAREHOUSE (BI traditionnelle) BIG DATA

Sources de données essentiellement internes, connues et structurées

Nombreuses sources externes

Modèles de données stables Importants volumes de données non-structurées

La majorité des données sont des données historiques

L’analyse est faite sur des données qui restent dans leur état brut

11

Page 12: Big data

Domaines d’utilisations: log files

• Les fichiers journaux de serveurs Web représentent un trésor de données que les entreprises peuvent mine pour gagner une compréhension profonde des habitudes d'achat des clients, l'utilisation des médias sociaux, web, publicité et d'autres mesures qui informent des décisions d'affaires.

• Chaque clic depuis une page Web peut créer de l'ordre de 100 octets de données dans un journal de site typique.

• Par conséquent, de grands sites Web de manutention des millions de visiteurs simultanés peuvent générer des centaines de giga octets ou même des téraoctets par jour.

• De nombreuses organisations se tournent vers les logiciels libres utilitaires trouvés dans l'écosystème Hadoop pour analyser ces Big Data.

• Le choix d'un outil particulier dépend des besoins de l'analyse, l'ensemble de l'analyste de données de compétences, et le compromis entre le temps de développement et le temps d'exécution. 12

Page 13: Big data

Hadoop

13

Page 14: Big data

Hadoop: Qu’est ce que c’est ?o Framework Java open source .o pour le stockage et le traitement distribués de grosses

volumétries de données.o Consister deux grandes parties :

HDFS (Hadoop Distributed File System)MapReduce

14

Page 15: Big data

HDFS(Hadoop Distributed Files System)

Un système de fichiers large ,distribué et scalable Ou moins 10K nœuds ,100 milles de fichiers

HDFS pour stocker de très gros volumes de données sur un grand

nombre de machines(nœuds).

Principe :

1. HDFS crée des blocs entre 64MB et 256MB.2. Chaque bloc est enregistré dans un nœud (Data Node)différent du

cluster3. Répliquée plusieurs fois.

15

Page 16: Big data

NameNode DataNode1. NameNode : s’exécute sur une machine séparée(cluster). Contient des métadonnées. Association entre les bloc et leurs emplacement sur

data Nœuds Moteur de réplication des blocs.2. Data Node Un serveur de bloc Rapport des bloc Faciliter les échanges des donnes entre

les nœuds Quand on a besoin un task précis il suffit de poser question à NameNodeNameNode connait le lieu , le type de contenue de tous DataNoeuds 16

Page 17: Big data

MapReduce

17

Page 18: Big data

Définition

MapReduce est un cadre logiciel qui permet aux développeurs d'écrire des programmes qui traitent des quantités massives de données non structurées en parallèle sur un distribuée ...

18

Page 19: Big data

Principe Consiste à découper le traitement en 2 phases :

• la première phase (Map) est une étape d'ingestion et de transformation des données sous la forme de paires clé/valeur

• la seconde phase (Reduce) est une étape de fusion des enregistrements par clé pour former le résultat final

19

Page 20: Big data

Des langages pourfaciliter les requêtes sur

Hadoop

1. HIVE 2. PIG

20

Page 21: Big data

Mahout 1. Définition 2. Principe

21

Page 22: Big data

• Mahout est un API Java dédié aux algorithmes d’apprentissage, à savoir:

Recommandation Clustering Classification

• Mahout supporte l’écosystème Hadoop.• Les algorithmes sont programmés sous le paradigme

MapReduce 22

Définition

Page 23: Big data

Principe

Bibliothèque d’apprentissage automatique. Permet de :

Déterminer des éléments qu’un utilisateur pourra apprécier selon son comportement

Grouper des documentsAffecter automatiquement des catégories aux

documents.

23

Page 24: Big data

Hadoop un écosystème riche et complexé

24

Page 25: Big data

Big Data et Aspect Mobile

25

Page 26: Big data

Photo

Ect…

Recherche

Texte

appel téléphoni

que

e-mailVidéo

Stocker

Stockage des données issues des Smartphones 26

Page 27: Big data

Smartphones : le véritable générateur de données volumineuses

• Plus de six milliards de smartphones utilisés génèrent des données massives.

• Chaque utilisateur de smartphone génère environ 60 gigaoctets de données chaque année

• On stocke plus de 335 exaoctets d'informations chaque année avec seuls smartphones.

27

Page 28: Big data

Nécessité du Stockage:Toute information peut être utile !

• Les appareils mobiles sont utilisés plus fréquemment pour acheter des biens et services, les informations générées seront exploités pour déterminer où vous allez faire du shopping, quels sont vos intérêts et même quelle marque de café que vous aiment, afin que les annonceurs et les autres peuvent identifier vos besoins et vos désirs.

• Voilà ce qu’on appelle les réseaux de stockage intelligente - faisant usage de grand stockage de données et à exploiter cette information.

28

Page 29: Big data

Mobile et Big Data : les défis

• Tous les données doivent être stockées quelque part• Se qui signifie:

L'industrie du stockage est dans une course pour fournir des densités plus élevées et supérieures de dispositifs de stockage de données à moindre coût

La technologie de déduplication de données devient encore plus importante.

29

Page 30: Big data

Conclusion

• le Big Data ne représente pas une opportunité de description par un nouveau modèle, mais un moyen de plus en plus incontournable d’optimiser leur efficience et donc leur compétitivité.

30

Page 31: Big data

Merci pour votre attention

31