quelles architectures matérielles pour hadoop ?

11
© Copyright 2014 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. Quelles architectures matérielles pour hadoop ? Francis Barbeau Architecte Solution Big Data

Upload: hadoop-user-group-france

Post on 13-Dec-2014

291 views

Category:

Technology


0 download

DESCRIPTION

Francis Barbeau, HP, détaille l'architecture matérielle nécessaire pour construire un cluster Hadoop de production

TRANSCRIPT

Page 1: Quelles architectures matérielles pour Hadoop ?

© Copyright 2014 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Quelles architectures matérielles pour hadoop ?Francis Barbeau

Architecte Solution Big Data

Page 2: Quelles architectures matérielles pour Hadoop ?

© Copyright 2014 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.2

Ce que nous demande nos clients et prospects

Les classes de problèmes

Base de discussion : Retour d’expérience clients base installée France

Les classes de problèmes que nous adressent nos prospects et clients

• Exécuter des jobs Map/Reduce sur des fichiers log

• Exécuter des requêtes interactives

• Valider la qualité des données

• Transformer/préparer des données

• Recevoir des flux de messages

• Exécuter des traitements mathématiques statistiques

• Stocker des données à très long terme pour des besoins légaux

• Utiliser des packages logiciels Open Source (Ex Open TSDB)

Page 3: Quelles architectures matérielles pour Hadoop ?

© Copyright 2014 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.3

2 Grands Types de serveurs

Architecture Hadoop : Les serveurs

• Les nœuds de contrôle

• 1 serveur Primary Name Node

• 1 serveur Secondary Name Node / Resource Manager

• 1 Serveur Edge Node

• Les nœuds de traitement

• n serveurs Worker Nodes / Data Nodes

• Rôle du Edge Node

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.9

Core Hadoop : HDFS

Self-healing, high bandwidth

1

2

3

4

5

2

1

1

HDFS

1

3

3

4

4

5

2

3

2

5

5

4

HDFS breaks incoming files into blocks and stores them redundantly across the cluster.

Page 4: Quelles architectures matérielles pour Hadoop ?

© Copyright 2014 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.4

Les nœuds de contrôle

Architecture Hadoop : Les serveurs

• Les nœuds de control – Name Nodes – Resource Mger– Dimensionnement de la mémoire

– Type de processeur

– Type de disques

– Format des disques

– Capacité des disques

• Les nœuds de control – Edge Node– Dimensionnement de la mémoire

– Type de processeur

– Type de disques

– Format des disques

– Capacité des disques

– Haute disponibilité

Serveur 2U de hauteur

8 disques SFF

Page 5: Quelles architectures matérielles pour Hadoop ?

© Copyright 2014 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.5

Les nœuds de traitement

Architecture Hadoop : Les serveurs

• Les nœuds de traitement – Worker/Data Nodes– La volumétrie utilisateur est déterminante

– Le facteur de réplication dimensionne le cluster

– La capacité des disques dimensionne le nombre de nœuds

– La densité des serveurs a un impact direct sur l’emprise au sol

• Leurs caractéristiques– Le type de workload détermine leurs caractéristiques

– Type de disques SAS ou SATA ?

– Format des disques

– Capacité des disques

– Type de processeur

– Quantité de mémoire

Serveur 2U de hauteur12 disques LFF

Châssis de 3 Serveurs3 x 15 Disques LFF

Page 6: Quelles architectures matérielles pour Hadoop ?

© Copyright 2014 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.6

Illustration de la densité des serveurs42

41

40

39

38

37

36

35

34

33

32

31

30

29

28

27

26

25

24

23

22

21

20

19

18

17

16

15

14

13

12

11

10

9

8

7

6

5

4

3

2

1

42

41

40

39

38

37

36

35

34

33

32

31

30

29

28

27

26

25

24

23

22

21

20

19

18

17

16

15

14

13

12

11

10

9

8

7

6

5

4

3

2

1

SAS300 GB

15K

ProLiant

DL360p

Gen8

UIDSID

3

4

1

2

5

6 7 8

SAS300 GB

15K

SAS300 GB

15K

SAS300 GB

15K

SAS300 GB

15K

SAS300 GB

15K

SAS300 GB

15KSAS

300 GB

15K

SAS300 GB

15K

ProLiant

DL360p

Gen8

UIDSID

3

4

1

2

5

6 7 8

SAS300 GB

15K

SAS300 GB

15K

SAS300 GB

15K

SAS300 GB

15K

SAS300 GB

15K

SAS300 GB

15KSAS

300 GB

15K

SAS300 GB

15K

ProLiant

DL360p

Gen8

UIDSID

3

4

1

2

5

6 7 8

SAS300 GB

15K

SAS300 GB

15K

SAS300 GB

15K

SAS300 GB

15K

SAS300 GB

15K

SAS300 GB

15KSAS

300 GB

15K

UID

ProLiant

DL380e

Gen8

SATA M

DL

7.2

K

2.0

TB

SATA M

DL

7.2

K

2.0

TB

SATA M

DL

7.2

K

2.0

TB

SATA M

DL

7.2

K

2.0

TB

SATA M

DL

7.2

K

2.0

TB

SATA M

DL

7.2

K

2.0

TB

SATA M

DL

7.2

K

2.0

TB

SATA M

DL

7.2

K

2.0

TB

SATA M

DL

7.2

K

2.0

TB

SATA M

DL

7.2

K

2.0

TB

SATA M

DL

7.2

K

2.0

TB

SATA M

DL

7.2

K

2.0

TB

UID

ProLiant

DL380e

Gen8

SATA M

DL

7.2

K

2.0

TB

SATA M

DL

7.2

K

2.0

TB

SATA M

DL

7.2

K

2.0

TB

SATA M

DL

7.2

K

2.0

TB

SATA M

DL

7.2

K

2.0

TB

SATA M

DL

7.2

K

2.0

TB

SATA M

DL

7.2

K

2.0

TB

SATA M

DL

7.2

K

2.0

TB

SATA M

DL

7.2

K

2.0

TB

SATA M

DL

7.2

K

2.0

TB

SATA M

DL

7.2

K

2.0

TB

SATA M

DL

7.2

K

2.0

TB

UID

ProLiant

DL380e

Gen8

SATA M

DL

7.2

K

2.0

TB

SATA M

DL

7.2

K

2.0

TB

SATA M

DL

7.2

K

2.0

TB

SATA M

DL

7.2

K

2.0

TB

SATA M

DL

7.2

K

2.0

TB

SATA M

DL

7.2

K

2.0

TB

SATA M

DL

7.2

K

2.0

TB

SATA M

DL

7.2

K

2.0

TB

SATA M

DL

7.2

K

2.0

TB

SATA M

DL

7.2

K

2.0

TB

SATA M

DL

7.2

K

2.0

TB

SATA M

DL

7.2

K

2.0

TB

UID

ProLiant

DL380e

Gen8

SATA M

DL

7.2

K

2.0

TB

SATA M

DL

7.2

K

2.0

TB

SATA M

DL

7.2

K

2.0

TB

SATA M

DL

7.2

K

2.0

TB

SATA M

DL

7.2

K

2.0

TB

SATA M

DL

7.2

K

2.0

TB

SATA M

DL

7.2

K

2.0

TB

SATA M

DL

7.2

K

2.0

TB

SATA M

DL

7.2

K

2.0

TB

SATA M

DL

7.2

K

2.0

TB

SATA M

DL

7.2

K

2.0

TB

SATA M

DL

7.2

K

2.0

TB

UID

ProLiant

DL380e

Gen8

SATA M

DL

7.2

K

2.0

TB

SATA M

DL

7.2

K

2.0

TB

SATA M

DL

7.2

K

2.0

TB

SATA M

DL

7.2

K

2.0

TB

SATA M

DL

7.2

K

2.0

TB

SATA M

DL

7.2

K

2.0

TB

SATA M

DL

7.2

K

2.0

TB

SATA M

DL

7.2

K

2.0

TB

SATA M

DL

7.2

K

2.0

TB

SATA M

DL

7.2

K

2.0

TB

SATA M

DL

7.2

K

2.0

TB

SATA M

DL

7.2

K

2.0

TB

UID

ProLiant

DL380e

Gen8

SATA M

DL

7.2

K

2.0

TB

SATA M

DL

7.2

K

2.0

TB

SATA M

DL

7.2

K

2.0

TB

SATA M

DL

7.2

K

2.0

TB

SATA M

DL

7.2

K

2.0

TB

SATA M

DL

7.2

K

2.0

TB

SATA M

DL

7.2

K

2.0

TB

SATA M

DL

7.2

K

2.0

TB

SATA M

DL

7.2

K

2.0

TB

SATA M

DL

7.2

K

2.0

TB

SATA M

DL

7.2

K

2.0

TB

SATA M

DL

7.2

K

2.0

TB

UID

ProLiant

DL380e

Gen8

SATA M

DL

7.2

K

2.0

TB

SATA M

DL

7.2

K

2.0

TB

SATA M

DL

7.2

K

2.0

TB

SATA M

DL

7.2

K

2.0

TB

SATA M

DL

7.2

K

2.0

TB

SATA M

DL

7.2

K

2.0

TB

SATA M

DL

7.2

K

2.0

TB

SATA M

DL

7.2

K

2.0

TB

SATA M

DL

7.2

K

2.0

TB

SATA M

DL

7.2

K

2.0

TB

SATA M

DL

7.2

K

2.0

TB

SATA M

DL

7.2

K

2.0

TB

UID

ProLiant

DL380e

Gen8

SATA M

DL

7.2

K

2.0

TB

SATA M

DL

7.2

K

2.0

TB

SATA M

DL

7.2

K

2.0

TB

SATA M

DL

7.2

K

2.0

TB

SATA M

DL

7.2

K

2.0

TB

SATA M

DL

7.2

K

2.0

TB

SATA M

DL

7.2

K

2.0

TB

SATA M

DL

7.2

K

2.0

TB

SATA M

DL

7.2

K

2.0

TB

SATA M

DL

7.2

K

2.0

TB

SATA M

DL

7.2

K

2.0

TB

SATA M

DL

7.2

K

2.0

TB

UID

ProLiant

DL380e

Gen8

SATA M

DL

7.2

K

2.0

TB

SATA M

DL

7.2

K

2.0

TB

SATA M

DL

7.2

K

2.0

TB

SATA M

DL

7.2

K

2.0

TB

SATA M

DL

7.2

K

2.0

TB

SATA M

DL

7.2

K

2.0

TB

SATA M

DL

7.2

K

2.0

TB

SATA M

DL

7.2

K

2.0

TB

SATA M

DL

7.2

K

2.0

TB

SATA M

DL

7.2

K

2.0

TB

SATA M

DL

7.2

K

2.0

TB

SATA M

DL

7.2

K

2.0

TB

UID

ProLiant

DL380e

Gen8

SATA M

DL

7.2

K

2.0

TB

SATA M

DL

7.2

K

2.0

TB

SATA M

DL

7.2

K

2.0

TB

SATA M

DL

7.2

K

2.0

TB

SATA M

DL

7.2

K

2.0

TB

SATA M

DL

7.2

K

2.0

TB

SATA M

DL

7.2

K

2.0

TB

SATA M

DL

7.2

K

2.0

TB

SATA M

DL

7.2

K

2.0

TB

SATA M

DL

7.2

K

2.0

TB

SATA M

DL

7.2

K

2.0

TB

SATA M

DL

7.2

K

2.0

TB

UID

ProLiant

DL380e

Gen8

SATA M

DL

7.2

K

2.0

TB

SATA M

DL

7.2

K

2.0

TB

SATA M

DL

7.2

K

2.0

TB

SATA M

DL

7.2

K

2.0

TB

SATA M

DL

7.2

K

2.0

TB

SATA M

DL

7.2

K

2.0

TB

SATA M

DL

7.2

K

2.0

TB

SATA M

DL

7.2

K

2.0

TB

SATA M

DL

7.2

K

2.0

TB

SATA M

DL

7.2

K

2.0

TB

SATA M

DL

7.2

K

2.0

TB

SATA M

DL

7.2

K

2.0

TB

UID

ProLiant

DL380e

Gen8

SATA M

DL

7.2

K

2.0

TB

SATA M

DL

7.2

K

2.0

TB

SATA M

DL

7.2

K

2.0

TB

SATA M

DL

7.2

K

2.0

TB

SATA M

DL

7.2

K

2.0

TB

SATA M

DL

7.2

K

2.0

TB

SATA M

DL

7.2

K

2.0

TB

SATA M

DL

7.2

K

2.0

TB

SATA M

DL

7.2

K

2.0

TB

SATA M

DL

7.2

K

2.0

TB

SATA M

DL

7.2

K

2.0

TB

SATA M

DL

7.2

K

2.0

TB

Console

49 525150

1000Base-X

5 6 15 1613 1411 129 107 81 2 3 4 21 22 31 3229 3027 2825 2623 2417 18 19 20 37 38 47 4845 4643 4441 4239 4033 34 35 36 H3C S5120 Series

Power

Green=1000Mbps,Yellow=10/100Mbps HP 5120 Switch Series

Green=10Gbps, Yellow=1Gbps SFP+

Console

10/100/1000Base-T

Speed: Green=1000Mbps, Yellow=10/100Mbps

21 43 65 87 109 1211 242322212019181716151413

Duplex: Green=Full Duplex, Yellow=Half Duplex

Unit

SYS

ModeGreen = SimplexYellow = Duplex

25 26

ManagementACTLINK

HP 5820X Series Switch JG219A

Green=10Gbps, Yellow=1Gbps SFP+

Console

10/100/1000Base-T

Speed: Green=1000Mbps, Yellow=10/100Mbps

21 43 65 87 109 1211 242322212019181716151413

Duplex: Green=Full Duplex, Yellow=Half Duplex

Unit

SYS

ModeGreen = SimplexYellow = Duplex

25 26

ManagementACTLINK

HP 5820X Series Switch JG219A

42

41

40

39

38

37

36

35

34

33

32

31

30

29

28

27

26

25

24

23

22

21

20

19

18

17

16

15

14

13

12

11

10

9

8

7

6

5

4

3

2

1

42

41

40

39

38

37

36

35

34

33

32

31

30

29

28

27

26

25

24

23

22

21

20

19

18

17

16

15

14

13

12

11

10

9

8

7

6

5

4

3

2

1

SAS300 GB

15K

ProLiant

DL360p

Gen8

UIDSID

3

4

1

2

5

6 7 8

SAS300 GB

15K

SAS300 GB

15K

SAS300 GB

15K

SAS300 GB

15K

SAS300 GB

15K

SAS300 GB

15KSAS

300 GB

15KSAS

300 GB

15K

SAS300 GB

15K

ProLiant

DL360p

Gen8

UIDSID

3

4

1

2

5

6 7 8

SAS300 GB

15K

SAS300 GB

15K

SAS300 GB

15K

SAS300 GB

15K

SAS300 GB

15K

SAS300 GB

15KSAS

300 GB

15KSAS

300 GB

15K

SAS300 GB

15K

ProLiant

DL360p

Gen8

UIDSID

3

4

1

2

5

6 7 8

SAS300 GB

15K

SAS300 GB

15K

SAS300 GB

15K

SAS300 GB

15K

SAS300 GB

15K

SAS300 GB

15KSAS

300 GB

15KSAS

300 GB

15K

Console

49 525150

1000Base-X

5 6 15 1613 1411 129 107 81 2 3 4 21 22 31 3229 3027 2825 2623 2417 18 19 20 37 38 47 4845 4643 4441 4239 4033 34 35 36 H3C S5120 Series

Power

Green=1000Mbps,Yellow=10/100Mbps HP 5120 Switch Series

Green=10Gbps, Yellow=1Gbps SFP+

SYS

Management ConsoleACTLINK

Green=10Gbps, Yellow=1Gbps SFP+

21 43 65 87 109 1211 24232221201918171615141310/100/1000Base-T

HP 5920Series SwitchJG296A

Green=10Gbps, Yellow=1Gbps SFP+

SYS

Management ConsoleACTLINK

Green=10Gbps, Yellow=1Gbps SFP+

21 43 65 87 109 1211 24232221201918171615141310/100/1000Base-T

HP 5920Series SwitchJG296A

UID

10 134 7111 145 8212 156 93

UID

10 134 7111 145 8212 156 93

UID

10 134 7111 145 8212 156 93

UID UID UID

ProLiant

SL4540

Gen8

UID

10 134 7111 145 8212 156 93

UID

10 134 7111 145 8212 156 93

UID

10 134 7111 145 8212 156 93

UID UID UID

ProLiant

SL4540

Gen8

UID

10 134 7111 145 8212 156 93

UID

10 134 7111 145 8212 156 93

UID

10 134 7111 145 8212 156 93

UID UID UID

ProLiant

SL4540

Gen8

UID

10 134 7111 145 8212 156 93

UID

10 134 7111 145 8212 156 93

UID

10 134 7111 145 8212 156 93

UID UID UID

ProLiant

SL4540

Gen8

3.0 TB

6GB DP 7.2K

SAS MDL

3.0 TB

6GB DP 7.2K

SAS MDL

3.0 TB

6GB DP 7.2K

SAS MDL

3.0 TB

6GB DP 7.2K

SAS MDL

3.0 TB

6GB DP 7.2K

SAS MDL

3.0 TB

6GB DP 7.2K

SAS MDL

3.0 TB

6GB DP 7.2K

SAS MDL

3.0 TB

6GB DP 7.2K

SAS MDL

3.0 TB

6GB DP 7.2K

SAS MDL

3.0 TB

6GB DP 7.2K

SAS MDL

3.0 TB

6GB DP 7.2K

SAS MDL

3.0 TB

6GB DP 7.2K

SAS MDL

3.0 TB

6GB DP 7.2K

SAS MDL

3.0 TB

6GB DP 7.2K

SAS MDL

3.0 TB

6GB DP 7.2K

SAS MDL

3.0 TB

6GB DP 7.2K

SAS MDL

3.0 TB

6GB DP 7.2K

SAS MDL

3.0 TB

6GB DP 7.2K

SAS MDL

3.0 TB

6GB DP 7.2K

SAS MDL

3.0 TB

6GB DP 7.2K

SAS MDL

3.0 TB

6GB DP 7.2K

SAS MDL

3.0 TB

6GB DP 7.2K

SAS MDL

3.0 TB

6GB DP 7.2K

SAS MDL

3.0 TB

6GB DP 7.2K

SAS MDL

100To Utilisateur

Version « Serveur Rack »

100To Utilisateur

Version « Serveur Haute Densité »

SAS300 GB

15K

SAS300 GB

15K

SAS300 GB

15K

• Version serveur 2U de hauteur– 18 serveurs par rack de base

– 19 serveurs par rack additionnel

• Version serveur haute densité– 7 châssis par rack soit 21 serveurs

Page 7: Quelles architectures matérielles pour Hadoop ?

© Copyright 2014 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.7

Data at Rest

Chiffrement des données

Le chiffrement des données peut se faire de 3 façons différentes :

• Option 1: Chiffrement des données au niveau de l’OS

• Option 2 : Logiciels partenaires de chiffrement des données

• Option 3 : Chiffrement des données au niveau du matériel et des cartes

contrôleurs disques

Leading storage Secure Encryption

Page 8: Quelles architectures matérielles pour Hadoop ?

© Copyright 2014 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.8

Architecture Hadoop : le réseau

Timeline

Les points d’attention

Network hot spot ! Network hot spot !

Page 9: Quelles architectures matérielles pour Hadoop ?

© Copyright 2014 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.9

Les principes d’architecture

Hadoop les aspects topologies de réseau

• Hadoop est sensible à la bande passante

• Hadoop n’est pas sensible à la latence

• L’utilisation de commutateur “Deep Buffer Caching” est un atout pour les performances

• La redondance du réseau du cluster est un aspect à considérer

• Topologie réseau « à plat » - Pas de nécessité de disposer de commutateurs d’agrégation

• Utilisation de câbles DAC 10Gbit ou CATe-6 10Gbit Base T

• Différenciation des réseaux

• Mise en œuvre d’un commutateur out-of-bound-management dédié

Network with IRF stack

IRF Stack

Page 10: Quelles architectures matérielles pour Hadoop ?

© Copyright 2014 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.10

Pour terminer

Conclusion

• Nous disposons d’architectures de référence pour les 3 distributions Cloudera, HortonWorks et MapR

• Les White Papers sont disponibles sur le site web commercial HP

Exemple de White Paper

Page 11: Quelles architectures matérielles pour Hadoop ?

© Copyright 2014 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Thank you