ciment 9 mai 2000 architectures de grappes de pc philippe augerat id-imag
TRANSCRIPT
CIMENT 9 MAI 2000
Architectures de grappes de PC
Philippe Augerat
ID-IMAG
CIMENT 9 MAI 2000
Grappe « BEOWULF » :
Une grappe (cluster) est une collection de machines interconnectées, utilisée comme une ressource de calcul unifiée
Une grappe « Beowulf » se définit par les propriétés suivantes : composants à grande diffusion composants réseau à faible coût système d ’exploitation « open source » hardware non propriétaire logiciel « open source »
CIMENT 9 MAI 2000
Applications :
projet du CEA : calcul haute performance intégration de machines performantes et d'un réseau commuté performant - perspective de changement d'échelle
projet GRID : parallélisme faiblement couplé, du débit de calcul sur 6 mois plutôt que sur 24 heures.
serveur WEB : faible charge CPU, importance de la mémoire
HP : mélanger les usages
CIMENT 9 MAI 2000
Medium size (240,000 cells) Fluent CFD computation.
CIMENT 9 MAI 2000
Des grappes de référence : le Top500
Sandia 592 procs alphas, myrinet, linux, #44NCSA 256 pentiums, myrinet, NT, #68Cornell 256 pentiums, giganet, NT, #198Los Alamos 140 alphas, Ether100/1000, linux,
#265Paderborn 192 pentiums, SCI, solaris, #351Bonn 144 pentiums, myrinet, linux, #454Chiba, Los Lobos, CEA, FSL, … en 2000
CIMENT 9 MAI 2000
Processeur
Pentium Alpha
NTLinux
OS
Solaris,...
SCI
Réseau
Ethernet
Giganet, ServerNet, ...Myrinet
SMP
biproc
quadriprocMono
Technologies :
? IA64
CIMENT 9 MAI 2000
Machines/OS
>=128>=64
12
2
12
26
314
True 64SolarisNTLinux
>=128>=64
8
12
10
25
Pentium
Alpha
Une majorité de SMP
CIMENT 9 MAI 2000
PIII / Alpha
Performances P III Xeon 500 Mhz : adressage 32 bits STREAM Copy : 188
MB/sec SpecFP95 : 15.1 Peak MFLOPS : 500
Coût Dual CPU : ~6K$ (512K L2)
Logiciels Linux: beaucoup
Performances Alpha 21264 677 Mhz : adressage 64 bits STREAM Copy : 1087
MB/sec SpecFP95 : 48.4 Peak MFLOPS : 1354
Coût Dual CPU : ~15K$ (4M L2)
Logiciels Linux : quelques uns
CIMENT 9 MAI 2000
Architecture d ’un PC Intel :
Pentium IIIXeon 500 Mhz
cache L1...
Cache L2
...
Contrôleur mémoire et
pont E/S
Mémoire <=8Go
PCI 64 BITS ou 2 bus PCI 32 BITS
266 Mo/s
Bus système100 Mhz/800 Mo/s
<=2 Mo
100 Mhz800 Mo/s
Bus E/S
CIMENT 9 MAI 2000
SMP :
Pour : diminue la taille de l ’interconnexion forme plus compacte rapport prix/performance plus intéressant
Contre : accès sur le bus système/mémoire stressé composants plus chers Peut ajouter à la complexité logicielle
CIMENT 9 MAI 2000
Souhaité et facultatif :
La meilleure offre en : vitesse des processeurs hiérarchie mémoire (vitesse,
cache, …) bus PCI (64 bits, vitesse,
nombre,..)
CIMENT 9 MAI 2000
Prix
Nœuds59%
ethernet4%
myrinet30%
contrôle4%
divers3% Estimations par poste :
Myrinet : 1,5 k$
ServerNet/Giganet/SCI : 1.5 k$
Gigabit Ethernet : 1 k$
Pentium bi procs : 6 k$
CIMENT 9 MAI 2000
L’interconnexion réseau
SCIVIA
Fibre Channel
HIPPI
FDDI
WDM
Infiniband
Ethernet
PCI
SAN WANMANLAN
...
ATM
...SCSI
Myrinet
...
CIMENT 9 MAI 2000
>=128>=64
8
3
4
0110
13
11
6
1111
Quadrics
Giganet
SCI
ServerNet
Ether1000
Ether100
Myrinet
Interconnexion : statistiques
CIMENT 9 MAI 2000
La technologie Myrinet
Commutation de paquets Topologie très soupleCarte réseau muni d ’un processeur
RISC pilotant plusieurs contrôleurs DMA
PCIBRIDGE
DMAcontroller
RISCprocessor
Hostinterface
PacketInterface
Local memory
PCIbus
network
CIMENT 9 MAI 2000
La technologie SCI
Interconnexion SCI
Processus A
Espace d'adressage
virtuel
Bus PCI
PCI-SCI
Processus B
Espace d'adressage
virtuel
Bus PCI
PCI-SCI
Mémoire physique
réseau à capacité d’adressage adressage des mémoires distantes lecture/écriture distante sans interrompre le
processeur distant plus de nécessité de programmation par
échanges de messages Topologie en grille
CIMENT 9 MAI 2000
La technologie VIA
Une interface logicielle dont l’objectif est de limiter les accès au système et les copies de buffers.
Peut être implémentée en hardware
Standard industriel proposé par Microsoft, Intel, Compaq. Aujourd’hui par Dell, Intel, Compaq
application application
Système d ’exploitation
Contrôleur réseau Contrôleur réseau VIA
Systèmed ’exploitation
VIcontrôle contrôle
données
données
Architecture TCP/IP Architecture VIA
CIMENT 9 MAI 2000
Les autres candidats
Memory channel : espace d ’adressage
mémoire unique bonne latence passage à l ’échelle
par SMP donc limité
SupperHIPPI, FibreChannel, Infiniband, ATM, WDM, Quadrics, ... offre cluster
balbutiante ou de luxe
CIMENT 9 MAI 2000
D ’un coup d’œil
SCI Giganet Gigabit Ether ServerNet I MyrinetMin latency 2.4 µs 8 µs 5 µs
Maxbandwith
8 Gb/s 1.25 Gb/s 1.28 Gb/s
MPI latency 6 µs 20 µs 12 µsMPI
bandwith70 MB/s 96 MB/s 100 MB/s
PCI Bus 32 bit33 MHz
64bit33MHz
32bit33MHz
64bit33MHz
Topology 2D mesh,ring, switchs
switchs switchs switchs switchs
Switch 6 ports0.25 µs
8 ports0.5 µs
64 ports 6 ports0.3 µs
16 port0.2 µs
Confvalidée
96 machines12x8 2D torus
64 machines40 switchs
256machines
?
72 machines48 switchs
384machines48 switchs
Philosophie DSM VIA Standard hautedisponibilité
Processeur
CIMENT 9 MAI 2000
Évolutions ?
SCI Giganet Gigabit Ether ServerNet II MyrinetMin latency ~25 µs 12.5 µs
Maxbandwith
500 Mb/s 125MB/s
PCI Bus 64 bit66 MHz
64bit33MHz
64bit66MHz
Topology 3D meshSwitch 8 ports ? 30 ports 12 ports 128 ports
Philosophie ProcesseurSur la carte
VIA enhardware
Topologie ?
CIMENT 9 MAI 2000
SCI : pour/contre
espace d ’adressage mémoire unique
latence/messages de petite taille
manque de maturité monopolise le CPUquelle fiabilité en cas
de panne d ’un nœud
Myrinet : pour/contrePlus grande maturité intégrateurs en
Francebande passante
? Autant de MPI/drivers/firmwareque de grappes
CIMENT 9 MAI 2000
Comparatifs SCI/MyrinetSCI Myrinet
Latenceen µsecondes
6,72 11, 8
Bande passanteEn MO/s
72,05 102,85
Barrière(2 procs/4 procs)en µsecondes
11,9923,72
15,9868,03
Taille à mi débiten octets
2046 8192
PALLAS
BENCHMARK
SCI :
P II 450 Mhz
carte scali 2D 32bits/33Mhz
Myrinet :
P II 450 Mhz
carte Lanai 4
32bits/33Mhz
CIMENT 9 MAI 2000
SCI/Myrinet (2)
Machine type/total number ofprocessors
8 16 32 64 128
Single proc SCI 23 37 62 109 xSingle procMyrinet
22 40 55*
Dual proc SCI x 32 50 82 130Dual procMyrinet
x 31 44
IS benchmark de tri faisant parti des NAS parallel benchmarks
communications collectives de petits paquets
Machine type/total number ofprocessors
16 32 64 128
Single proc SCI 746 1279 xSingle procMyrinet
383 810*
Dual proc SCI 1285 2006Dual procMyrinet
1339
FT benchmark opérant plusieurs transformées de Fourrier
communications collectives de gros paquets (1 MO pour 8 processeurs)
* P III 500 Mhz
CIMENT 9 MAI 2000
SCI/Myrinet (3)BT benchmark de multiplication de matrices spéciales - 80% de calcul
communications non bloquantes de paquets de taille 100 ko pour 8 processeurs
Machine type/total number ofprocessors
16 36 64 121
Single proc SCI 997 1882 3162 xSingle procMyrinet
970 1600*
Dual proc SCI 1445 2502 4530Dual procMyrinet
1579
Machine type/total number ofprocessors
16 32 64 128
Single proc SCI 1087 1946 4019 xSingle procMyrinet
1100* 2200*
Dual proc SCI 915 1554 3545 7430Dual procMyrinet
243 374
LU benchmark de factorisation de matrice - 80 % de calcul
communications bloquantes de petits paquets de 3 ko pour 8 processeurs
CIMENT 9 MAI 2000
Les autres possibles
ServerNet II VIA orienté haute disponibilité : contrôle d ’erreurs en hardware,
redondance support de Compaq
Giganet VIA disponible sur NT/linux débit/messages de grande taille
Mais quelle maturité ?Quel avenir pour VIA ?
CIMENT 9 MAI 2000
Les autres possibles
(Double) Fast Ethernet standard le moins cher Mais latence importante
et très forte utilisation du CPU (en attendant VIA et des cartes avec processeur)
Gigabit Ethernet standard, plusieurs fournisseurs de moins en moins cher switches 64 ports
CIMENT 9 MAI 2000
Logiciels
gestionnaire de batch/ressources compilateurs MPI pile TCP/IP outils de trace et de debugintégration et portabilité Linux-NToutils de déploiement et d ’administration systèmes de fichiers pile VIA image unique de système
CIMENT 9 MAI 2000
Besoins logiciels (1)
un (ou plusieurs) MPI adapté aux applications thread aware (MPI/Pro, ScaMPI) faible latence (ScaMPI) bande passante élevée (BIP, MPI/PRO) très diffusé (MPICH, LAM)
outils de déploiement pour stations : Rembo, HP Toptools, Norton Ghost pour clusters : scali, alinka, Compaq CMU outils propriétaires type IBM PSSP (?)
CIMENT 9 MAI 2000
Besoins logiciels (2) gestionnaire de batch/ressources
PBS Condor LSF Codine ...
outils de trace Totalview Vampir
portabilité : MPI/pro MPI sur Ethernet LSF Fast messages
CIMENT 9 MAI 2000
Besoins logiciels (3) systèmes de fichiers
NFS système de fichiers IRIX, True64, … réseau de stockage en amont
image unique de système (autres thèmes) migration de processus mémoire partagée distribuée interface utilisateur unique administration centralisée espace d ’entrées/sorties partagé espace de processus unique
pile VIA VIA hardware : Giganet, Server Net Myrinet et certaines cartes Ethernet fast et gigabit
CIMENT 9 MAI 2000
L’intégrateur/vendeur
support scientifiquesupport techniquemaintenanceintégration hardwareintégration software
Minimum : intégration hardware et validation par déploiement du système et de benchmarks
CIMENT 9 MAI 2000
Des options coûteuses :
Rackscontrôle souhaité (BIOS, wake on line, boot
PXE, lien série, …)concentrateurs d ’alimentation électriqueécrans, switchs d ’écran ?disques locauxdes serveurs supplémentaires : contrôle,
login, fichier, développement, scheduler
CIMENT 9 MAI 2000
Où en est on ? (1)
Coopérations avec des constructeursHP : « cluster du pauvre »Microsoft : portage sur NT et metacomputingCompaq IBM, BULL, SGI, DELLMyrinet, Dolphin
Utilisation et benchmarks de grandes grappes et des dernières générations de matériel
CIMENT 9 MAI 2000
Où en est on ? (2)
Budget : INRIA 2,5 MFRégion ? MFMENRT (UJF 400 INPG 400) ENS-LYON 300CNRS ?
Solution en deux phases : Ethernet (+) puis SCI et/ou Myrinet
CIMENT 9 MAI 2000
Evolution contexte grappe
Grappe NT256 pentiums
#198
GrappeLinux
140 alphas#113 dans le
TOP 500
1998 200120001999
3D SCI meshGrappe Linux 144 pentiums
#356
IA 64
Compilateurs Digitalsur Linux
SwitchMyrinet 128 ports
Linux SMP
Réseaux de stockage
VIA sur Ethernet
InfiniBand
Administration simplifiée
True64/IRIX/AIX--> LINUX
CIMENT 9 MAI 2000
A venir :
Collaborations industrielles à conclure Benchmarks au niveau Athapascan Rédiger l ’appel d ’offre (pour septembre) :
décrire les paramètres de l ’architecture de machine
De nouvelles problématiques de recherche, ex. autour de « l ’image unique de système »