parallélisme – s. vialle panorama des architectures...
Post on 25-Jun-2020
2 Views
Preview:
TRANSCRIPT
1
Parallélisme – S. ViallePanorama des Architectures parallèles
1 – Vue d’ensemble2 – Architectures DataFlow et Systolique3 – Architectures Vectorielles4 – Architectures SIMD5 – Architectures MIMD6 – Clusters - Grappes7 – Systèmes d’archivage8 – Sources d’information permanente9 – Bilan matériel du Top-50010 – L’ordinateur quantique … ?!
Panorama des Architectures parallèles
1 - Vue d’ensemble
• Divers types d’architectures parallèles• Divers besoins des applications• Evolution des critères de classification
Architectures parallèles
Divers types d’architectures parallèles
MIMD
ShM DiM
DSM
Vectoriel
Shm DiM
SIMD
1992/93
DataFlowSystolique
Machines dédiées /Cartes filles
FujitsuNec
Cray ?
HP, SUN,IBM, SGI
HPSUNIBMSGI
?? HP, …FujitsuAsmbl.
Cluster
MIMD PC
Grilles
2
I/OI/O
ServeursServeurs WebWeb
MécaniqueMécanique des des FluidesFluides CPUCPU
StockageStockage
ServeurServeur de de stockagestockage
TraitementTraitement signalsignal
Media streamingMedia streaming
SupercalculateurSupercalculateur traditionneltraditionnel
Architectures parallèles
Divers besoins des applications(Flexibilité des configurations - SGI)
Architectures parallèles
Evolution des critères de classification
1972 - Classification de FLYN :• simpliste, mais claire• 4 classes d’architectures
MIMDMISDMultipleSIMDSISDSimpleFlot
d’instructions :
MultipleSimpleFlot de données :
Machines séquentielles
Machinesparallèlesactuelles
• Liens entre ces entités
• Nbr de mémoires d’instructions• Nbr de décodeurs d’instructions
• Nbr de mémoires de données• Nbr de processeurs de données
Architectures parallèles
Evolution des critères de classification1988 – Taxonomie de Skilicorn :
• Plus précise que celle de Flyn• Basée sur l’architecture :
Machine séquentielle(Von neuman)
3
Architectures parallèles
Evolution des critères de classification1988 – Taxonomie de Skilicorn :
Machine MIMD faiblement couplée (mémoire distribuée)
Machine MIMD fortement couplée (mémoire partagée)
Architectures parallèles
Evolution des critères de classification1988 – Taxonomie de Skilicorn : → 28 taxons différents
Architectures parallèles
Evolution des critères de classification1990 – Classificaton de Dasgupta :
• encore basée sur l’architecture, • et au delà de Skilicorn …
iM : interleaved memorysM : simple memoryC : cache
sI : simple instruction preparation unitpI : pipelined instruction preparation unitsX : simple processorpX : pipelined processor
4
Architectures parallèles
Evolution des critères de classification1990 – Classificaton de Dasgupta :
On peut adopter une représentation inspirée de la chimie !
CM2 – Connection Machine 2 : (iM.C.pI )(sM.sX)64k
Architectures parallèles
Evolution des critères de classification1990 – Classification de Duncan :
• basée sur des concepts d’architecture moins détaillés
• différentes decelle de Flyn :
Synchrone MIMD
SIMD
Architectures parallèles
Evolution des critères de classification1991 – Classification Object Based :
• Basée sur des concepts d’OS,supportés par l’architecture.
• On s’intéresse aux fonctionnalités supportées.
5
Machineséquentielle
Machine MIMD àmémoiredistribuéeMachine
MIMD àmémoirepartagée
Architectures parallèles
Evolution des critères de classification1994 – Classification de Kuhunen (EPFL) :
• Basée sur les fonctionnalités offertes au programmeur.
• Exécution sérielle ou parallèle : SE / PE ?
• Programmationsérielle ou parallèle : SI / PI ?
• Espace d’adressagesimple ou multiple : SA / MA ?
1972 - Point de vue du concepteur → 1994 - Point de vue de l’utilisateur
Architectures parallèlesEvolution des critères de classification
« Les machines gagnantes seront celles que l’on saura programmer ! »(Daniel Etiemble)« Est-ce que cette machine supporte MPI ? OpenMP ? » (2000)
1972 : architecture (Flyn)
1988 : architecture, détaillée , suit Flyn (Skilicorn)
1990 : architecture, très détaillée, suit Flyn (Dasgupta)
1990 : architecture, moins détaillée, s’éloigne de Flyn
1991 : fonctionnalités d’OS supportées (Duncan)
1994 : Fonctionnalités offertes au programmeur (Kuhunen)
Architectures parallèlesEvolution des critères de classification
Classification du Cray-T3D ??? :
RAM
Proc.
RAM
Proc.
RAM
Proc.………
RAM
Proc.
RAM
Proc.
RAM
Proc.………
Programmation par accès mémoire distants (shmem)
Programmation par envoi de messages (MPI)
Mémoire distribuée
Mémoirepartagée NUMA
Partage de mémoire
Envoi de messages
Quelle classification adopter ? … … on prend le point de vue de l’utilisateur : machine MPI et Shmem !!
6
Panorama des Architectures parallèles
2 - Architectures DataFlow et Systolique
• Tendance des architectures systoliques• Exemples d’architectures spécialisées
Architectures parallèles
Tendance des architectures systoliques
• Architectures dédiées à des algorithmes• Tendance actuelle :
• faire des cartes filles (ou machines filles)• interfacées à des machines standards• ex : projet SAMBA de l’IRISA (1993 - 1995)
Architectures parallèles
Tendance des architectures systoliques• Concevoir et réaliser une architecture …. peut être long !!
!!!
années
perf
Perf archi systolique
Perf archis concurrentes
Début deconception
Fin deréalisation∆ t
→ Automatiser la conception de l’architecture à partir de l’algorithme→ Réduire les temps de conception et de réalisation (diminuer ∆ t)
7
Architectures parallèles
Exemples d’architectures spécialisées
GeneMatcher2™ SystemA Supercomputer for Sequence Similarity Analysis
A fully configured GeneMatcher2 contains more than 27,000 procs.A longer pipeline means greater throughput
Kestrel Parallel Processor 1994-2001The 512-processor single-board system acceleratescomputational biology, computational chemistry, andother algorithms by factors of 20 to 40
University of California at Santa Cruz
512 PE
64 PE
Architectures parallèles
Exemples d’architectures spécialisées
Panorama des architectures parallèles
3 - Architectures Vectorielles
• Ancienne gamme CRAY• Nouvelle gamme CRAY• Ancienne gamme Fujitsu• Nouvelle gamme Fujitsu• Tendance générales• Earth Simulation Supercomputer
8
Cray-1, 1976 133Mflops Cray-2, 1985
1.9 gigaflops
Cray-C90, 199116 gigaflops
Cray-YMP, 1988
Cray-J90Cray-T90,
60 gigaflops
architectures parallèles
Anciens Cray vectoriels
Cray-T90,60 gigaflops
Cray-SV11 teraflop
Cray-SV2 (à venir)
Cray-SGI
Cray-Tera
architectures parallèles
Nouveaux Cray vectoriels
Cray-SX-6
Cray-Tera
NEC (SX)
Cray-X1 – 52.4 Tflops
Vector MPP
architectures parallèles
Le Cray-T90 : la fin d’une lignée
Liquide32T932
Liquide16T916
Air ou liquide4T94
Mode de refroidissement
Nombre de processeurs
Référence exacte
• Configuration maximale : T932• 32 processeurs, • 60 gigaflops crête,• Machine : 5.2m3, refroidisseur : 2.4m3
• 1 M$ / processeur (+/- 20%)
• Une gamme évolutive, tout en technologie ECL …. :
9
architectures parallèles
Le Cray-T90 : la fin d’une lignée
Puissant, mais : trop cher, trop gros, trop consommateur !!!
• Chaque carte CPU :
• Une horloge routée optiquement entre les cartes
• Mémoire : • deux modules de secours : dépannage sans démontage !• tout en SRAM (rapide et cher) !• mémoire totalement partagée (SMP)
• IO rapides par GigaRing (Cray) : 1200 Mo/s crête
22 couches22 couches 8 couches
d’alims.
optique élecélec
architectures parallèles
Le Cray-SV1 : fortes innovations
• Technologie CMOS - 1998, Cray-SGI• Mémoire DRAM et mémoire cache avant les pipelines vectoriels
• Cluster de machines Vectorielles-SMP : 32 nœuds max • Un nœud : 32 processeurs max
Sh. RAM
1 2 32…..Sh. RAM
1 2 32…..Sh. RAM
1 2 32…..
Cluster communication network
………….
CMOS-vectoriel Cache DRAM
architectures parallèles
Le Cray-SV1 : fortes innovations• Deux types de processeurs :
• vectoriels classiques : calculs légers, IO, OS• MSP : ensemble de 4 procs vectoriels : calculs lourds• 1 nœud = 32 PE max : 6 MSP + 8 std
4 MSP + 16 std0 MSP + 32 std
Hardware reconfigurable !
• SV1 : 1024 procs max1 teraflops crêteperf/prix(SV1) = 8 x perf/prix(T90)
Mais : cluster de SMP : mémoire non uniforme
10
architectures parallèlesEvolution du rapport perf/prix des
machines Cray vectorielles
0,6
5
10
1
2
3
4
5
6
J90 T90 SV1
rapp
ort
Perf
/ Pr
ix
Le passage de l’ECL au CMOS améliore considérablement le rapport Perf/Prix
architectures parallèles
Le Cray-X1• Scalable Vector MPP• Armoires – Noeuds – Processeurs
1 – 64 16 – 1024 64 – 4096• 819GFlops – 52.4TFlops• Clock Speed : 800MHz (seulement!)• R DRAM – Cache Coherence : DSM
Forte innovation sur la RAM : - Rapide (Bw proc-Ram)- DSM sur processeurs vectoriels- Accès rapide depuis tous les procs
Nouveaux processeurs très performants (Gflops)
Objectifs :• Nouvelle lignée• Péta-Flop en 2010
A suivre …
architectures parallèlesNouveaux objectifs de Cray
11
architectures parallèles
La gamme VPP de Fujitsu
Modèle VX VPP300 VPP700Processeurs 1~4 1~16 8~256Mémoire (Go) 2~8 2~32 16~512Puissance crête (Gflops) 2.4~9.6 2.4~38.4 19.2~614.4
VX VPP300 VPP700
Une gamme née en 1996, autour du même processeur vectoriel:
VectorMPP
architectures parallèles
La gamme VPP de Fujitsu
• Processeur :• en technologie CMOS, depuis 1996• 1 PE : 1 unité vectorielle + 1 unité scalaire
• Mémoire : • SDRAM• distribuée (RAM sur chaque carte mère)• PE interconnectés par réseau très rapide : mémoire globale virtuelle
• IO : • depuis certains PE, • ex : 24 PE d ’IO sur les 256 d’un VPP700
Détails du VPP700 : 256 procs - 614.4 gigaflops crête
architectures parallèles
La série VPP5000 de Fujitsu
Modèle VPP5000 VPP5000/UProcesseurs 2 à 128 1 Mémoire (Go) 8 à 2048 4 à 16 Puissance crête (Gflops) 19,2 à 1229 9,6
• Passe le teraflops avec 128 processeurs → processeurs les plus puissants ? (10 gigaflops/proc)
• Grandes puissances vectorielle et scalaire
Super-calculateur Vectoriel et Parallèle VPP5000 (1999) :
Nouveau proc.Nouvelle carte mère
12
architectures parallèles
Tendances des machines vectorielles
• Des machines au delà du teraflop en puissance crête et config maximale• Des machines au delà du teraoctet de RAM• Des machines en CMOS et DRAM ou SDRAM
Lignées japonaises :• équilibrées en capacités scalaires et vectorielles• processeurs les plus puissants• des gammes suivies
Lignées américaines :• plus originales• plus de capacités vectorielles que scalaires• cluster de SMP• Cray → SGI → Tera → partenariat avec NEC → CRAY
architectures parallèles
Earth Simulation Supercomputer• Machine Vectorielle NEC : replace le vectoriel en tête du Top-500 • 640-nœuds de 8 processeurs : 5120 processeurs• 40 Tflops crête, a atteint les 35 Tflops en juin 2002
VectorMPP
architectures parallèles
Earth Simulation Supercomputer
Exploitation :• Construit pour UNE application précise (simulation)→ 35 Tflops atteint : 87.5 % de la puissance crête atteinte !
Architecture :• 640 nœuds de 8 processeurs (ShM) connectés par réseau rapide→ Cluster de ShM vectorielles→ 5120 processeurs vectoriels, 40 Tflops crête→ Total Main memory: 10 Tera bytes
• Module RAM :
• Processeurs :
Fabricant :NEC
Utilisateur :Japon
13
architectures parallèles
Earth Simulation SupercomputerDéveloppée en 5 ans, devrait rester numéro 1 pendant (?) ans.
architectures parallèlesLe Earth Simulator inquiète les USA
Panorama des architectures parallèles
4 - Architectures SIMD
• Principes des architectures SIMD• Problème des architectures MIMD• Connection machines et Maspar
14
architectures parallèles
Principes des architectures SIMDPrincipes :
• Un décodeur d’instruction• Des milliers de processeurs sans décodeurs d’instructions :
sorte d ’UAL avec une mémoire mocale• Un solide réseau d’interconnexion• Un processeur fait la même chose que les autres ou rien.
Décodeur d’instruction
Réseau de PEs
Frontaldonnées
Pour le même prix : mieux vaut investir dans une machine MIMD
architectures parallèles
Problème des architectures SIMD• Très efficace pour certains pb à grain fin
(ex : certains traitements d’images)• Demande des processeurs spécifiques : PAS ceux du marché→ dépassés par l’évolution constante des PE du marché et
par les machines parallèles MIMD qui les utilisent
1990-1993
PerfSIMD
MIMD
architectures parallèles
Connection Machines
CM-2 General SpecificationsProcessors 65536 (64K)Memory 512 MBMemory Bw 300Gbits/SecI/O Channels 8Capacity per Channel 40 MB/SecMax. Transfer Rate 320 MB/Sec
DataVault SpecificationsStorage Capacity 5 or 10 GBI/O Interfaces 2Transfer Rate, Burst 40 MB/SecMax. Aggregate Rate 320 MB/Sec
Connection-Machine 2 - 1987
Thinking Machines CorporationW. Daniel Hillis
15
3 – architectures parallèles
MASPAR
MasPar front-end
ArrayControl
Unit
Data Parallel Unit
MP1 → MP2 → fin! (1994) : Fin des archis SIMD généralistes ...16384 processeurs (16 Kprocs) maxi
MasPar was formed in 1988 by a DEC Vice-President, and the company retains an association with DEC
Panorama des architectures parallèles
5 - Architectures MIMD
• Types d’architectures parallèles MIMD• Quelques grandes étapes• Panorama des offres actuelles MIMD
Architectures parallèles
Divers types d’architectures MIMDShared-memory MIMD machines :
Un principePlusieurs techniques
Overview of RecentSupercomputers
Aad J. van der SteenJack J. Dongarra
16
Architectures parallèles
Divers types d’architectures MIMDDistributed-memory MIMD machines :
Mem
proc
Mem
proc
Mem
proc
network
Hypercubes
Fat trees
Autres
Un principePlusieurs techniques
Architectures parallèles
Divers types d’architectures MIMD
Hybrid architectures :S-COMA (théoriques)ou ccNUMA (commercialisées)
Un principePlusieurs techniques
Overview of RecentSupercomputers
Aad J. van der SteenJack J. Dongarra
Panorama des architectures parallèles
5 - Architectures MIMD
• Types d’architectures parallèles MIMD• Quelques grandes étapes• Panorama des offres actuelles MIMD
17
Première machine parallèle MIMD à mémoire distribuéeConstruite spécialement pour le calcul parallèle
Architectures parallèles
1980-85 : Cosmic-Cube
Cadre du projet :• Origine : Collaboration informaticiens-physiciens• But final : Une application de calcul intensif TRES régulière• Conçue et réalisée à CALTECH (1980 -1985), avec l’aide d’INTEL
Hardware :• Processeurs : 64 x (8086 + 8087) → 3 Mflops crête• Mémoire : 128 Ko/Proc• Réseau de communication Hypercubique (26 nœuds – dimension 6)• Liens à 2 Mbits/s
Dim 1 Dim 2 Dim 3 Dim 4 …………
Architectures parallèles
1980-85 : Cosmic-Cube
8 blocs de 8 carte mères(64 processeurs)
Interface frontale
Ventilateurs
Architectures parallèles
1980-85 : Cosmic-CubeCommunications :
• Routage automatique des messages jusqu’au processeur destinataire(routage logiciel)
• Routage implanté : Store & Forward, à chemin statique
Temps total à distance d : d.(ts+Q/Bw)
• Autre routage étudié : Wormhole, à chemin dynamique
Temps total à distance d : d.ts + Q/Bw
Étape 1 : Une copie intermédiaire complète : ts+Q/Bw
Étape 2 : Une copie finale complète : ts+Q/Bw
Étape 1 Étape 2 Étape 3 Étape 4 Étape 5
18
Architectures parallèles
1980-85 : Cosmic-CubeProgrammation :
• Multiprocessus possible sur chaque PE• Envois de messages• Send et Recv non bloquant (!)L’envoi de msgs apparaît plus difficile que le partage de mémoire
Mise en évidence de l’influence des temps de communications
Coût du prototype :• 80000$ (64 x 8086+8087 en 1980-85)
Performances sur calculs localisés et réguliers :• Efficacité moyenne : 85%• Meilleure efficacité : 97%
• Première machine MIMD à mémoire distribuée• Premiers algorithmes de parallélisation en hyper-cube• Succès pour les calculs localisés et réguliers
Architectures parallèles
1980-85 : Cosmic-CubeBilan du projet Comic-Cube :
Suites commerciales :
Intel-iPSC :
32–128 x
10 Mbit/s par lien512 Ko/proc
Intel-iPSC/860 :8–128 x i86045 Mbit/s par lien128 proc →
2.6 Gflops obtenus5.1 Gflops crêtes
⎪⎩
⎪⎨
⎧
8028780286
• Mise en évidence de la difficulté de l’envoi de messages• Mise en évidence du besoin de routages rapides
1 téraflop crête en 1991 !!!
architectures parallèles
1987-91 : CM5
Thinking-Machine :1984-87 : CM1 & CM2, SIMD
↓1987-91 : CM5, MIMD & vectoriel
CM5 :• PE
• Mémoire distribuée : 32Mo/PE• Réseaux arborescents• Multi-user & multi-appli
⎪⎪⎩
⎪⎪⎨
⎧
−≤
esvectoriellunitéssparcRISC : 16384
Une tentative de passage du SIMD au MIMD :Milliers de processeur RISC & Vectoriels, Réseau en Fat-Tree
19
architectures parallèles
1987-91 : CM5Architecture d’un PE de la CM5 :
• 1 processeur RISC et 4 unités vectorielles• Accès à deux réseaux de communication
RISC(sparc)
Unité vectorielleUnité vectorielleUnité vectorielleUnité vectorielle
RAM32 Mo
Bus 64 bit
Control netinterface
Data netinterface
Data net Control net
architectures parallèles
1987-91 : CM5
• Réseau de données : • Destiné aux communications point à point• Fat-Tree : les branches les plus hautes ont plus de capacités de com,
→ évite les engorgements des arbres classiques• 20 Mo/s crête par lien :
→ permutation aléatoire : 4 Mo/s / PE→ communication très locales : 15 Mo/s / PE
• Réseau de contrôle :• Destiné au synchronisations et communications multi-points• Broadcast possible depuis 1 PE à la fois• Arbre binaire
• Réseau de diagnostic :• Destiné à la détection parallèle et à l’isolement des pannes• Arbre binaire
3 réseaux de communications arborescents
architectures parallèles
1987-91 : CM5 - Fat Trees
• Principe : P â fl Nb liens â et (Nb liens / PE) â• Crossbar : capacité de com maximale,
mais trop difficile à réaliser• Hyper-Cube : compromis,
mais capacité de com. sous-exploité• Binary Fat-Tree : autre compromis,
moins de capacité - plus simple à réaliser
Fat-Tree (MIT 1983-85) :
• Protocole de communication de la CM5 :• Pour un nœud :• Pertes de messages & ack.• Ré-émission au cycle suivant si perte
!messages de pertes ⇒∑>∑ ssortieentrées
20
architectures parallèles
1987-91 : CM5 - Fat TreesBinary Fat-Tree d’ordre 4 de la CM5 :
architectures parallèles
1987-91 : CM5Programmation de la CM5 :
• Langages de programmation Data-Parallel• Envois de messages→ Mélange original ….
Bilan : • Machine très innovante • Mais performances décevantes
• Capacités de communications insuffisantes→ Binary Fat-Tree ne s’est pas révélé un bon choix.
• Modèle de programmation inadapté à l’architecture ?• Modèle de programmation maîtrisable ?
Fin de la société Thinking Machine !!!Passage SIMD → MIMD raté, technologies très différentes.
architectures parallèles
1993-2000 : Cray-T3D – Cray-T3E
Cray-T3D :• Processeurs : ≤ 1024 Alpha• Réseau de comm. : tore 3D
600Mo/s lien crête
100-480Mo/s réel
• Mémoire : distribuée et partageable mais NUMA : <n° proc,ptr loc> Cray-T3D
En 1993 : le Cray-T3D est la première machine MIMD à mémoiredistribuée avec un réseau d’interconnexion réellement performant
21
architectures parallèles
1993-2000 : Cray-T3D – Cray-T3EDémarche commerciale : Cray sort le T3D précipitamment en 1993…
…pour occuper le marché• Il faut un Cray YMP en frontal d’un T3D !!!
• Le cache L2 des processeurs Alpha a du être invalidé !!!→ Cray propose des formations au T3D où l’on apprend à bien
utiliser le petit cache L1 !!!• Les compilateurs et optimiseurs de code sont buggés
• Mais … ça marche : très bonnes performances !les communications ne se voient pas !
et le T3E résout ces problèmes un peu plus tard
Programmation en Shmem : originale, mais efficace et élégante.
architectures parallèles
1993-2000 : Cray-T3D – Cray-T3E
Programmation T3D et T3E : 2 paradigmes possibles• Envoi de messages : PVM, MPI - send & recv• Accès RAM distante : Shmem (Cray lib) - shmget() OU shmput()
260Mo/s14µsMPI150Mo/s11µsPVM350Mo/s1µsShmemBande passanteLatenceBibliothèque
Performances :• Cray-T3E-1200, 2048 Alphas → 2.5 téraflops crête• mais introduit : Stream Buffers (cache) et E-registers (sync. et com.) → Optimisations spécifiques
architectures parallèles
1993-2000 : Cray-T3D – Cray-T3EBilan Cray T3D et T3E :
• Très puissants• Mémoire partagée NUMA• Nouveautés technologiques : Stream Buffers er E-registers (T3E)• Plusieurs paradigmes de parallélisations supportés• Réseau de comm. à la hauteur de la puissance des processeurs
• Très chers• Optimisations sérielles supplémentaires et nécessaires
22
architectures parallèles
SGI-Origin2000
SGI-Origin2000 :• Processeurs : 4 à 512 Mips-R12000 (RISC)• Réseau hyper-cubique
• Mémoire hybride : distribuée et partagée
• Algorithme MRSW • Implantation Hardware :
« CC-NUMA »• Architecture plus extensible que les
SMP (limitées en 1996 à 20 procs.)
Première architecture DSM commercialisée :Offre une mémoire partagée et plusieurs centaines de processeurs
architectures parallèles
SGI-Origin2000 - DSM
Deux contraintes antagonistes :• Diminuer tlatence en distribuant les données• Préserver la cohérence des données et limiter tcohérence
Stratégies possibles :• Migration des données• Duplication des donnés• Migration des données en RAM et
duplication des données en cache
tcohérencevstlatence
CohérencevsDistribution
DSM = Modèle de cohérence + Algorithme + Implantation
PE
cache
RAM
architectures parallèles
SGI-Origin2000 - DSMEt ça marche !
Ex : SGI-O2K : Cohérence forte – MRSW – ccNUMAPlus efficace qu’une SMPPlus extensible qu’une SMP
NAS Parallel Benchmark Kernel FT
0
4
8
12
16
20
24
28
32
0 4 8 12 16 20 24 28 32Nombre de processeurs
Acc
élér
atio
n
SMP - SGI-PowerChallengeDSM - SGI-Origin2000S(P) = P
23
architectures parallèles
SGI-Origin2000Programmation :
• Envoi de messages : PVM, MPI• Accès mémoire distant : Shmem• Partage de mémoire & processus• Partage de mémoire & threads explicites : P-Threads, Irix-Threads• Partage de mémoire & threads implicite : OpenMP
Paradigmes variés … ET performances variées
Envoi de msg → Recopies mémoires :• plus rapide que de vrais msgs• plus lent que de vrais partages
Bubble-sort parallèle
0
10
20
30
40
50
60
0 8 16 24 32 40 48 56 64Nombre de processeurs
Tem
ps d
'exé
cutio
n
Bubble-sort - MPI
Bubble-sort Threads
architectures parallèles
SGI-Origin2000Bilan :
Evolution de la taille des SGI-Origin2000
0
100
200
300
400
500
600
1996 1997 1998 1999 2000 2001
Nom
bre
max
imum
de
proc
esse
ur
Evolution exponentiellede la taille maximale desSGI-Origin2000
• Sensible au false sharing comme les SMP• Fluctuation des performances en multi-user
• Machine performante• Programmation aisée : médium de communication confortable• Architecture extensible :
Panorama des architectures parallèles
5 - Architectures MIMD
• Types d’architectures parallèles MIMD• Quelques grandes étapes• Panorama des offres actuelles MIMD
24
architectures parallèlesHP : moyennes machines parallèles
HP multiprocessor servers are based on different processors:
HP Integrity servers HP Proliant servers
HP 9000 Superdome HP NonStop™ servers
HP AlphaServer™ HP Telco and carrier-grade servers• For telecom and
service provider
• Up to 64 Itanium-2• cc-NUMA
• Small servers
• “Non-stop computing”• Mainly OS & Soft
• Up to 64 PA-RISC• cc-NUMA
• Up to 32 Alpha• Planned to scale
architectures parallèlesHP : moyennes machines parallèles
HP superdome & HP Integrity :
A shared memory parallel model is supported. HP is a partner in the OpenMP organisation.
Top500 doc :
• Hardware and software partitioning• Multi-OS support: Windows, Linux, HP Unix• Support Itanium processors• Up to 64 processors• Support OpenMP• DSM cc-NUMA
architectures parallèles
SUN : moyennes+ machines parallèlesSUN propose des servers équipés de 1 à 106 processeurs:
Sun Fire B1600• Up to 16 UltraSparcIIi
Up to 16 Intel-Xeon Sun Fire V65x• Up to 2 Intel-Xeon
• Up to 24 UltraSPARC III Cu Processors• 4 Dynamic System Domains • Dynamic Reconfiguration
Sun Fire 6800 Server
• Small server examples
• Middle class server example
25
NO cc-NUMA highlighted !!SMP with 106 processors …!
architectures parallèles
SUN : moyennes+ machines parallèlesSUN propose des servers équipés de 1 à 106 processeurs:
• Large server examples
Sun Fire[tm] 15K Server• Up to 106 UltraSPARC® III • SMP architecture (shared memory)• Up to 18 Dynamic System Domains• 4-5 Million Euros
Strange !
architectures parallèles
IBM : machines parallèles
IBM zSeries 990
• IBM propose des servers “mainframes”, “Intel processor based”,“Unix servers”, …
• proprietary processor: CMOS z990• Up to 16 processors with SMP architecture
Up to 32 processors with 2 OS images
• Mainframe servers:
• Intel processor based servers:
xSeries 445• Up to 16 Intel-Xeon (cluster/SMP ?)• Physical partitioning (?)• Support Windows and Linux
• AMD processor based servers:
architectures parallèles
IBM : machines parallèles
• Up to 2 AMD Opteron processors eServer 325
26
architectures parallèles
IBM : grandes machines parallèles• Powerful Unix server
• Unix/Linux supported• IBM POWER4+ microprocessors • Up to 32 processors• SMP (shared memory)• Up to 32 dynamic partitions
pSeries 690
• Up to 16 processors POWER3• SMP (shared memory)
IBM SP3
architectures parallèles
IBM : grandes machines parallèles
• 10 noeuds utilisateurs de 16 processeurs Power3 chacun cadencés à 375 Mhz.
• 24 Goctets de mémoire partagée par noeud. • 2 noeuds d'I/O avec
8 processeurs chacun et 16 Goctets de mémorie par noeud.
• 250 Goctets d'espace HOME. • 250 Goctets d'espace /usr/local. • 1,4 Toctets d'espace commun
WORKDIR et TMPDIR
IDRIS : IBM RS/6000 SP Power3 2001
architectures parallèlesSGI : petites - moyennes - grandes
machines parallèlesSGI Origin3000 : une gamme modulaire
SGI Origin3900
• De 2 à 512 processeurs MIPS (Risc)• Machines assemblées à partir des mêmes briques de base• Une gamme entièrement modulaire (très rare)• cc-NUMA jusqu’à 512 processeurs ccNUMA
27
architectures parallèlesSGI : petites - moyennes - grandes
machines parallèlesConstitution modulaire des SGI-Origin3000 à partir de bricks :
• R-brick : Router Interconnect
• D-brick : Disk Storage
• G-brick : Graphics Expansion
• C-brick : CPU Module
• I-brick : I/O Module
• P-brick : PCI Expansion
• X-brick: XIO Expansion
architectures parallèlesSGI : petites - moyennes - grandes
machines parallèles
SGI® Origin® 3900• Processors: 16-512 MIPS (Risc)• cc-NUMA up to 512 processors • Dynamic partitioning: cluster of 2 to 32 cc-NUMA machines • Unix (Irix)
• Japan - Institute for ChemicalResearch: Advanced Genomic
• Volvo Cars : Crash Simulations
Panorama des architectures parallèles 6 - Clusters - Grappes - Grilles (Grid)
• Exemples de cluster de grosses/moyennes machines• Exemples de cluster de PC• Bilan des Cluster et Grappes• Exemple de grappes de PC• Exemple de besoin de grille de calcul
28
architectures parallèlesIBM : cluster de super-calculateurs
Processorspeed
Systemmemory
Internalstorage
Cluster interconnect
Entry 8 nodes 2.4GHz 512MB 18GB 10/100Mbps Ethernet
Mid-range 32 nodes 2.8GHz 1GB 18GB 10/100Mbps Ethernet
High-end 128 nodes 3.06GHz 1GB 36GB Gigabit Ethernet
High-perf. 64 nodes 3.06GHz 1GB 36GB Myrinet-2000
Clustersize
• Cluster of Intel processor based servers• Support Linux OS• Several Interconnexion networks are available• Considered for High-Performance computing
IBM e-server Cluster 1350
architectures parallèlesIBM : cluster de super-calculateurs
• High performance computing• Large-scale database applications
• Up to 128 nodes• Node == (ex) pSeries 690, 32 procs
• cluster hardware building blocks• cluster software building blocks
(cluster management software and parallel computing tools)
architectures parallèles
HP : Cluster de PC• Linux and hp clusters help Boeing R&D reduce costs
Intensive simulations for designing aircraft
Running a Cray can be faster but it costs a lot of money.We've had a 600 percent increase in performance and reducedour costs by 50 percent.
Linux-powered cluster of 225 PCs →385th-fastest supercomputer in the world (Grenoble - France).
• HP Builds Supercomputer from Off-the-Shelf Parts
• In 2003: “Cluster” does not appear in the main pages of HP web
29
architectures parallèle
Beowulf : cheap PC cluster
• In 1994, T. Sterling and D. Becker, CESDIS (for NASAproject) built a cluster computer consisting in :
- 16 DX4 processors - connected by channel bonded Ethernet.
• They called their machine « Beowulf ».
• It has been an immediate success !
History:
Definition:“Beowulf cluster” is a cluster built with standard machines and
communication network, just tuned to run together (in cluster mode)
Ex: monoprocessor PCs wired on a Fast-Ethernet network
Fujitsu has built a supercomputer by linking Intel servers with the new Infiniband interconnect
architectures parallèles
Fujitsu: PC cluster with specific net
• The first Linux-based supercomputer cluster using the open standard InfiniBand interconnect.
• 16 2-processor PCs & InfiniBand interconnect• Maximum data transfer rate of 2.5Gbit/s.
More efficient and more expensive than a Beowulf clusterNot so frequent than a standard Ethernet network→ Needs more than “tuning”.
architectures parallèles
Bilan des Clusters (ou « Grappes »)Evolution rapide … domaine en pleine évolution !
30
Pour l’instant pas de système vainqueur, pas de standard !
architectures parallèles
Bilan des Clusters et GrappesClusters (ou « grappes ») :
• Cluster de super-calculateurs / Cluster de PC• Clusters de PCs :
• Début des annonces de clusters de PC sur les web des grands constructeurs : IBM (2003)
• Plusieurs configurations sont connues : - Beowulf (économique), - à réseaux rapides (Gigabit Ethernet, Myrinet, InfiniBand,…)
• Question classique à prix constant:• plus de nœuds ?• plus de processeurs par nœuds ?• meilleur réseau d’interconnexion ?
architectures parallèlesEx de Grappes de PC expérimentale
Grappe de 100, puis 225 PC à Grenoble.Configuration d’intranet standard dans une entreprise.Développement :
• Algorithmique parallèle,• Couche et configuration système de reboot complet et rapide,• ….
architectures parallèles
Ex de Grappes de PC expérimentale Grid eXplorer : an instrument for
understanding GRID and P2P systemsA set of sensors
An experimentalConditions data base
A Hardware platform :EmulationSimulation
A set of tools for analysis
Validation onreal life testbed
31
architectures parallèlesCoût réel des clusters … ?
Panorama des Architectures parallèles 7 - Systèmes d’archivage
• Classes de serveurs de stockage • Exemple des systèmes d’archivage d’IBM• Exemple des systèmes d’archivage de SUN• Systèmes d’archivage & IO parallèles
architectures parallèles
Classes de serveurs de stockage« NAS » : Network-Attached Storage (100GB – 10TB)
• Une (ou deux) baie disques• 1 CPU + IDE ou SCSI• Redondance de connectivité• En général : Pas de fonctionnalités spéciales
« SAN » : Storage Area Network (jusqu’à 200TB ou +)• Réseau de baies disques• Réseau de CPU + Fibre-channel• Redondance connectivité et CPU• Fonctionnalités :
• FlashCopy : sauvegarde en cas de panne de courant • Remote Mirroring : sauvegarde en cas de panne disque• Dynamic Volume Expansion : extension de partition à la volée
5 à 20 KEuro
> 50 KEuro
32
architectures parallèles
Exemple de système d’archivage : IBMIBM 2104 Expandable Storage Plus
• Ultra3 SCSI - 160 MB/sec • 509 GB to 7 TB• to one or two servers• RAID 0, 1, 1E, 5 and 5E
• A faible coût • Pour stations de travail et petits serveurs
• full-Fibre Channel - 2 Gbps• 36 GB to 16 TB• FlashCopy ™ and Remote Mirroring• Dynamic Volume Expansion• RAID 0,1,3,5, and 10
IBM TotalStorage ™ FAStT700 Storage Server• Storage Area Network (SAN)
NAS
SAN
architectures parallèles
Exemple de système d’archivage : IBM
IBM TotalStorage™ SAN Controller 160• High-function Serial Disk Controller• Provides Fibre Channel connectivity for servers
IBM - Storage Area Network (SAN)
IBM 7133 Serial Disk System Advanced Models• Up to 7 TB (several hosts)• For UNIX, Windows NT, and Novell NetWare servers• Redundant data paths, redundant cooling units,
and two power supplies• Remote mirroring-up to 10 km
(with the Advanced SSA Optical Extender)
++ CPUs
architectures parallèles
Exemple de système d’archivage : SUNSun StorEdge A1000 and D1000 arrays
436 GB : 1 store unit3.92 TB : 9 store units
Sun StorEdge T3 array5.2 TB : une unitéRedondance : d’alim, de refroidisseur,
d’interconnexions
Sun StorEdge N86004TB to 10TB 8 UltraSPARC II processorsNAS !! Pas de redondances d’alim ?
NAS
NAS
NAS !!
33
architectures parallèles
Exemple de système d’archivage : SUN
Sun StorEdge T3 Array – EnterpriseJusqu’à 169 TBBeaucoup de redondancesMultiport Fibre Channel (FC) Switch
SAN
architectures parallèles
Systèmes d’archivage & IO parallèlesNAS et SAN
Serveurs rapides, sécurisés, … IO parallèles possibles(depuis une même appli)
Depuis 1 tâche : • par stripping, parallélisme implicite
Depuis P tâches :• parallélisme explicite d’IO• équilibrage d’attaques des disques• optimum stripping/multi-attaques ?• Voir algorithmique parallèle !
…………Controlleurs et CPUs
RAM
PE PE PE…………Réseau d’interconnexion
????
• Quelles stratégies de transfert de données ?
• Possibilités :
Panorama des Architectures parallèles 8 - Sources d’information permanente
• Top500.org• Spec.org• Cluster.Top500.org
34
architectures parallèles
Le Top 500 des supercalculateurshttp://www.top500.org/
• To provide a better basis for statistics on high-performance computers, we list the sites that have the 500 most powerful computer systemsinstalled. • The best Linpack benchmark performance achieved is used as a performance measure in ranking the computers. • The TOP500 list has been updated twice a year since June 1993.
Rank ManufacturerComputer/Procs
RmaxRpeak
Installation Site Country/Year
1 NECEarth-Simulator/ 5120
35860.0040960.00
Earth Simulator CenterJapan/2002
2 Hewlett-PackardASCI Q - AlphaServer SC ES45/1.25 GHz/ 8192
13880.0020480.00
Los Alamos National LaboratoryNSA/2002
4 IBMASCI White, SP Power3 375 MHz/ 8192
7304.0012288.00
Lawrence Livermore National LabUSA/2000
5 IBMSP Power3 375 MHz 16 way/ 6656
7304.009984.00
NERSC/LBNLUSA/2002
3 Linux NetworxMCR Linux Cluster Xeon 2.4 GHz - Quadrics/ 2304
7634.0011060.00
Lawrence Livermore National LabUSA/2002
June 2003
architectures parallèles
Le Top 500 des supercalculateursNovembre 2001 :
Juin 2002 :
35860.00
7226.00
4463.00
3980.00
3052.00
1 NEC Earth-Simulator Earth SimulatorCenter Japan 2002 Research 5120 40960.00 1075200 266240
2 IBM ASCI White, SP Power3 375 MHz
Lawrence LivermoreNational Laboratory USA 2000 Research Energy 8192 12288.00 518096 179000
3 Hewlett-Packard
AlphaServer SC ES45/1 GHz
Pittsburgh SupercomputingCenter
USA 2001 Academic 3016 6032.00 280000 85000
4 Hewlett-Packard
AlphaServer SC ES45/1 GHz
Commissariat a l'Energie Atomique (CEA)
France 2001 Research 2560 5120.00 360000 85000
5 IBM SP Power3 375 MHz 16 way NERSC/LBNL USA 2001 Research 3328 4992.00 371712 102400
Manu-facturer Computer Installation Site Proc. Rpeak
(GFlops) Nmax NhalfRmax(GFlops)
architectures parallèles
Top 500 des supercalculateursJuin 2002 :
35860.00
7226.00
4463.00
3980.00
3052.00
1 NEC Earth-Simulator Earth SimulatorCenter Japan 2002 Research 5120 40960.00 1075200 266240
2 IBM ASCI White, SP Power3 375 MHz
Lawrence LivermoreNational Laboratory USA 2000 Research Energy 8192 12288.00 518096 179000
3 Hewlett-Packard
AlphaServer SC ES45/1 GHz
Pittsburgh SupercomputingCenter
USA 2001 Academic 3016 6032.00 280000 85000
4 Hewlett-Packard
AlphaServer SC ES45/1 GHz
Commissariat a l'Energie Atomique (CEA)
France 2001 Research 2560 5120.00 360000 85000
5 IBM SP Power3 375 MHz 16 way NERSC/LBNL USA 2001 Research 3328 4992.00 371712 102400
Manu-facturer Computer Installation Site Proc. Rpeak
(GFlops) Nmax NhalfRmax(GFlops)
Juin 2003 :Rank Manufacturer
Computer/ProcsRmaxRpeak
Installation Site Country/Year
1 NECEarth-Simulator/ 5120
35860.0040960.00
Earth Simulator CenterJapan/2002
2 Hewlett-PackardASCI Q - AlphaServer SC ES45/1.25 GHz/ 8192
13880.0020480.00
Los Alamos National LaboratoryNSA/2002
4 IBMASCI White, SP Power3 375 MHz/ 8192
7304.0012288.00
Lawrence Livermore National LabUSA/2000
5 IBMSP Power3 375 MHz 16 way/ 6656
7304.009984.00
NERSC/LBNLUSA/2002
3 Linux NetworxMCR Linux Cluster Xeon 2.4 GHz - Quadrics/ 2304
7634.0011060.00
Lawrence Livermore National LabUSA/2002
35
architectures parallèles
Le site officiel des mesures de perf
IBM Corporation RS/6000 44P-270 (450MHz, 8MBL2) 4 14.2 15.2 Text HTML PDF PS ConfigIBM Corporation RS/6000 44P-270 (450MHz,8MBL2) 2 7.20 7.70 Text HTML PDF PS ConfigSGI SGI 2100 8X 350MHz R12k 8 23.1 25.1 Text HTML PDF PS ConfigSGI SGI 2200 2X 400MHz R12k 2 7.27 7.79 Text HTML PDF PS Config
http://www.spec.org/
Ex : SPEC CPU2000 Results
SPECapc - SPECviewperf - SPEC HPC96 - SPEC OMP2001 SPEC CPU2000 - SPEC JBB2000 - SPEC JVM98 - SPEC MAIL2001 SPEC SFS97_R1 - SPEC WEB99
Différents type de tests sont effectués :
architectures parallèles
Le site officiel des mesures de perf
architectures parallèles
Le Top 500 des Clustershttp://www.topclusters.org/
Beaucoup plus récent que le top500 … manque encore un peu de maturité
36
Panorama des Architectures parallèles 9 – Bilan matériel du Top-500
• Répartitions des types d’architectures • Répartitions des technologies et familles
de processeurs• Répartition des constructeurs
architectures parallèles
Bilan matériel du Top-500Répartition des types d’architectures dans le Top-500 :
architectures parallèles
Bilan matériel du Top-500Répartition des technologies de processeur dans le Top-500 :
Marketprocessors !
Trop cher → disparu !
37
architectures parallèlesBilan matériel du Top-500
Répartition des familles de processeurs dans le Top-500 :→ INTEL encore peu présent : manquait de 64 bits !
architectures parallèlesBilan matériel du Top-500
→ Chute de Cray, et marché ouvertRépartition des constructeurs dans le Top-500 :
architectures parallèlesBilan matériel du
Top-500 Répartition des constructeurs dans le Top:→ Peu d’écart entre la part du nombre
de machines et la part de performance
38
3.10 – L’ordinateur quantique …. ?!
architectures parallèles
Les possibilités quantiques• A court/moyen terme :
Utilisation de techniques quantiques pour réaliser des modules d’une architecture classique ?
RAM 0 1 1 1 0 0
1 bit : un tore, un transistor, une capacité … un spin ?
• A plus long terme :
Petits systèmes quantiques pour modéliser et simuler de gros systèmes quantiques ? (th. de méca-q)
→ Architectures quantiques dédiées pour applications précises
architectures parallèles
Les possibilités quantiques• A beaucoup plus long terme … :
Un ordinateur généraliste avec une architecture quantique ?
Pb : comment observer la solution sans la détruire ?!!!…
Actuellement :• Des recherches depuis plus de 10 ans• De plus en plus de recherches• Surtout pour améliorer des modules d’architectures classiques
(plus petits, plus rapide)
39
FIN
top related