parallélisme – s. vialle panorama des architectures...

1

Parallélisme – S. ViallePanorama des Architectures parallèles

1 – Vue d’ensemble2 – Architectures DataFlow et Systolique3 – Architectures Vectorielles4 – Architectures SIMD5 – Architectures MIMD6 – Clusters - Grappes7 – Systèmes d’archivage8 – Sources d’information permanente9 – Bilan matériel du Top-50010 – L’ordinateur quantique … ?!

Panorama des Architectures parallèles

1 - Vue d’ensemble

• Divers types d’architectures parallèles• Divers besoins des applications• Evolution des critères de classification

Architectures parallèles

Divers types d’architectures parallèles

MIMD

ShM DiM

DSM

Vectoriel

Shm DiM

SIMD

1992/93

DataFlowSystolique

Machines dédiées /Cartes filles

FujitsuNec

Cray ?

HP, SUN,IBM, SGI

HPSUNIBMSGI

?? HP, …FujitsuAsmbl.

Cluster

MIMD PC

Grilles

2

I/OI/O

ServeursServeurs WebWeb

MécaniqueMécanique des des FluidesFluides CPUCPU

StockageStockage

ServeurServeur de de stockagestockage

TraitementTraitement signalsignal

Media streamingMedia streaming

SupercalculateurSupercalculateur traditionneltraditionnel


Divers besoins des applications(Flexibilité des configurations - SGI)


Evolution des critères de classification

1972 - Classification de FLYN :• simpliste, mais claire• 4 classes d’architectures

MIMDMISDMultipleSIMDSISDSimpleFlot

d’instructions :

MultipleSimpleFlot de données :

Machines séquentielles

Machinesparallèlesactuelles

• Liens entre ces entités

• Nbr de mémoires d’instructions• Nbr de décodeurs d’instructions

• Nbr de mémoires de données• Nbr de processeurs de données


Evolution des critères de classification1988 – Taxonomie de Skilicorn :

• Plus précise que celle de Flyn• Basée sur l’architecture :

Machine séquentielle(Von neuman)

3


Evolution des critères de classification1988 – Taxonomie de Skilicorn :

Machine MIMD faiblement couplée (mémoire distribuée)

Machine MIMD fortement couplée (mémoire partagée)


Evolution des critères de classification1988 – Taxonomie de Skilicorn : → 28 taxons différents


Evolution des critères de classification1990 – Classificaton de Dasgupta :

• encore basée sur l’architecture, • et au delà de Skilicorn …

iM : interleaved memorysM : simple memoryC : cache

sI : simple instruction preparation unitpI : pipelined instruction preparation unitsX : simple processorpX : pipelined processor

4


Evolution des critères de classification1990 – Classificaton de Dasgupta :

On peut adopter une représentation inspirée de la chimie !

CM2 – Connection Machine 2 : (iM.C.pI )(sM.sX)64k


Evolution des critères de classification1990 – Classification de Duncan :

• basée sur des concepts d’architecture moins détaillés

• différentes decelle de Flyn :

Synchrone MIMD

SIMD


Evolution des critères de classification1991 – Classification Object Based :

• Basée sur des concepts d’OS,supportés par l’architecture.

• On s’intéresse aux fonctionnalités supportées.

5

Machineséquentielle

Machine MIMD àmémoiredistribuéeMachine

MIMD àmémoirepartagée


Evolution des critères de classification1994 – Classification de Kuhunen (EPFL) :

• Basée sur les fonctionnalités offertes au programmeur.

• Exécution sérielle ou parallèle : SE / PE ?

• Programmationsérielle ou parallèle : SI / PI ?

• Espace d’adressagesimple ou multiple : SA / MA ?

1972 - Point de vue du concepteur → 1994 - Point de vue de l’utilisateur

Architectures parallèlesEvolution des critères de classification

« Les machines gagnantes seront celles que l’on saura programmer ! »(Daniel Etiemble)« Est-ce que cette machine supporte MPI ? OpenMP ? » (2000)

1972 : architecture (Flyn)

1988 : architecture, détaillée , suit Flyn (Skilicorn)

1990 : architecture, très détaillée, suit Flyn (Dasgupta)

1990 : architecture, moins détaillée, s’éloigne de Flyn

1991 : fonctionnalités d’OS supportées (Duncan)

1994 : Fonctionnalités offertes au programmeur (Kuhunen)

Architectures parallèlesEvolution des critères de classification

Classification du Cray-T3D ??? :

RAM

Proc.

RAM

Proc.

RAM

Proc.………

RAM

Proc.

RAM

Proc.

RAM

Proc.………

Programmation par accès mémoire distants (shmem)

Programmation par envoi de messages (MPI)

Mémoire distribuée

Mémoirepartagée NUMA

Partage de mémoire

Envoi de messages

Quelle classification adopter ? … … on prend le point de vue de l’utilisateur : machine MPI et Shmem !!

6

Panorama des Architectures parallèles

2 - Architectures DataFlow et Systolique

• Tendance des architectures systoliques• Exemples d’architectures spécialisées


Tendance des architectures systoliques

• Architectures dédiées à des algorithmes• Tendance actuelle :

• faire des cartes filles (ou machines filles)• interfacées à des machines standards• ex : projet SAMBA de l’IRISA (1993 - 1995)


Tendance des architectures systoliques• Concevoir et réaliser une architecture …. peut être long !!

!!!

années

perf

Perf archi systolique

Perf archis concurrentes

Début deconception

Fin deréalisation∆ t

→ Automatiser la conception de l’architecture à partir de l’algorithme→ Réduire les temps de conception et de réalisation (diminuer ∆ t)

7


Exemples d’architectures spécialisées

GeneMatcher2™ SystemA Supercomputer for Sequence Similarity Analysis

A fully configured GeneMatcher2 contains more than 27,000 procs.A longer pipeline means greater throughput

Kestrel Parallel Processor 1994-2001The 512-processor single-board system acceleratescomputational biology, computational chemistry, andother algorithms by factors of 20 to 40

University of California at Santa Cruz

512 PE

64 PE


Exemples d’architectures spécialisées

Panorama des architectures parallèles

3 - Architectures Vectorielles

• Ancienne gamme CRAY• Nouvelle gamme CRAY• Ancienne gamme Fujitsu• Nouvelle gamme Fujitsu• Tendance générales• Earth Simulation Supercomputer

8

Cray-1, 1976 133Mflops Cray-2, 1985

1.9 gigaflops

Cray-C90, 199116 gigaflops

Cray-YMP, 1988

Cray-J90Cray-T90,

60 gigaflops

architectures parallèles

Anciens Cray vectoriels

Cray-T90,60 gigaflops

Cray-SV11 teraflop

Cray-SV2 (à venir)

Cray-SGI

Cray-Tera


Nouveaux Cray vectoriels

Cray-SX-6

Cray-Tera

NEC (SX)

Cray-X1 – 52.4 Tflops

Vector MPP


Le Cray-T90 : la fin d’une lignée

Liquide32T932

Liquide16T916

Air ou liquide4T94

Mode de refroidissement

Nombre de processeurs

Référence exacte

• Configuration maximale : T932• 32 processeurs, • 60 gigaflops crête,• Machine : 5.2m3, refroidisseur : 2.4m3

• 1 M$ / processeur (+/- 20%)

• Une gamme évolutive, tout en technologie ECL …. :

9


Le Cray-T90 : la fin d’une lignée

Puissant, mais : trop cher, trop gros, trop consommateur !!!

• Chaque carte CPU :

• Une horloge routée optiquement entre les cartes

• Mémoire : • deux modules de secours : dépannage sans démontage !• tout en SRAM (rapide et cher) !• mémoire totalement partagée (SMP)

• IO rapides par GigaRing (Cray) : 1200 Mo/s crête

22 couches22 couches 8 couches

d’alims.

optique élecélec


Le Cray-SV1 : fortes innovations

• Technologie CMOS - 1998, Cray-SGI• Mémoire DRAM et mémoire cache avant les pipelines vectoriels

• Cluster de machines Vectorielles-SMP : 32 nœuds max • Un nœud : 32 processeurs max

Sh. RAM

1 2 32…..Sh. RAM

1 2 32…..Sh. RAM

1 2 32…..

Cluster communication network

………….

CMOS-vectoriel Cache DRAM


Le Cray-SV1 : fortes innovations• Deux types de processeurs :

• vectoriels classiques : calculs légers, IO, OS• MSP : ensemble de 4 procs vectoriels : calculs lourds• 1 nœud = 32 PE max : 6 MSP + 8 std

4 MSP + 16 std0 MSP + 32 std

Hardware reconfigurable !

• SV1 : 1024 procs max1 teraflops crêteperf/prix(SV1) = 8 x perf/prix(T90)

Mais : cluster de SMP : mémoire non uniforme

10

architectures parallèlesEvolution du rapport perf/prix des

machines Cray vectorielles

0,6

5

10

1

2

3

4

5

6

J90 T90 SV1

rapp

ort

Perf

/ Pr

ix

Le passage de l’ECL au CMOS améliore considérablement le rapport Perf/Prix


Le Cray-X1• Scalable Vector MPP• Armoires – Noeuds – Processeurs

1 – 64 16 – 1024 64 – 4096• 819GFlops – 52.4TFlops• Clock Speed : 800MHz (seulement!)• R DRAM – Cache Coherence : DSM

Forte innovation sur la RAM : - Rapide (Bw proc-Ram)- DSM sur processeurs vectoriels- Accès rapide depuis tous les procs

Nouveaux processeurs très performants (Gflops)

Objectifs :• Nouvelle lignée• Péta-Flop en 2010

A suivre …

architectures parallèlesNouveaux objectifs de Cray

11


La gamme VPP de Fujitsu

Modèle VX VPP300 VPP700Processeurs 1~4 1~16 8~256Mémoire (Go) 2~8 2~32 16~512Puissance crête (Gflops) 2.4~9.6 2.4~38.4 19.2~614.4

VX VPP300 VPP700

Une gamme née en 1996, autour du même processeur vectoriel:

VectorMPP


La gamme VPP de Fujitsu

• Processeur :• en technologie CMOS, depuis 1996• 1 PE : 1 unité vectorielle + 1 unité scalaire

• Mémoire : • SDRAM• distribuée (RAM sur chaque carte mère)• PE interconnectés par réseau très rapide : mémoire globale virtuelle

• IO : • depuis certains PE, • ex : 24 PE d ’IO sur les 256 d’un VPP700

Détails du VPP700 : 256 procs - 614.4 gigaflops crête


La série VPP5000 de Fujitsu

Modèle VPP5000 VPP5000/UProcesseurs 2 à 128 1 Mémoire (Go) 8 à 2048 4 à 16 Puissance crête (Gflops) 19,2 à 1229 9,6

• Passe le teraflops avec 128 processeurs → processeurs les plus puissants ? (10 gigaflops/proc)

• Grandes puissances vectorielle et scalaire

Super-calculateur Vectoriel et Parallèle VPP5000 (1999) :

Nouveau proc.Nouvelle carte mère

12


Tendances des machines vectorielles

• Des machines au delà du teraflop en puissance crête et config maximale• Des machines au delà du teraoctet de RAM• Des machines en CMOS et DRAM ou SDRAM

Lignées japonaises :• équilibrées en capacités scalaires et vectorielles• processeurs les plus puissants• des gammes suivies

Lignées américaines :• plus originales• plus de capacités vectorielles que scalaires• cluster de SMP• Cray → SGI → Tera → partenariat avec NEC → CRAY


Earth Simulation Supercomputer• Machine Vectorielle NEC : replace le vectoriel en tête du Top-500 • 640-nœuds de 8 processeurs : 5120 processeurs• 40 Tflops crête, a atteint les 35 Tflops en juin 2002

VectorMPP


Earth Simulation Supercomputer

Exploitation :• Construit pour UNE application précise (simulation)→ 35 Tflops atteint : 87.5 % de la puissance crête atteinte !

Architecture :• 640 nœuds de 8 processeurs (ShM) connectés par réseau rapide→ Cluster de ShM vectorielles→ 5120 processeurs vectoriels, 40 Tflops crête→ Total Main memory: 10 Tera bytes

• Module RAM :

• Processeurs :

Fabricant :NEC

Utilisateur :Japon

13


Earth Simulation SupercomputerDéveloppée en 5 ans, devrait rester numéro 1 pendant (?) ans.

architectures parallèlesLe Earth Simulator inquiète les USA


4 - Architectures SIMD

• Principes des architectures SIMD• Problème des architectures MIMD• Connection machines et Maspar

14


Principes des architectures SIMDPrincipes :

• Un décodeur d’instruction• Des milliers de processeurs sans décodeurs d’instructions :

sorte d ’UAL avec une mémoire mocale• Un solide réseau d’interconnexion• Un processeur fait la même chose que les autres ou rien.

Décodeur d’instruction

Réseau de PEs

Frontaldonnées

Pour le même prix : mieux vaut investir dans une machine MIMD


Problème des architectures SIMD• Très efficace pour certains pb à grain fin

(ex : certains traitements d’images)• Demande des processeurs spécifiques : PAS ceux du marché→ dépassés par l’évolution constante des PE du marché et

par les machines parallèles MIMD qui les utilisent

1990-1993

PerfSIMD

MIMD


Connection Machines

CM-2 General SpecificationsProcessors 65536 (64K)Memory 512 MBMemory Bw 300Gbits/SecI/O Channels 8Capacity per Channel 40 MB/SecMax. Transfer Rate 320 MB/Sec

DataVault SpecificationsStorage Capacity 5 or 10 GBI/O Interfaces 2Transfer Rate, Burst 40 MB/SecMax. Aggregate Rate 320 MB/Sec

Connection-Machine 2 - 1987

Thinking Machines CorporationW. Daniel Hillis

15

3 – architectures parallèles

MASPAR

MasPar front-end

ArrayControl

Unit

Data Parallel Unit

MP1 → MP2 → fin! (1994) : Fin des archis SIMD généralistes ...16384 processeurs (16 Kprocs) maxi

MasPar was formed in 1988 by a DEC Vice-President, and the company retains an association with DEC


5 - Architectures MIMD

• Types d’architectures parallèles MIMD• Quelques grandes étapes• Panorama des offres actuelles MIMD


Divers types d’architectures MIMDShared-memory MIMD machines :

Un principePlusieurs techniques

Overview of RecentSupercomputers

Aad J. van der SteenJack J. Dongarra

16


Divers types d’architectures MIMDDistributed-memory MIMD machines :

Mem

proc

Mem

proc

Mem

proc

network

Hypercubes

Fat trees

Autres



Divers types d’architectures MIMD

Hybrid architectures :S-COMA (théoriques)ou ccNUMA (commercialisées)


Overview of RecentSupercomputers

Aad J. van der SteenJack J. Dongarra




17

Première machine parallèle MIMD à mémoire distribuéeConstruite spécialement pour le calcul parallèle


1980-85 : Cosmic-Cube

Cadre du projet :• Origine : Collaboration informaticiens-physiciens• But final : Une application de calcul intensif TRES régulière• Conçue et réalisée à CALTECH (1980 -1985), avec l’aide d’INTEL

Hardware :• Processeurs : 64 x (8086 + 8087) → 3 Mflops crête• Mémoire : 128 Ko/Proc• Réseau de communication Hypercubique (26 nœuds – dimension 6)• Liens à 2 Mbits/s

Dim 1 Dim 2 Dim 3 Dim 4 …………


1980-85 : Cosmic-Cube

8 blocs de 8 carte mères(64 processeurs)

Interface frontale

Ventilateurs


1980-85 : Cosmic-CubeCommunications :

• Routage automatique des messages jusqu’au processeur destinataire(routage logiciel)

• Routage implanté : Store & Forward, à chemin statique

Temps total à distance d : d.(ts+Q/Bw)

• Autre routage étudié : Wormhole, à chemin dynamique

Temps total à distance d : d.ts + Q/Bw

Étape 1 : Une copie intermédiaire complète : ts+Q/Bw

Étape 2 : Une copie finale complète : ts+Q/Bw

Étape 1 Étape 2 Étape 3 Étape 4 Étape 5

18


1980-85 : Cosmic-CubeProgrammation :

• Multiprocessus possible sur chaque PE• Envois de messages• Send et Recv non bloquant (!)L’envoi de msgs apparaît plus difficile que le partage de mémoire

Mise en évidence de l’influence des temps de communications

Coût du prototype :• 80000$ (64 x 8086+8087 en 1980-85)

Performances sur calculs localisés et réguliers :• Efficacité moyenne : 85%• Meilleure efficacité : 97%

• Première machine MIMD à mémoire distribuée• Premiers algorithmes de parallélisation en hyper-cube• Succès pour les calculs localisés et réguliers


1980-85 : Cosmic-CubeBilan du projet Comic-Cube :

Suites commerciales :

Intel-iPSC :

32–128 x

10 Mbit/s par lien512 Ko/proc

Intel-iPSC/860 :8–128 x i86045 Mbit/s par lien128 proc →

2.6 Gflops obtenus5.1 Gflops crêtes

⎪⎩

⎪⎨

⎧

8028780286

• Mise en évidence de la difficulté de l’envoi de messages• Mise en évidence du besoin de routages rapides

1 téraflop crête en 1991 !!!


1987-91 : CM5

Thinking-Machine :1984-87 : CM1 & CM2, SIMD

↓1987-91 : CM5, MIMD & vectoriel

CM5 :• PE

• Mémoire distribuée : 32Mo/PE• Réseaux arborescents• Multi-user & multi-appli

⎪⎪⎩

⎪⎪⎨

⎧

−≤

esvectoriellunitéssparcRISC : 16384

Une tentative de passage du SIMD au MIMD :Milliers de processeur RISC & Vectoriels, Réseau en Fat-Tree

19


1987-91 : CM5Architecture d’un PE de la CM5 :

• 1 processeur RISC et 4 unités vectorielles• Accès à deux réseaux de communication

RISC(sparc)

Unité vectorielleUnité vectorielleUnité vectorielleUnité vectorielle

RAM32 Mo

Bus 64 bit

Control netinterface

Data netinterface

Data net Control net


1987-91 : CM5

• Réseau de données : • Destiné aux communications point à point• Fat-Tree : les branches les plus hautes ont plus de capacités de com,

→ évite les engorgements des arbres classiques• 20 Mo/s crête par lien :

→ permutation aléatoire : 4 Mo/s / PE→ communication très locales : 15 Mo/s / PE

• Réseau de contrôle :• Destiné au synchronisations et communications multi-points• Broadcast possible depuis 1 PE à la fois• Arbre binaire

• Réseau de diagnostic :• Destiné à la détection parallèle et à l’isolement des pannes• Arbre binaire

3 réseaux de communications arborescents


1987-91 : CM5 - Fat Trees

• Principe : P â fl Nb liens â et (Nb liens / PE) â• Crossbar : capacité de com maximale,

mais trop difficile à réaliser• Hyper-Cube : compromis,

mais capacité de com. sous-exploité• Binary Fat-Tree : autre compromis,

moins de capacité - plus simple à réaliser

Fat-Tree (MIT 1983-85) :

• Protocole de communication de la CM5 :• Pour un nœud :• Pertes de messages & ack.• Ré-émission au cycle suivant si perte

!messages de pertes ⇒∑>∑ ssortieentrées

20


1987-91 : CM5 - Fat TreesBinary Fat-Tree d’ordre 4 de la CM5 :


1987-91 : CM5Programmation de la CM5 :

• Langages de programmation Data-Parallel• Envois de messages→ Mélange original ….

Bilan : • Machine très innovante • Mais performances décevantes

• Capacités de communications insuffisantes→ Binary Fat-Tree ne s’est pas révélé un bon choix.

• Modèle de programmation inadapté à l’architecture ?• Modèle de programmation maîtrisable ?

Fin de la société Thinking Machine !!!Passage SIMD → MIMD raté, technologies très différentes.


1993-2000 : Cray-T3D – Cray-T3E

Cray-T3D :• Processeurs : ≤ 1024 Alpha• Réseau de comm. : tore 3D

600Mo/s lien crête

100-480Mo/s réel

• Mémoire : distribuée et partageable mais NUMA : <n° proc,ptr loc> Cray-T3D

En 1993 : le Cray-T3D est la première machine MIMD à mémoiredistribuée avec un réseau d’interconnexion réellement performant

21


1993-2000 : Cray-T3D – Cray-T3EDémarche commerciale : Cray sort le T3D précipitamment en 1993…

…pour occuper le marché• Il faut un Cray YMP en frontal d’un T3D !!!

• Le cache L2 des processeurs Alpha a du être invalidé !!!→ Cray propose des formations au T3D où l’on apprend à bien

utiliser le petit cache L1 !!!• Les compilateurs et optimiseurs de code sont buggés

• Mais … ça marche : très bonnes performances !les communications ne se voient pas !

et le T3E résout ces problèmes un peu plus tard

Programmation en Shmem : originale, mais efficace et élégante.


1993-2000 : Cray-T3D – Cray-T3E

Programmation T3D et T3E : 2 paradigmes possibles• Envoi de messages : PVM, MPI - send & recv• Accès RAM distante : Shmem (Cray lib) - shmget() OU shmput()

260Mo/s14µsMPI150Mo/s11µsPVM350Mo/s1µsShmemBande passanteLatenceBibliothèque

Performances :• Cray-T3E-1200, 2048 Alphas → 2.5 téraflops crête• mais introduit : Stream Buffers (cache) et E-registers (sync. et com.) → Optimisations spécifiques


1993-2000 : Cray-T3D – Cray-T3EBilan Cray T3D et T3E :

• Très puissants• Mémoire partagée NUMA• Nouveautés technologiques : Stream Buffers er E-registers (T3E)• Plusieurs paradigmes de parallélisations supportés• Réseau de comm. à la hauteur de la puissance des processeurs

• Très chers• Optimisations sérielles supplémentaires et nécessaires

22


SGI-Origin2000

SGI-Origin2000 :• Processeurs : 4 à 512 Mips-R12000 (RISC)• Réseau hyper-cubique

• Mémoire hybride : distribuée et partagée

• Algorithme MRSW • Implantation Hardware :

« CC-NUMA »• Architecture plus extensible que les

SMP (limitées en 1996 à 20 procs.)

Première architecture DSM commercialisée :Offre une mémoire partagée et plusieurs centaines de processeurs


SGI-Origin2000 - DSM

Deux contraintes antagonistes :• Diminuer tlatence en distribuant les données• Préserver la cohérence des données et limiter tcohérence

Stratégies possibles :• Migration des données• Duplication des donnés• Migration des données en RAM et

duplication des données en cache

tcohérencevstlatence

CohérencevsDistribution

DSM = Modèle de cohérence + Algorithme + Implantation

PE

cache

RAM


SGI-Origin2000 - DSMEt ça marche !

Ex : SGI-O2K : Cohérence forte – MRSW – ccNUMAPlus efficace qu’une SMPPlus extensible qu’une SMP

NAS Parallel Benchmark Kernel FT

0

4

8

12

16

20

24

28

32

0 4 8 12 16 20 24 28 32Nombre de processeurs

Acc

élér

atio

n

SMP - SGI-PowerChallengeDSM - SGI-Origin2000S(P) = P

23


SGI-Origin2000Programmation :

• Envoi de messages : PVM, MPI• Accès mémoire distant : Shmem• Partage de mémoire & processus• Partage de mémoire & threads explicites : P-Threads, Irix-Threads• Partage de mémoire & threads implicite : OpenMP

Paradigmes variés … ET performances variées

Envoi de msg → Recopies mémoires :• plus rapide que de vrais msgs• plus lent que de vrais partages

Bubble-sort parallèle

0

10

20

30

40

50

60

0 8 16 24 32 40 48 56 64Nombre de processeurs

Tem

ps d

'exé

cutio

n

Bubble-sort - MPI

Bubble-sort Threads


SGI-Origin2000Bilan :

Evolution de la taille des SGI-Origin2000

0

100

200

300

400

500

600

1996 1997 1998 1999 2000 2001

Nom

bre

max

imum

de

proc

esse

ur

Evolution exponentiellede la taille maximale desSGI-Origin2000

• Sensible au false sharing comme les SMP• Fluctuation des performances en multi-user

• Machine performante• Programmation aisée : médium de communication confortable• Architecture extensible :




24

architectures parallèlesHP : moyennes machines parallèles

HP multiprocessor servers are based on different processors:

HP Integrity servers HP Proliant servers

HP 9000 Superdome HP NonStop™ servers

HP AlphaServer™ HP Telco and carrier-grade servers• For telecom and

service provider

• Up to 64 Itanium-2• cc-NUMA

• Small servers

• “Non-stop computing”• Mainly OS & Soft

• Up to 64 PA-RISC• cc-NUMA

• Up to 32 Alpha• Planned to scale

architectures parallèlesHP : moyennes machines parallèles

HP superdome & HP Integrity :

A shared memory parallel model is supported. HP is a partner in the OpenMP organisation.

Top500 doc :

• Hardware and software partitioning• Multi-OS support: Windows, Linux, HP Unix• Support Itanium processors• Up to 64 processors• Support OpenMP• DSM cc-NUMA


SUN : moyennes+ machines parallèlesSUN propose des servers équipés de 1 à 106 processeurs:

Sun Fire B1600• Up to 16 UltraSparcIIi

Up to 16 Intel-Xeon Sun Fire V65x• Up to 2 Intel-Xeon

• Up to 24 UltraSPARC III Cu Processors• 4 Dynamic System Domains • Dynamic Reconfiguration

Sun Fire 6800 Server

• Small server examples

• Middle class server example

25

NO cc-NUMA highlighted !!SMP with 106 processors …!


SUN : moyennes+ machines parallèlesSUN propose des servers équipés de 1 à 106 processeurs:

• Large server examples

Sun Fire[tm] 15K Server• Up to 106 UltraSPARC® III • SMP architecture (shared memory)• Up to 18 Dynamic System Domains• 4-5 Million Euros

Strange !


IBM : machines parallèles

IBM zSeries 990

• IBM propose des servers “mainframes”, “Intel processor based”,“Unix servers”, …

• proprietary processor: CMOS z990• Up to 16 processors with SMP architecture

Up to 32 processors with 2 OS images

• Mainframe servers:

• Intel processor based servers:

xSeries 445• Up to 16 Intel-Xeon (cluster/SMP ?)• Physical partitioning (?)• Support Windows and Linux

• AMD processor based servers:


IBM : machines parallèles

• Up to 2 AMD Opteron processors eServer 325

26


IBM : grandes machines parallèles• Powerful Unix server

• Unix/Linux supported• IBM POWER4+ microprocessors • Up to 32 processors• SMP (shared memory)• Up to 32 dynamic partitions

pSeries 690

• Up to 16 processors POWER3• SMP (shared memory)

IBM SP3


IBM : grandes machines parallèles

• 10 noeuds utilisateurs de 16 processeurs Power3 chacun cadencés à 375 Mhz.

• 24 Goctets de mémoire partagée par noeud. • 2 noeuds d'I/O avec

8 processeurs chacun et 16 Goctets de mémorie par noeud.

• 250 Goctets d'espace HOME. • 250 Goctets d'espace /usr/local. • 1,4 Toctets d'espace commun

WORKDIR et TMPDIR

IDRIS : IBM RS/6000 SP Power3 2001

architectures parallèlesSGI : petites - moyennes - grandes

machines parallèlesSGI Origin3000 : une gamme modulaire

SGI Origin3900

• De 2 à 512 processeurs MIPS (Risc)• Machines assemblées à partir des mêmes briques de base• Une gamme entièrement modulaire (très rare)• cc-NUMA jusqu’à 512 processeurs ccNUMA

27


machines parallèlesConstitution modulaire des SGI-Origin3000 à partir de bricks :

• R-brick : Router Interconnect

• D-brick : Disk Storage

• G-brick : Graphics Expansion

• C-brick : CPU Module

• I-brick : I/O Module

• P-brick : PCI Expansion

• X-brick: XIO Expansion


machines parallèles

SGI® Origin® 3900• Processors: 16-512 MIPS (Risc)• cc-NUMA up to 512 processors • Dynamic partitioning: cluster of 2 to 32 cc-NUMA machines • Unix (Irix)

• Japan - Institute for ChemicalResearch: Advanced Genomic

• Volvo Cars : Crash Simulations

Panorama des architectures parallèles 6 - Clusters - Grappes - Grilles (Grid)

• Exemples de cluster de grosses/moyennes machines• Exemples de cluster de PC• Bilan des Cluster et Grappes• Exemple de grappes de PC• Exemple de besoin de grille de calcul

28

architectures parallèlesIBM : cluster de super-calculateurs

Processorspeed

Systemmemory

Internalstorage

Cluster interconnect

Entry 8 nodes 2.4GHz 512MB 18GB 10/100Mbps Ethernet

Mid-range 32 nodes 2.8GHz 1GB 18GB 10/100Mbps Ethernet

High-end 128 nodes 3.06GHz 1GB 36GB Gigabit Ethernet

High-perf. 64 nodes 3.06GHz 1GB 36GB Myrinet-2000

Clustersize

• Cluster of Intel processor based servers• Support Linux OS• Several Interconnexion networks are available• Considered for High-Performance computing

IBM e-server Cluster 1350

architectures parallèlesIBM : cluster de super-calculateurs

• High performance computing• Large-scale database applications

• Up to 128 nodes• Node == (ex) pSeries 690, 32 procs

• cluster hardware building blocks• cluster software building blocks

(cluster management software and parallel computing tools)


HP : Cluster de PC• Linux and hp clusters help Boeing R&D reduce costs

Intensive simulations for designing aircraft

Running a Cray can be faster but it costs a lot of money.We've had a 600 percent increase in performance and reducedour costs by 50 percent.

Linux-powered cluster of 225 PCs →385th-fastest supercomputer in the world (Grenoble - France).

• HP Builds Supercomputer from Off-the-Shelf Parts

• In 2003: “Cluster” does not appear in the main pages of HP web

29

architectures parallèle

Beowulf : cheap PC cluster

• In 1994, T. Sterling and D. Becker, CESDIS (for NASAproject) built a cluster computer consisting in :

- 16 DX4 processors - connected by channel bonded Ethernet.

• They called their machine « Beowulf ».

• It has been an immediate success !

History:

Definition:“Beowulf cluster” is a cluster built with standard machines and

communication network, just tuned to run together (in cluster mode)

Ex: monoprocessor PCs wired on a Fast-Ethernet network

Fujitsu has built a supercomputer by linking Intel servers with the new Infiniband interconnect


Fujitsu: PC cluster with specific net

• The first Linux-based supercomputer cluster using the open standard InfiniBand interconnect.

• 16 2-processor PCs & InfiniBand interconnect• Maximum data transfer rate of 2.5Gbit/s.

More efficient and more expensive than a Beowulf clusterNot so frequent than a standard Ethernet network→ Needs more than “tuning”.


Bilan des Clusters (ou « Grappes »)Evolution rapide … domaine en pleine évolution !

30

Pour l’instant pas de système vainqueur, pas de standard !


Bilan des Clusters et GrappesClusters (ou « grappes ») :

• Cluster de super-calculateurs / Cluster de PC• Clusters de PCs :

• Début des annonces de clusters de PC sur les web des grands constructeurs : IBM (2003)

• Plusieurs configurations sont connues : - Beowulf (économique), - à réseaux rapides (Gigabit Ethernet, Myrinet, InfiniBand,…)

• Question classique à prix constant:• plus de nœuds ?• plus de processeurs par nœuds ?• meilleur réseau d’interconnexion ?

architectures parallèlesEx de Grappes de PC expérimentale

Grappe de 100, puis 225 PC à Grenoble.Configuration d’intranet standard dans une entreprise.Développement :

• Algorithmique parallèle,• Couche et configuration système de reboot complet et rapide,• ….


Ex de Grappes de PC expérimentale Grid eXplorer : an instrument for

understanding GRID and P2P systemsA set of sensors

An experimentalConditions data base

A Hardware platform :EmulationSimulation

A set of tools for analysis

Validation onreal life testbed

31

architectures parallèlesCoût réel des clusters … ?

Panorama des Architectures parallèles 7 - Systèmes d’archivage

• Classes de serveurs de stockage • Exemple des systèmes d’archivage d’IBM• Exemple des systèmes d’archivage de SUN• Systèmes d’archivage & IO parallèles


Classes de serveurs de stockage« NAS » : Network-Attached Storage (100GB – 10TB)

• Une (ou deux) baie disques• 1 CPU + IDE ou SCSI• Redondance de connectivité• En général : Pas de fonctionnalités spéciales

« SAN » : Storage Area Network (jusqu’à 200TB ou +)• Réseau de baies disques• Réseau de CPU + Fibre-channel• Redondance connectivité et CPU• Fonctionnalités :

• FlashCopy : sauvegarde en cas de panne de courant • Remote Mirroring : sauvegarde en cas de panne disque• Dynamic Volume Expansion : extension de partition à la volée

5 à 20 KEuro

> 50 KEuro

32


Exemple de système d’archivage : IBMIBM 2104 Expandable Storage Plus

• Ultra3 SCSI - 160 MB/sec • 509 GB to 7 TB• to one or two servers• RAID 0, 1, 1E, 5 and 5E

• A faible coût • Pour stations de travail et petits serveurs

• full-Fibre Channel - 2 Gbps• 36 GB to 16 TB• FlashCopy ™ and Remote Mirroring• Dynamic Volume Expansion• RAID 0,1,3,5, and 10

IBM TotalStorage ™ FAStT700 Storage Server• Storage Area Network (SAN)

NAS

SAN


Exemple de système d’archivage : IBM

IBM TotalStorage™ SAN Controller 160• High-function Serial Disk Controller• Provides Fibre Channel connectivity for servers

IBM - Storage Area Network (SAN)

IBM 7133 Serial Disk System Advanced Models• Up to 7 TB (several hosts)• For UNIX, Windows NT, and Novell NetWare servers• Redundant data paths, redundant cooling units,

and two power supplies• Remote mirroring-up to 10 km

(with the Advanced SSA Optical Extender)

++ CPUs


Exemple de système d’archivage : SUNSun StorEdge A1000 and D1000 arrays

436 GB : 1 store unit3.92 TB : 9 store units

Sun StorEdge T3 array5.2 TB : une unitéRedondance : d’alim, de refroidisseur,

d’interconnexions

Sun StorEdge N86004TB to 10TB 8 UltraSPARC II processorsNAS !! Pas de redondances d’alim ?

NAS

NAS

NAS !!

33


Exemple de système d’archivage : SUN

Sun StorEdge T3 Array – EnterpriseJusqu’à 169 TBBeaucoup de redondancesMultiport Fibre Channel (FC) Switch

SAN


Systèmes d’archivage & IO parallèlesNAS et SAN

Serveurs rapides, sécurisés, … IO parallèles possibles(depuis une même appli)

Depuis 1 tâche : • par stripping, parallélisme implicite

Depuis P tâches :• parallélisme explicite d’IO• équilibrage d’attaques des disques• optimum stripping/multi-attaques ?• Voir algorithmique parallèle !

…………Controlleurs et CPUs

RAM

PE PE PE…………Réseau d’interconnexion

????

• Quelles stratégies de transfert de données ?

• Possibilités :

Panorama des Architectures parallèles 8 - Sources d’information permanente

• Top500.org• Spec.org• Cluster.Top500.org

34


Le Top 500 des supercalculateurshttp://www.top500.org/

• To provide a better basis for statistics on high-performance computers, we list the sites that have the 500 most powerful computer systemsinstalled. • The best Linpack benchmark performance achieved is used as a performance measure in ranking the computers. • The TOP500 list has been updated twice a year since June 1993.

Rank ManufacturerComputer/Procs

RmaxRpeak

Installation Site Country/Year

1 NECEarth-Simulator/ 5120

35860.0040960.00

Earth Simulator CenterJapan/2002

2 Hewlett-PackardASCI Q - AlphaServer SC ES45/1.25 GHz/ 8192

13880.0020480.00

Los Alamos National LaboratoryNSA/2002

4 IBMASCI White, SP Power3 375 MHz/ 8192

7304.0012288.00

Lawrence Livermore National LabUSA/2000

5 IBMSP Power3 375 MHz 16 way/ 6656

7304.009984.00

NERSC/LBNLUSA/2002

3 Linux NetworxMCR Linux Cluster Xeon 2.4 GHz - Quadrics/ 2304

7634.0011060.00


June 2003


Le Top 500 des supercalculateursNovembre 2001 :

Juin 2002 :

35860.00

7226.00

4463.00

3980.00

3052.00

1 NEC Earth-Simulator Earth SimulatorCenter Japan 2002 Research 5120 40960.00 1075200 266240

2 IBM ASCI White, SP Power3 375 MHz

Lawrence LivermoreNational Laboratory USA 2000 Research Energy 8192 12288.00 518096 179000

3 Hewlett-Packard

AlphaServer SC ES45/1 GHz

Pittsburgh SupercomputingCenter

USA 2001 Academic 3016 6032.00 280000 85000

4 Hewlett-Packard


Commissariat a l'Energie Atomique (CEA)

France 2001 Research 2560 5120.00 360000 85000

5 IBM SP Power3 375 MHz 16 way NERSC/LBNL USA 2001 Research 3328 4992.00 371712 102400

Manu-facturer Computer Installation Site Proc. Rpeak

(GFlops) Nmax NhalfRmax(GFlops)


Top 500 des supercalculateursJuin 2002 :

35860.00

7226.00

4463.00

3980.00

3052.00

1 NEC Earth-Simulator Earth SimulatorCenter Japan 2002 Research 5120 40960.00 1075200 266240

2 IBM ASCI White, SP Power3 375 MHz

Lawrence LivermoreNational Laboratory USA 2000 Research Energy 8192 12288.00 518096 179000

3 Hewlett-Packard


Pittsburgh SupercomputingCenter

USA 2001 Academic 3016 6032.00 280000 85000

4 Hewlett-Packard


Commissariat a l'Energie Atomique (CEA)

France 2001 Research 2560 5120.00 360000 85000

5 IBM SP Power3 375 MHz 16 way NERSC/LBNL USA 2001 Research 3328 4992.00 371712 102400

Manu-facturer Computer Installation Site Proc. Rpeak

(GFlops) Nmax NhalfRmax(GFlops)

Juin 2003 :Rank Manufacturer

Computer/ProcsRmaxRpeak

Installation Site Country/Year

1 NECEarth-Simulator/ 5120

35860.0040960.00

Earth Simulator CenterJapan/2002

2 Hewlett-PackardASCI Q - AlphaServer SC ES45/1.25 GHz/ 8192

13880.0020480.00

Los Alamos National LaboratoryNSA/2002

4 IBMASCI White, SP Power3 375 MHz/ 8192

7304.0012288.00


5 IBMSP Power3 375 MHz 16 way/ 6656

7304.009984.00

NERSC/LBNLUSA/2002

3 Linux NetworxMCR Linux Cluster Xeon 2.4 GHz - Quadrics/ 2304

7634.0011060.00


35


Le site officiel des mesures de perf

IBM Corporation RS/6000 44P-270 (450MHz, 8MBL2) 4 14.2 15.2 Text HTML PDF PS ConfigIBM Corporation RS/6000 44P-270 (450MHz,8MBL2) 2 7.20 7.70 Text HTML PDF PS ConfigSGI SGI 2100 8X 350MHz R12k 8 23.1 25.1 Text HTML PDF PS ConfigSGI SGI 2200 2X 400MHz R12k 2 7.27 7.79 Text HTML PDF PS Config

http://www.spec.org/

Ex : SPEC CPU2000 Results

SPECapc - SPECviewperf - SPEC HPC96 - SPEC OMP2001 SPEC CPU2000 - SPEC JBB2000 - SPEC JVM98 - SPEC MAIL2001 SPEC SFS97_R1 - SPEC WEB99

Différents type de tests sont effectués :


Le site officiel des mesures de perf


Le Top 500 des Clustershttp://www.topclusters.org/

Beaucoup plus récent que le top500 … manque encore un peu de maturité

36

Panorama des Architectures parallèles 9 – Bilan matériel du Top-500

• Répartitions des types d’architectures • Répartitions des technologies et familles

de processeurs• Répartition des constructeurs


Bilan matériel du Top-500Répartition des types d’architectures dans le Top-500 :


Bilan matériel du Top-500Répartition des technologies de processeur dans le Top-500 :

Marketprocessors !

Trop cher → disparu !

37

architectures parallèlesBilan matériel du Top-500

Répartition des familles de processeurs dans le Top-500 :→ INTEL encore peu présent : manquait de 64 bits !

architectures parallèlesBilan matériel du Top-500

→ Chute de Cray, et marché ouvertRépartition des constructeurs dans le Top-500 :

architectures parallèlesBilan matériel du

Top-500 Répartition des constructeurs dans le Top:→ Peu d’écart entre la part du nombre

de machines et la part de performance

38

3.10 – L’ordinateur quantique …. ?!


Les possibilités quantiques• A court/moyen terme :

Utilisation de techniques quantiques pour réaliser des modules d’une architecture classique ?

RAM 0 1 1 1 0 0

1 bit : un tore, un transistor, une capacité … un spin ?

• A plus long terme :

Petits systèmes quantiques pour modéliser et simuler de gros systèmes quantiques ? (th. de méca-q)

→ Architectures quantiques dédiées pour applications précises


Les possibilités quantiques• A beaucoup plus long terme … :

Un ordinateur généraliste avec une architecture quantique ?

Pb : comment observer la solution sans la détruire ?!!!…

Actuellement :• Des recherches depuis plus de 10 ans• De plus en plus de recherches• Surtout pour améliorer des modules d’architectures classiques

(plus petits, plus rapide)

39

FIN

parallélisme – s. vialle panorama des architectures...

Documents