arhitectura sistemelor de calcul curs 14 - 14 - top500.pdf · 2021. 4. 6. · arhitectura...

1

Arhitectura Sistemelor de Calcul – Curs 14

Universitatea Politehnica Bucuresti

Facultatea de Automatica si Calculatoare

cs.pub.ro

curs.cs.pub.ro

2

Cuprins

• Top 500 Supercomputers (http://www.top500.org)

– Prezentare generala

– Benchmark – LINPACK(HPL)

• Top 10

– Motivatie

– Info – locatie/furnizor

– Arhitectura

– Performante LINPACK

– OS & Software

– Aplicatii

• Concluzii Top 500

• Cate ceva despre examen: mod de notare, etc…

http://www.top500.org/

2

3

www.top500.org

• Proiect demarat in 1993 (Iunie 1993)

• Lista actualizata a celor mai puternice 500 de sisteme de calcul de uz general, disponibile comercial in lume si folosite la aplicatii complexe

• Statisticile referitoare la supercalculatoare sunt interesante pentru – Dezvoltatorii de sisteme (producatorii de HW & SW)

– Utilizatori

– Potentialii viitori utilizatori

• Se doreste cunoasterea – Numarului si locatiei sistemelor

– Domeniilor de aplicatie ale sistemelor facilitarea unor potentiale colaborari

4

www.top500.org

• Lista este publicata de 2 ori pe an

• Benchmark – versiune paralela a Linpack – HPL (Jack Dongarra @ ICL, University of Tennessee) – http://www.netlib.org/benchmark/hpl/

– Rezolvarea unui sistem dens de ecuatii liniare

– Nu reflecta intr-un mod exhaustiv performanta intregului sistem!

– Dimensiunea problemei poate fi modificata pentru a se potrivi cel mai bine pe arhitectura sistemului masurat

• A 36-a lista a fost publicata la SC10 (Supercomputing Conference – US)

• A 37-a va fi publicata la ISC11 (International Supercomputing Conference – Hamburg, Germania)



http://www.netlib.org/benchmark/hpl/

3

5

The LINPACK Benchmark

• Linpack a fost ales pentru ca – Este extrem de raspandit si utilizat – Date si teste pentru acest program sunt disponibile pentru “toate”

sitemele relevante din lume

• Benchmark-ul masoara cat de repede rezolva computer-ul un sistem dens de ecuatii liniare A·x=b de dimensiune n · n

• Solutia se bazeaza pe metoda eliminarii Gaussiene, utilizand pivotarea partiala

• Conduce la 2/3 · n3 + n2 operatii in virgula mobila O(n3)

• Se exclude utilizarea metodelor optimizate de inmultire a matricelor de genul metodei lui Strassen O(n2)

• In acest mod se vor genera milioane de operatii in virgula mobila pe secunda (Mflop/s)

• Rezolvarea sistemelor de ecuatii liniare este o problema intalnita frecvent in aproape orice aplicatie stiintifica sau inginereasca

6

The LINPACK Benchmark

• Avantaje

– Rpeak = performanta maxima teoretica de varf (in functie de CPU)

– Linpack ofera ca rezultat un singur numar

• Rmax = performanta maxima realizata

– Usor de definit si usor de clasificat pe baza lui

– Permite modificarea dimensiunii problemei – Jaguar 5.4x106

– Ocupa sistemul testat cu un job de lunga durata

• Dezavantaje

– Scoate in evidenta doar viteza “peak” si numarul de procesoare

– Nu evidentiaza rata de transfer locala (bandwidth)

– Nu evidentiaza reteaua de comutare

– Nu testeaza mecanisme de tipul gather/scatter

• Un singur numar nu poate caracteriza performanta totala a

unui sistem de calcul!

4

7

Cuprins




• Top 10

– Motivatie


– Arhitectura


– OS & Software

– Aplicatii



8

Motivatie – HW Then & Now…


5

9

Motivatie – Domenii de Aplicatie

(No) more

Kaboom…

10

Motivatie – The Earth-Simulator

• Simulari atmosferice pentru Agentia Aerospatiala a Japoniei

• Simulari oceanice pentru Centrul Japonez de Stiinte si Tehnologii Marine

• Simulari industriale

• Simulari atomice pentru Insititutul Japonez de Cercetari Atomice

6

11

(94) – NEC Earth-Simulator

• Site: The Earth Simulator Center

• Familia de sisteme: NEC Vector

• Model: SX6 (SX9)

• Procesor: NEC 1000MHz

• OS: Super-UX

• Arhitectura: MPP

• Aplicatii: studiul mediului

• Anul instalarii: 2002

• Numar de procesoare: 5120

• Rmax(TFlops): 35.86

• Rpeak(TFlops): 40.96

• Interconectare: Multi-stage crossbar

• No 1 intre 2002-2004

12

Procesoare Vectoriale SX6

• Unitate Scalara (SU)

• Unitate Vectoriala (VU)

• Frecventa – 500 MHz

• SU – procesor super-scalar: 64Kb instr cache; 64Kb data cache; 128 registrii de uz general

• VU – 72 registrii vectoriali cu 256 elemente & 8 seturi de 6 benzi de asamblare pentru operatii logice si aritmetice

• Tehnologie de fabricaţie: LSI, 0.15µm CMOS, 60 mil. tranzistori

• Consum 140 W

7

13

Arhitectura Earth-Simulator

14

Arhitectura Fizica Earth-Simulator

• Fiecare 2 noduri sunt instalate într-un container (1x1.4x2m)

• Fiecare container consumă 20 KW 8MW

• Memoria sistemului este de 10TB

• Spatiu de stocare pe disc 700 TB

• Stocare in masa pe banda 1.6 PB

8

15

(299) – MareNostrum JS20 Cluster

• Site: Barcelona Supercomputing Center

• Familia de sisteme: IBM Cluster

• Model: BladeCenter JS20 Cluster

• Procesoare: PowerPC 970 2.3 GHz

• OS: SuSE Linux Enterprise Server 9

• Arhitectura: Cluster

• Aplicatii: Medicina





• Interconectare: Red Myrinet

16

Arhitectura MareNostrum

• Memorie totala 20TB

• Capacitate de stocare: 370TB

• Este format din 44 de rack-uri ce ocupa 120m2

9

17

Aplicatii MareNostrum

• Computational Sciences: – Computer Architecture

– Performance Tools

– Grid Computing & Clusters

• Earth Sciences – Air Quality

– Meteorological Modelling

– Mineral Dust

– Climate Change

• Life Sciences – Molecular Modelling & Bioinformatics

– Computational Genomics

– Electronic & Atomic Protein Modelling

18

(268) – Columbia – SGI Altix

• Site: NASA/Ames Research Center/NAS

• Familia de sisteme: SGI® Altix™

• Model: SGI® Altix™ 3700, Voltaire Infiniband

• Procesoare: Intel IA-64 Itanium 2 1.5 GHz

• OS: SuSE Linux Enterprise Server 9


• Aplicatii: Cercetari aerospatiale





• Interconectare: Numalink/Infiniband

10

19

Columbia – Arhitectura

• Botezat astfel în memoria echipajului de pe Columbia (1 februarie 2001)

• Utilizeaza 20 superclustere Altix™ din seria 3000

– 8 SGI Altix 3700 si 12 Altix 3700 Bx2

– 4 din Bx2-uri formeaza un 2048-PE (processor shared memory environment)

• Are 10.240 procesoare Intel Itanium 2 (1.5GHz, 6MB Cache)

• Pana la 24 TB de Global shared memory pe fiecare cluster

20

Columbia – Interconectare

• Nodurile sunt conectate prin Voltaire InfiniBand si prin Ethernet de 1 si 10 Gb/s

• Columbia este conectat la un on-line RAID printr-o conexiune Fibre Channel 440TB

• Conectarea procesoarelor prin SGI®NUMAlink™ design modular

– 2048 de procesoara folosesc NumaLink si pentru conectarea dintre noduri

– Singura tehnologie care ofera global shared memory si intre noduri, nu doar in cadrul clusterului

11

21

Columbia – Software

• OS: SGI ProPack 4 – bazat pe SUSE Linux

• Compilatoare Intel® Fortran/C/C++ & Gnu

• Fiecare nod de 512 procesoare ofera – Latenţă mică la accesul mem (<1 ms) → reduce

overheadul in comunicatie

– Global shared mem de 1TB → procesele mari rămân rezidente

• Optim pentru aplicatii cu comunicatie masiva intre procesoare – Simulari fizice in care domeniul este

discretizat CFD

– Prognoza meteo & Nanotehnologii

– N-Body simulations Astrofizica

22

Columbia – Aplicatii

• Cart3D: – O simulare utilizata pentru a prezice traiectoria unei bucati de spuma desprinse in timpul ascensiunii navetei spatiale – Culorile reprezinta presiunea pe suprafata spumei

• Debris: – Codul calculeaza traiectoriile resturilor desprinse din vehicolul orbital in timpul

ascensiunii – Ajuta la evaluarea periculozitatii acestor resturi

• Overflow: – Un cod CFD complex utilizat pentru a proiecta si evalua modificarile vehiculelor aerospatiale – Imaginea prezinta campul de presiune in jurul navetei spatiale la viteza de 2.46Mach, la o altitudine de aproximativ 22km – Culorile reprezinta presiunea si tonalitatile de gri din jurul vehiculului, densitatea aerului

• Phantom: – Este un alt cod CFD utilizat pentru a simula flow-uri 3D, nestationare in motoare cu

reactie – Iata asadar presiunea in pompa de combustibil a motorului principal al navetei

spatiale, ce functioneaza cu hodrogen lichid

12

23

(13) – Jugene BlueGene/P

• Site: Forschungszentrum Juelich (FZJ)

• Familia de sisteme: IBM BlueGene/P

• Model: eServer Blue Gene/P Solution

• Procesor: PowerPC 450 850MHz

• OS: CNK/SLES 9


• Aplicatii: Cercetare


• Numar de core-uri: 294.912


• Rpeak(TFlops): 1.002.701

• Consum: 2.268 KW

• Interconectare: Proprietary

24

Arhitectura IBM BlueGene

• Program initiat de IBM in 1999 pentru a construi “a petaflop scale machine”

• BlueGene/L – primul pas, bazat pe procesoare PowerPC

– Spatiu de adresare mare

– Compilatoare standard

– Bazat pe middleware de “message passing” deja existent

– A necesitat adaugiri semnificative fata de sistemul PowerPC standard

• Un nod computational = computer-on-a-chip – ASIC:

– Procesoare CMOS (IBM PowerPC 440 700 MHz ): 2 CPU/Chip

– Memorie DRAM embedded

– L1-3 cache embedded

– Multiple module de interconectare folosind retele de comutare de mare viteza

13

25

Arhitectura IBM BlueGene (2)

• Cache pe procesor: 32k/32k L1 cache, 2k L2 cache – comunica printr-un modul SRAM rapid cu celalalt cache – 4MB L3 cache comun pentru cele 2 procesoare – L2 si L3 sunt coerente intre cele doua procesoare

• Memorie: 512 MB DDR RAM pe card cu bandwidth de 5.5 GB/s 32768 GB – Controler de memorie externa de tip DDR integrat on-chip

• Interconectare: – Tor 3D cu un router pe nod (32 x 32 x 64) – Procesor I/O dedicat - un proces/nod, 2 thread-uri/proces

• I/O extern: – Noduri dedicate pentru I/O extern – Reteaua este de tip arborescent – Se foloseste gigabit Ethernet & un adaptor pentru reteaua JTAG

• OS – “Unix-like environment” functionalitatile OS distribuite intre nod-ul de calcul si nodul

de I/O – CNK (Compute Node Kernel) – Linux

• Software – MPI – Co-arrays – UPC

26

Arhitectura IBM BlueGene (3)

14

27

Retele de Comunicatie IBM BlueGene

• Nodurile sunt atasate la 5 retele de comunicatie: – Retea toroidala 3D pentru

comunicatii intre noduri (175MB/s)

– Retea colectiva de comunicatii (350MB/s)

– Retea globala de intreruperi si bariere

– Pentru I/O – Gigabit Ethernet

– Joint Test Access GroupGigabit Ethernet – pentru control si monitorizare

28

• Favorizeaza aplicatii care utilizeaza comunicarea cu vecinii imediati

• BlueGene e dezvoltat pentru aplicatii cu volum mare de date – Analiza proteinelor

• Interactiunea intre medicamente si proteine • Catalizarea enzimelor • Rafinarea structurilor moleculare • Identificarea parametrilor unor structuri folosite in recunoasterea

“impaturirii” unor proteine • Identificarea parametrilor in structuri din bazele de date de chimie

– Modelare si simulare – Data Mining – Fizica atomica: similar cu ASC Purple – Dinamica moleculara (inclusiv ab-initio) – Hidrodinamica steady state si turbulenta – Astrofizica

• Daca cercetarile vor avea succes se vor putea vindeca boli precum – Alzheimer – Fibroza cistica – Boala vacii nebune

Aplicatii IBM BlueGene

15

29

Top 10

30

10 – RoadRunner

• Site: DOE/NNSA/Los Alamos NL

• Familia de sisteme:

• Model: BladeCenter QS22 Cluster

• Procesoare: PowerXCell 8i 3.2 GHz

• OS: Linux


• Memorie: 104TB



• Numar de procesoare: 122.400

• Rmax(PFlops): 1,042 (NMax 2,25M)

• Rpeak(PFlops): 1,376

• Consum: 2345 KW

• MFlops/Watt: 444

• Interconectarea: Voltaire Infiniband

16

31

Arhitectura RoadRunner

32

De ce RoadRunner?

17

33

RoadRunner HW/SW

34

Programare RoadRunner

18

35

Programare Hibrida pe RoadRunner

36

Aplicatii RoadRunner

19

37

9 – Terra 100 Bull

• Site: Commissariat a l'Energie Atomique (CEA)

• Familia de sisteme: Bull SA

• Model: Bull Bullx super-node S6010/S6030

• Procesoare: Intel EM64T Xeon 75xx (Nehalem-EX) 2.26GHz

• OS: Linux


• Aplicatii: Cercetari militare





• Consum: 4590 KW


• Interconectare: Infiniband QDR

• Memorie principala: 29904GB

38

Tera-100 – Aplicatii

• Destinat in principal simularilor de arme nucleare

• Investigarea momentelor premergatoare unei detonari nucleare

• Simularile informatice sunt realizate pe baza modelelor fizice si matematice dezvoltate de catre CEA

• Datele initiale utilizate sunt – Cele ale experimentelor din Oceanul Pacific din 1995 si 1996 – Cele obtinute cu detectorul Airix & Laser Megajoule in locatiile din

Moronvillers – Laserul Megajoule permite de asemenea crearea de date, mai ales legate de

fuziunea nucleara, utilizata in bombele cu Hidrogen

• Arhitectura Tera-100: – 4,300 de Servere Bullx S Series – Memorie Principala 300TB – Capacitate de stocare de peste 20PB – Bandwidth la sistemul global de fisiere 500GB/sec – cel mai rapid din lume la

ora actuala (utilizand LustreFS) – Dezvoltat in totalitate in Uniunea Europeana (in afara de procesoarele Intel)

20

39

8 – Hopper Cray XE6

• Site: National Energy Research Scientific Computing Center

• Familia de sisteme: Cray XE

• Model: Cray XE6

• Procesor: AMD Opteron 2.1 GHz

• OS: Linux





• Rmax(TFlops): 1.054.000 (NMax 4.58M)

• Rpeak(TFlops): 1.288.630

• Consum: 2910 KW


• Interconectare: Custom

40

Hopper – Interconnect

21

41

Hopper – Diagrama Sistemului I/O

42

Hopper – Aplicatii

• Explicarea LED-Efficiency-Droop

Electron + Electron hole Electron + hole + carrier

= light = no light + vibrations

• Detectie de particule “grele”

22

43

Hopper – Aplicatii (2)

• Simularea “accelerarii” acceleratoarelor de particule (LHC)

Laser plasma wakefiled

• “Calare” pe o raza de lumina… timpul se opreste si spatiul se contracta

44

Hopper – Aplicatii (3)

• Detectarea unor galaxii satelit formate din “materie neagra”

23

45

7 – Pleiades

• Site: NASA/Ames Research Center/NAS • Familia de sisteme: SGI Altix • Model: SGI Altix ICE 8200EX/8400EX • Procesor: Xeon HT QC 3.0/Xeon 5570/5670 2.93 Ghz • OS: Linux • Arhitectura: MPP • Aplicatii: Cercetare • Anul instalarii: 2011 (2008) • Numar de core-uri: 111.104 • Rmax(PFlops): 1,088

– (Nmax 3,34M)

• Rpeak(PFlops): 1,315 • Consum: 4.102KW • MFlops/Watt: 830 • Interconectare: Infiniband DDR

46

6 – Cielo Cray XE6

• Site: DOE/National Nuclear SA/Los Alamos/Sandia

• Familia de sisteme: Cray XE

• Model: Cray XE6

• Procesor: AMD Opteron 8-core 2.4 GHz 9.6GFlops

• OS: Linux





• Rmax(PFlops): 1,111




• Interconectare: Custom

24

47

5 – Tsubame 2.0 NEC/HP

• Site: GSIC Center, Tokyo Institute of Technology

• Familia de sisteme: HP Cluster Platform 3000SL

• Model: Cluster Platform SL390s G7

• Procesoare: Intel EM64T Xeon X56xx 2.93GHz / Nvidia GPU

• OS: Linux


• Aplicatii: Cercetare / Academic


• Numar de procesoare: 73.278

• Rmax(PFlops): 1,192 (NMax 2.49M)


• Consum: 1399 KW • MFlops/Watt: 852

• Interconectarea: Infiniband QDR

48

Tsubame 2.0 – Arhitectura

25

49

4 – Nebulae

• Site: National Supercomputing Centre in Shenzhen (NSCS)

• Familia de sisteme: Dawning Cluster

• Model: Dawning TC3600 Blade System

• Procesoare: Intel X5650 2.66GHz, NVidia Tesla C2050 GPU

• OS: Linux





• Rmax(PFlops): 1.271 (NMax 2.36M)

• Rpeak(PFlops): 2.984

• Consum: 2580 KW


• Interconectarea: Infiniband QDR

50

Nebulae – Aplicatii

26

51

3 – Jaguar Cray XT5

• Site: Oak Ridge National Laboratory

• Familia de sisteme: Cray XT5-HE

• Model: Cray XT5 QuadCore

• Procesoare: AMD Opteron SixCore 2.6 GHz

• OS: Linux





• Rmax(PFlops): 1.76 (NMax 5.47M)

• Rpeak(PFlops): 2.331

• Consum: 6950 KW


• Interconectarea: Cray XT4 Internal Interconnect (SeaStar2)

52

Arhitectura Cray XT5

27

53

Arhitectura Cray XT5

54

Jaguar – Aplicatii (1)

Prima simulare a schimbarii abrupte de clima

Topirea

Groenlandei

28

55


Studiul Supernovelor – evolutie asimetrica in functie de masa

56


Simularea perioadei de injumatatire de la Carbon-14 la Azot-14 (+ electron/neutrino)

29

57


De la fotosinteza la combustibil biologic (Etanol): Celuloza (albastru) & Molecule de Lignina

58


Simulare 3D al microturbulentei in plasma in reactoare cu fuziune – foarte intensive I/O

30

59

2 – Tianhe-1A TH MPP

• Site: National SuperComputer Center in Tianjin/NUDT

• Familia de sisteme: NUDT Cluster

• Model: NUDT YH MPP

• Procesor: Intel Xeon 5670 2.93Ghz 6C, NVIDIA GPU

• OS: Linux







• Consum: 4040 KW


• Interconectare: Infiniband DDR 4x

60

Tianhe-1A System Characteristics

• Hybrid architecture with heterogeneous processors

– 6144 Quadcore Intel Xeon CPUs and 5120 AMD GPUs

• Compute nodes

– 2560 compute nodes totally with 32GB memory

• Operational node

– 512 nodes with 2 Quadcore Xeon & 32GB memory

• Interconnection subsystem

– Infiniband QDR: 40Gbps bandwidth & MPI latency 1.2us

• I/O storage subsystem:

– Lustre parallel file system in 64 nodes and 1PB

• Compiling system

– Supporting C/C++, Fortran77/90/95, Java, OpenMP and MPI

– Providing a programming framework for hybrid architecture, which supports adaptive task partition and streaming data access

31

61

Tianhe-1A – Aplicatii

• Resource management subsystem:

– Providing a uniform view of heterogeneous resources in the TH-1

– Support multiple policies for task scheduling and resource allocation

– Supporting multi-level Checkpoint/Restart

• Development kit for parallel programming:

– Integrated Development Environment & Multiple debugging tools

• Applications:

– Petroleum exploration

– Biological medicine research

– Simulation of large aircraft design

– Remote sensing data processing

– Data analyzing of financial engineering

– Simulation of environment research

62

1 – K computer

• Site: RIKEN Advanced Institute for Computational Science

• Model: Fujistu – SPARC64 VIIIfx 2.0GHz

• Procesor: SPARC64 VIIIfx 2.0GHz (8-core)

• OS: Linux





• Rmax(PFlops): 10,51 (Nmax 11,87M)




• Interconectare: Custom – Tofu

32

63

1 – K-Computer SPARC64 VIIIfx Processor

• 8 cores @ 2GHz – SoC design

• Embedded Memory Controller

• Shared 5M L2 Cache

• 45nm – 760M tranzistori

• 128GFlops (peak)

• 64GB/s transfer la memorie

• 58W si racire cu apa

• Set de registri mare

– 192 registri int

– 256 registri fp

• Unitati SIMD

• Software Managed Cache

64

1 – K-Computer 6D Mesh/Torus Tofu Interconnect

33

65

1 – K-Computer Fujitsu Exabyte File System

• Date foarte multe: 100PB~1EB

• Foarte multi clienti: 100k~1M

• Foarte multe servere: 1k~10k

• Reducerea latentei la fisiere: ~10k ops

66

1 – K-Computer Performance Tuning

4096 de procesoare ca

16 x 16 x 16 celule

34

67

Cuprins




• Top 10


– Arhitectura


– OS & Software

– Aplicatii



68

Clienti


35

69

Arhitectura Sistemelor

70

Familia Procesoarelor

36

71

Domeniul de Aplicatie

72

Sisteme de Operare

37

73

Solutia de Interconectare

74

Eficienta Sistemelor vs. Interconnect

38

75

Producatori

76

Distributia pe Tari

39

77

MFlops/Watt vs. Procesoare

78

MFlops/Watt vs. Sisteme

40

79

Evolutia Sistemelor de Calcul

80

Proiectia Evolutiei Viitoare

41

81

HW Trends

82

Further Trends

42

83

Cuprins




• Top 10

– Motivatie


– Arhitectura


– OS & Software

– Aplicatii



84

Examen la ASC

• Examenul consta din doua parti distincte – Partea de teorie – 50min:

• Subiecte din temele prezentate la curs

• Examenul de teorie poate fi sustinut si oral

– Partea de probleme – 30min-45min: • Subiecte similare cu unele din problemele propuse ca teme de laborator

• Nota finala este calculata cu formula: – Teorie Examen*0.40 + Problema Examen*0.10 + Laborator*0.50

• Punctajul fiecarei parti este in intervalul 0..10

• Intrarea in examen si promovarea nu poate avea loc decat daca nota finala de la laborator este strict mai mare ca 2.5 – Restantierii din anii 4/5: minim o tema din 1 si 2 si una din 3 si 4 +

minim 2.5 puncte

• Examen: – CA – xx.05 & xx.06

– CB & CC: 22/31.05 & 01/04.06


43

85

Bibliografie vs. Cursuri

• Introduction to Parallel Computing: Design & Analysis of Algorithms – Cursurile 6, 8, 11

• The Sourcebook of Parallel Computing – Cursurile 4, 13, 14

• Computer Architecture: A Quantitative Approach – Cursurile 3, 4, 7, 9, 10, 11

• Introduction to Parallel Processing; Algorithms and Architectures – Cursurile 6, 7, 8, 9, 10, 11

• Techniques for Optimizing Applications: High Performance Computing:

– Cursul 4

• Practical Computing on the Cell Broadband Engine – Cursul 5

• www.top500.org, http://www.netlib.org/benchmark/hpl/,

http://icl.cs.utk.edu/hpcc/ – Cursurile 13, 14

• Structura si Arhitectura Sistemelor Numerice – Cursurile 2, 3, 6, 7, 8, 9, 10, 11, 12

86

What Next?

• Q & A?

• Next time:

– Exam…

– Last but not least – feedback forms!

arhitectura sistemelor de calcul curs 14 - 14 - top500.pdf · 2021. 4. 6. · arhitectura...

Documents