arhitectura sistemelor de calcul curs 14 - 14 - top500.pdf · 2021. 4. 6. · arhitectura...
TRANSCRIPT
1
Arhitectura Sistemelor de Calcul – Curs 14
Universitatea Politehnica Bucuresti
Facultatea de Automatica si Calculatoare
cs.pub.ro
curs.cs.pub.ro
2
Cuprins
• Top 500 Supercomputers (http://www.top500.org)
– Prezentare generala
– Benchmark – LINPACK(HPL)
• Top 10
– Motivatie
– Info – locatie/furnizor
– Arhitectura
– Performante LINPACK
– OS & Software
– Aplicatii
• Concluzii Top 500
• Cate ceva despre examen: mod de notare, etc…
2
3
www.top500.org
• Proiect demarat in 1993 (Iunie 1993)
• Lista actualizata a celor mai puternice 500 de sisteme de calcul de uz general, disponibile comercial in lume si folosite la aplicatii complexe
• Statisticile referitoare la supercalculatoare sunt interesante pentru – Dezvoltatorii de sisteme (producatorii de HW & SW)
– Utilizatori
– Potentialii viitori utilizatori
• Se doreste cunoasterea – Numarului si locatiei sistemelor
– Domeniilor de aplicatie ale sistemelor facilitarea unor potentiale colaborari
4
www.top500.org
• Lista este publicata de 2 ori pe an
• Benchmark – versiune paralela a Linpack – HPL (Jack Dongarra @ ICL, University of Tennessee) – http://www.netlib.org/benchmark/hpl/
– Rezolvarea unui sistem dens de ecuatii liniare
– Nu reflecta intr-un mod exhaustiv performanta intregului sistem!
– Dimensiunea problemei poate fi modificata pentru a se potrivi cel mai bine pe arhitectura sistemului masurat
• A 36-a lista a fost publicata la SC10 (Supercomputing Conference – US)
• A 37-a va fi publicata la ISC11 (International Supercomputing Conference – Hamburg, Germania)
3
5
The LINPACK Benchmark
• Linpack a fost ales pentru ca – Este extrem de raspandit si utilizat – Date si teste pentru acest program sunt disponibile pentru “toate”
sitemele relevante din lume
• Benchmark-ul masoara cat de repede rezolva computer-ul un sistem dens de ecuatii liniare A·x=b de dimensiune n · n
• Solutia se bazeaza pe metoda eliminarii Gaussiene, utilizand pivotarea partiala
• Conduce la 2/3 · n3 + n2 operatii in virgula mobila O(n3)
• Se exclude utilizarea metodelor optimizate de inmultire a matricelor de genul metodei lui Strassen O(n2)
• In acest mod se vor genera milioane de operatii in virgula mobila pe secunda (Mflop/s)
• Rezolvarea sistemelor de ecuatii liniare este o problema intalnita frecvent in aproape orice aplicatie stiintifica sau inginereasca
6
The LINPACK Benchmark
• Avantaje
– Rpeak = performanta maxima teoretica de varf (in functie de CPU)
– Linpack ofera ca rezultat un singur numar
• Rmax = performanta maxima realizata
– Usor de definit si usor de clasificat pe baza lui
– Permite modificarea dimensiunii problemei – Jaguar 5.4x106
– Ocupa sistemul testat cu un job de lunga durata
• Dezavantaje
– Scoate in evidenta doar viteza “peak” si numarul de procesoare
– Nu evidentiaza rata de transfer locala (bandwidth)
– Nu evidentiaza reteaua de comutare
– Nu testeaza mecanisme de tipul gather/scatter
• Un singur numar nu poate caracteriza performanta totala a
unui sistem de calcul!
4
7
Cuprins
• Top 500 Supercomputers (http://www.top500.org)
– Prezentare generala
– Benchmark – LINPACK(HPL)
• Top 10
– Motivatie
– Info – locatie/furnizor
– Arhitectura
– Performante LINPACK
– OS & Software
– Aplicatii
• Concluzii Top 500
• Cate ceva despre examen: mod de notare, etc…
8
Motivatie – HW Then & Now…
5
9
Motivatie – Domenii de Aplicatie
(No) more
Kaboom…
10
Motivatie – The Earth-Simulator
• Simulari atmosferice pentru Agentia Aerospatiala a Japoniei
• Simulari oceanice pentru Centrul Japonez de Stiinte si Tehnologii Marine
• Simulari industriale
• Simulari atomice pentru Insititutul Japonez de Cercetari Atomice
6
11
(94) – NEC Earth-Simulator
• Site: The Earth Simulator Center
• Familia de sisteme: NEC Vector
• Model: SX6 (SX9)
• Procesor: NEC 1000MHz
• OS: Super-UX
• Arhitectura: MPP
• Aplicatii: studiul mediului
• Anul instalarii: 2002
• Numar de procesoare: 5120
• Rmax(TFlops): 35.86
• Rpeak(TFlops): 40.96
• Interconectare: Multi-stage crossbar
• No 1 intre 2002-2004
12
Procesoare Vectoriale SX6
• Unitate Scalara (SU)
• Unitate Vectoriala (VU)
• Frecventa – 500 MHz
• SU – procesor super-scalar: 64Kb instr cache; 64Kb data cache; 128 registrii de uz general
• VU – 72 registrii vectoriali cu 256 elemente & 8 seturi de 6 benzi de asamblare pentru operatii logice si aritmetice
• Tehnologie de fabricaţie: LSI, 0.15µm CMOS, 60 mil. tranzistori
• Consum 140 W
7
13
Arhitectura Earth-Simulator
14
Arhitectura Fizica Earth-Simulator
• Fiecare 2 noduri sunt instalate într-un container (1x1.4x2m)
• Fiecare container consumă 20 KW 8MW
• Memoria sistemului este de 10TB
• Spatiu de stocare pe disc 700 TB
• Stocare in masa pe banda 1.6 PB
8
15
(299) – MareNostrum JS20 Cluster
• Site: Barcelona Supercomputing Center
• Familia de sisteme: IBM Cluster
• Model: BladeCenter JS20 Cluster
• Procesoare: PowerPC 970 2.3 GHz
• OS: SuSE Linux Enterprise Server 9
• Arhitectura: Cluster
• Aplicatii: Medicina
• Anul instalarii: 2006
• Numar de procesoare: 10240
• Rmax(TFlops): 62.630
• Rpeak(TFlops): 94.208
• Interconectare: Red Myrinet
16
Arhitectura MareNostrum
• Memorie totala 20TB
• Capacitate de stocare: 370TB
• Este format din 44 de rack-uri ce ocupa 120m2
9
17
Aplicatii MareNostrum
• Computational Sciences: – Computer Architecture
– Performance Tools
– Grid Computing & Clusters
• Earth Sciences – Air Quality
– Meteorological Modelling
– Mineral Dust
– Climate Change
• Life Sciences – Molecular Modelling & Bioinformatics
– Computational Genomics
– Electronic & Atomic Protein Modelling
18
(268) – Columbia – SGI Altix
• Site: NASA/Ames Research Center/NAS
• Familia de sisteme: SGI® Altix™
• Model: SGI® Altix™ 3700, Voltaire Infiniband
• Procesoare: Intel IA-64 Itanium 2 1.5 GHz
• OS: SuSE Linux Enterprise Server 9
• Arhitectura: MPP
• Aplicatii: Cercetari aerospatiale
• Anul instalarii: 2004
• Numar de procesoare: 10240
• Rmax(TFlops): 51.870
• Rpeak(TFlops): 60.960
• Interconectare: Numalink/Infiniband
10
19
Columbia – Arhitectura
• Botezat astfel în memoria echipajului de pe Columbia (1 februarie 2001)
• Utilizeaza 20 superclustere Altix™ din seria 3000
– 8 SGI Altix 3700 si 12 Altix 3700 Bx2
– 4 din Bx2-uri formeaza un 2048-PE (processor shared memory environment)
• Are 10.240 procesoare Intel Itanium 2 (1.5GHz, 6MB Cache)
• Pana la 24 TB de Global shared memory pe fiecare cluster
20
Columbia – Interconectare
• Nodurile sunt conectate prin Voltaire InfiniBand si prin Ethernet de 1 si 10 Gb/s
• Columbia este conectat la un on-line RAID printr-o conexiune Fibre Channel 440TB
• Conectarea procesoarelor prin SGI®NUMAlink™ design modular
– 2048 de procesoara folosesc NumaLink si pentru conectarea dintre noduri
– Singura tehnologie care ofera global shared memory si intre noduri, nu doar in cadrul clusterului
11
21
Columbia – Software
• OS: SGI ProPack 4 – bazat pe SUSE Linux
• Compilatoare Intel® Fortran/C/C++ & Gnu
• Fiecare nod de 512 procesoare ofera – Latenţă mică la accesul mem (<1 ms) → reduce
overheadul in comunicatie
– Global shared mem de 1TB → procesele mari rămân rezidente
• Optim pentru aplicatii cu comunicatie masiva intre procesoare – Simulari fizice in care domeniul este
discretizat CFD
– Prognoza meteo & Nanotehnologii
– N-Body simulations Astrofizica
22
Columbia – Aplicatii
• Cart3D: – O simulare utilizata pentru a prezice traiectoria unei bucati de spuma desprinse in timpul ascensiunii navetei spatiale – Culorile reprezinta presiunea pe suprafata spumei
• Debris: – Codul calculeaza traiectoriile resturilor desprinse din vehicolul orbital in timpul
ascensiunii – Ajuta la evaluarea periculozitatii acestor resturi
• Overflow: – Un cod CFD complex utilizat pentru a proiecta si evalua modificarile vehiculelor aerospatiale – Imaginea prezinta campul de presiune in jurul navetei spatiale la viteza de 2.46Mach, la o altitudine de aproximativ 22km – Culorile reprezinta presiunea si tonalitatile de gri din jurul vehiculului, densitatea aerului
• Phantom: – Este un alt cod CFD utilizat pentru a simula flow-uri 3D, nestationare in motoare cu
reactie – Iata asadar presiunea in pompa de combustibil a motorului principal al navetei
spatiale, ce functioneaza cu hodrogen lichid
12
23
(13) – Jugene BlueGene/P
• Site: Forschungszentrum Juelich (FZJ)
• Familia de sisteme: IBM BlueGene/P
• Model: eServer Blue Gene/P Solution
• Procesor: PowerPC 450 850MHz
• OS: CNK/SLES 9
• Arhitectura: MPP
• Aplicatii: Cercetare
• Anul instalarii: 2009
• Numar de core-uri: 294.912
• Rmax(TFlops): 825.500
• Rpeak(TFlops): 1.002.701
• Consum: 2.268 KW
• Interconectare: Proprietary
24
Arhitectura IBM BlueGene
• Program initiat de IBM in 1999 pentru a construi “a petaflop scale machine”
• BlueGene/L – primul pas, bazat pe procesoare PowerPC
– Spatiu de adresare mare
– Compilatoare standard
– Bazat pe middleware de “message passing” deja existent
– A necesitat adaugiri semnificative fata de sistemul PowerPC standard
• Un nod computational = computer-on-a-chip – ASIC:
– Procesoare CMOS (IBM PowerPC 440 700 MHz ): 2 CPU/Chip
– Memorie DRAM embedded
– L1-3 cache embedded
– Multiple module de interconectare folosind retele de comutare de mare viteza
13
25
Arhitectura IBM BlueGene (2)
• Cache pe procesor: 32k/32k L1 cache, 2k L2 cache – comunica printr-un modul SRAM rapid cu celalalt cache – 4MB L3 cache comun pentru cele 2 procesoare – L2 si L3 sunt coerente intre cele doua procesoare
• Memorie: 512 MB DDR RAM pe card cu bandwidth de 5.5 GB/s 32768 GB – Controler de memorie externa de tip DDR integrat on-chip
• Interconectare: – Tor 3D cu un router pe nod (32 x 32 x 64) – Procesor I/O dedicat - un proces/nod, 2 thread-uri/proces
• I/O extern: – Noduri dedicate pentru I/O extern – Reteaua este de tip arborescent – Se foloseste gigabit Ethernet & un adaptor pentru reteaua JTAG
• OS – “Unix-like environment” functionalitatile OS distribuite intre nod-ul de calcul si nodul
de I/O – CNK (Compute Node Kernel) – Linux
• Software – MPI – Co-arrays – UPC
26
Arhitectura IBM BlueGene (3)
14
27
Retele de Comunicatie IBM BlueGene
• Nodurile sunt atasate la 5 retele de comunicatie: – Retea toroidala 3D pentru
comunicatii intre noduri (175MB/s)
– Retea colectiva de comunicatii (350MB/s)
– Retea globala de intreruperi si bariere
– Pentru I/O – Gigabit Ethernet
– Joint Test Access GroupGigabit Ethernet – pentru control si monitorizare
28
• Favorizeaza aplicatii care utilizeaza comunicarea cu vecinii imediati
• BlueGene e dezvoltat pentru aplicatii cu volum mare de date – Analiza proteinelor
• Interactiunea intre medicamente si proteine • Catalizarea enzimelor • Rafinarea structurilor moleculare • Identificarea parametrilor unor structuri folosite in recunoasterea
“impaturirii” unor proteine • Identificarea parametrilor in structuri din bazele de date de chimie
– Modelare si simulare – Data Mining – Fizica atomica: similar cu ASC Purple – Dinamica moleculara (inclusiv ab-initio) – Hidrodinamica steady state si turbulenta – Astrofizica
• Daca cercetarile vor avea succes se vor putea vindeca boli precum – Alzheimer – Fibroza cistica – Boala vacii nebune
Aplicatii IBM BlueGene
15
29
Top 10
30
10 – RoadRunner
• Site: DOE/NNSA/Los Alamos NL
• Familia de sisteme:
• Model: BladeCenter QS22 Cluster
• Procesoare: PowerXCell 8i 3.2 GHz
• OS: Linux
• Arhitectura: Cluster
• Memorie: 104TB
• Aplicatii: Cercetare
• Anul instalarii: 2008
• Numar de procesoare: 122.400
• Rmax(PFlops): 1,042 (NMax 2,25M)
• Rpeak(PFlops): 1,376
• Consum: 2345 KW
• MFlops/Watt: 444
• Interconectarea: Voltaire Infiniband
16
31
Arhitectura RoadRunner
32
De ce RoadRunner?
17
33
RoadRunner HW/SW
34
Programare RoadRunner
18
35
Programare Hibrida pe RoadRunner
36
Aplicatii RoadRunner
19
37
9 – Terra 100 Bull
• Site: Commissariat a l'Energie Atomique (CEA)
• Familia de sisteme: Bull SA
• Model: Bull Bullx super-node S6010/S6030
• Procesoare: Intel EM64T Xeon 75xx (Nehalem-EX) 2.26GHz
• OS: Linux
• Arhitectura: Cluster
• Aplicatii: Cercetari militare
• Anul instalarii: 2010
• Numar de core-uri: 138.368
• Rmax(PFlops): 1,05 (NMax 4,93M)
• Rpeak(PFlops): 1,255
• Consum: 4590 KW
• MFlops/Watt: 229
• Interconectare: Infiniband QDR
• Memorie principala: 29904GB
38
Tera-100 – Aplicatii
• Destinat in principal simularilor de arme nucleare
• Investigarea momentelor premergatoare unei detonari nucleare
• Simularile informatice sunt realizate pe baza modelelor fizice si matematice dezvoltate de catre CEA
• Datele initiale utilizate sunt – Cele ale experimentelor din Oceanul Pacific din 1995 si 1996 – Cele obtinute cu detectorul Airix & Laser Megajoule in locatiile din
Moronvillers – Laserul Megajoule permite de asemenea crearea de date, mai ales legate de
fuziunea nucleara, utilizata in bombele cu Hidrogen
• Arhitectura Tera-100: – 4,300 de Servere Bullx S Series – Memorie Principala 300TB – Capacitate de stocare de peste 20PB – Bandwidth la sistemul global de fisiere 500GB/sec – cel mai rapid din lume la
ora actuala (utilizand LustreFS) – Dezvoltat in totalitate in Uniunea Europeana (in afara de procesoarele Intel)
20
39
8 – Hopper Cray XE6
• Site: National Energy Research Scientific Computing Center
• Familia de sisteme: Cray XE
• Model: Cray XE6
• Procesor: AMD Opteron 2.1 GHz
• OS: Linux
• Arhitectura: MPP
• Aplicatii: Cercetare
• Anul instalarii: 2010
• Numar de core-uri: 153.408
• Rmax(TFlops): 1.054.000 (NMax 4.58M)
• Rpeak(TFlops): 1.288.630
• Consum: 2910 KW
• MFlops/Watt: 362
• Interconectare: Custom
40
Hopper – Interconnect
21
41
Hopper – Diagrama Sistemului I/O
42
Hopper – Aplicatii
• Explicarea LED-Efficiency-Droop
Electron + Electron hole Electron + hole + carrier
= light = no light + vibrations
• Detectie de particule “grele”
22
43
Hopper – Aplicatii (2)
• Simularea “accelerarii” acceleratoarelor de particule (LHC)
Laser plasma wakefiled
• “Calare” pe o raza de lumina… timpul se opreste si spatiul se contracta
44
Hopper – Aplicatii (3)
• Detectarea unor galaxii satelit formate din “materie neagra”
23
45
7 – Pleiades
• Site: NASA/Ames Research Center/NAS • Familia de sisteme: SGI Altix • Model: SGI Altix ICE 8200EX/8400EX • Procesor: Xeon HT QC 3.0/Xeon 5570/5670 2.93 Ghz • OS: Linux • Arhitectura: MPP • Aplicatii: Cercetare • Anul instalarii: 2011 (2008) • Numar de core-uri: 111.104 • Rmax(PFlops): 1,088
– (Nmax 3,34M)
• Rpeak(PFlops): 1,315 • Consum: 4.102KW • MFlops/Watt: 830 • Interconectare: Infiniband DDR
46
6 – Cielo Cray XE6
• Site: DOE/National Nuclear SA/Los Alamos/Sandia
• Familia de sisteme: Cray XE
• Model: Cray XE6
• Procesor: AMD Opteron 8-core 2.4 GHz 9.6GFlops
• OS: Linux
• Arhitectura: MPP
• Aplicatii: Cercetare
• Anul instalarii: 2010
• Numar de core-uri: 142.272
• Rmax(PFlops): 1,111
• Rpeak(PFlops): 1,365
• Consum: 3.980 KW
• MFlops/Watt: 278
• Interconectare: Custom
24
47
5 – Tsubame 2.0 NEC/HP
• Site: GSIC Center, Tokyo Institute of Technology
• Familia de sisteme: HP Cluster Platform 3000SL
• Model: Cluster Platform SL390s G7
• Procesoare: Intel EM64T Xeon X56xx 2.93GHz / Nvidia GPU
• OS: Linux
• Arhitectura: Cluster
• Aplicatii: Cercetare / Academic
• Anul instalarii: 2010
• Numar de procesoare: 73.278
• Rmax(PFlops): 1,192 (NMax 2.49M)
• Rpeak(PFlops): 2,287
• Consum: 1399 KW • MFlops/Watt: 852
• Interconectarea: Infiniband QDR
48
Tsubame 2.0 – Arhitectura
25
49
4 – Nebulae
• Site: National Supercomputing Centre in Shenzhen (NSCS)
• Familia de sisteme: Dawning Cluster
• Model: Dawning TC3600 Blade System
• Procesoare: Intel X5650 2.66GHz, NVidia Tesla C2050 GPU
• OS: Linux
• Arhitectura: Cluster
• Aplicatii: Cercetare
• Anul instalarii: 2010
• Numar de core-uri: 120.640
• Rmax(PFlops): 1.271 (NMax 2.36M)
• Rpeak(PFlops): 2.984
• Consum: 2580 KW
• MFlops/Watt: 493
• Interconectarea: Infiniband QDR
50
Nebulae – Aplicatii
26
51
3 – Jaguar Cray XT5
• Site: Oak Ridge National Laboratory
• Familia de sisteme: Cray XT5-HE
• Model: Cray XT5 QuadCore
• Procesoare: AMD Opteron SixCore 2.6 GHz
• OS: Linux
• Arhitectura: MPP
• Aplicatii: Cercetare
• Anul instalarii: 2009
• Numar de core-uri: 224.162
• Rmax(PFlops): 1.76 (NMax 5.47M)
• Rpeak(PFlops): 2.331
• Consum: 6950 KW
• MFlops/Watt: 253
• Interconectarea: Cray XT4 Internal Interconnect (SeaStar2)
52
Arhitectura Cray XT5
27
53
Arhitectura Cray XT5
54
Jaguar – Aplicatii (1)
Prima simulare a schimbarii abrupte de clima
Topirea
Groenlandei
28
55
Jaguar – Aplicatii (2)
Studiul Supernovelor – evolutie asimetrica in functie de masa
56
Jaguar – Aplicatii (3)
Simularea perioadei de injumatatire de la Carbon-14 la Azot-14 (+ electron/neutrino)
29
57
Jaguar – Aplicatii (4)
De la fotosinteza la combustibil biologic (Etanol): Celuloza (albastru) & Molecule de Lignina
58
Jaguar – Aplicatii (5)
Simulare 3D al microturbulentei in plasma in reactoare cu fuziune – foarte intensive I/O
30
59
2 – Tianhe-1A TH MPP
• Site: National SuperComputer Center in Tianjin/NUDT
• Familia de sisteme: NUDT Cluster
• Model: NUDT YH MPP
• Procesor: Intel Xeon 5670 2.93Ghz 6C, NVIDIA GPU
• OS: Linux
• Arhitectura: MPP
• Aplicatii: Cercetare
• Anul instalarii: 2010
• Numar de core-uri: 186.368
• Rmax(PFlops): 2,566 (NMax 3,6M)
• Rpeak(PFlops): 4,701
• Consum: 4040 KW
• MFlops/Watt: 635
• Interconectare: Infiniband DDR 4x
60
Tianhe-1A System Characteristics
• Hybrid architecture with heterogeneous processors
– 6144 Quadcore Intel Xeon CPUs and 5120 AMD GPUs
• Compute nodes
– 2560 compute nodes totally with 32GB memory
• Operational node
– 512 nodes with 2 Quadcore Xeon & 32GB memory
• Interconnection subsystem
– Infiniband QDR: 40Gbps bandwidth & MPI latency 1.2us
• I/O storage subsystem:
– Lustre parallel file system in 64 nodes and 1PB
• Compiling system
– Supporting C/C++, Fortran77/90/95, Java, OpenMP and MPI
– Providing a programming framework for hybrid architecture, which supports adaptive task partition and streaming data access
31
61
Tianhe-1A – Aplicatii
• Resource management subsystem:
– Providing a uniform view of heterogeneous resources in the TH-1
– Support multiple policies for task scheduling and resource allocation
– Supporting multi-level Checkpoint/Restart
• Development kit for parallel programming:
– Integrated Development Environment & Multiple debugging tools
• Applications:
– Petroleum exploration
– Biological medicine research
– Simulation of large aircraft design
– Remote sensing data processing
– Data analyzing of financial engineering
– Simulation of environment research
62
1 – K computer
• Site: RIKEN Advanced Institute for Computational Science
• Model: Fujistu – SPARC64 VIIIfx 2.0GHz
• Procesor: SPARC64 VIIIfx 2.0GHz (8-core)
• OS: Linux
• Arhitectura: Cluster
• Aplicatii: Cercetare
• Anul instalarii: 2011
• Numar de core-uri: 705.024
• Rmax(PFlops): 10,51 (Nmax 11,87M)
• Rpeak(PFlops): 11,28
• Consum: 12.660 KW
• MFlops/Watt: 830
• Interconectare: Custom – Tofu
32
63
1 – K-Computer SPARC64 VIIIfx Processor
• 8 cores @ 2GHz – SoC design
• Embedded Memory Controller
• Shared 5M L2 Cache
• 45nm – 760M tranzistori
• 128GFlops (peak)
• 64GB/s transfer la memorie
• 58W si racire cu apa
• Set de registri mare
– 192 registri int
– 256 registri fp
• Unitati SIMD
• Software Managed Cache
64
1 – K-Computer 6D Mesh/Torus Tofu Interconnect
33
65
1 – K-Computer Fujitsu Exabyte File System
• Date foarte multe: 100PB~1EB
• Foarte multi clienti: 100k~1M
• Foarte multe servere: 1k~10k
• Reducerea latentei la fisiere: ~10k ops
66
1 – K-Computer Performance Tuning
4096 de procesoare ca
16 x 16 x 16 celule
34
67
Cuprins
• Top 500 Supercomputers (http://www.top500.org)
– Prezentare generala
– Benchmark – LINPACK(HPL)
• Top 10
– Info – locatie/furnizor
– Arhitectura
– Performante LINPACK
– OS & Software
– Aplicatii
• Concluzii Top 500
• Cate ceva despre examen: mod de notare, etc…
68
Clienti
35
69
Arhitectura Sistemelor
70
Familia Procesoarelor
36
71
Domeniul de Aplicatie
72
Sisteme de Operare
37
73
Solutia de Interconectare
74
Eficienta Sistemelor vs. Interconnect
38
75
Producatori
76
Distributia pe Tari
39
77
MFlops/Watt vs. Procesoare
78
MFlops/Watt vs. Sisteme
40
79
Evolutia Sistemelor de Calcul
80
Proiectia Evolutiei Viitoare
41
81
HW Trends
82
Further Trends
42
83
Cuprins
• Top 500 Supercomputers (http://www.top500.org)
– Prezentare generala
– Benchmark – LINPACK(HPL)
• Top 10
– Motivatie
– Info – locatie/furnizor
– Arhitectura
– Performante LINPACK
– OS & Software
– Aplicatii
• Concluzii Top 500
• Cate ceva despre examen: mod de notare, etc…
84
Examen la ASC
• Examenul consta din doua parti distincte – Partea de teorie – 50min:
• Subiecte din temele prezentate la curs
• Examenul de teorie poate fi sustinut si oral
– Partea de probleme – 30min-45min: • Subiecte similare cu unele din problemele propuse ca teme de laborator
• Nota finala este calculata cu formula: – Teorie Examen*0.40 + Problema Examen*0.10 + Laborator*0.50
• Punctajul fiecarei parti este in intervalul 0..10
• Intrarea in examen si promovarea nu poate avea loc decat daca nota finala de la laborator este strict mai mare ca 2.5 – Restantierii din anii 4/5: minim o tema din 1 si 2 si una din 3 si 4 +
minim 2.5 puncte
• Examen: – CA – xx.05 & xx.06
– CB & CC: 22/31.05 & 01/04.06
43
85
Bibliografie vs. Cursuri
• Introduction to Parallel Computing: Design & Analysis of Algorithms – Cursurile 6, 8, 11
• The Sourcebook of Parallel Computing – Cursurile 4, 13, 14
• Computer Architecture: A Quantitative Approach – Cursurile 3, 4, 7, 9, 10, 11
• Introduction to Parallel Processing; Algorithms and Architectures – Cursurile 6, 7, 8, 9, 10, 11
• Techniques for Optimizing Applications: High Performance Computing:
– Cursul 4
• Practical Computing on the Cell Broadband Engine – Cursul 5
• www.top500.org, http://www.netlib.org/benchmark/hpl/,
http://icl.cs.utk.edu/hpcc/ – Cursurile 13, 14
• Structura si Arhitectura Sistemelor Numerice – Cursurile 2, 3, 6, 7, 8, 9, 10, 11, 12
86
What Next?
• Q & A?
• Next time:
– Exam…
– Last but not least – feedback forms!