curs3 2013 arhitecturi paralele clasificarea flynn ro

CCURSURS “SISTEME DE OPERARE DISTRIBUITE”“SISTEME DE OPERARE DISTRIBUITE”

CURS 3CURS 3. . CLASIFICAREA LUI FLYNN.CLASIFICAREA LUI FLYNN. ARHITECTURI PARALELE. ARHITECTURI PARALELE.

Aurelia Prepelita, conf. univ., dr.,

Departament Informatica, USM

Chisinau, 2010

CUPRINS:• Curs 3. Clasificarea lui Flynn. Arhitecturi paralele.

Taxonomia lui FlynnTaxonomia lui Flynn SISD ( SISD ( Single InstructionSingle Instruction,, Single Data stream Single Data stream ))

SIMD ( SIMD ( Single Instruction, Multiple Data Single Instruction, Multiple Data ))

MISD ( MISD ( Multiple Instruction Single Data Multiple Instruction Single Data ))

MIMD ( MIMD ( Multiple Instruction Multiple Data Multiple Instruction Multiple Data ))

Arhitecturi ale sistemelor paralele de calculArhitecturi ale sistemelor paralele de calcul

SMPSMP UMA (UMA (Uniform Memory AccessUniform Memory Access))

COMA (COMA (Cache-Only Memory AccessCache-Only Memory Access))

ccNUMA (ccNUMA (Cache-Coherent Non-Uniform Memory AccessCache-Coherent Non-Uniform Memory Access))

NUMA (NUMA (Non-Uniform Memory AccessNon-Uniform Memory Access););

MPPMPP

BibliografiaBibliografia

IntrebariIntrebari

TAXONOMIA LUI FLYNN

• Taxonomia lui Flynn este o clasificare a arhitecturilor sistemelor de calcul, propusă de Michael Flynn în 1966. Cele patru clasificări definite de Flynn au la bază numărul de fluxuri de instrucțiuni și de date concurente disponibile în arhitectură.

TAXONOMIA LUI FLYNN

SISD

Flux de instrucțiuni singular, flux de date singular (Single Instruction, Single Data - SISD)- un calculator secvențial care nu folosește paralelismul nici în fluxul de date, nici în fluxul de instrucțiuni. Aici se încadrează microprocesoarele clasice cu arhitectură von Neumann pe 8, 16, 32 și 64 de biți cu funcționare ciclică - preluare instrucțiune, execuție instrucțiune (rezultă prelucrarea datelor) ș.a.m.d. Exemple de arhitecturi SISD sunt mașinile tradiționale uniprocesor, ca și calculatoarele personale sau vechile sisteme mainframe.

ARHITECTURA SISD

Arhitectura SISD realizeaza o executie secventiala a instructiunilor. - exista o singura UP, sub forma procesor de date, un singur flux de date, preluat din memoria partajata MP;- exista o singura UC, sub forma procesorului de instructiuni, care supervizeaza procesorul UP; UP primeste setul unic de instructiuni si proceseaza un anume flux de date (UP proceseaza SD UP proceseaza SD );

ARHITECTURA SISD

De exemplu o înmultire cu o constanta 3 a 100 de numere implica aducerea pe rând din memorie a celor 100 de numere si înmultirea lor cu respectiva constanta, fiecare rezultat fiind trimis în memorie pe masura efectuarii calculului.

SISD

Principalul neajuns al acestei arhitecturi consta în viteza de procesare care la rândul ei este determinata de fracventa ceasului. Este evident ca nici o realizare tehnologica nu va putea face perioada ceasului nula. În consecinta modul strict secvential de tratare a operatiilor impus de arhitectura von Neumann plafoneaza la un moment dat viteza de procesare. Aceasta situatie este cunoscuta sub numele gâtul sticlei lui Neumann (Neumann Bottleneck).

TAXONOMIA LUI FLYNN

Spargerea acestei limitari se realizeaza prin introducerea arhitecturilor de tip neserial (respectiv arhitecturile paralele).

SIMD

Sisteme vectoriale, ILLIAC IV

SIMD

Arhitectura SIMD prezinta urmatoarele caracteristici:- exista mai multe UP, sub forma procesoarelor de date,

datorita fluxului de date multiplu, preluat din memoria partajata MP;- exista o singura UC, sub forma procesorului de instructiuni,

care supervizeaza procesoarele UP;- toate UP primesc setul unic de instructiuni si proceseaza

fiecare un anume flux de date (UPi proceseaza SDi );- masinile SIMD pot efectua procesari pe cuvânt (word-slice)

sau pe bit (bit – slice).

SIMD

Considerând exemplul precedent, cele 100 de numere vor fi înmultite simultan cu constanta 3, iar rezultatele vor fi stocate în partitiile MMi ale memoriei. Aceste tipuri de masini lucreaza foarte bine pe seturi de date formate din matrice de dimensiuni foarte mari, atunci cand asupra fiecarei date este necesar a se efectua aceiasi operatie.

Principala limitare a masinilor SIMD este de natura economica, deoarece ariile de procesoare nu sunt componente standard si prin urmare aceste masini sunt unicate si costa foarte mult.

MISD

pipelined computing ILLIAC II (конвейерные вычисления )

MISDArhitectura MISD, numita macro-pipe-line,

prezinta urmatoarele caracteristici:

- fiecare UC lucreaza cu sirul propriu de instuctiuni SI1, SI2, …SIn;

- fiecare UP primeste instructiuni diferite, însa opereaza asupra aceluiasi sir de date SD (care suporta în consecinta mai multe prelucrari).

Desi aceasta masina este posibil de realizat din punct de vedere teoretic, nu a fost niciodata fabricata în scop comercial, având în prezent doar o valoare teoretica..

MIMD

Arhitectura MIMD realizeaza o prelucrare paralela prin lansarea în executie a mai multor instructiuni în acelasi timp pe diferite seturi de date. În afara elementelor prezentate sunt necesare elemente aditionale de control care sa repartizeze instructiunea corecta si data care trebuie la procesorul ales (simultan la toate procesoarele).

MIMD

Principial exista doua tipuri de arhitecturi MIMD si

anume:

- shared memory (intrinseci) daca spatiul de

memorie este accesat în comun de toate cele n

procesoare;

- shared nothing (independente) daca fiecare

procesor are propria memorie.

MIMD SHARED MEMORY

În cazul sistemlor MIMD shared memory masina originala von Neumann a fost extinsa prin includerea câte unei memorii locale ML asociate fiecarui procesor – memorie cache. Aceasta memorie permite fiecarui procesor sa aiba acces rapid la instructiuni si date referite, dar în acelasi timp sa poata accesa în continuare memoria principala prin magistrala de memorie.

MIMD SHARED MEMORY

MIMD SHARED MEMORY

Observatie. La aceasta arhitectura gâtul sticlei (bottleneck) este reprezentat de magistrala de memorie. La un numar redus de procesoareperformantele cresc liniar cu numarul acestora, dupa care cresterea este din ce în ce mai lenta.Limitarea performantelor

la masinile MIMD shared memory

MIMD SHARED NOTHING

În cazul sistemelor MIMD shared nothing,

fiecare procesor are propria lui memorie,

masinile fiind practic calculatoare

independente (noduri) legate într-o retea .

MIMD SHARED NOTHING

MIMDCalculatoarele MIMD reprezinta o clasa foarte vasta de calculatoare paralele care se pot clasifica în functie de doua criterii importante:

- tipul memoriei utilizate: memorie partajata (centralizata) sau distribuita;

- spatiul de adresare folosit: comun (partajat) sau individual.

Din combinarea acestor criterii rezulta patru clase arhitecturale pentru paralelismul la nivel de proces (Tabelul 1).

MIMD

Multiprocesoarele cu memorie partajata centralizata mai sunt denumite si multiprocesoare simetrice (SMP – Symmetric Multiprocessor).

Multicalculatoarele cu memorie distribuita utilizeaza pentru comunicatia dintre procesoare mecanismul numit transfer de mesaje. Aceste sisteme mai sunt Cunoscute sub denumirea de MPP (Massively Parallel Processors).

ARHITECTURI CU MEMORIE PARTAJATA

Calculatoarele cu memorie partajata dispun de un spatiu comun de memorie care poate fi accesat de toate procesoarele din sistem.

- Comunicatia între procesoare se realizeaza prin intermediul datelor stocate în spatiul unic de memorie partajata,

- Toate procesoarele au acces la întreaga memorie.


Utilizarea unui spatiu unic de memorie poate conduce la conflicte de acces la memorie atunci când mai multe procesoare încearca sa utilizeze concomitent aceeasi zona de memorie sau când doresc sa utilizeze o variabila partajata la care un alt procesor are acces exclusiv.


Prevenirea si solutionarea conflictelor generate de accesul concurent al mai multor procesoare la memoria

partajata se realizeaza cu ajutorul mecanismelor de excludere mutuala si a celor de sincronizare între procese.


Calculatoarele MIMD cu spatiu unic de memorie au un cost relativ scazut si din acest motiv se bucura de o popularitate ridicata. Aceste calculatoare mai sunt cunoscute sub numele de multiprocesoare si sunt considerate a fi sisteme puternic cuplate datorita radului ridicat de partajare a resurselor.


Functionarea întregului sistem paralel este coordonata de catre un singur sistem de operare care se ocupa de planificarea în executie a proceselor pe procesoarele disponibile în sistem în conditiile în care se doreste o încarcare cât mai echilibrata a acestora.


Exista mai multe modele de calculatoarele MIMD

cu memorie partajata:

- UMA (Uniform Memory Access);

- NUMA (Non-Uniform Memory Access);

- COMA (Cache-Only Memory Access);

- CC-NUMA (Cache-Coherent Non-Uniform

Access Memory).

UMA

Memoria fizica a calculatoarelor de tip UMA este compusa din mai multe blocuri care formeaza un spatiu unic de adresare. Procesoarele acceseaza blocurile de memorie prin intermediul retelei de interconectare.

UMA

Principala caracteristica a calculatoarelor UMA este ca toate procesoarele au timp de acces egal la memoria partajata. Însa, tocmai datorita acestui timp uniform de acces, numarul procesoarelor utilizate în cadrul sistemului paralel nu poate fi foarte mare deoarece cresterea numarului de procesoare din sistem atrage dupa sine o probabilitate mai mare de conflict în ceea ce priveste accesarea concurenta a aceleiasi zone de memorie. Într-un astfel de caz se vor înregistra timpi de asteptare care vor conduce la o utilizare ineficienta a procesoarelor si la o încarcare neechilibrata a acestora.

ARHITECTURA UMA CU MEMORII CACHE LOCALE

O îmbunatatire adusa modelului UMA o reprezinta utilizarea memoriile cachecache la nivelul elementelor de procesare. Fiecare procesor va avea asociata o astfel de memorie. Atunci când un procesor solicita date, mai întâi se verifica daca aceste date se gasesc deja în memoria cache locala. În caz afirmativ, acestea se transfera foarte rapid procesorului fara a accesa memoria partajata.


Astfel, problema conflictelor de acces concurent la spatiul unic de memorie se rezolva cel putin partial. Mult mai putine cereri vor ajunge sa acceseze memoria partajata si din acest motiv probabilitatea de aparitie a conflictelor devine mult mai mica.


Utilizarea memoriilor cache presupune însa si asigurarea consistentei acestora.

În momentul în care anumite date stocate în memoria globala se modifica, aceste modificari trebuie sa fie semnalate tuturor blocurilor de memorie cache care stocheaza copii ale datelor respective.

Mai mult, atunci când se schimba continutul datelor de la nivelul unei memorii cache este nevoie ca modificarile sa fie efectuate în toate memoriile cache care contin copii ale datelor actualizate.

Mentinerea coerentei memoriei cache se poate realiza atât prin mecanisme software cât si prin mecanisme hardware.

NUMA

În cazul acestui model, NUMA, memoria partajata este distribuita fizic procesoarelor din sistem. Astfel, fiecare element de procesare al unui calculator de tip NUMA are asociata o memorie locala. Toate aceste memorii locale formeaza un spatiu unic de adresa. Din acest motiv, timpul de acces la memorie este neuniform deoarece accesul la datele aflate în memoria locala este foarte rapid în timp ce accesul la date aflate în memoria locala a altor elemente de procesare va fi mult mai lent datorita faptului ca datele respective vor fi transportate prin reteaua de comunicatie.

VARIANTE DE A CONSTRUI MASINI PARALELE (COMA).


o masinǎ cu memoria partajatǎ din anii 80: memoria cache este partajatǎ.

COMA

În cazul modelului COMA (Cache-Only Memory Access), spatiul global de adrese este format din memorii cache locale alocate fiecarui procesor.

Atunci când un procesor are nevoie de anumite date, acestea sunt mai întâi aduse în memoria cache de catre controllerul de memorie dupa care acestea vor fi foarte rapid accesate.

COMA

Coerenta cache înseamn c o actualizare f cut ǎ ǎ ǎ ǎde un procesor într-o locatie din memoria partajat ǎeste cunoscut de toate celelalte procesoare. Coerenta ǎcache este realizat la nivelul hardware.ǎ

COMA

Se poate remarca cu usurinta faptul ca nu mai exista conceptul de memorie globala.

Controler-ul de memorie are responsabilitatea de a încarca în memoriile cache locale datele ce urmeaza a fi accesate de catre procesoare. Încarcarea datelor presupune localizarea acestora si transportul prin intermediul retelei de interconectare.

COMA

Totusi, folosirea memoriilor cache pe post de memorii locale atrage dupa sine si o serie de probleme. Atunci când se încearca aducerea unui bloc de date într-o memorie cache integral ocupata apare necesitatea mutarii unui alt bloc de date pentru a se crea spatiul necesar memorarii noului bloc care va fi accesat de catre procesor.

COMA

Însa, datorita faptului ca nu mai exista o memorie globala în care sa se scrie acest bloc, va fi nevoie ca datele continute sa fie mutate în memoria cache a unui alt procesor. Aceste date însa nu vor fi niciodata accesate de procesorul care foloseste memoria respectiva ceea ce atrage dupa sine o scadere a eficientei de utilizare a sistemului. În plus, operatia de transfer a blocului de date dintr-o memorie cache în alta este si ea consumatoare de timpi procesor din moment ce datele trebuie sa circule prin reteaua de interconectare. Acesti timpi morti atrag dupa sine o utilizare ineficienta si o încarcare neechilibrata a procesoarelor.

COMA

O alta problema o reprezinta asigurarea coerentei memoriilor cache în contextul în care operatiile de mutare a blocurilor devin din ce în ce mai complicate atunci când numarul de procesoare din sistem este din ce în ce mai mare. Controler-ul de memorie trebuie sa asigure gestiunea:

- datelor ce vor fi aduse în memoriile cache si

- a blocurilor care au fost mutate dintr-o memorie locala în alta.

CC-NUMA

Modelul CC-NUMA combina modul în care este construit spatiul unic de adresa la calculatoarele de tip NUMA si la cele de tip COMA. Fiecare element de procesare al unui calculator de tip CC-NUMA dispune atât de o memorie locala cât si de o memorie cache asociata

CC-NUMA

CC-NUMA

Ca si în cazul modelului NUMA, accesul la datele stocate în memoria locala proprie este foarte rapid. Accesarea unor date aflate în memoria locala a unui alt procesor implica aducerea acestora în memoria locala proprie. Transferul de date folosind reteaua de comunicatie atrage dupa sine întârzieri deoarece nu este la fel de rapid precum accesarea memoriilor locale .

CC-NUMA

Existenta memoriilor cache are ca efect reducerea traficului prin reteaua de comunicatie. Datele solicitate de catre un procesor suntmai întâi cautate în memoriile locale dupa care sunt aduse în memoria cache în cazul în care acestea se gasesc în memoria locala a unui alt procesor. La accesarile ulterioare se va folosi copia datelor respective stocata în memoria cache, deci nu va mai fi nevoie ca datele sa fie din nou transferate prin reteaua de interconectare.

CC-NUMA

Utilizarea memoriile cache atrage dupa sineUtilizarea memoriile cache atrage dupa sine necesitatea implementarii unor mecanismenecesitatea implementarii unor mecanisme software software sau hardware care sa asigure sau hardware care sa asigure consistentaconsistenta memoriilor cachememoriilor cache. La modificarea unor date aflate în memoria locala a unui procesor este nevoie sa se actualizeze toate copiile acestor date aflate în memoriile cache. Aceste. Aceste mecanisme care asigura mecanisme care asigura coerenta memoriilorcoerenta memoriilor cache contribuie la cresterea cache contribuie la cresterea traficuluitraficului efectuat în cadrul retelei de interconectare.efectuat în cadrul retelei de interconectare.

CC-NUMA

Principalul dezavantaj al arhitecturilor MIMD cu memorie partajata si cu spatiu individual de adresare (NUMA, COMA, CCNUMA) îl reprezinta întârzierile care pot sa apara atunci când un procesor doreste sa acceseze date care se afla în memoria locala a unui alt element de procesare. Aceste întârzieri se datoreaza faptului ca procesorul respectiv va astepta ca datele solicitate sa fie transportate în memoria sa locala.

CC-NUMA

Pentru minimizarea timpilor de inactivitate, procesorul în cauza poate efectua o comutare de procese atunci când procesul activ este blocat în asteptarea datelor solicitate. În general comutarea proceselor este o operatiune complexa care implica costuri importante care pot influenta performantele sistemului.

CC-NUMA

Eficienta operatiei de comutare poate fi substantial îmbunatatita prin utilizarea firelor de executie (thread-uri). Un proces poate fi împartit în mai multe fire de executie care comunica între ele prin accesul la spatiul de adresa alocat procesului, pe care îl partajeaza. Din acest motiv, firele de executie reprezinta un mecanism eficient de exploatare a concurentei programelor.

CC-NUMA

Un fir de executie reprezinta cea mai mica

entitate de planificare în sistemele bazate

pe thread-uri. Comutarea între doua fire de

executie care apartin aceluiasi proces este o

operatie foarte rapida care nu atrage dupa

sine costuri suplimentare semnificative.

CC-NUMA

Astfel, procesul activ este suspendat pâna în momentul în care datele solicitate au fost aduse în memoria locala. În tot acest timp, un alt fir de executie al aceluiasi proces este executat. Aceasta comutare între fire de executie apartinând aceluiasi proces conduce la scaderea timpilor de inactivitate si deci implicit la cresterea eficientei cu care este utilizat sistemul paralel.

DEZAVANTAJELE SISTEMELOR PARALELE CU MEMORIE PARTAJATA (MULTIPROCESOR)

1. Software-ul (aplicaţiile, limbajele de programare, sisteme de operare) sunt mult mai complicate decât pentru calculatoare monoprocesor2. Scalabilitate limitata (64 de procesoare – numar maxim atins).

MPP, SISTEME CU MEMORIE DISTRIBUITA

Calculatoarele MIMD cu memorie distribuita mai sunt denumite si multicalculatoare si ele reprezinta sisteme slab cuplate datorita gradului redus de partajare a resurselor. Principalul avantaj al acestor sisteme îl reprezinta scalabilitatea, adica posibilitatea extinderii prin conectarea unor noi procesoare. Cresterea numarului de procesoare nu atrage dupa sine probleme legate de accesul concurent la memorie deoarece majoritatea apelurilor sunt catre memoria locala.


Însa, transferul de mesaje presupune schimburi de

date care pot aglomera reteaua. Transferul de date

între doua procesoare este o operatie mare

consumatoare de timp. Din acest motiv,

performantele retelei de interconectare pot

influenta în mod hotarâtor eficienta cu care este

utilizat sistemul paralel. În plus, este foarte greu

ca sarcina de calcul distribuita procesoarelor

sa fie echilibrata.


Sistemul de operare ruleaza pe fiecare nod si din acest motiv putem vedea întregul sistem ca fiind format din statii de lucru care comunica prin transfer de mesaje.

Complexitatea acestor sisteme este foarte mare datorita faptului ca într-un nod de procesare individual se poate gasi un simplu procesor sau un întreg sistem de tip UMA.


Arhitecturi cu transfer de mesajeÎn cazul calculatoarelor cu memorie distribuita,fiecare

procesor are asociata o memorie locala pe care o poate accesa în mod direct. Pentru a avea acces la memoria locala a unui alt procesor se foloseste mecanismul numit schimb de mesaje (message passing). Procesoarele pot interactiona între ele doar prin schimb de mesaje din moment ce nu exista locatii comune de memorie care sa fie folosite la schimbul de date dintre doua procesoare.

ARHITECTURI PARALELE

BIBLIOGRAFIE1. DISTRIBUTED OPERATING SYSTEMS. Andrew S. Tanenbaum, Prentice-Hall, Inc., 1995

2. Gheorghe M.Panaitescu. ARHITECTURI PARALELE DE CALCUL. Universitatea “Petrol-Gaze” Ploiesti Catedra Automatic si calculatoareǎ . 2009.

http://ac.upg-ploiesti.ro/gpanaitescu/apc2009.pdf

3. Операционные системы распределенных вычислительных систем (распределенные ОС). Крюков Виктор Алексеевич ([email protected]) http://parallel.ru/krukov/

4. ADVANCED CONCEPTS IN OPERATING SYSTEMS. Mukesh Singhal, Niranjan G. Shivaratri, McGraw-Hill, Inc., 1994

5. CENTRALIZED AND DISTRIBUTED OPERATING SYSTEMS. Gary J. Nutt, Prentice-Hall, Inc., 1992

6. David W. Walker, "The design of a standard message-passing interface for distributed memory concurrent computers", Parallel Computing, v.20, n 4, April 1994, 657-673. (www.mpi-forum.org)

7. A. Geist, A. Beguelin, J. Dongarra, W. Jiang, R. Manchek, V. Sunderam, “PVM 3 User’s Guide and Reference Manual”, Technical report, Oak Ridge National Laboratory ORNL/TM-12187 (1993).

8. Таненбаум Э., Стен М. ван. Распределенные системы. Принципы и парадигмы. –СПб.: Питер, 2003. (ISBN 5-272-00053-6, страниц: 877).

BIBLIOGRAFIE

11. Chiorean, Calculul parallel - fundamente, Editura Albastra, Cluj-Napoca, 199512. Gh. Dodescu, B. Oancea, M. Raceanu, Procesare paralela , Editura Economic a, Bucuresti, 200213. A. S. Tanenbaum, Retele de calculatoare, Computer Press Agora, Bucuresti, 1998.114. A. S. Tanenbaum, Organizarea Structurata a Calculatoarelor, Computer Press Agora, Bucuresti, 1999В.Н. Дацюк, А.А. Букатов, А.И. Жегуло. Курс «Многопроцессорные системы и параллельное программирование». http://rsusu1.rnd.runnet.ru/tutor/method/index.html 15. А. Леваков. СУПЕРКОМПЬЮТЕРНЫЕ ТЕХНОЛОГИИ И ПРОЕКТЫ В США. http://daily.sec.ru/dailypblshow.cfm?rid=45&pid=1061616. Высокопроизводительные вычисления: курс лекций. http://exelenz.ru/learning/parallel-lections/

INTREBARI• In ce an a fost propusa clasificarea lui Flynn?

• In cate clase au fost impartite arhitecturile sistemelor de calcul? Care sunt ele?

• In baza caror principii este construita taxonomia lui Flynn?

• Arhitectura SISD, caracteristici generale.

• Arhitectura SIMD, caracteristici generale.

• Arhitectura MISD, caracteristici generale.

• Arhitectura MIMD, caracteristici generale.

• Cate tipuri de arhitecturi MIMD exista? Care sunt ele?

• Arhitecturi ale sistemelor SMP.

• Arhitectura UMA, caracteristici generale.

• Arhitectura COMA, caracteristici generale.

INTREBARI

• Arhitectura NUMA, caracteristici generale.

• Arhitectura ccNUMA, caracteristici generale.

• Arhitectura MIMD shared memory, caracteristici generale.

• Arhitectura MIMD shared nothing, caracteristici generale.

• Calculatoare cu memorie partajata si spatiu comun de adresare.

• Calculatoare cu memorie partajata si spatiu individual de adresare.

curs3 2013 arhitecturi paralele clasificarea flynn ro

Documents

only memory accessccnuma

tratare a operatiilor

exista o singura uc

up primesc setul unic

uniform memory accessnuma

exista o singura up

date upi proceseaza