korszakváltás a processzorok fejlődésében
Post on 02-Jan-2016
30 Views
Preview:
DESCRIPTION
TRANSCRIPT
Korszakváltása processzorok fejlődésében
Sima Dezső
2011 őszi félév
(módosított, verzió 3)
2 A processzorok hatékonysága•
5 A Hatékonysági korlát•
9 Paradigmaváltás•
7 Párhuzamos buszok frekvenciakorlátja•
Áttekintés
6 A disszipációs korlát•
1 Processzorok teljesítménye•
3 A processzorok hatékonyságának stagnálása által kiváltott fejlődési főirányok
•
8 EPIC architektúrák/processzorok•
4 Az órafrekvencia erőteljes növelése•
Általános célú alkalmazásokban:
1OPI
1.1. Bevezetés (1)
IPCIPCeff
ahol:IPC : kibocsájtott utasítások száma ciklusonkéntη : eredményesen végrehajtott/kibocsájtott
utasítások száma(spekulatív végrehajtás hatékonysága)
effcaia IPCfPP
1.2. A processzor teljesítmények növekedése (1)
1.2. ábra: Az x86 alapú Intel processzorok fixpontos teljesítményének növekedése
SPECint92
5
10
50
Year86 8879 1980 81 82 83 84 85 87 89 1990 91 92 93 94 95 96 97 98 99
*
*
*
**
*
**
2
386/16
*
* *
*
*
* 8088/5
*0.5
100
8088/8
80286/10
80286/12
386/20 386/25
386/33
500
*
*
*1000
20
200
1
0.2
*
***
**
*
486/25
486/33486/50 486-DX2/66
Pentium/66
Pentium/100 Pentium/120
Pentium Pro/200
PII/450
PIII/600
486-DX4/100
Pentium/133 Pentium/166
Pentium/200
PII/300PII/400 PIII/500
486-DX2/50*
2000 01 02 03
5000
2000*
*
*
*
*
** *
*
PIII/1000
P4/1500P4/1700
P4/2000 P4/2200P4/2400 P4/2800
P4/3060
P4/3200
~ 100*/10 years
*
*
***
04 05
Northwood B
10000
Prescott (1M)Prescott (2M)
Leveling off
1.2. A processzor teljesítmények növekedése (2)
3.1.4. ábra: A fixpontos teljesítmények növekedése (általában - 2)
Forrás: F. Labonte, www-vlsi.stanford.edu/group/chart/specInf2000.pdf
effca IPCfP
2.1. Bevezetés
?év10/100~
2. A processzorok hatékonysága
fcSPECint_base2000/
Year79 1980 81 82 83 84 85 86 87 88 89 1990 91 92 93 94 95 96 97 98 9978 2000 01 02
0.05
0.1
0.02
0.5
1
0.2
0.01~~
*
**
**
* **
** *
Pentium
486DX
386DX
286
Pentium IIPentium Pro
**
Pentium III~10*/10 years
Leveling off
2. generationsuperscalars
2.1. ábra: Intel processzorok hatékonysága
2.2. A processzorok hatékonyságának növekedése (1)
2.2. ábra: Processzorok teljesítményének/hatékonyságának növekedése (általában)
Forrás:J. Birnbaum, „Architecture at HP: Two decades of Innovation”, Microprocessor Forum, October 14, 1997.
2.2. A processzorok hatékonyságának növekedése (2)
2.3. A hatékonyság növelés hozzájárulása a teljesítmények növeléséhez (2. generációig)
?
A második generációig az órafrekvencia és a hatékonyság növelése egyenlő arányban járultak hozzá a teljesítmény növeléséhez.
effca IPCfP
év10/100~ év10/10~ év10/10~
2.4. A hatékonyság növelés forrásai
Szóhossz növelése
Időbeli párhuzamosság bevezetése, növelése
Kibocsátási párhuzamosság bevezetése, növelése
8/16 32 bit (286 386DX)
1. és 2. generációs futószalag processzorok (386DX, 486DX)
1. és 2. generációs szuperskalárok (Pentium, Pentium Pro)
•
•
•
2.5. A hatékonyság növelésének korlátja (1)
Feldolgozási szélesség
4 RISC utasítás/ciklus~3 CISC utasítás/ciklus
2.3. ábra: A feldolgozás szélessége és az általános célú alkalmazásokban rejlő párhuzamosság mértéke a 2. generációs (széles) szuperskalárokban
2. generációsszuperskalárok
(széles szuperskalárok)
Forrás: Wall: Limits of ILP, WRL TN-15, Dec. 1990
fcSPECint_base2000/
Year79 1980 81 82 83 84 85 86 87 88 89 1990 91 92 93 94 95 96 97 98 9978 2000 01 02 03 04 05
Leveling off
~ 10x/ 10 years
2. gen. szuperscalars
0.05
0.1
0.02
0.5
1
0.2
0.01~~
2.5. A hatékonyság növelésének korlátja (2)
2.4. ábra: Processzorok hatékonyságának növekedése (általában)
Általános célú alkalmazásokban a 2. generációs (széles) szuperskalárokkal kezdődően
a hatékonyság növelésének extenzív forrásaikimerültek
Általános célú alkalmazásokban:
2.5. A hatékonyság növelésének korlátja (3)
2. generációs szuperskalárok szélessége már megközelíti rendelkezésre álló ILP mértékét
EPIC architektúrák kifejlesztése
Az órafrekvencia erőteljes növelése
effca IPCfP
A fejlődés fővonala
(4. – 7. pontok)
3. A processzor hatékonyság stagnálása által kiváltott fejlődési főirányok áttekintése
(8. pont)
A gyártási technológia vonalvastagságának csökkentése
A futószalag fokozatok logikai hosszának csökkentése
4.1. Az órafrekvencia növelésének forrásai (1)
Az órafrekvencia növelése
4. Az órafrekvencia erőteljes növelése
4.1. ábra: Az Intel gyártási technológiák fejlődése
Forrás: D. Bhandarkar: „The Dawn of a New Era”, 11. EMEA, May, 2006.
4.1. Az órafrekvencia növelésének forrásai (2)
20
30
Year*
10
40
1990 2000
*
* *
*
Pentium(5)
2005
No of pipeline stages
Pentium Pro(~12)
Pentium 4(~20)
Athlon-64(12)
P4 Prescott(~30)
(14)Conroe
*Athlon(6)K6
(6)*
1995
*
Core Duo
4.2 ábra: A futószalag fokozatok száma Intel és AMD processzorokban
4.1. Az órafrekvencia növelésének forrásai (3)
4.3. ábra: Futószalag fokozatok logikai hossza processzorokban (FO4)
4.1. Az órafrekvencia növelésének forrásai (4)
Forrás: F. Labonte www-vlsi.stanford.edu/group/chart/CycleFO4.pdf
4.4. ábra: Az x86 alapú Intel processzorok órafrekvenciájának növekedése
4.2. Az órafrekvenciák növekedési üteme (1)
5
10
50
Year
*
** *
2
8088
*
100
386
Pentium
Year of first volume shipment
cf
500
1000
20
200
*
486-DX2
79 1980 81 82 83 84 85 86 87 88 89 1990 91 92 93 94 95 96 97 98 9978
*
*
**
*
*486
*
** *
*
** *
**
Pentium II
***Pentium III
*
286
*
Pentium Pro
1
486-DX4
2000 01 02 03
2000**
***
***
*
*
5000
Pentium 4
~10*/10years
~100*/10years
04 05
* * *
Leveling off(MHz)
4.2. Az órafrekvenciák növekedési üteme (2)
4.5. ábra: Az órafrekvenciák növekedési üteme (általában)
Fejlődési korlátok megjelenése
RISC processzorok kiszorulása
4.3. Az órafrekvencia erőteljes növelésének konzekvenciái
4.3.1. Áttekintés
(4.3.2)
(4.3.3)
•
•
4.3.2. RISC processzorok kiszorulása (1)
4.6. ábra: RISC processzorok kiszorulása
1995-2000: A CISC processzorok átvették a vezetést a teljesítmény versenyben, mivel magasabb órafrekvenciáról indulva (RISC) nem volt tartható az azonos iramú frekvencia növelés, mint alacsonyabb frekvencia értékről (CISC)
A legtöbb RISC processzorcsalád fejlesztésének leállítása, mint pl. MIPS R családja, HP Alpha és PA
családjai, illetve a PowerPC Consortium PowerPC családja
4.3.2. RISC processzorok kiszorulása (2)
1997: Intel és HP bejelentették az IA-64/Merced architektúrát/processzorcsaládot, mint a jövendő új generációt
4.3.3. Fejlődési korlátok megjelenése
Párhuzamos buszok frekvenciakorlátja
Disszipációs korlát
Hatékonysági korlát
(5. pont)
(6. pont)
(7. pont)
•
•
•
A processzor és a memória közötti sebességolló
5.1. Áttekintés
5. A Hatékonysági korlát
Alapvető ok:
(növekvő órafrekvenciákon tágul)
Memória átviteli rátája
DRAM késleltetési ideje
A processzor busz átviteli rátája
L2 cache tárak elérési ideje
5.1. Áttekintés (2)
A sebességolló konkrét megnyilvánulásai:
•
•
•
•
5.1 Áttelomtás (3)
The scene of main memories
1 Used in the Cell BE and the PlayStation 3, but not yet in desktops or servers
Ábra: Legfontosabb DRAM típusok
DRAM
(1970)
FBDIMM
(2006)
DRDRAM
(1999)
DDR3
(2007)
DDR2
(2004)
DDR
(2000)
SDRAM
(1996)
FPM
(1983)
FP
(~1974)
XDR
(2006)1Year
of intro.
Asynchronous DRAMs Synchronous DRAMs
DRAMs with parallel bus connection
DRAMs with serial bus connection
DRAMs for general use
Main stream DRAM types Challenging DRAM types
EDO
(1995)
Commodity DRAMs
486 DX P PII PIII386 DX
86 8881 82 83 84 85 87 89 1990 91 92 93 94 95 96 97 98 99
200
180
160
140
120
100
80
60
40
20
2000
*
PC AT
*
*
* *
**
**
*
*
16 K 64 K 256 K 256 K 64 M
Year
processor
Chipset
Typ. DRAMparts (bits)
(ns)
FPM
4 M
1 M 1 M 16 M 128 M
64 M
16 M
64 M
256 M
200
150
100
80
80
60
70
5060
50
35
EDOFPM
EDOSDRAM
RDRAMSDRAM
64 K
01 02 03 04 05 06 07
DRAM FPM
DRAMDRAM DRAM
64 K
P4
64 M
128 M
256 M
SDRAM
Core2
512 M
1 G
2 G
DDR2
*****
*
30
3025
40
24 22
128 K 128 K
256 K
256 M
512 M
1 G
DDR DDRDDR2
DDR3DDR2
40*
Desktop
DRAM type
Readlatency1
1 Read latency of DRAM, FPM, EDO and BEDO parts = tRAC (Row access time (time from row address until data valid)) Read latency of SDRAM parts = CL + tRCD (Cslumn delay + Row to Cloumn delay)
2 The 815 chipset support SDRAM while the 820 RDRAM
512 M
1 G
935865915845
256 M
512 M
1 G
8453
512 M
RDRAM
128 M
256 M
8152
8202
850
EDOFPM
SDRAM
4 M256 K
FPM
1 M
440ZX430VX430FX420TX 430LX
3 A new revision of the 845 supports DDR instead of SDRAM
DRAM FPM
16 M
4 M
5.2. A processzor és a memória közötti sebességolló (2)
5.1b ábra: DRAM chipek késleltetési ideje
5.1c ábra: DRAM memóriák tipikus késleletetési ideje x86-os rendszerekben (ns)
486 DX P PPro PII PIII386 DXPC AT(286)(8088)
P4
Memory latencyns
300
200
100
*
*
* **
155135 140
120
210
*200
86 8881 82 83 84 85 87 89 1990 91 92 93 94 95 96 97 98 99 2000 Year01 02 03 04 05 06 07 08
*160
*110
*85
*70
50
Core2processorChipset
Typ. DRAMparts (bits)
Desktop
DRAM type
16 K
DRAM
64 K 64 K
DRAMDRAM
64 K
128 K 128 K
256 K
256 K
1 M
DRAM FPM
DRAM FPM
256 K
FPM
4 M
1 M
256 K
FPM
1 M
420TX 430LX
16 M
64 M
EDOFPM
EDOFPM
SDRAM
4 M
430VX430FX
16 M
4 M 64 M
128 M
16 M
64 M
256 M
EDOSDRAM
RDRAMSDRAM
64 M
128 M
256 M
SDRAM DDR
845
256 M
512 M
1 G
8453
512 M
RDRAM
128 M
256 M
8152
8202
850440ZX
512 M
1 G
2 G
DDR2
256 M
512 M
1 G
DDRDDR2
DDR3DDR2
512 M
1 G
835865915
RDRAM
5.2. A processzor és a memória közötti sebességolló (3)
486 DX P PPro PII PIII386 DXPC AT(286)(8088)
P4 Core2processor
Chipset
Typ. DRAMparts (bits)
Desktop
DRAM type
16 K
DRAM
64 K 64 K
DRAMDRAM
64 K
128 K 128 K
256 K
256 K
1 M
DRAM FPM
DRAM FPM
256 K
FPM
4 M
1 M
256 K
FPM
1 M
420TX 430LX
16 M
64 M
EDOFPM
EDOFPM
SDRAM
4 M
430VX430FX
16 M
4 M 64 M
128 M
16 M
64 M
256 M
EDOSDRAM
RDRAMSDRAM
64 M
128 M
256 M
SDRAM DDR
845
256 M
512 M
1 G
8453
512 M
RDRAM
128 M
256 M
8152
8202
850440ZX
512 M
1 G
2 G
DDR2
256 M
512 M
1 G
DDRDDR2
DDR3DDR2
512 M
1 G
835865915
Memory latencyin proc. cycles
86 8881 82 83 84 85 87 89 1990 91 92 93 94 95 96 97 98 99
100
10
12000 Year
50
1000
3020
500
200
23
5
*
*
*
10
40
85
300
**
*
1 1
3
01 02 03 04 05 06 07 08
* **
*240 220 280
180RDRAM
5.1d ábra: DRAM memóriák tipikus késleletetési ideje x86-os rendszerekben (ciklusokban)
5.2. A processzor és a memória közötti sebességolló (4)
5.2. ábra: Memóriák relatív átviteli rátája (D: kétcsatornás)
0.20
0.40
0.30
1.0 2.0fc
1.5 2.50.5
0.10
**
*
**
*
*
*
*
*
***
*
3.0 3.5
*
*
*
**
4.0
Tmemory/f c
*
*
*
**
**
*
*
*
** *
*
**
*
0.60
0.50
0.80
0.70
1.00
0.90
Pentium
Pentium Pro
Pentium II
Pentium III Pentium 4
PC-66
PC-100
PC-133
DDR 266
PC-800D
DDR 333
DDR 333D
**
*
*****
*
DDR 400
DDR 400D
DDR 533D
*
*
*
*
*
*
*
*
FPM
EDO
(GHz)
5.2. A processzor és a memória közötti sebességolló (5)
5.4. ábra: A processzor busz relatív átviteli rátája
5.2. A processzor és a memória közötti sebességolló (7)
0.20
0.40
0.30
1.0 2.0fc
1.5 2.50.5
0.10
*
*
*
*
*
*
*
**
**
**
*
3.0 3.5
**
*
*
*
4.0
Tpb/f c
*
**
*
*
*
*
**
*
*
*
*
*
**
*
0.60
0.50
0.80
0.70
1.00
0.90
Pentium
Pentium Pro
Pentium II
Pentium III
Pentium 4
66
100
133 400 533
8001066
(GHz)
fc max at intro.
(GHz)L2 size(Kbyte)
L2 latency(clock cycles)
Willamette 1.5 128 7
Northwood 2.0 512 16
Prescott 3.4 1024 23
5.3. ábra: L2 cache tárak elérési ideje
5.2. A processzor és a memória közötti sebességolló (6)
5.3. A 3. generációs szuperskalárok hatékonysága (1)
5.5. ábra: Intel Pentium III és Pentium 4 processzorainak hatékonysága fixpontos feldolgozás esetén
0.40
0.5
0.45
1.0 2.0fc
1.5 2.50.5
0.35
0.30
**
*
*
*
*
**
*
*
*
*
*
**
*
*
****
0.55
3.0 3.5
***
**
*
*
**
*
**
*
*
4.0
Katmai512K dir L2
Coppermine256K on-die L2
Willamette256K on-die L2
Northwood A512K on-die L2
Prescott (1M)1M on-die L2
Prescott (2M)2M on-die L2
Irwindale512K on-die L2
2M on-die L3
800 MHz/PC-3200/SATA-150/HT800 MHz/PC-3200/ATA-100
100 MHzPC-100
SCSI-U2W
100 MHzPC-100
ATA-100
100 MHzPC-133
ATA-100
400 MHzPC-800 RDRAM
ATA-66
400 MHzPC-800 RDRAM
ATA-66
800 MHzPC-4300
SATA-150
Pentium 4Pentium III
SPECint_base2000/f c
Northwood C512K on-die L2
~~
800 MHz/PC-3200/ATA-100
533 MHzPC-800 RDRAM
ATA-100
800 MHzPC-3200
SATA-150HT
**
*
800 MHz/PC-2667/ATA-100
Northwood B512K on-die L2
* *
(GHz)
5.6. ábra: AMD Athlon, Athlon XP és Athlon 64 processzorainak hatékonysága fixpontos feldolgozás esetén
0.40
0.50
0.45
1.5 2.5fc
2.0 3.01.0
0.35
0.30
* *
*
*
*
**
*
*
**
* *
*
**
*
*
0.65
3.5
**
*Palomino
256K on-die L2
Clawhammer1M on-die L2
Thorougbread256K on-die L2
200 MHzPC-100
ATA-66200 MHzPC-100
ATA-66
200 MHzPC-133
ATA-66
200 MHzPC-133
ATA-66
266 MHzPC-2100
ATA-100
266 MHzPC-2100
ATA-100
333 MHz/PC-2700/ATA-100
Athlon-XP
Athlon
SPECint_base2000/f c
0.5
Barton512K on-die L2
Thunderbird256K on-die L2
400 MHz/PC-3200/ATA-100
PC-3200ATA-133
f =fFSBmemory
K7512K dir L21
K75512K dir L22,3
1 f =0.5*fL2 c 2 f =0.4*f
L2 c (f =750/800/850 MHz)c3 f =0.3*f
L2 c (f =900/950/1000 MHz)c
Athlon 64
~~
0.60
~~
4.0(GHz)
5.3. A 3. generációs szuperskalárok hatékonysága (2)
5.7. ábra: A fejlett szuperskalárok hatékonyságát megszabó legfontosabb tényezők
fc
Core efficiency
Decreasing core efficiencydue to broadening Increasing core efficiency
primarily due to enhancing thememory subsystem(memory, FSB, L2)
(GHz)
the memory gap
5.3. A 3. generációs szuperskalárok hatékonysága (3)
5.8. ábra: Intel és AMD processzorok hatékonyságának összehasonlítása
0.40
0.50
0.45
1.0 2.0fc
1.5 2.50.5
0.35
0.30
**
*
*
*
*
**
*
*
*
*
*
**
*
*
****
3.0 3.5
***
**
4.0
512K/100
256K/100
256K/400
512K/400
1M/800
2M/800
SPECint_base2000/f c
512K/800
~~
**
*
512K/533
* *
**256K/200
* *
**
*
**512K/200
*
*
**
**
*
256K/266
*
*
512K/400
512K/333
0.65
0.60
***
1M/fFSB
1000
0.55
1200 1400 1600 1800
Pentium III
Pentium IV
Athlon
Athlon XP
Athlon 64
(GHz)
5.3. A 3. generációs szuperskalárok hatékonysága (4)
5.9. ábra: Intel és AMD processzorok tervezési filozófiájának összehasonlítása
0.40
0.50
0.45
0.35
**
*
*
*
*
**
*
*
*
*
*
**
*
*
****
***
**
512K/100
256K/100
256K/400
512K/400
1M/800
2M/800
SPECint_base2000/f c
512K/800
~~
**
*
512K/533
* *
**
256K/200
* *
**
*
**512K/200
*
*
**
**
*
256K/266
*
*
512K/400
512K/333
0.65
0.60
***
1M/fFSB
1000
0.55
1200 1400 1600 1800
Designs preferringcore efficiency
Designs preferring clock frequency
1.0 2.0fc
1.5 2.50.5 3.0 3.5 4.0(GHz)
0.75
0.70
0.80
*2M/400
Pentium III
Pentium IV
Athlon
Athlon XP
Athlon 64
Pentium M
5.3. A 3. generációs szuperskalárok hatékonysága (5)
Növekvő órafrekvenciákon egyre csökkenő teljesítménytöbblet
A processzorok hatékonysági korlátjának konzekvenciája:
5.3. A 3. generációs szuperskalárok hatékonysága (6)
6. A disszipációs korlát (1)
Disszipáció (D) :
Dd=A*C*V2*fc
ahol:A: aktív kapuk részaránya
C: a kapuk összesített kapacitása
V: tápfeszültség
fc: órafrekvencia
Ileak: szivárgási áram
Dinamikus Statikus
Ds=V*Ileak
6. A disszipációs korlát (1b)
A tápfeszűltség skálázása a gyártási technológiával
Forrás: Gelsinger P. IDF, June 7 2006
6.2. ábra: Intel processzorok fajlagos disszipációja
5
10
50
100
20
2
100 1000 5000
*
*
*
*
**
****
*
*
*
*
**
*
*
* **
*
*
*
Prescott
Northwood
Willamette
Tualatin
Coppermine
Katmai
Deshutes
Klamath
P6
P54CS
P54C
P5
*
(W/cm )2
fc2000200 50020 50
D/die area
0.8μ 0.6μ
0.6μ
0.35μ
0.35μ
0.35μ
0.25μ
0.25μ
0.18μ
0.18μ
0.13μ0.13μ
0.09μ
(MHz)
6. A disszipációs korlát (2)
6. A disszipációs korlát (2b)
A disszipáció növekedés problémájának felismerése (ISSCC 2001, Gelsinger P. Intel)
6.3. ábra: Intel és AMD processzorok
0.40
0.50
0.45
0.35
**
*
*
*
*
**
*
*
*
*
*
**
*
*
****
***
**
512K/100
256K/100
256K/400
512K/400
1M/800
2M/800
SPECint_base2000/f c
512K/800
~~
**
*
512K/533
* *
**
256K/200
* *
**
*
**512K/200
*
*
**
**
*
256K/266
*
*
512K/400
512K/333
0.65
0.60
***
1M/fFSB
0.55
Thermal
wall
Core design,
technology
1.0 2.0fc
1.5 2.50.5 3.0 3.5 4.0 ~~(GHz)
1000 1200 1400 1600 18000.80
*2M/400
0.75
0.70
Pentium III
Pentium IV
Athlon
Athlon XP
Athlon 64
Pentium M
6. A disszipációs korlát (3)
11/00 1/02
^
0.18 /42 mtrs
^
400 MHz FSB
Northwood-A
Xeon DP line
Desktop-line
Celeron-line
Willamette
1.4/1.5 GHz
(Value PC-s)
On-die 256K L2
0.13 /55 mtrs
400 MHz FSB
2A/2.2 GHzOn-die 512K L2
2/02
^
0.13 /55 mtrs
400 MHz FSB
1.8/2/2.2 GHz
On-die 512K L2
5/01
^
0.18 /42 mtrs
400 MHz FSB
1.4/1.5/1.7 GHz
On-die 256 K L2
11/02
^Prestonia-B
0.13 /55 mtrs
533 MHz FSB
2/2.4/2.6/2.8 GHz
On-die 512K L2
Foster Prestonia-A Nocona
2/04
^
0.09 /125mtrs
800 MHz FSB
2.80E/3E/3.20E/3.40E GHzOn-die 1M L2
2000 2001 2002 2003 2004
Xeon - MP line
3/02
^
0.18 /108 mtrs
400 MHz FSB
1.4/1.5/1.6 GHz
On-die 256K L2
11/02
^Gallatin
0.13 /178 mtrs
400 MHz FSB
1.5/1.9/2 GHz
On-die 512K L2
Foster-MP
On-die 512K/1M L3 On-die 1M/2M L3
5/02
^Northwood-B
0.13 /55 mtrs
533 MHz FSB
2.26/2.40B/2.53 GHzOn-die 512K L2
5/02^
Willamette-128
400 MHz FSB
1.7 GHz
11/02
^
6/04
^
0.09 / 125 mtrs
800 MHz FSB
2.8/3.0/3.2/3.4/3.6 GHz
On-die 1M L2
Northwood-B
533 MHz FSB
3.06 GHzOn-die 512K L2
0.13 /55 mtrs
400 MHz FSB
2 GHzOn-die 128K L2
0.18 0.13
9/02
^Northwood-128
On-die 128K L2
Cores supporting hyperthreading
5/03
^Northwood-C
800 MHz FSB
2.40C/2.60C/2.80C GHzOn-die 512K L2
0.13 /55 mtrs
Cores with EM64T implemented but not enabled
2005
2Q/05
^Potomac
0.09 > 3.5 MHz
On-die 1M L2On-die 8M L3 (?)
Irwindale-C
1Q/05
^
0.09 3.0/3.2/3.4/3.6 GHz
On-die 512K L2, 2M L3
Jayhawk
2Q/05
^
0.09
(Cancelled 5/04)
3.8 GHz
On-die 1M L2
3Q/05
^Tejas
0.09 /4.0/4.2 GHz
On-die 1M L2(Cancelled 5/04)
Irwindale-A
11/03
^
800 MHz FSB
3.2EE GHz
On-die 512K L2, 2M L3
0.13 /178 mtrs
Cores supporting EM64T
6/04
^
0.09 /125mtrs
800 MHz FSB
2.8/3.0/3.2/3.4/3.6 GHz
On-die 1M L2
11/04
^Irwindale-B
0.13 /178mtrs
1066 MHz FSB
3.4EE GHzOn-die 512K L2, 2 MB L3
533 MHz FSB
2.4/2.53/2.66/2.8 GHzOn-die 256K L2
0.09
6/04
^Celeron-D
PGA 603 PGA 603
PGA 603 PGA 604
PGA 478 LGA 775
PGA 423 PGA 478 PGA 478 PGA 478 PGA 478 PGA 478 LGA 775
PGA 478 PGA 478
PGA 603 PGA 603
0.18 /42 mtrs
^
400 MHz FSB
Willamette
On-die 256K L2
PGA 478
3/04
^Gallatin
0.13 /286 mtrs
400 MHz FSB
2.2/2.7/3.0 GHz
On-die 512K L2On-die 2M/4M L3
PGA 603
8/01
PGA 478533 MHz FSB
2.53/2.66/2.80/2.93 GHzOn-die 256K L2
0.09
9/04
^Celeron-D
Extreme Edition
7/03
^Prestonia-C
0.13 /178 mtrs
533 MHz FSB
3.06 GHz
On-die 512K L2, 1M L3
PGA 603
1.4 ... 2.0 GHz0.09 /125mtrs
800 MHz FSB
3.20F/3.40F/3.60F GHz
On-die 1M L2
LGA 775
8/04
^
12 13
8,9,10PrescottPrescott Prescott-F115 6,7
LGA 775
42,3
1 1
6.4. ábra: Intel P4 processzorcsaládja (Netburst architektúra)
6. A disszipációs korlát (4)
6.5. ábra: A fajlagos disszipáció értékének növekedése (általában)
Forrás: R Hetherington, „The UltraSPARC T1 Processor” White Paper, Sun Inc., 2005
6. A disszipációs korlát (5)
6.1 ábra: A dinamikus és a statikus disszipáció növekedési trendje
Forrás: N. S. Kim et al., „Leakage Current: Moore’s Law Meets Static Power”, Computer, Dec. 2003, pp. 68-75.
6. A disszipációs korlát (6)
Kapcsolási sebesség: 120 %Szivárgási áram: 10 %
6. A disszipációs korlát (7)
6.6. ábra: A Penryn processzor tranzisztorainak felépítése (1)
Source:[5]
6. A disszipációs korlát (8)
6.7. ábra: A Penryn processzor tranzisztorainak felépítése (2)
A processzorok tervezésében a disszipáció csökkentő technikák előtérbe kerülése
Az órafrekvencia növelésén alapuló fejlesztési irány háttérbe szorulása
A disszipációs korlát konzekvenciái:
6. A disszipációs korlát (9)
6.8 ábra: Intel 2006-ban nyilvánosságra hozott utiterve, mely megadta a gyártási technológiák fejlesztési ütemét és a tervezett új processzor architektúrák
kibocsátásának idejét [74]
6. A disszipációs korlát (10)
Intel processzor tervezési filozófiájának változása
http://citris-uc.org/files/koomeyoncomputingtrends-v2.pdf
6. A disszipációs korlát (11)
A számítási hatékonyság növekedése
http://citris-uc.org/files/koomeyoncomputingtrends-v2.pdf
6. A disszipációs korlát (12)
A számítási hatékonyság növekedése (PC-k)
Az adatbeolvasás mechanizmusa a buszok vevőoldalán
Az időbeli feltételeket az adat érvényes ablak (Data Valid Window, DVW) írja le,a feszültségszint feltételeket egy minimálisan elvárt H szint (VHmin) és egy maximálisan lehetséges L szint (VLmax) definiálja.
Forbidden V area
t
V
VLmax
VHmin
DVW
VL
Data
VH
DVW: Min. idő, amig a jelnek érvényesnek kell lennie
Óra (adat bekapuzáshoz)
7. Párhuzamos buszok frekvenciakorlátja (1)
• A vevő az órajellel vezérelten bekapuzza az adat jelet.• Az adat helyes bekapuzásának időbeli és feszültségszint feltételei vannak.
A DVW az a minimális időintervallum, melyben az adat-jelnek (mely vagy H vagy L szintű) érvényesnek kell maradnia, mégpedig
7.1 Ábra: Az adat érvényes ablak (DVW) értelmezése ideális jel esetén
Data
CK
tS
tH
Min. DVW
7. Párhuzamos buszok frekvenciakorlátja (2)
ts: setup timetH: hold time
• egyrészt az adat-jelnek már kellő időben az órajel jel megérkezése előtt (tS) érvényesnek kell lennie és
• másrészt pedig az adat-jelnek az órajelet követően még egy előírt ideig (tH) érvényesnek kell maradnia
annak érdekében, hogy a vevőáramkör az adat-bitet helyesen kapuzza be.
Az adat érvényes ablak (DVW) értelmezése
DVW
min
max
7.2 Ábra: Egy valós adat-jel szem diagramja az elvárt adat érvényes ablak és az elvárt jelszintek (VIHmin, VILmax) megadásával
• nagyszámú H szintű illetve L szintű adatjel egymásra irásával előállított kép. •Az elvárt adat-beolvasási követelmények teljesülésének az ellenőrzésére szolgál.
7. Párhuzamos buszok frekvenciakorlátja (3)
A szem diagram (Eye diagram)
DVW
Elektromos jelenségek, elsődlegesen a
behatárolják a buszok adatátviteli sebességét.
7. Párhuzamos buszok frekvenciakorlátja (4)
Az adatbeolvasás tolerancia sávjait csökkentő (zavaró) elektromos jelenségek
• skew• vonal lezárási illesztettlenségek miatt fellépő jel-visszaverődések (reflections)• jitter
csökkentik az adat-beolvasás tolerancia sávjait, és ezáltal
7.3 Ábra: Egy chip vagy egy NYÁK különböző pontjain ható órajel élei között megjelenő futási idő különbségek (skew)
A jelek fel- illetve lefutó élei közötti időkülönbség, mely kétféleképpen értelmezhető.
a) A skew értelmezése egyazon jelre (pl. egy adott órajelre) mely egy chip vagy egy NYÁK különböző pontjain hat.
7. Párhuzamos buszok frekvenciakorlátja (5)
Skew (általában)
7.4. ábra: Párhuzamos buszok bit-vezetékei között megjelenő futási idő különbségek (skew)
63. bit
0. bit
Skew
7. Párhuzamos buszok frekvenciakorlátja (6)
b) A skew értelmezése egy párhuzamos busz különböző bit-vezetékei között, egy adott helyen.
A párhuzamos buszok egyes bitvezetékei között megjelenő skew előidéző okai (elsődlegesen)
7. Párhuzamos buszok frekvenciakorlátja (7)
a) Párhuzamos buszok egyes bit-vezetékeinek eltérő hosszai NYÁK lapokon.
Adott jelterjedési sebesség (time of flight) mellett, melynek értéke kb. 170 ps/inch) [8], ill. kb. 60 ps/cm, a hosszeltérések él-eltolódásokhoz vezetnek.
A hossz-különbségeket a tervezők NYÁK lapokon (pl. alaplapokon) bizonyos mértékben kiegyenlítik.
7.5. ábra: A futási idő különbségek (skew) kiegyenlítése az MSI 915 G
Combo alaplapon
7. Párhuzamos buszok frekvenciakorlátja (8)
Ábra: Jelvezetékek kapacitív terhelése miatt fellépő skew [8]
CK-1
CK-2
Skew
7. Párhuzamos buszok frekvenciakorlátja (9)
b) NYÁK vezetékek kapacitív terhelése miatt fellépő skew (kb. 50 ps per pF).
A GHz tartományban a NYÁK-okon (pl. az alaplapokon) kialakított rézvezetékek tápvezetékként működnek (transmission lines).
7. Párhuzamos buszok frekvenciakorlátja (10)
Visszaverődések (reflections)
Annak érdekében, hogy a tápvezetékeken ne álljanak elő visszaverődések a tápvezetékeket a hullám impedanciájukkal (charactristic impedance) (Z0) kell lezárni, mely kb. 50-70 Ω alaplapon illetve DIMM kártyán kialakított rézvezetékek esetén.
Ha tápvonalat nem a hullám impedanciájával zárjuk le vagy a tápvonalon inhomogenitások vannak, visszaverődések keletkeznek, melyek csőkkentik az adat-beolvasásnál rendelkezésre álló tolerancia sávokat.
Z0
7.6 Ábra: Egy szem diagramon látható visszaverődések, melyek a tápvonal
lezárás illesztetlensége miatt keletkeztek
7. Párhuzamos buszok frekvenciakorlátja (11)
Példa visszaverődésekre
Memória vezérlő (MCH)
DIMM kártyák
Alaplapon kiképzett vezetékek
7.7 Ábra: A memória vezérlőt és a DIMM kártyákon elhelyezett DRAM chipeket összekötővezetékeken fellépő inhomogenitások ([6] alapján)
Az adatút egyespontjain
inhomogenitásokjelentkeznek.
7. Párhuzamos buszok frekvenciakorlátja (12)
Példa inhomogenitásokra a mem. vezérlőt és a DRAM chipeket összekötő adatút esetén
• Jelentése: fázisbizonytalanság, mely a jelek felfutó és lefutó éleit elmossa.
• A jitter sztohasztikus jellegű.
7.8 Ábra: Jelek felfutó illetve lefutó élein jelentkező jitter
A jitter főbb forrásai
• Áthallás (crosstalk), melyet a szomszédos vezetékek közötti csatolás okoz a NYÁK-on,
• ISI (Inter-Symbol Interference) akkor áll elő, ha busz magasabb frekvencián működik minthogy azon a jelek le tudnának csengeni,
• EMI (Electromagnetic Interference) melyet külső vagy belső forrásokból származó elektromágneses sugárzás okoz.
7. Párhuzamos buszok frekvenciakorlátja (13)
Jitter (fázis bizonytalanság)
A jitter leszűkíti az adatok beolvasásánál rendelkezésre álló tolerancia sávokat mind a DVW, mind a jelszintek tekintetében.
A vevő oldalon csökkentik a jelek beolvasásának tolerancia sávjait, és ezáltal
7. Párhuzamos buszok frekvenciakorlátja (14)
A fellépő elektromos zavaró jelenségek (skew, visszaverődések, jitter, stb.) következményei
• bekorlátozzák párhuzamos buszok átviteli sebességét.
• A tárgyalt elektromos zavaró jelenségek egyúttal bekorlátozzák az egy memória csatornára csatlakoztatható DIMM-ek számát is. Pl. hagyományos rendszerarchitektúrákban, melyekben a memória csatornák az MCH-ra (északi híd) csatlakoznak, DDR2 vagy DDR3 memóriák esetén két DIMM-re.
Megjegyzés
Soros buszok használata
7.9. ábra: Jelátvitel soros buszon
D+
D-
"0" "1"
7. Párhuzamos buszok frekvenciakorlátja (15)
Párhuzamos buszok frekvenciakorlátja által kiváltott trend:
Példák “gyors” soros buszokra:
• PCI-e• SATA• SAS• HT (HyperTransport bus)• QPI (Quick Path Interconnect bus)
Soros buszok bevezetése lassú periféria buszok esetén is (költségokokból!):
• USB• USB2
7. Párhuzamos buszok frekvenciakorlátja (16)
Forrás: Vogt, IDF Spring 2004
7. Párhuzamos buszok frekvenciakorlátja (17)
A soros buszok használata nagyban leegyszerűsíti az alaplapok tervezését is
7.10 Ábra: Vezeték összeköttetések alaplapon párhuzamos és soros memória busz esetén
Az órafrekvenciák növelésén alapuló fejlődési főirányhatékonysági, disszipációs és skew korlátokba ütközik
és tovább már nem követhető
A fejlődési korlátok felerősödésének konzekvenciája
Az órafrekvencia erőteljes növelése
EPIC architektúrák kifejlesztése
effca IPCfP
A fejlődés fővonala
(4. – 7. pontok)
8. EPIC architektúrák/processzorok (1)
(8. pont)
Szuperskalár feldolgozás elve
FE
FE
FE
dinamikusfüggőség kezelés
Processzor
függő utasítások
utasítások
VLIW feldolgozás elve
FE
FE
FE
VLIW: Very Large Instruction Word
független utasítások(statikus függőségkezelés)
Processzor
8.1. ábra: VLIW processzorok működési elve
8. EPIC architektúrák/processzorok (2)
1994: Intel, HP
2001: IA-64 Itanium
1997:EPIC elnevezés
VLIW EPIC
EPIC: Explicitly Parallel Instruction Computer
Továbbfejlesztett VLIW
• elágazásbecslés• explicit cache utasítások• •
8. EPIC architektúrák/processzorok (3)
(fejlett szuperskalár vonások integrálása)
5/01 6/03
^^Itanium 2Itanium
4/04
^Itanium 2
11/04
^Itanium 2
7/05
^Itanium 2
2001 2002 2003 2004 2005
^Itanium 2
7/02
0.18 /25 mtrs
64-bit FSB
733/800 MHz96K L2
266 MT/s
2/4M L3
0.18 /220 mtrs
128-bit FSB
800/1000 MHz256K L2
400 MT/s
1,5/3M L3
0.13 /410 mtrs
128-bit FSB
1.5 GHz256K L2
400 MT/s
6M L3
0.13 /410 mtrs
128-bit FSB
1.4/1.6 GHz256K L2
400 MT/s
3M L3
0.13 /592 mtrs
128-bit FSB
1.5/1.6 GHz256K L2
400 MT/s
3/4/6/9M L3128-bit FSB
1.66 GHz256K L2
667 MT/s
6/9M L3
9/03
^Itanium 2
(Merced) (Mc Kinley) (Madison)(Madison)
1
11
2
21.5 GHz with 4 MB L3
1.6 GHz with 3/6/9 MB L3
400 MT/s for 4/6/9 MB L3 GHz with 4 MB L3400/533 MT/s for 3 MB L3
Multiprocessor(MP-line)
Dual processor(DP-line)
0.13 /410 mtrs
128-bit FSB
1.4 GHz256K L2
400 MT/s
1.5M L3
(Madison)
Year
(Madison) (Madison)
8.2. ábra: Itanium alapú magok áttekintése
8. EPIC architektúrák/processzorok (4)
Tukwila (2/2010)
0.5
0.7
0.6
1000 2000fc
1500500
0.4*
*
0.9
0.8
1.0
Itanium
Itanium 2
64-bit FSB/266 MT/s
*
**
*
*
*
(MHz)~~~~
SPECint_base2000/f c
128-bit FSB/400 MT/s
96K L2/4M dir. L3
96K L2/2M dir. L3
256K L2/9M L3/DDR 266256K L2/6M L3/DDR 266
256K L2/3M L3/DDR 266
8.3. ábra: Itanium processzorok hatékonysága
8. EPIC architektúrák/processzorok (5)
8.4. ábra: Az IA-64 architektúra elterjedésével kapcsolatos várakozások
Forrás: L. Gwennap: Intel’s Itanium and IA-64: Technology and Market Forecast, MDR, 2000
8. EPIC architektúrák/processzorok (6)
8.5. ábra: Az Itanium processzorok értékesítési elvárásainak módosulása
8. EPIC architektúrák/processzorok (7)
Általános célú alkalmazásokbanaz EPIC architektúrák/processzorok
kiszorulása
8. EPIC architektúrák/processzorok (8)
Általános célú alkalmazásokban a 2. generációs szuperskalárok megjelenésével a processzorok hatékonysága stagnálni kezdett,
ez két fejlesztési főirányt váltott ki, de mindkét megközelítés korlátokba ütközött
Egymagos szuperskalárok-
egy korszak alkonya
9. Paradigmaváltás (1)
Paradigmaváltás a processzorok fejlesztésébenA többmagos (többszálas) processzorok
korszakába léptunk
9. Paradigmaváltás (2)
A magok várható duplázódási ideje is közelítőleg ~ 24 hónap
A rendelkezésre álló hardver komplexitás továbbra is exponenciálisan nő
(Moore törvénye)
Jelenleg a tranzisztorszám ~ 24 havonta duplázódik
9.1. ábra:Többmagos processzorok robbanásszerű elterjedése
az Intel processzorok példáján
9. Paradigmaváltás (3)
Further slides
[74]: Razin A., Core, Nehalem, Gesher. Intel: New Architecture Every Two Years, Xbit Laboratories, 04/28/2006, http://www.xbitlabs.com/news/cpu/display/20060428162855.html
1.2. A processzor teljesítmények növekedése (2)
1.3. ábra: A fixpontos teljesítmények növekedése (általában - 1)
Forrás: X86-64 Technology White Paper, AMD Inc., Sunnyvale, CA, 2000
top related