j. c. hoe 18-447 lecture 10: pipelined implementationsjhoe/course/ece447/s09handouts/l10.pdf ·...

18-447 Lecture 10:Pipelined Implementations

James C. HoeDept of ECE, CMUFebruary 23, 2009

Announcements: Project 1 is due this weekMidt d d lt t dMidterm graded, results posted

Handouts: H09 Homework 3 (on Blackboard)Graded MidtermsMidterm solutions with statstics

Doing laundry more quickly: in theoryTime

76 PM 8 9 10 11 12 1 2 AM

Task order

“place one dirty load of clothes in the washer”“when the washer is finished, place the wet load in the dryer”

“when the dryer is finished, place the dry load on a table and fold”“when folding is finished, ask your roommate (??) to put the clothes away”

- steps to do a load are sequentially dependent- no dependence between different loads

Doing laundry more quickly: in theoryTime

76 PM 8 9 10 11 12 1 2 AM

Task order

Time76 PM 8 9 10 11 12 1 2 AM

- latency per load is the same- throughput increased by 4

- 4-loads of laundry in parallel- no additional resources

Time76 PM 8 9 10 11 12 1 2 AM

Task order

Doing laundry more quickly: in practice

Time76 PM 8 9 10 11 12 1 2 AM

Task order

Doing laundry more quickly: in practiceTime

76 PM 8 9 10 11 12 1 2 AM

Task order

Time76 PM 8 9 10 11 12 1 2 AM

Task order

Pipeline IdealismMotivation: Increase throughput with

little increase in hardwareRepetition of identical operationsRepetition of identical operationsThe same operation is repeated on a large number of

different inputsRepetition of independent operationsNo ordering dependencies between repeated operations

Uniformly partitionable suboperations b l d d d f l bCan be evenly divided into uniform-latency suboperations

(that do not share resources)

Good examples: automobile assembly line,doing laundry, but instruction pipeline???

combinational logicT psec BW=~(1/T)

Ideal Pipelining

T psec ( )

BW=~(2/T)T/2 ps T/2 ps

BW=~(3/T)T/3ps

Nonpipelined version with delay TBW = 1/(T+S) where S = latch delay

Performance Model

k-stage pipelined versionBWk-stage = 1 / (T/k +S )

k-stage ( )BWmax = 1 / (1 gate delay + S )

Nonpipelined version with combinational cost G Cost = G+L where L = latch cost

Cost Model

k-stage pipelined versionCostk-stage = G + Lk

G gates

k-stage

G/k G/K

Cost/Performance: C/P = [Lk + G] / [1/(T/k + S)] = (Lk + G) (T/k + S)

= LT + GS + LSk + GT/k

Cost/Performance Trade-off [Peter M. Kogge, 1981]

= LT + GS + LSk + GT/k

Optimal Cost/Performance: find min. C/P w.r.t. choice of k

d Lk G+-----------------

0 0 LS GT--------–+ +=

kd 1Tk--- S+------------

0 0 LS

koptGTLS--------=

k2--------– 0=

Instruction Execution . . . . M u x

Instruction [25– 0] Jump address [31– 0]

PC+4 [31– 28]

Add ALU result

Shift left 226 28 PCSrc1=Jump

Shift left 2

Instruction memory

Read address

Instruction [31– 0]

Data memory

Read data

RegistersWrite register

Write data

Read data 1

Read data 2

Read register 1

Read register 2

ALU result

MemtoRegALUOpMemWrite

RegWrite

MemReadBranchJumpRegDst

ALUSrc

Control

result

ALUAddress

PCSrc2=Br Taken

yWritedata

Sign extend

16 32Instruction [15– 0]

ALU control

ALU operation

T BW=~(1/T)

RISC Instruction Processing

5 generic steps instruction fetch instruction decode and operand fetch ALU/execute memory access (not required by non-mem instructions) write-back

DataIFWB

RegistersRegister #

Register #

memory

Address

Register #

PC Instruction ALU

Instruction

memory

Address

ID EXMEM

200psDividing into Stages

IF: Instruction fetch ID: Instruction decode/ register file read

EX: Execute/ address calculation

MEM: Memory access WB: Write back100ps 200ps 200ps 100ps

ignoreuntil

Instruction memory

Address

Add Add result

Shift left 2

Instruction

0Write data

1Registers

Read data 1

Read data 2

Read register 1

Read register 2

Write register

Write data

Read dataAddress

Data memory

ALU result

ALUZero

RFwrite

untilLec 13

3216Sign

extend

Is this the correct partitioning? Why not 4 or 6 stages? Why not different boundaries

Instruction fetch Reg ALU Data

access Reg

lw $1, 100($0)

2 4 6 8 10 12 14 16 18Program execution order (in instructions)

200 400 600 800 1000 1200 1400 1600 1800

8 nsInstruction

fetch Reg ALU Data access Reg

8 ns Instruction fetch

lw $2, 200($0)

lw $3, 300($0)

2 4 6 8 10 12 14

Instruction f t h Reg ALU Data Reg

lw $1, 100($0)

Program execution order (in instructions)

200 400 600 800 1000 1200 1400

fetch g U access glw $1, 100($0)

lw $2, 200($0)

lw $3, 300($0)

2 ns Instruction fetch Reg ALU Data

access Reg

2 ns Instruction fetch Reg ALU Data

access Reg

2 ns 2 ns 2 ns 2 ns 2 ns

200ps200ps200ps200ps200ps

IF: Instruction fetch ID: Instruction decode/ register file read

EX: Execute/ address calculation

MEM: Memory access WB: Write back

Pipeline Registers

No resource is used by more than 1 stage!

Instruction memory

Address

Add Add result

Shift left 2

Instruction

1Registers

Read data 1

Read data 2

Read register 1

Read register 2

Write register

Read dataAddress

Data memory

ALU result

ALUZeroInstruction

memory

Address

Add Add result

Shift left 2

IF/ID EX/MEM MEM/WB

1Registers

Read data 1

Read data 2

Read register 1

Read register 2

Write register

Read data

ALU result

ALUZero

Data memory

AddressIRD

0Write data

16Sign

extend

Write data

memory1x

0Write data

16Sign

extend

data 1memory

Instruction fetchlw

Instruction decodelw

Executionlw

Memorylw

1Write back

lwM u x

Instruction memory

Address

Add Add result

Shift left 2

IF/ID EX/MEM MEM/WB

1Registers

Read data 1

Read data 2

Read register 1

Read register 2

Write register

Write data

Read data

ALU result

ALUZero

Address

Data memory

Instruction memory

Address

Add Add result

Shift left 2

IF/ID EX/MEM

1Registers

Read data 1

Read data 2

Read register 1

Read register 2

Write register

Write data

Read data

ALU result

ALUZero

ID/EX MEM/WB

Address

Data memory

Instruction memory

Address

Add Add result

Shift left 2

IF/ID EX/MEM

1Registers

Read data 1

Read data 2

Read register 1

Read register 2

Write register

Write data

Read data

ALU result

ALUZero

ID/EX MEM/WB

Address

Data memory

Instruction memory

Address

Add Add result

Shift left 2

IF/ID EX/MEM

1Registers

Read data 1

Read data 2

Read register 1

Read register 2

Write register

Write data

Read dataData

memory

ALU result

ALUZero

ID/EX MEM/WB

Address

Instruction memory

Address

Add Add result

Shift left 2

IF/ID EX/MEM

1Registers

Read data 1

Read data 2

Read register 1

Read register 2

Write data

Read dataData

memory

ALU result

ALUZero

ID/EX MEM/WB

Write register

AddressInstruction

memory

Address

Add Add result

Shift left 2

IF/ID EX/MEM MEM/WB

AddressM u x

1Registers

Read data 1

Read data 2

Read register 1

Read register 2

Write register

Write d t

Read data

Data memory

ALU result

ALUZero

0Write data

16Sign

extend

data 1

0Write data

16Sign

extend

data 1

0Write data

16Sign

extend

data 1

0Write data

16Sign

extend

data 1

0Write data

16Sign

extend

data 1

0Write data

16Sign

extend

data 1

All instruction classes must follow the same path and timing through the pipeline stages. Any performance impact?

Pipelined Operation

Instruction fetchlw $10, 20($1)

Instruction decodelw $10, 20($1)

Instruction fetchsub $11, $2, $3

Executionlw $10, 20($1)

Instruction decodesub $11, $2, $3

Memorylw $10, 20($1)

Executionsub $11, $2, $3

W it b kM0

lw $10, 20($1)

sub $11, $2, $3Write backM

0sub $11, $2, $3

Instruction memory

Address

Add Add result

Shift left 2

IF/ID EX/MEM MEM/WB

M u x1

Registers

Read data 1

Read register 1

Read register 2

R dALUALUZero

Instruction memory

Address

Add Add result

Shift left 2

IF/ID EX/MEM MEM/WB

M u x1

Registers

Read data 1

Read register 1

Read register 2

R dALUALUZero

Instruction

Address

Add Add result

Shift left 2

IF/ID EX/MEM MEM/WB

Registers

Read data 1

Read register 1

Read register 2

R dALUALUZero

Instruction memory

Address

Add Add result

Shift left 2

IF/ID EX/MEM MEM/WB

Registers

Read data 1

Read register 1

Read register 2

Memory

R dALUALUZero

Execution

Instruction memory

Address

Add Add result

ALUZero

Shift left 2

IF/ID EX/MEMID/EX MEM/WB

Write backM u x

Registers

Read data 1

Read register 1

Read register 2

ALUR d

Memory

Instruction memory

Address

Add Add result

ALUZero

Shift left 2

IF/ID EX/MEMID/EX MEM/WB

Write backM u x

Registers

Read data 1

Read register 1

Read register 2

ALUReadW itmemory

0Write data

data 2

16Sign

extend

Writeregister

Write data

Readdata

ALUresult

Address

Data memory

Clock 1

memory

0Write data

1g Read

data 2

16Sign

extend

Writeregister

Write data

Readdata

ALUresult

Address

Data memory

Clock 2

memory 0

0Write data

1g Read

data 2Writeregister

Write data

Readdata

ALUresult

3216Sign

extend

Address

Data memory

Clock 3

memory 0

0Write data

1g Read

data 2

3216Sign

extend

Writeregister

Write data

Readdata

ALUresult

Data memory

Address

Clock 4

memory

ALUresult

0Write data

data 2

16Sign

extend

Readdata

Writeregister

Write data

Address

Data memory

Clock 5

memory

result

0Write data

1data 2

16Sign

extend

Readdata

Writeregister

Write data

Address

Data memory

Clock 6

Illustrating Pipeline Operation:Operation View

IFt0 t1 t2 t3 t4 t5

I t ID EX MEMMEMEXIDIFInst4

MEMEXID

EXIF ID

Inst0 IDIFInst1

EXIDIFInst2

MEMEXIDIFInst3

WBMEMEX

EXIF IDIF ID

Resource View

t0 t1 t2 t3 t4 t5 t6 t7 t8 t9 t10

Control PointsPCSrc

Instruction memory

Address

MemtoReg

Branch

ALUSrc

0Registers

Write register

Write data

Read data 1

Read data 2

Read register 1

Read register 2

1Write

data M u x

RegWrite

IF/ID ID/EX EX/MEM MEM/WB

MemWrite

Address

Data memory

Add Add result

Shift left 2

ALU result

ALUZero

RegDst

16 32Instruction [15– 0] Sign

extend

Writedata

ALU control MemRead

Identical set of control points as the single-cycle datapath!!

RIGHTS RESERVED.]

For a given instruction same control settings as single-cycle, but control signals required at different cycles, depending on

tstage⇒decode once using the same logic as single-cycle and buffer

control signals until consumed

Control

Instruction

⇒or carry relevant “instruction word/field” down the pipeline and decode locally within each stage (still same logic)

IF/ID ID/EX EX/MEM MEM/WB

Pipelined Control

Control M

EX/MEM

MEM/WB

Instruction memory

Branch

ALUSrc

Add Add result

RegistersWrite register

Read data 1

Read data 2

Read register 1

Read register 2

ALU result

Read data

Shift left 2

EX M WBIF/ID

AddressData

Address

RegDst

16 32Instruction [15– 0]

Write data

Sign extend

1Write data

ALU control

MemRead

Datamemory

RIGHTS RESERVED.]

Instruction Pipeline RealityIdentical operations ... NOT! ⇒ unifying instruction types

- coalescing instruction types into one “multi-function” pipe- external fragmentation (some idle stages)

Uniform Suboperations ... NOT! ⇒ balance pipeline stages

- stage quantization to yield balanced stages- internal fragmentation (some too-fast stages )nternal fragmentat on (some too fast stages )

Independent operations ... NOT!⇒ resolve data and resource hazards

- duplicate contended resources- inter-instruction dependency detection and resolution

MIPS ISA features are engineered for improved pipelineability

How to do better on Midterm 2

Read the text before lecturePay attention in lectureyDo homeworkDo labAsk questions in lecture, lab, office hourEat breakfast every morningDon’t run with scissors

. . . . . Do you really need me to tell you any of these?

j. c. hoe 18-447 lecture 10: pipelined implementationsjhoe/course/ece447/s09handouts/l10.pdf ·...

Documents

pipelined implementation

pipelined decision tree classiﬁcation...

pipelined fft pptfft

pipelined design

pipelined fft arch

04 pipelined

new pipelined adc

chapter 2 pipelined processors

computer architecture pipelined processor

pipelined architecture

pipelined instruction processing

18-447 lecture 15: a whirlwind tour of modern ...cmu 18-447...

designing a pipelined cpu

pipelined control (simplified)

pipelined processor design

pipelined functions

pipelined adc

pipelined computer architecture

a pipelined processor

pipelined protocols