energy-proportional photonic interconnects nikos hardavellas parag@n – parallel architecture group...

126
Energy-Proportional Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group Northwestern University Team: Y. Demir, P. Yan, S. Song, J. Kim, G. Memik

Upload: garey-fisher

Post on 30-Dec-2015

217 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Energy-Proportional Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group Northwestern University Team: Y. Demir, P. Yan, S. Song,

Energy-ProportionalPhotonic Interconnects

Nikos HardavellasPARAG@N – Parallel Architecture Group

Northwestern University

Team: Y. Demir, P. Yan, S. Song, J. Kim, G. Memik

Page 2: Energy-Proportional Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group Northwestern University Team: Y. Demir, P. Yan, S. Song,

© Hardavellas2

Technology Scaling Runs Out of SteamTransistor counts increase exponentially, but…

Can no longer power the entire chip(voltage, cooling do not scale)

Page 3: Energy-Proportional Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group Northwestern University Team: Y. Demir, P. Yan, S. Song,

© Hardavellas3

Technology Scaling Runs Out of SteamTransistor counts increase exponentially, but…

Can no longer feed all coreswith data fast enough(package pins do not scale)

Can no longer power the entire chip(voltage, cooling do not scale)

Power

Wall

2003 2006 2009 2012 20150

2

4

6

8

10

12

14 Transistor Scaling (Moore's Law)

Pin Bandwidth

Year

Scal

ing

Fact

or

Page 4: Energy-Proportional Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group Northwestern University Team: Y. Demir, P. Yan, S. Song,

© Hardavellas4

2003 2006 2009 2012 201502468

101214

Transistor Scaling (Moore's Law)

Pin Bandwidth

Year Sc

alin

g Fa

ctor

Technology Scaling Runs Out of SteamTransistor counts increase exponentially, but…

Can no longer feed all coreswith data fast enough(package pins do not scale)

BandwidthW

all

Can no longer keep costs at bay(process variation, defects)

Low Yield

Can no longer power the entire chip(voltage, cooling do not scale)

Power

Wall

Monolithic (single-chip) processordesigns running out of steam too

Page 5: Energy-Proportional Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group Northwestern University Team: Y. Demir, P. Yan, S. Song,

© Hardavellas5

Galaxy: Optically-Connected Disintegrated Processors

• Physical constraints limit the performance of single-chip designs Area, Yield, Power, Bandwidth

• Multi-chip designs break free of these limitations Processor disintegration Macro-chip integration

[WINDS-2010, ICS-2014]

PE PE PE PE PE PE PE PE PE PE

Macrochip

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

Multiple Chiplets

Processing Element

PE PE PE PE PE PE PE PE PE PE

Macrochip

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

Multiple Chiplets

Processing Element

PE PE PE PE PE PE PE PE PE PE

Macrochip

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

Multiple Chiplets

Processing Element

PE PE PE PE PE PE PE PE PE PE

Macrochip

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

Multiple Chiplets

Processing Element

PE PE PE PE PE PE PE PE PE PE

Macrochip

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

Multiple Chiplets

Processing Element

PE PE PE PE PE PE PE PE PE PE

Macrochip

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

Multiple Chiplets

Processing Element

PE PE PE PE PE PE PE PE PE PE

Macrochip

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

Multiple Chiplets

Processing Element

PE PE PE PE PE PE PE PE PE PE

Macrochip

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

Multiple Chiplets

Processing Element

PE PE PE PE PE PE PE PE PE PE

Macrochip

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

Multiple Chiplets

Processing Element

PE PE PE PE PE PE PE PE PE PE

Macrochip

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

Multiple Chiplets

Processing ElementPE PE PE PE PE PE PE PE PE PE

Macrochip

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

Multiple Chiplets

Processing Element

PE PE PE PE PE PE PE PE PE PE

Macrochip

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

Multiple Chiplets

Processing Element

Page 6: Energy-Proportional Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group Northwestern University Team: Y. Demir, P. Yan, S. Song,

© Hardavellas6

Outline• Introduction

➔ Background• Scalable Multi-Chip System Design with Silicon Photonics

Galaxy Architecture Experimental Results

• Energy-Proportional Photonic Interconnects EcoLaser ProLaser

• Conclude

Page 7: Energy-Proportional Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group Northwestern University Team: Y. Demir, P. Yan, S. Song,

© Hardavellas7

Nanophotonic Components

off-chiplaser

source

coupler

resonant modulators

resonant detectors

Ge-doped

waveguide

Page 8: Energy-Proportional Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group Northwestern University Team: Y. Demir, P. Yan, S. Song,

© Hardavellas8

Modulation and Detection

11010101

11010101

10001011

10001011

16 - 64 wavelengths DWDM10Gbps per link

5 - 20μm waveguide pitch

1 - 16 TB/s/mmbandwidth density

Page 9: Energy-Proportional Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group Northwestern University Team: Y. Demir, P. Yan, S. Song,

© Hardavellas9

Outline• Introduction• Background• Scalable Multi-Chip System Design with Silicon Photonics

➔ Galaxy Architecture Experimental Results

• Energy-Proportional Photonic Interconnects EcoLaser ProLaser

• Conclude

Page 10: Energy-Proportional Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group Northwestern University Team: Y. Demir, P. Yan, S. Song,

© Hardavellas10

P0 P1

P2 P3

P0 P1

P2 P3

P0 P1

P2 P3

P0 P1

P2 P3

P0 P1

P2 P3

P0 P1

P2 P3

P0 P1

P2 P3

P0 P1

P2 P3

P0 P1

P2 P3

P0 P1

P2 P3

P0 P1

P2 P3

P0 P1

P2 P3

P0 P1

P2 P3

P0 P1

P2 P3

P0 P1

P2 P3

R

R R

R R

R R

R R

R R

R R

R R

Optical Crossbar

P0 P1

P2 P3R

Cluster 0

Cluster 1

Cluster 2

Cluster 3

P0 P1

P2 P3

P0 P1

P2 P3

P0 P1

P2 P3

P0 P1

P2 P3

P0 P1

P2 P3

P0 P1

P2 P3

P0 P1

P2 P3

P0 P1

P2 P3

P0 P1

P2 P3

P0 P1

P2 P3

P0 P1

P2 P3

P0 P1

P2 P3

P0 P1

P2 P3

P0 P1

P2 P3

P0 P1

P2 P3

R

R R

R R

R R

R R

R R

R R

R R

P0 P1

P2 P3R

Cluster 0

Cluster 1

Cluster 2

Cluster 3

A0

Page 11: Energy-Proportional Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group Northwestern University Team: Y. Demir, P. Yan, S. Song,

© Hardavellas11

Routing Example

Optical Fiber bundle

Waveguide bundle

A B

Page 12: Energy-Proportional Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group Northwestern University Team: Y. Demir, P. Yan, S. Song,

Galaxy Architecture (5-chiplet example)

© Hardavellas12

Page 13: Energy-Proportional Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group Northwestern University Team: Y. Demir, P. Yan, S. Song,

© Hardavellas13

Why Fibers?Traditional alternatives are:• Electrical strips (SerDes) on FR4 board

Fibers are 10x more efficient: 180 fJ/bit vs. 2.5pJ/bit for 4’’ Fibers offer 8 TB/s/mm vs. pin interface (<200GB/s)

• Electrical wires on a silicon interposer Fibers are 3x more efficient: 180 fJ/bit vs. 0.5pJ/bit Fibers have a reach of several feet, vs. ~4 mm Fibers transmit one bit per 4-16 um pitch, vs ~70 um pitch

• SOI waveguides on a silicon wafer Fibers are twice as fast: 0.286c vs 0.676c Fibers have negligible optical loss: 0.3db/cm vs. 0.2db/Km

• Do not confine the design on a single board, package, or wafer

Page 14: Energy-Proportional Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group Northwestern University Team: Y. Demir, P. Yan, S. Song,

© Hardavellas14

Dense Off-Chip Coupling

• Dense optical fiber array [Lee, OSA/OFC/NFOEC 2010]

• ~3.8dB loss, 8 Tbps/mm demonstrated• Misalignment within <0.7μm, 0.4μm, 0.7μm> loss <1 dB

Connects a fiber array to an on-chip waveguide array at a chip’s edge

Page 15: Energy-Proportional Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group Northwestern University Team: Y. Demir, P. Yan, S. Song,

© Hardavellas15

Outline• Introduction• Background• Scalable Multi-Chip System Design with Silicon Photonics

Galaxy Architecture ➔ Experimental Results

• Energy-Proportional Photonic Interconnects EcoLaser ProLaser

• Conclude

Page 16: Energy-Proportional Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group Northwestern University Team: Y. Demir, P. Yan, S. Song,

© Hardavellas16

Modeling Infrastructure

Flexus 4.0Booksim 2.0

Cycle Accurate Full System Simulation

Power Calculations with Runtime Statistics

McPat 0.8 DSENT

AnalyticalModel +

HotSpot5.0

FloTherm9.2

Single Chip Design

Multi-Chip Design

Cores,Cache,MCs

Interconnect

DRAMSim 2.0

Thermal Modeling

+

Operating Temperature

Accurate Lekageand Dynamic

Power

DVFS for Temperature

Limiting

3D-stack model

SimFlex sampling95% confidence

photonic-layerring heating

Page 17: Energy-Proportional Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group Northwestern University Team: Y. Demir, P. Yan, S. Song,

© Hardavellas17

Impact of Disintegration: Speedup Over Single-Chip

M C F G M C F G M C F G M C F G M C F GAppbt Em3d Ocean Tomcatv Average

0

0.2

0.4

0.6

0.8

1

1.2

Unconstrained

P-constrained

Memory-intensive Workloads

Spee

dup

Processor Disintegration with Galaxy: 2–3x speedup

M=Concentrated Mesh w/Exp.Links, C=Corona, F=Firefly, G=Galaxy

Page 18: Energy-Proportional Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group Northwestern University Team: Y. Demir, P. Yan, S. Song,

© Hardavellas18

Impact of Disintegration: Speedup Over “Unlimited”

M C F G M C F G M C F G M C F G M C F GAppbt Em3d Ocean Tomcatv Average

0

0.2

0.4

0.6

0.8

1

1.2

Unconstrained

P-constrained

BW-constrained

(P+BW)-constrained

Galaxy

Memory-intensive Workloads

Spee

dup

Galaxy matches the performance of “unlimited” designs

M=Concentrated Mesh w/Exp.Links, C=Corona, F=Firefly, G=Galaxy

Page 19: Energy-Proportional Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group Northwestern University Team: Y. Demir, P. Yan, S. Song,

© Hardavellas19

Macrochip Integration with Galaxy

Fiber

Galaxy: 2.5x speedup over Oracle Macrochip (6.8x max) Galaxy’s lasers each consumes 6x less power

Page 20: Energy-Proportional Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group Northwestern University Team: Y. Demir, P. Yan, S. Song,

© Hardavellas20

80-core 5-chiplet Galaxy Thermal CFD Modeling

8cm spacing allows cooling with cheap passive heatsinks

88.20C

Page 21: Energy-Proportional Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group Northwestern University Team: Y. Demir, P. Yan, S. Song,

© Hardavellas21

9-chiplet Dense Array (Oracle Macrochip)

Tight arrangement points to liquid cooling requirement

2490C

Page 22: Energy-Proportional Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group Northwestern University Team: Y. Demir, P. Yan, S. Song,

© Hardavellas22

9-chiplet Galaxy 3D

Flexible fibers allow “virtual chip” to break free of 2D planar designs

83.60C

Page 23: Energy-Proportional Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group Northwestern University Team: Y. Demir, P. Yan, S. Song,

© Hardavellas23

Galaxy Summary• “Virtual chips” with the performance of unlimited designs• Breaks free of typical physical constraints

Large aggregate area Improved yield (break-even point : 60% yield for photonics) Tb/s/mm bandwidth density Pushes back power wall

• Processor disintegration 2.4x – 3.2x avg. speedup (3.4 max) 2.4x – 2.8x avg. smaller EDP (7.1x max)

• Macrochip integration 2.5x speedup over Oracle Macrochip (6.8x max) 6x more power efficient links

Page 24: Energy-Proportional Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group Northwestern University Team: Y. Demir, P. Yan, S. Song,

© Hardavellas24

Problem 1: High Laser Power

• Silicon photonics are emerging as a promising technology for high-bandwidth, low-latency, and energy-efficient communication in many-cores

• However, lasers are really power-hungry Optical devices induce optical loss (13+ dB is typical) WDM-compatible lasers are 5-10% efficient

10-20x higher laser power than required optical output

Page 25: Energy-Proportional Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group Northwestern University Team: Y. Demir, P. Yan, S. Song,

© Hardavellas25

Problem 2: Laser Power is Wasted

• Interconnect may stay idle for long times Compute-intensive execution phases of workloads 30% server utilization in Google data centers

• But laser stays always on! …even during periods of interconnect inactivity

Up to 88% energy waste in real-world workloads

Page 26: Energy-Proportional Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group Northwestern University Team: Y. Demir, P. Yan, S. Song,

© Hardavellas26

Solution: Laser Power Gating

• Turn the lasers off when interconnect is idle• Turn the lasers on before sender transmits

• Overlooked until now Traditional comb lasers are slow to turn on

• New enabling technology: Germanium Lasers Turn on/off in 1ns On-chip simplify design and lower cost

Page 27: Energy-Proportional Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group Northwestern University Team: Y. Demir, P. Yan, S. Song,

© Hardavellas27

Outline• Introduction• Background• Scalable Multi-Chip System Design with Silicon Photonics

Galaxy Architecture Experimental Results

• Energy-Proportional Photonic Interconnects ➔ EcoLaser

ProLaser• Conclude

Page 28: Energy-Proportional Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group Northwestern University Team: Y. Demir, P. Yan, S. Song,

© Hardavellas28

EcoLaser: Adapt Laser to Interconnect Traffic• First paper on laser power gating

Power down lasers when not needed Relaxed turn-off to facilitate opportunistic senders

• Adaptive mechanism to determine stay-on time Monitors interconnect activity

• Result Highlights 24 – 77% energy savings on real workloads 1.1 – 2x speedup Within 2-6% of a perfect (ideal) scheme

[ISLPED-2014]

Page 29: Energy-Proportional Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group Northwestern University Team: Y. Demir, P. Yan, S. Song,

© Hardavellas29

SWMR Optical Bus

1101010110001011

1101010110001011

11

1111 11

Router 0(Home)

Router 1 Router N-2 Router N-1

Data Bus

Reservation Channel

R0R1

D0D1…………

Page 30: Energy-Proportional Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group Northwestern University Team: Y. Demir, P. Yan, S. Song,

© Hardavellas30

MWSR Optical Bus

1101010110001011

1101010110001011

1

Router 0 Router 1 Router N-2Router N-1

(Home)

Token Stream

Data Bus

T0T1

D0D1…………

Page 31: Energy-Proportional Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group Northwestern University Team: Y. Demir, P. Yan, S. Song,

EcoLaser Design - MWSR

Laser turn-on request via token stream Laser Turn On31 © Hardavellas

Page 32: Energy-Proportional Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group Northwestern University Team: Y. Demir, P. Yan, S. Song,

© Hardavellas32

Adaptive Laser Control• The laser stays on for K cycles each time it turns on• Static-K laser control

K is statically set, stays fixed across time We model a range of static schemes

• Adaptive laser control Approximate ideal value of K at each time interval Monitor the laser turn-on signals Too many increase K higher performance Too few lower K higher energy savings

Balance energy savings with interconnect performance

Page 33: Energy-Proportional Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group Northwestern University Team: Y. Demir, P. Yan, S. Song,

© Hardavellas33

Interconnect Performance - MWSR

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

10

20

30

40

50

601 cyc

2 cyc

3 cyc

5 cyc

10 cyc

30 cyc

100 cyc

Perfect

Adaptive

No-ControlInjection Rate (packet/cycle)

La

ten

cy

(p

roc

. c

yc

les

)

Static: saturate early (56% throughput for Static-1) Adaptive: provides max interconnect throughput

Page 34: Energy-Proportional Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group Northwestern University Team: Y. Demir, P. Yan, S. Song,

© Hardavellas34

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

0.20.40.60.8

11.21.41.61.8 1 cyc

2 cyc

3 cyc

5 cyc

10 cyc

30 cyc

100 cyc

Perfect

Adaptive

No-ControlInjection Rate (packet/cycle)

No

rm.

En

erg

y /

Fli

t

Static: fail to capture all energy savings Adaptive: within 3% of the Perfect scheme

Interconnect Energy - MWSR

Page 35: Energy-Proportional Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group Northwestern University Team: Y. Demir, P. Yan, S. Song,

© Hardavellas35

Fm

m

Mo

ldyn

Ba

rne

s

To

mca

tv

Ap

pb

t

Oce

an

Em

3d

Ave

rag

e

0.02 0.04 0.05 0.1 0.11 0.14 0.18 0.1

00.5

11.5

22.5

No-Ctrl Power_Eq Static-1 Static-10 Adaptive Perfect

Sp

eed

up

Higher laser power -> higher performance impact Adaptive: 2x speedup at 29% laser energy (within 6% Perfect)

EcoLaser Speedup – radix-64 MWSR

MeasuredInjection

Rate

Page 36: Energy-Proportional Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group Northwestern University Team: Y. Demir, P. Yan, S. Song,

© Hardavellas36

N E 11

0 A P N E 11

0 A P N E 11

0 A P N E 11

0 A P N E 11

0 A P

Moldyn Fmm ……… Ocean Em3d Average0.02 0.04 ……… 0.14 0.18 0.1

00.5

11.5

22.5

3

Laser Modulation Ring_Heating Memory_DynMemory_Leak Core_Dyn Core_Leak

No

rm.

En

erg

y X

De

lay

Impact on Energy × Delay – radix-64 MWSR

...

...

Radix-64 impractical to implement without laser control Adaptive: 3.8x lower EDP, within 7% of Perfect

Page 37: Energy-Proportional Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group Northwestern University Team: Y. Demir, P. Yan, S. Song,

© Hardavellas37

EcoLaser Summary• Power down lasers when not needed

Relaxed turn-off to facilitate opportunistic senders Monitor & adapt to interconnect activity

• Result Highlights 24 – 77% energy savings on real workloads 1.1 – 2x speedup Within 2-6% of a perfect (ideal) scheme

• But Complicated token scheme Can do much better

Yes, we can improve 2x over this “Perfect” scheme

Page 38: Energy-Proportional Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group Northwestern University Team: Y. Demir, P. Yan, S. Song,

© Hardavellas38

Outline• Introduction• Background• Scalable Multi-Chip System Design with Silicon Photonics

Galaxy Architecture Experimental Results

• Energy-Proportional Photonic Interconnects EcoLaser

➔ ProLaser• Conclude

Page 39: Energy-Proportional Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group Northwestern University Team: Y. Demir, P. Yan, S. Song,

DFB Laser

DFB Laser

DFB Laser…

λ1

λ2

λN

Data-O

nlyBits

λ1 λ2 … λN

λ1 λ2 … λN

…DFB Laser

DFB Laser

DFB Laser

…λ1

λ2

λN

Comm

onBits

λ1 λ2 … λN

λ1 λ2 … λN

Data Bus

ProLaser: Segregate Data from Control

39 © Hardavellas

Switch on only the necessary interconnect portion

[IEEE Photonics - 2014]

Page 40: Energy-Proportional Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group Northwestern University Team: Y. Demir, P. Yan, S. Song,

© Hardavellas40

ProLaser: Proactively Switch On LaserL2 Cache Requests& Replies

Switch Allocator& VC Allocator

…Rese

rvati

on

Chan

nels

Dat

a Ch

anne

ls

L

L

L

L

L

LR1 R2 RN

CH1

CHN

CH2

RCHN

RCH2RCH1

LasersInject 1

Inject C

… Eject 1

Eject C

Data Channel i

Data Channel 1

Data Channel N

O/E

O/E

Laser Controller

VC0

VC1

VC2

VC0

VC1

VC2

E/O

E/O

Reservation Channel i

…E/O

Common Channel i

L2 Cache Slice

Bloom Filter

Bloom filters + coherence protocol predict accesses

Page 41: Energy-Proportional Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group Northwestern University Team: Y. Demir, P. Yan, S. Song,

© Hardavellas41

ProLaser: Interconnect Performance

ProLaser almost perfect saturation; EcoLaser saturates early

Page 42: Energy-Proportional Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group Northwestern University Team: Y. Demir, P. Yan, S. Song,

© Hardavellas42

ProLaser: Interconnect Energy

ProLaser saves 49-88% of laser power ProLaser is ~2x better than EcoLaser; 2-6% of Perfect

Page 43: Energy-Proportional Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group Northwestern University Team: Y. Demir, P. Yan, S. Song,

© Hardavellas43

ProLaser: Performance Impact

60% speedup over No-Ctrl; 40% over flattened buttefly

0

0.2

0.4

0.6

0.8

1

1.2

1.4

1.6 Flat-ButterflyNo-CtrlAverageSimpleEcoLaserProLaserPerfect No-Ctrl-OffChipPower_Eq-OffChipSimple-OffChipEcoLaser-OffChipProLaser-OffChipPerfect-OffChip

Sp

ee

du

p

Page 44: Energy-Proportional Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group Northwestern University Team: Y. Demir, P. Yan, S. Song,

© Hardavellas44

Sensitivity to Laser Turn-on Delay

Tolerates high laser delays (7x increase 15% penalty)

Page 45: Energy-Proportional Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group Northwestern University Team: Y. Demir, P. Yan, S. Song,

© Hardavellas45

Conclusions

• Galaxy breaks free of typical physical constraints “Virtual chips” with the performance of unlimited designs Processor disintegration: 3.2x speedup, 2.8x EDP (7x max) Macrochip integration: 6.8x speedup, 6x lower power Provides system design flexibility

• Adaptive Laser Control Makes power-hungry photonic interconnects practical Saves 49-88% of the laser energy Provides 50-70% speedup

Page 46: Energy-Proportional Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group Northwestern University Team: Y. Demir, P. Yan, S. Song,

46

Thank You!

Questions?

© Hardavellas

Page 47: Energy-Proportional Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group Northwestern University Team: Y. Demir, P. Yan, S. Song,

© Hardavellas47

TECHNOLOGY BACKUP SLIDES

Page 48: Energy-Proportional Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group Northwestern University Team: Y. Demir, P. Yan, S. Song,

© Hardavellas48

Chip Power Scaling

Chip power does not scale

[Azizi 2010]

Page 49: Energy-Proportional Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group Northwestern University Team: Y. Demir, P. Yan, S. Song,

© Hardavellas49

Demand for High-Performance Computing Grows

• Large Hadron Collider in March’11: 1.6PB data (Tier-1)• Large Synoptic Array Survey Telescope: 30 TB/night

i.e., 2x Sloan Digital Sky Surveys/night Sloan: more data than entire history of astronomy before it

Data grows faster than Moore’s Law

More data more computing power to process them

Page 50: Energy-Proportional Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group Northwestern University Team: Y. Demir, P. Yan, S. Song,

© Hardavellas50

Voltage Scaling Has Slowed

In last decade: 13x transistors but 30% lower voltage Cannot run all transistors fast enough

2003 2006 2009 2012 2015

0.1

1

10

100

Transistor Scaling (Moore's Law)

Supply Voltage

Year

Sca

lin

g F

acto

r

Page 51: Energy-Proportional Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group Northwestern University Team: Y. Demir, P. Yan, S. Song,

© Hardavellas51

Pin Bandwidth Scaling

[TU Berlin]

Cannot feed cores with data fast enough to keep them busy

2003 2006 2009 2012 20150

2

4

6

8

10

12

14

Transistor Scaling (Moore's Law)

Pin Bandwidth

Year

Sca

ling

Fac

tor

Page 52: Energy-Proportional Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group Northwestern University Team: Y. Demir, P. Yan, S. Song,

© Hardavellas52

Electrical vs. Photonic Links

[Nitta et al., 2013]

Page 53: Energy-Proportional Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group Northwestern University Team: Y. Demir, P. Yan, S. Song,

© Hardavellas

Electrical (SerDes) vs. SOI Waveguides vs. Fibers

0.01 0.1 1 10 1000.01

0.1

1

10

100

Distance (cm)

Late

ncy

(ns)

0.01 0.1 1 10 1000.01

0.1

1

10

100

Distance (cm)

Ener

gy (p

J/bi

t)

0 5 10 15 20 25 30 35 400.001

0.010.1

110

100

SerDes LinkSOI WaveguideFiber

Distance (cm)

Ener

gy x

Lat

ency

(p

J*ns

/bit)

Page 54: Energy-Proportional Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group Northwestern University Team: Y. Demir, P. Yan, S. Song,

© Hardavellas54

SWMR vs. MWSR Crossbar Single-Writer Multiple-Reader• Broadcast bus• All receivers always read• On-rings optical loss• High laser power

Multiple-Writer Single-Reader• Only one receiver reads• Only one ring is on low loss• Low laser power• Needs arbitration

Page 55: Energy-Proportional Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group Northwestern University Team: Y. Demir, P. Yan, S. Song,

© Hardavellas55

GALAXY BACKUP SLIDES

Page 56: Energy-Proportional Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group Northwestern University Team: Y. Demir, P. Yan, S. Song,

© Hardavellas56

Single Chiplet Connectivity

Page 57: Energy-Proportional Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group Northwestern University Team: Y. Demir, P. Yan, S. Song,

Galaxy MWSR Optical Crossbar

© Hardavellas57

MWSR avoids broadcast data bus, but requires arbitration

Page 58: Energy-Proportional Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group Northwestern University Team: Y. Demir, P. Yan, S. Song,

© Hardavellas58

Token-Based ArbitrationVC Token

back traversal

VC Token forward traversal

Data Channel

8 cycles on average for token arbitration (5 chiplets)

Page 59: Energy-Proportional Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group Northwestern University Team: Y. Demir, P. Yan, S. Song,

© Hardavellas59

Modeling Infrastructure

Flexus 4.0Booksim 2.0

Cycle Accurate Full System Simulation

Power Calculations with Runtime Statistics

McPat 0.8 DSENT

AnalyticalModel +

HotSpot5.0

FloTherm9.2

Single Chip Design

Multi-Chip Design

Cores,Cache,MCs

Interconnect

DRAMSim 2.0

Thermal Modeling

+

Operating Temperature

Accurate Lekageand Dynamic

Power

DVFS for Temperature

Limiting

3D-stack model

SimFlex sampling95% confidence

photonic-layerring heating

Page 60: Energy-Proportional Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group Northwestern University Team: Y. Demir, P. Yan, S. Song,

© Hardavellas60

Architectural Parameters

Page 61: Energy-Proportional Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group Northwestern University Team: Y. Demir, P. Yan, S. Song,

© Hardavellas61

Nanophotonic Parameters

Page 62: Energy-Proportional Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group Northwestern University Team: Y. Demir, P. Yan, S. Song,

© Hardavellas62

Load Latency (uniform random traffic)

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

10

20

30

40

50

60

70

80

CMeshExp

Corona

Firefly

Galaxy

Injection Rate

Avg.

Lat

ency

(cyc

les)

Page 63: Energy-Proportional Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group Northwestern University Team: Y. Demir, P. Yan, S. Song,

© Hardavellas63

Load-Latency Curves

16 tokens provide optimal buffer depth

Page 64: Energy-Proportional Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group Northwestern University Team: Y. Demir, P. Yan, S. Song,

© Hardavellas64

Impact of Disintegration: Speedup Over “Unlimited”

M C F G M C F G M C F G M C F G M C F GBarnes Fmm Moldyn Water Average

0

0.2

0.4

0.6

0.8

1

1.2

Unconstrained

BW-constrained

P-constrained

(P+BW)-constrained

Galaxy

Compute-intensive Workloads

Spee

dup

Galaxy matches the performance of “unlimited” designs

M=Concentrated Mesh w/Exp.Links, C=Corona, F=Firefly, G=Galaxy

Page 65: Energy-Proportional Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group Northwestern University Team: Y. Demir, P. Yan, S. Song,

© Hardavellas65

Performance Against “Realistic” DesignsAp

pbt

Em3d

Oce

anTo

mca

tvBa

rnes

Fmm

Mol

dyn

Wat

erAv

erag

eAp

pbt

Em3d

Oce

anTo

mca

tvBa

rnes

Fmm

Mol

dyn

Wat

erAv

erag

eAp

pbt

Em3d

Oce

anTo

mca

tvBa

rnes

Fmm

Mol

dyn

Wat

erAv

erag

e

Conventional Memory Optically Connected Memory

3D Stacked Memory

012345678

CMeshExp Corona Firefly Galaxy

Spee

dup

• Realistic: within power and bandwidth envelopes• Galaxy chiplets within 66 - 88oC chiplets run at max speed

Galaxy: 2.4x - 3.2x speedup on average (3.4 max) Galaxy: 2.4x-2.8x smaller EDP on average (up to 7.1x smaller)

Page 66: Energy-Proportional Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group Northwestern University Team: Y. Demir, P. Yan, S. Song,

© Hardavellas66

Comparison Against Multi-Chip Alternatives

Page 67: Energy-Proportional Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group Northwestern University Team: Y. Demir, P. Yan, S. Song,

© Hardavellas67

Tapered vs. Optical Proximity Couplers

6x less laser power than Oracle Macrochip with demonstrated couplers

0 1 2 3 4 5 6 70.01

0.1

1

10Macrochip (0.05 dB/cm)

OPC passive-aligned

OPC active-aligned

OPC predicted

Galaxy

SiON cladding

SU-8 cladding

Coupler Loss (dB)

Las

er P

ower

per

wav

e-le

ngth

(mW

)

Page 68: Energy-Proportional Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group Northwestern University Team: Y. Demir, P. Yan, S. Song,

© Hardavellas68

Laser Power Sensitivity to Optical Parameters

Coupler Loss

Off-Ring LossWaveguide & Filter Drop Loss

Modulator Insertion Loss

Highly sensitive to coupler loss, insensitive to other losses

Page 69: Energy-Proportional Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group Northwestern University Team: Y. Demir, P. Yan, S. Song,

© Hardavellas69

Sensitivity to Fiber Density

• 116mm2 chiplets 43mm along the chip edge• Enough room for 172 fibers @ 250μm pitch

128 fibers: within 3% of max performance

Appbt

Em3d

Ocean

Tomcatv

Barnes

Fmm

Moldyn

Water

Average

00.20.40.60.8

11.21.41.61.8

28 fibers 16 fibers 32 fibers 64 fibers 128 fibers 256 fibers 512 fibers

Spee

du

p

Page 70: Energy-Proportional Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group Northwestern University Team: Y. Demir, P. Yan, S. Song,

© Hardavellas70

Energy-Delay Product

Galaxy: 2.4x-2.8x smaller EDP on average (7.1x max)

Page 71: Energy-Proportional Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group Northwestern University Team: Y. Demir, P. Yan, S. Song,

© Hardavellas71

Energy per Instruction

Galaxy: 12-20% lower energy/instruction on average (up to 2.3x less)

Page 72: Energy-Proportional Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group Northwestern University Team: Y. Demir, P. Yan, S. Song,

© Hardavellas72

9-chiplet Galaxy 2D

Cooling 9 chiplets with passive heatsinks

1100C

Page 73: Energy-Proportional Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group Northwestern University Team: Y. Demir, P. Yan, S. Song,

© Hardavellas73

ECOLASER BACKUP SLIDES

Page 74: Energy-Proportional Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group Northwestern University Team: Y. Demir, P. Yan, S. Song,

Laser Power Consumption

Modulator Insertion

Loss

Off-Ring Loss

Waveguide Loss

Filter Drop Loss

10x Wall-plug Laser

Power

74 © Hardavellas

Page 75: Energy-Proportional Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group Northwestern University Team: Y. Demir, P. Yan, S. Song,

EcoLaser Design - SWMR

Message in injection buffers Laser Turn On

75 © Hardavellas

Page 76: Energy-Proportional Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group Northwestern University Team: Y. Demir, P. Yan, S. Song,

© Hardavellas76

EcoLaser Token Design• Traditional token provides arbitration only

1 bit is sufficient

• EcoLaser token needs to T: Facilitate arbitration L: Indicate light presence on data bus S: Provide laser turn-on signal

Check if the laser is on first, before sending the turn on signal

Laser turn-on signal should trail T/L by one cycle Denote dedicated slot (to avoid starvation)

T

L

S

T

Page 77: Energy-Proportional Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group Northwestern University Team: Y. Demir, P. Yan, S. Song,

© Hardavellas77

EcoLaser 3-bit Token and Laser Controller FSM

Page 78: Energy-Proportional Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group Northwestern University Team: Y. Demir, P. Yan, S. Song,

© Hardavellas78

EcoLaser Writer Node FSM

Page 79: Energy-Proportional Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group Northwestern University Team: Y. Demir, P. Yan, S. Song,

MWSR Laser Control Example

Token stream

Data stream

R3

R2

R1

R0

Router

Laser Source

R0 R1 R2 R3

T3

1 10

T2

1 10

T1

1 10

T0

1 10

T7

1 10

T6

1 10

T5

1 10

T4

1 10

D6 D5 D4 D3D2 D1 D0 D7Off

79 © Hardavellas

Page 80: Energy-Proportional Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group Northwestern University Team: Y. Demir, P. Yan, S. Song,

R0 R1 R2 R3

T4

1 10

T3

1 10

T2

1 10

T1

1 10

T0

1 10

T7

1 10

T6

1 10

T5

1 10

D7 D6 D5 D4D3 D2 D1 D0Off

t = 1

MWSR Laser Control Example

80 © Hardavellas

Page 81: Energy-Proportional Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group Northwestern University Team: Y. Demir, P. Yan, S. Song,

0

R0 R1 R2 R3

T5

1 10

T4

1 10

T3

1 10

T2

1 10

T1

1 10

T0

1 10

T7

00

T6

1 10

D0 D7 D6 D5D4 D3 D2 D1Off

t = 2

MWSR Laser Control Example

81 © Hardavellas

Page 82: Energy-Proportional Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group Northwestern University Team: Y. Demir, P. Yan, S. Song,

0

R0 R1 R2 R3

T6

1 10

T5

1 10

T4

1 10

T3

1 10

T2

1 10

T1

1 10

T0

00

T7

1 00

D1 D0 D7 D6D5 D4 D3 D2Off

t = 3

MWSR Laser Control Example

82 © Hardavellas

Page 83: Energy-Proportional Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group Northwestern University Team: Y. Demir, P. Yan, S. Song,

01

R0 R1 R2 R3

T7

1 10

T6

1 10

T5

1 10

T4

1 10

T3

1 10

T2

1 10

T1

0

T0

1 00

D2 D1 D0 D7D6 D5 D4 D3On

t = 4

MWSR Laser Control Example

83 © Hardavellas

Page 84: Energy-Proportional Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group Northwestern University Team: Y. Demir, P. Yan, S. Song,

R0 R1 R2 R3

T0

1 10

T7

1 10

T6

1 10

T5

1 10

T4

1 10

T3

1 10

T2

0

T1

0

D3 D2 D1 D0D7 D6 D5 D4On

t = 5

MWSR Laser Control Example

011 0

84 © Hardavellas

Page 85: Energy-Proportional Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group Northwestern University Team: Y. Demir, P. Yan, S. Song,

R0 R1 R2 R3

T1

1 10

T0

1 10

T7

1 10

T6

1 10

T5

1 10

T4

1 10

T3

0

T2

0

D4 D3 D2 D1D0 D7 D6 D5On

t = 6

MWSR Laser Control Example

011 0

85 © Hardavellas

Page 86: Energy-Proportional Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group Northwestern University Team: Y. Demir, P. Yan, S. Song,

011 0

R0 R1 R2 R3

T2

1 10

T1

1 10

T0

1 10

T7

1 10

T6

1 10

T5

1 10

T4

0

T3

0

D5 D4 D3 D2D1 D0 D7 D6On

t = 7

MWSR Laser Control Example

86 © Hardavellas

Page 87: Energy-Proportional Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group Northwestern University Team: Y. Demir, P. Yan, S. Song,

R0 R1 R2 R3

T3

1 01

T2

1 10

T1

1 10

T0

1 10

T7

1 10

T6

1 10

T5 T4

D6 D5 D4 D3D2 D1 D0 D7On

t = 8

MWSR Laser Control Example

011 00 0

87 © Hardavellas

Page 88: Energy-Proportional Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group Northwestern University Team: Y. Demir, P. Yan, S. Song,

R0 R1 R2 R3

T4

1 11

T3

1 01

T2

1 10

T1

1 10

T0

1 10

T7

1 10

T6 T5

D7 D6 D5 D4D3 D2 D1 D0On

t = 9

MWSR Laser Control Example

011 00 0

88 © Hardavellas

Page 89: Energy-Proportional Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group Northwestern University Team: Y. Demir, P. Yan, S. Song,

R0 R1 R2 R3

T5

1 11

T4

1 11

T3

1 01

T2

1 10

T1

1 10

T0

1 10

T7 T6

D0 D7 D6 D5D4 D3 D2 D1On

t = 10

MWSR Laser Control Example

011 00 0

89 © Hardavellas

Page 90: Energy-Proportional Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group Northwestern University Team: Y. Demir, P. Yan, S. Song,

R0 R1 R2 R3

T6

1 11

T5

1 11

T4

1 11

T3

1 01

T2

1 10

T1

1 10

T0 T7

D1 D0 D7 D6D5 D4 D3 D2On

t = 11

MWSR Laser Control Example

011 00 0

90 © Hardavellas

Page 91: Energy-Proportional Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group Northwestern University Team: Y. Demir, P. Yan, S. Song,

R0 R1 R2 R3

T7

1 11

T6

1 11

T5

1 11

T4

1 11

T3

1 01

T2

1 10

T1 T0

D2 D1 D0 D7D6 D5 D4 D3On

t = 12

MWSR Laser Control Example

011 00 0

91 © Hardavellas

Page 92: Energy-Proportional Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group Northwestern University Team: Y. Demir, P. Yan, S. Song,

R0 R1 R2 R3

T0

1 11

T7

1 11

T6

1 11

T5

1 11

T4

1 11

T3

1 01

T2 T1

D3 D2 D1 D0D7 D6 D5 D4On

t = 13

MWSR Laser Control Example

011 00 0

92 © Hardavellas

Page 93: Energy-Proportional Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group Northwestern University Team: Y. Demir, P. Yan, S. Song,

R0 R1 R2 R3

T1

1 10

T0

1 11

T7

1 11

T6

1 11

T5

1 00

T4

1 11

T3 T2

D4 D3 D2 D1D0 D7 D6 D5On

t = 14

MWSR Laser Control Example

011 00 0

93 © Hardavellas

Page 94: Energy-Proportional Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group Northwestern University Team: Y. Demir, P. Yan, S. Song,

01

R0 R1 R2 R3

T2

1 10

T1

1 10

T0

1 11

T7

1 11

T6

1 11

T5

1 00

T4

1

T3

1 10

D5 D4 D3 D2D1 D0 D7 D6Off

t = 15

MWSR Laser Control Example

94 © Hardavellas

Page 95: Energy-Proportional Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group Northwestern University Team: Y. Demir, P. Yan, S. Song,

R0 R1 R2 R3

T3

1 10

T2

1 10

T1

1 10

T0

1 11

T7

1 11

T6

1 11

T5

1 00

T4

1 11

D6 D5 D4 D3D2 D1 D0 D7Off

t = 16

MWSR Laser Control Example

95 © Hardavellas

Page 96: Energy-Proportional Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group Northwestern University Team: Y. Demir, P. Yan, S. Song,

R0 R1 R2 R3

T4

1 10

T3

1 10

T2

1 10

T1

1 10

T0

1 11

T7

1 11

T6

1 11

T5

1 00

D7 D6 D5 D4D3 D2 D1 D0Off

t = 17

MWSR Laser Control Example

96 © Hardavellas

Page 97: Energy-Proportional Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group Northwestern University Team: Y. Demir, P. Yan, S. Song,

1

R0 R1 R2 R3

T5

1 10

T4

1 10

T3

1 10

T2

1 10

T1

1 10

T0

1 11

T7

11

T6

1 11

D0 D7 D6 D5D4 D3 D2 D1Off

t = 18

MWSR Laser Control Example

97 © Hardavellas

Page 98: Energy-Proportional Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group Northwestern University Team: Y. Demir, P. Yan, S. Song,

© Hardavellas98

EcoLaser Nanophotonic Parameters

Page 99: Energy-Proportional Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group Northwestern University Team: Y. Demir, P. Yan, S. Song,

© Hardavellas99

Interconnect Performance – radix-16 MWSR

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

10

20

30

40

50

60 1 cyc

2 cyc

3 cyc

5 cyc

10 cyc

30 cyc

100 cyc

Perfect

Adaptive

No-ControlInjection Rate (packet/cycle)

Late

ncy (

pro

cesso

r cycle

s)

Static: saturate early (56% throughput for Static-1) Adaptive: provides max interconnect throughput

Page 100: Energy-Proportional Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group Northwestern University Team: Y. Demir, P. Yan, S. Song,

© Hardavellas100

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

0.20.40.60.8

11.21.41.61.8 1 cyc

2 cyc

3 cyc

5 cyc

10 cyc

30 cyc

100 cyc

Perfect

Adaptive

No-ControlInjection Rate (packet/cycle)

No

rm.

En

erg

y /

Flit

Static: fail to capture all energy savings Adaptive: within 3% of the Perfect scheme

Interconnect Energy – radix-16 MWSR

Page 101: Energy-Proportional Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group Northwestern University Team: Y. Demir, P. Yan, S. Song,

Interconnect Performance – radix-16 SWMR

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

10

20

30

40

50

601 cyc

2 cyc

3 cyc

5 cyc

10 cyc

30 cyc

100 cyc

Perfect

Adaptive

No-ControlInjection Rate

Late

ncy (

pro

c.

cycle

s)

101 © Hardavellas

Page 102: Energy-Proportional Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group Northwestern University Team: Y. Demir, P. Yan, S. Song,

Interconnect Energy – radix-16 SWMR

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

0.2

0.4

0.6

0.8

1

1.2 1 cyc

2 cyc

3 cyc

5 cyc

10 cyc

30 cyc

100 cyc

Perfect

Adaptive

No-ControlInjection Rate

No

rmalized

En

erg

y /

Flit

102 © Hardavellas

Page 103: Energy-Proportional Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group Northwestern University Team: Y. Demir, P. Yan, S. Song,

© Hardavellas103

Fm

m

Mo

ldyn

Ba

rne

s

To

mca

tv

Ap

pb

t

Oce

an

Em

3d

Ave

rag

e

0.08 0.16 0.21 0.4 0.41 0.51 0.72 0.4

0

0.4

0.8

1.2

No-Ctrl Power_Eq Static-1Static-10 Adaptive Perfect

Sp

ee

du

p

Laser power savings leave more power for cores faster Adaptive: 1.1x speedup at 50% laser energy (within 2% Perfect)

EcoLaser Speedup – radix-16 MWSR

MeasuredInjection

Rate

Page 104: Energy-Proportional Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group Northwestern University Team: Y. Demir, P. Yan, S. Song,

© Hardavellas104

Fm

m

Mo

ldyn

Ba

rne

s

To

mca

tv

Ap

pb

t

Oce

an

Em

3d

Ave

rag

e

0.08 0.16 0.21 0.4 0.41 0.51 0.72 0.4

0

0.4

0.8

1.2

No-Ctrl Power_Eq Static-1 Static-10 Adaptive Perfect

Sp

eed

up

Laser power savings leave more power for cores faster Adaptive: 5% speedup at 50% laser energy (within 2% Perfect)

EcoLaser Speedup – radix-16 MWSR

MeasuredInjection

Rate

Page 105: Energy-Proportional Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group Northwestern University Team: Y. Demir, P. Yan, S. Song,

Fm

m

Mold

yn

Barn

es

Tom

catv

Appbt

Oce

an

Em

3d

Avera

ge

0.08 0.16 0.21 0.4 0.41 0.51 0.72 0.4

0

0.4

0.8

1.2

No-Ctrl Power_Eq Static-1 Adaptive Perfect

Sp

eed

up

EcoLaser Speedup – Radix-16 SWMR

105 © Hardavellas

Page 106: Energy-Proportional Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group Northwestern University Team: Y. Demir, P. Yan, S. Song,

© Hardavellas106

Fm

m

Mo

ldyn

Ba

rne

s

To

mca

tv

Ap

pb

t

Oce

an

Em

3d

Ave

rag

e

0.02 0.04 0.05 0.1 0.11 0.14 0.18 0.1

0

0.4

0.8

1.2

No-Ctrl Power_Eq Static-1Static-10 Adaptive Perfect

Sp

ee

du

p

Higher laser power -> higher performance impact Adaptive: 2x speedup at 29% laser energy (within 6% Perfect)

EcoLaser Speedup – radix-64 MWSR

MeasuredInjection

Rate

Page 107: Energy-Proportional Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group Northwestern University Team: Y. Demir, P. Yan, S. Song,

© Hardavellas107

EcoLaser Speedup for Radix-64 MWSR

EcoLaser Power Savings ~2x Speedup

Page 108: Energy-Proportional Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group Northwestern University Team: Y. Demir, P. Yan, S. Song,

Fm

m

Mold

yn

Barn

es

Tom

catv

Appbt

Oce

an

Em

3d

Avera

ge

0.02 0.04 0.05 0.1 0.11 0.14 0.18 0.1

0

0.4

0.8

1.2

1.6

No-Ctrl Power_Eq Static-1 Adaptive Perfect

Sp

eed

up

EcoLaser Speedup – Radix-64 SWMR

108 © Hardavellas

Page 109: Energy-Proportional Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group Northwestern University Team: Y. Demir, P. Yan, S. Song,

© Hardavellas109

EcoLaser Speedup for Radix-64 SWMR

EcoLaser Power Savings ~2x Speedup

Page 110: Energy-Proportional Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group Northwestern University Team: Y. Demir, P. Yan, S. Song,

Fm

m

Mold

yn

Barn

es

Tom

catv

Appbt

Oce

an

Em

3d

Avera

ge

0.08 0.16 0.21 0.4 0.41 0.51 0.72 0.4

00.20.40.60.8

11.2

No-Ctrl Power_Eq Static-1 Static-10 Adaptive Perfect

Sp

eed

up

Static-1 is 19% slower than No-Ctrl on average (30% maximum).Adaptive saves 45% laser energy and it is 4.8% slower than Perfect.

Impact of Latency Overhead

110 © Hardavellas

Page 111: Energy-Proportional Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group Northwestern University Team: Y. Demir, P. Yan, S. Song,

Fm

m

Mold

yn

Barn

es

Tom

catv

Appbt

Oce

an

Em

3d

Avera

ge

0.08 0.16 0.21 0.4 0.41 0.51 0.72 0.4

0

0.2

0.4

0.6

0.8

1

1.2

No-Ctrl Power_Eq Static-1 Adaptive Perfect

Sp

eed

up

Impact of Latency Overhead

111 © Hardavellas

Page 112: Energy-Proportional Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group Northwestern University Team: Y. Demir, P. Yan, S. Song,

Fm

m

Mold

yn

Barn

es

Tom

catv

Appbt

Oce

an

Em

3d

Avera

ge

0.02 0.04 0.05 0.1 0.11 0.14 0.18 0.1

0

0.2

0.4

0.6

0.8

1

1.2

No-Ctrl Power_Eq Static-1 Static-10 Adaptive Perfect

Sp

eed

up

Impact of Latency Overhead

112 © Hardavellas

Page 113: Energy-Proportional Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group Northwestern University Team: Y. Demir, P. Yan, S. Song,

Fm

m

Mold

yn

Barn

es

Tom

catv

Appbt

Oce

an

Em

3d

Avera

ge

0.02 0.04 0.05 0.1 0.11 0.14 0.18 0.1

0

0.2

0.4

0.6

0.8

1

1.2

No-Ctrl Power_Eq Static-1 Adaptive Perfect

Sp

eed

up

Impact of Latency Overhead

113 © Hardavellas

Page 114: Energy-Proportional Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group Northwestern University Team: Y. Demir, P. Yan, S. Song,

N E 11

0 A P N E 11

0 A P N E 11

0 A P N E 11

0 A P N E 11

0 A P

Fmm Moldyn ……… Ocean Em3d Average0.04 0.12 ……… 0.7 0.8 0.4

0

0.2

0.4

0.6

0.8

1

Laser Modulation Ring_Heating Memory_DynMemory_Leak Core_Dyn Core_Leak

Norm

. En

erg

y x

Dela

y

Energy × Delay – radix-16 MWSR

No-Ctrl: more energy efficient than Static-1, Power_Eq Adaptive: 13% lower EDP, within 2% of Perfect

...

...

114 © Hardavellas

Page 115: Energy-Proportional Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group Northwestern University Team: Y. Demir, P. Yan, S. Song,

N E 1 A P N E 1 A P N E 1 A P N E 1 A P N E 1 A P N E 1 A P N E 1 A P N E 1 A P

Fmm Moldyn

Barnes Tomcatv

Appbt Ocean Em3d Av-er-age0.08 0.16 0.21 0.4 0.41 0.51 0.72 0.4

00.10.20.30.40.50.60.70.80.9

Laser Modulation Ring_Heating Memory_Dyn Memory_Leak

No

rm.

En

erg

y x D

ela

y

Energy × Delay – radix-16 SWMR

115 © Hardavellas

Page 116: Energy-Proportional Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group Northwestern University Team: Y. Demir, P. Yan, S. Song,

© Hardavellas116

N E 11

0 A P N E 11

0 A P N E 11

0 A P N E 11

0 A P N E 11

0 A P

Moldyn Fmm ……… Ocean Em3d Average0.02 0.04 ……… 0.14 0.18 0.1

00.5

11.5

22.5

3

Laser Modulation Ring_Heating Memory_DynMemory_Leak Core_Dyn Core_Leak

No

rm.

En

erg

y X

De

lay

Impact on Energy × Delay – radix-64 MWSR

...

...

Radix-64 impractical to implement without laser control Adaptive: 3.8x lower EDP, within 7% of Perfect

Page 117: Energy-Proportional Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group Northwestern University Team: Y. Demir, P. Yan, S. Song,

N E 1 A P N E 1 A P N E 1 A P N E 1 A P N E 1 A P N E 1 A P N E 1 A P N E 1 A P

Fmm Moldyn

Barnes Tomcatv

Appbt Ocean Em3d Av-er-age0.02 0.04 0.05 0.1 0.11 0.14 0.18 0.1

0

0.5

1

1.5

2

2.5

3

Laser Modulation Ring_Heating Memory_Dyn Memory_LeakCore_Dyn Core_Leak

No

rm.

En

erg

y x D

ela

y

Energy × Delay – radix-64 SWMR

117 © Hardavellas

Page 118: Energy-Proportional Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group Northwestern University Team: Y. Demir, P. Yan, S. Song,

Backup Slides• Why not use Off-Chip Laser?

Pro: Higher eff. & off the chip power budget Con: Coupler Loss and intrinsic loss*Conclusion: Off-chip laser source might increase the total

system power consumption.On-Chip laser source with control is more efficient than off-

chip lasers.Ge-based lasers manufactured footprint 1.6um x 4mm,could be smaller.

118 © Hardavellas

Page 119: Energy-Proportional Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group Northwestern University Team: Y. Demir, P. Yan, S. Song,

Experimental Methodology

CMP Size 64 cores, 480 mm2

Processing Core ULTRASPARC III ISA, up to 5Ghz, OoO,4-wide dispatch/retirement, 96-entry ROB

L1 Cache Split I/D, 64KB 2-way, 2-cycle load-to-use, 2 ports, 64-byte blocks, 32 MSHRs, 16-entry victim cache

L2 Cache Shared, 512 KB per core, 16 way, 64-byte blocks, 14 cycle-hit, 32 MSHRs, 16-entry victim cache

Memory Controller One per 4 cores, 1 channel per Memory ControllerRound-robin page interleaving

Main Memory Optically connected memory [2], 10ns access

Network SWMR and MWSR crossbars, radix-16 and -64300-bit wide links @ 10GHz, 20 flit deep buffers, 3 cycle router delay

119 © Hardavellas

Page 120: Energy-Proportional Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group Northwestern University Team: Y. Demir, P. Yan, S. Song,

Radix-16 Radix-64

DWDM 64 16

WG Loss 3 dB 3 dB

Non-Linearity 1 dB 1 dB

Modulator Ins. 0.5 dB 0.5 dB

Ring Through 10.24 dB 10.24 dB

Filter Drop 1.2 dB 1.2 dB

Photodetector 0.1 dB 0.1 dB

Total Loss 16.04 dB 16.04 dB

Laser Power 0.401 mW 0.401 mW

Total Laser Power

20.1W 78.1W

Laser Power Consumption

120 © Hardavellas

Page 121: Energy-Proportional Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group Northwestern University Team: Y. Demir, P. Yan, S. Song,

Radix-16 Area Radix-64

DWDM 64 16

WG 80 160 mm2 1200 300 mm2

Ring Resonators

77K 7.7 mm2 1.2 M 100 mm2

Lasers 4800 34 mm2 19K 125 mm2

Optical Component Count

121 © Hardavellas

Page 122: Energy-Proportional Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group Northwestern University Team: Y. Demir, P. Yan, S. Song,

Workloads• Fmm: Input 128K• Moldyn: 15, 20, 3.2 M• Barnes: Input 64K• Tomcatv: 4096, 10• Appbt: in.24x24x24x8bit• Ocean: 1026, 9600• Em3d: 400K, 2, 15, 5

122 © Hardavellas

Page 123: Energy-Proportional Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group Northwestern University Team: Y. Demir, P. Yan, S. Song,

© Hardavellas123

PROLASER BACKAUP SLIDES

Page 124: Energy-Proportional Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group Northwestern University Team: Y. Demir, P. Yan, S. Song,

Data-O

nly Bits

DFB

DFB

DFB

DFB

DFB

DFB

……

Laser Switch

λ1

λ2

λN

λ1

λ2

λN

λ1 … λN

λ1 … λN

λ1 λ2 … λN

λ1 λ2 … λN

λ1 λ2 … λN

λ1 λ2 … λN

λ & λ

……

Comm

on Bits

Data Bus

Network-on-chipOff-chip laser die

Optical Fiber

SOI Waveguides

Off-Chip Ge-based Laser Source

Page 125: Energy-Proportional Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group Northwestern University Team: Y. Demir, P. Yan, S. Song,

© Hardavellas125

ProLaser – Architectural Parameters

Page 126: Energy-Proportional Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group Northwestern University Team: Y. Demir, P. Yan, S. Song,

© Hardavellas126

ProLaser – Nanophotonic Parameters