galaxy: a high-performance energy-efficient multi-chip architecture using photonic interconnects...

64
Galaxy: A High-Performance Energy- Efficient Multi-Chip Architecture Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group Northwestern University Team: Y. Demir, P. Yan, S. Song, J. Kim, G. Memik

Upload: lynette-christal-griffin

Post on 16-Jan-2016

230 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Galaxy: A High-Performance Energy-Efficient Multi-Chip Architecture Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group

Galaxy: A High-Performance Energy-Efficient

Multi-Chip Architecture Using Photonic Interconnects

Nikos HardavellasPARAG@N – Parallel Architecture Group

Northwestern University

Team: Y. Demir, P. Yan, S. Song, J. Kim, G. Memik

Page 2: Galaxy: A High-Performance Energy-Efficient Multi-Chip Architecture Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group

2003 2006 2009 2012 201502468

101214

Transistor Scaling (Moore's Law)

Pin Bandwidth

Year Sc

alin

g Fa

ctor

Technology Scaling Runs Out of SteamTransistor counts increase exponentially, but…

Can no longer feed all coreswith data fast enough(package pins do not scale)

BandwidthW

all

Can no longer keep costs at bay(process variation, defects)

Low YieldMonolithic (single-chip) processordesigns running out of steam too

2 © Hardavellas

Can no longer power the entire chip(voltage, cooling do not scale)

Power

Wall

Page 3: Galaxy: A High-Performance Energy-Efficient Multi-Chip Architecture Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group

© Hardavellas3

Demand for High-Performance Computing Grows• SPEC, TPC datasets growth:

faster than Moore• Same trends in scientific,

personal computing• Large Hadron Collider

March’11: 1.6PB data (Tier-1)• Large Synoptic Survey Telescope

30 TB/night 2x Sloan Digital Sky Surveys/day

Sloan: more data than entire history of astronomy before it

2004 2007 2010 2013 2016 20190

5

10

15

20

OS Dataset Scaling (Muhrvold's Law) TPC Dataset (Historic) Transistor Scaling (Moore's Law)

Year

Sca

ling

Fac

tor

More data more computing power to process them

Page 4: Galaxy: A High-Performance Energy-Efficient Multi-Chip Architecture Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group

© Hardavellas4

Galaxy: Optically-Connected Disintegrated Processors

• Physical constraints limit single-chip designs Area, Yield, Power, Bandwidth

• Multi-chip designs break free of these limitations Processor disintegration Macro-chip integration

[WINDS 2010, ICS 2014]

PE PE PE PE PE PE PE PE PE PE

Macrochip

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

Multiple Chiplets

Processing Element

PE PE PE PE PE PE PE PE PE PE

Macrochip

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

Multiple Chiplets

Processing Element

PE PE PE PE PE PE PE PE PE PE

Macrochip

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

Multiple Chiplets

Processing Element

PE PE PE PE PE PE PE PE PE PE

Macrochip

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

Multiple Chiplets

Processing Element

PE PE PE PE PE PE PE PE PE PE

Macrochip

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

Multiple Chiplets

Processing Element

PE PE PE PE PE PE PE PE PE PE

Macrochip

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

Multiple Chiplets

Processing Element

PE PE PE PE PE PE PE PE PE PE

Macrochip

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

Multiple Chiplets

Processing Element

PE PE PE PE PE PE PE PE PE PE

Macrochip

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

Multiple Chiplets

Processing Element

Page 5: Galaxy: A High-Performance Energy-Efficient Multi-Chip Architecture Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group

© Hardavellas5

Electrical vs. Photonic Links

[Nitta et al., 2013]

Page 6: Galaxy: A High-Performance Energy-Efficient Multi-Chip Architecture Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group

© Hardavellas6

Outline• Introduction

➔ Background• Galaxy Architecture• Experimental Methodology• Results

Sensitivity Studies Single-Chip Comparisons (Processor Disintegration) Multi-Chip Comparisons (Macrochip Integration) Thermal Modeling

• Conclude

Page 7: Galaxy: A High-Performance Energy-Efficient Multi-Chip Architecture Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group

© Hardavellas7

Nanophotonic Components

off-chiplaser

source

coupler

resonant modulators

resonant detectors

Ge-doped

waveguide

Selective: couple optical energy of a specific wavelength

Page 8: Galaxy: A High-Performance Energy-Efficient Multi-Chip Architecture Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group

© Hardavellas8

Modulation and Detection

11010101

11010101

10001011

10001011

16 - 64 wavelengths DWDM5 - 20μm waveguide pitch

10Gbps per link

Page 9: Galaxy: A High-Performance Energy-Efficient Multi-Chip Architecture Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group

© Hardavellas9

Outline• Introduction• Background

➔ Galaxy Architecture• Experimental Methodology• Results

Sensitivity Studies Single-Chip Comparisons (Processor Disintegration) Multi-Chip Comparisons (Macrochip Integration) Thermal Modeling

• Conclude

Page 10: Galaxy: A High-Performance Energy-Efficient Multi-Chip Architecture Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group

© Hardavellas10

Optical Crossbar

Page 11: Galaxy: A High-Performance Energy-Efficient Multi-Chip Architecture Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group

© Hardavellas11

Routing Example

Page 12: Galaxy: A High-Performance Energy-Efficient Multi-Chip Architecture Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group

© Hardavellas12

Single Chiplet Connectivity

Page 13: Galaxy: A High-Performance Energy-Efficient Multi-Chip Architecture Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group

Galaxy Architecture (5-chiplet example)

© Hardavellas13

Page 14: Galaxy: A High-Performance Energy-Efficient Multi-Chip Architecture Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group

Galaxy MWSR Optical Crossbar

© Hardavellas14

MWSR avoids broadcast data bus, but requires arbitration

Page 15: Galaxy: A High-Performance Energy-Efficient Multi-Chip Architecture Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group

© Hardavellas15

Why Fibers and not SOI Waveguides?• Almost twice as fast: 0.286c vs 0.676c• Negligible optical loss: 0.3db/cm vs. 0.2db/Km• Fibers are flexible do not restrict the design to a 2D plane

Minimize thermal transfer cheap cooling

• Overlooked due to density concerns Fibers at 250um pitch Waveguides at 20um pitch

Page 16: Galaxy: A High-Performance Energy-Efficient Multi-Chip Architecture Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group

© Hardavellas16

Dense Off-Chip Coupling

• Dense optical fiber array [Lee, OSA/OFC/NFOEC 2010]

• ~3.8dB loss, 8 Tbps/mm demonstrated• Misalignment within <0.7μm, 0.4μm, 0.7μm> loss <1 dB

Loss comparable to optical proximity couplers

Page 17: Galaxy: A High-Performance Energy-Efficient Multi-Chip Architecture Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group

© Hardavellas17

Outline• Introduction• Background• Galaxy Architecture

➔ Experimental Methodology• Results

Sensitivity Studies Single-Chip Comparisons (Processor Disintegration) Multi-Chip Comparisons (Macrochip Integration) Thermal Modeling

• Conclude

Page 18: Galaxy: A High-Performance Energy-Efficient Multi-Chip Architecture Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group

© Hardavellas18

Nanophotonic Parameters

Page 19: Galaxy: A High-Performance Energy-Efficient Multi-Chip Architecture Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group

© Hardavellas19

Architectural Parameters

Page 20: Galaxy: A High-Performance Energy-Efficient Multi-Chip Architecture Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group

© Hardavellas20

Modeling Infrastructure

Flexus 4.0Booksim 2.0

Cycle Accurate Full System Simulation

Power Calculations with Runtime Statistics

McPat 0.8 DSENT

AnalyticalModel +

HotSpot5.0

FloTherm9.2

Single Chip Design

Multi-Chip Design

Cores,Cache,MCs

Interconnect

DRAMSim 2.0

Thermal Modeling

+

Operating Temperature

Accurate Lekageand Dynamic

Power

DVFS for Temperature

Limiting

3D-stack model

SimFlex sampling95% confidence

photonic-layerring heating

Page 21: Galaxy: A High-Performance Energy-Efficient Multi-Chip Architecture Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group

© Hardavellas21

Outline• Introduction• Background• Galaxy Architecture• Experimental Methodology• Results

➔ Sensitivity Studies Single-Chip Comparisons (Processor Disintegration) Multi-Chip Comparisons (Macrochip Integration) Thermal Modeling

• Conclude

Page 22: Galaxy: A High-Performance Energy-Efficient Multi-Chip Architecture Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group

© Hardavellas22

Laser Power Sensitivity to Optical Parameters

Coupler Loss

Off-Ring LossWaveguide & Filter Drop Loss

Modulator Insertion Loss

Highly sensitive to coupler loss, insensitive to other losses

Page 23: Galaxy: A High-Performance Energy-Efficient Multi-Chip Architecture Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group

© Hardavellas23

Sensitivity to Fiber Density

• 116mm2 chiplets 43mm along the chip edge• Enough room for 172 fibers @ 250μm pitch

128 fibers: within 3% of max performance

Appbt

Em3d

Ocean

Tomcatv

Barnes

Fmm

Moldyn

Water

Average

00.20.40.60.8

11.21.41.61.8

28 fibers 16 fibers 32 fibers 64 fibers 128 fibers 256 fibers 512 fibers

Spee

du

p

Page 24: Galaxy: A High-Performance Energy-Efficient Multi-Chip Architecture Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group

© Hardavellas24

Outline• Introduction• Background• Galaxy Architecture• Experimental Methodology• Results

Sensitivity Studies ➔ Single-Chip Comparisons (Processor Disintegration)

Multi-Chip Comparisons (Macrochip Integration) Thermal Modeling

• Conclude

Page 25: Galaxy: A High-Performance Energy-Efficient Multi-Chip Architecture Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group

Performance Against “Unlimited” Designs

M C F G M C F G M C F G M C F G M C F GAppbt Em3d Ocean Tomcatv Average

00.20.40.60.8

11.2

Unconstrained

P-constrained

BW-constrained

(P+BW)-constrained

Galaxy

Memory-intensive Workloads

Spee

dup

Speedup of (power+bandwidth)-constrained design

Speedup of power-constrained designSpeedup of bandwidth-constrained design

Speedup of unconstrained design

Galaxy matches the performance of “unlimited” designs© Hardavellas25

Page 26: Galaxy: A High-Performance Energy-Efficient Multi-Chip Architecture Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group

Performance Against “Unlimited” Designs

M C F G M C F G M C F G M C F G M C F GBarnes Fmm Moldyn Water Average

00.20.40.60.8

11.2

Unconstrained

BW-constrained

P-constrained

(P+BW)-constrained

Galaxy

Compute-intensive Workloads

Spee

dup

Speedup of (power+bandwidth)-constrained design

Speedup of bandwidth-constrained designSpeedup of power-constrained design

Speedup of unconstrained design

Galaxy matches the performance of “unlimited” designs© Hardavellas26

Page 27: Galaxy: A High-Performance Energy-Efficient Multi-Chip Architecture Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group

© Hardavellas27

Performance Against “Realistic” DesignsAp

pbt

Em3d

Oce

anTo

mca

tvBa

rnes

Fmm

Mol

dyn

Wat

erAv

erag

eAp

pbt

Em3d

Oce

anTo

mca

tvBa

rnes

Fmm

Mol

dyn

Wat

erAv

erag

eAp

pbt

Em3d

Oce

anTo

mca

tvBa

rnes

Fmm

Mol

dyn

Wat

erAv

erag

e

Conventional Memory Optically Connected Memory

3D Stacked Memory

012345678

CMeshExp Corona Firefly Galaxy

Spee

dup

• Realistic: within power and bandwidth envelopes• Galaxy chiplets within 66.2oC chiplets run at max speed

Galaxy: 2.4x - 3.2x speedup on average (3.4 max)

Page 28: Galaxy: A High-Performance Energy-Efficient Multi-Chip Architecture Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group

© Hardavellas28

Energy-Delay Product

Galaxy: 2.4x-2.8x smaller EDP on average (7.1x max)

Page 29: Galaxy: A High-Performance Energy-Efficient Multi-Chip Architecture Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group

© Hardavellas29

Outline• Introduction• Background• Galaxy Architecture• Experimental Methodology• Results

Sensitivity Studies Single-Chip Comparisons (Processor Disintegration)

➔ Multi-Chip Comparisons (Macrochip Integration) Thermal Modeling

• Conclude

Page 30: Galaxy: A High-Performance Energy-Efficient Multi-Chip Architecture Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group

© Hardavellas30

Comparison Against Multi-Chip Alternatives

Page 31: Galaxy: A High-Performance Energy-Efficient Multi-Chip Architecture Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group

© Hardavellas31

Comparison Against Multi-Chip Alternatives

Fiber

Galaxy: 2.5x speedup over Oracle Macrochip (6.8x max) 6x less laser power with demonstrated couplers

Page 32: Galaxy: A High-Performance Energy-Efficient Multi-Chip Architecture Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group

© Hardavellas32

Outline• Introduction• Background• Galaxy Architecture• Experimental Methodology• Results

Sensitivity Studies Single-Chip Comparisons (Processor Disintegration) Multi-Chip Comparisons (Macrochip Integration)

➔ Thermal Modeling• Conclude

Page 33: Galaxy: A High-Performance Energy-Efficient Multi-Chip Architecture Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group

© Hardavellas33

80-core 5-chiplet Galaxy Thermal CFD Modeling

8cm spacing allows cooling with cheap passive heatsinks

88.20C

Page 34: Galaxy: A High-Performance Energy-Efficient Multi-Chip Architecture Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group

© Hardavellas34

9-chiplet Dense Array (Oracle Macrochip)

Tight arrangement points to liquid cooling requirement

2490C

Page 35: Galaxy: A High-Performance Energy-Efficient Multi-Chip Architecture Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group

© Hardavellas35

9-chiplet Galaxy 2D

Cooling 9 chiplets with passive heatsinks

1100C

Page 36: Galaxy: A High-Performance Energy-Efficient Multi-Chip Architecture Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group

© Hardavellas36

9-chiplet Galaxy 3D

Flexible fibers allow “virtual chip” to break free of 2D planar designs

83.60C

Page 37: Galaxy: A High-Performance Energy-Efficient Multi-Chip Architecture Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group

© Hardavellas37

Galaxy Summary• “Virtual chips” with the performance of unlimited designs• Breaks free of typical physical constraints

Large aggregate area Improved yield (break-even point : 60% yield for photonics) Tb/s/mm bandwidth density Pushes back power wall

• Processor disintegration 2.4x – 3.2x avg. speedup (3.4 max) 2.4x – 2.8x avg. smaller EDP (7.1x max)

• Macrochip integration 2.5x speedup over Oracle Macrochip (6.8x max) 6x more power efficient links

Page 38: Galaxy: A High-Performance Energy-Efficient Multi-Chip Architecture Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group

© Hardavellas38

High Laser Wall-Plug Power• Laser power consumption is generally high

High optical loss components Galaxy restricts sharers of an optical path to at most 8 High-radix crossbars are impractical

o Radix-16 MWSR: 20.1Wo Radix-64 MWSR: 78.1W

Coupling the off-chip laser on chip: 2.4x power loss (3.8 dB) WDM-compatible lasers: 5-10% efficiency

• What if we can power-gate the laser? Off-chip lasers: long latencies (10-16ns) On-chip Ge-doped lasers: 1ns on/off delay

Page 39: Galaxy: A High-Performance Energy-Efficient Multi-Chip Architecture Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group

© Hardavellas39

EcoLaser MWSR Crossbar and Router Architecture

Page 40: Galaxy: A High-Performance Energy-Efficient Multi-Chip Architecture Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group

© Hardavellas40

EcoLaser Energy/Flit for Radix-16 MWSR

Page 41: Galaxy: A High-Performance Energy-Efficient Multi-Chip Architecture Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group

© Hardavellas41

EcoLaser + AdaptiveWidth for Radix-16 SWMR

EcoLaser power savings higher power budget for cores 2x speedup

Page 42: Galaxy: A High-Performance Energy-Efficient Multi-Chip Architecture Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group

• Galaxy: nanophotonics to overcomephysical single-chip limitations [WINDS’10, ICS’14]

Processor disintegration, macrochip integration Arch/nanophotonics intersection

• SeaFire: Design for Dark Silicon [IEEE Micro’11, USENIX-Login’11] We cannot power up an entire chip Heterogeneous/specialized designs

• Elastic Fidelity [CoRR abs/1111.4279] Some errors are ok Allow a few errors to make computers power efficient

• Elastic Caches [ISCA’09, IEEEMicro’10, DATE’12, IEEE Computer’13] Dynamically adapt on-chip storage to workload requirements

Thank You!

PARAG@N: Energy-Efficient Computing

Page 43: Galaxy: A High-Performance Energy-Efficient Multi-Chip Architecture Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group

© Hardavellas43

Thank You!

Page 44: Galaxy: A High-Performance Energy-Efficient Multi-Chip Architecture Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group

© Hardavellas44

BACKUP SLIDES

Page 45: Galaxy: A High-Performance Energy-Efficient Multi-Chip Architecture Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group

© Hardavellas45

Chip Power Scaling

Chip power does not scale

[Azizi 2010]

Page 46: Galaxy: A High-Performance Energy-Efficient Multi-Chip Architecture Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group

© Hardavellas46

Voltage Scaling Has Slowed

In last decade: 13x transistors but 30% lower voltage Cannot run all transistors fast enough

2003 2006 2009 2012 2015

0.1

1

10

100

Transistor Scaling (Moore's Law)

Supply Voltage

Year

Sca

lin

g F

acto

r

Page 47: Galaxy: A High-Performance Energy-Efficient Multi-Chip Architecture Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group

© Hardavellas47

Pin Bandwidth Scaling

[TU Berlin]

Cannot feed cores with data fast enough to keep them busy

2003 2006 2009 2012 20150

2

4

6

8

10

12

14

Transistor Scaling (Moore's Law)

Pin Bandwidth

Year

Sca

ling

Fac

tor

Page 48: Galaxy: A High-Performance Energy-Efficient Multi-Chip Architecture Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group

© Hardavellas

Electrical (SerDes) vs. SOI Waveguides vs. Fibers

0.01 0.1 1 10 1000.01

0.1

1

10

100

Distance (cm)

Late

ncy

(ns)

0.01 0.1 1 10 1000.01

0.1

1

10

100

Distance (cm)

Ener

gy (p

J/bi

t)

0 5 10 15 20 25 30 35 400.001

0.010.1

110

100

SerDes LinkSOI WaveguideFiber

Distance (cm)

Ener

gy x

Lat

ency

(p

J*ns

/bit)

Page 49: Galaxy: A High-Performance Energy-Efficient Multi-Chip Architecture Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group

© Hardavellas49

SWMR vs. MWSR Crossbar Single-Writer Multiple-Reader• Broadcast bus• All receivers always read• On-rings optical loss• High laser power

Multiple-Writer Single-Reader• Only one receiver reads• Only one ring is on low loss• Low laser power• Needs arbitration

Page 50: Galaxy: A High-Performance Energy-Efficient Multi-Chip Architecture Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group

© Hardavellas50

Token-Based ArbitrationVC Token

back traversal

VC Token forward traversal

Data Channel

8 cycles on average for token arbitration (5 chiplets)

Page 51: Galaxy: A High-Performance Energy-Efficient Multi-Chip Architecture Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group

© Hardavellas51

Load Latency (uniform random traffic)

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

10

20

30

40

50

60

70

80

CMeshExp

Corona

Firefly

Galaxy

Injection Rate

Avg.

Lat

ency

(cyc

les)

Page 52: Galaxy: A High-Performance Energy-Efficient Multi-Chip Architecture Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group

© Hardavellas52

Load-Latency Curves

16 tokens provide optimal buffer depth

Page 53: Galaxy: A High-Performance Energy-Efficient Multi-Chip Architecture Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group

© Hardavellas53

Tapered vs. Optical Proximity Couplers

6x less laser power than Oracle Macrochip with demonstrated couplers

0 1 2 3 4 5 6 70.01

0.1

1

10Macrochip (0.05 dB/cm)

OPC passive-aligned

OPC active-aligned

OPC predicted

Galaxy

SiON cladding

SU-8 cladding

Coupler Loss (dB)

Las

er P

ower

per

wav

e-le

ngth

(mW

)

Page 54: Galaxy: A High-Performance Energy-Efficient Multi-Chip Architecture Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group

© Hardavellas54

Energy per Instruction

Galaxy: 12-20% lower energy/instruction on average (up to 2.3x less)

Page 55: Galaxy: A High-Performance Energy-Efficient Multi-Chip Architecture Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group

© Hardavellas55

EcoLaser Backup

Page 56: Galaxy: A High-Performance Energy-Efficient Multi-Chip Architecture Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group

© Hardavellas56

EcoLaser SWMR Crossbar and Router Architecture

Page 57: Galaxy: A High-Performance Energy-Efficient Multi-Chip Architecture Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group

© Hardavellas57

EcoLaser 3-bit Token and Laser Controller FSM

Page 58: Galaxy: A High-Performance Energy-Efficient Multi-Chip Architecture Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group

© Hardavellas58

EcoLaser Writer Node FSM

Page 59: Galaxy: A High-Performance Energy-Efficient Multi-Chip Architecture Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group

© Hardavellas59

EcoLaser Nanophotonic Parameters

Page 60: Galaxy: A High-Performance Energy-Efficient Multi-Chip Architecture Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group

© Hardavellas60

EcoLaser Energy/Flit for Radix-16 SWMR

Page 61: Galaxy: A High-Performance Energy-Efficient Multi-Chip Architecture Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group

© Hardavellas61

EcoLaser Latency Impact on Radix-16 MWSR

Page 62: Galaxy: A High-Performance Energy-Efficient Multi-Chip Architecture Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group

© Hardavellas62

EcoLaser Latency Impact on Radix-16 SWMR

Page 63: Galaxy: A High-Performance Energy-Efficient Multi-Chip Architecture Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group

© Hardavellas63

EcoLaser Speedup for Radix-64 SWMR

EcoLaser Power Savings ~2x Speedup

Page 64: Galaxy: A High-Performance Energy-Efficient Multi-Chip Architecture Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group

© Hardavellas64

EcoLaser Speedup for Radix-64 MWSR

EcoLaser Power Savings ~2x Speedup