東北大学サイバーサイエンスセンターの 新スーパー ...小林広明...

Post on 26-Feb-2020

17 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

小林広明 センター長・教授

東北大学サイバーサイエンスセンター koba@cc.tohoku.ac.jp

2014年11月11日

1

東北大学サイバーサイエンスセンターの 新スーパーコンピュータシステムの概要と

高性能計算に関する研究開発活動

平成26年11月11日

Hiroaki Kobayashi, Tohoku University

NEC SP研究会

Hiroaki Kobayashi, Tohoku University

東北大学サイバーサイエンスセンターの歴史1969年に日本で2番目の全国共同利用型大型計算機センターとして設立• 汎用大型計算機の運用1985年よりスーパーコンピュータセンターとして活動• 大規模科学計算システムとしてベクトル型のスーパーコンピュータを運用

2008年に情報シナジーセンターからサイバーサイエンスセンターへ改組• 2010年より「学際大規模情報基盤共同利用・共同研究拠点」として文科省より認定を受け,2012年よりHPCIに資源提供を開始し,HPCに関する共同利用・共同研究拠点活動を強化

SENAC-1 in 1958

First Computer in 1969 SX-1 in 1985 SX-2 in 1989 SX-3 in 1994

SX-4 in 1998 SX-7 in 2003 SX-9 in 2008ACOS 1000 in 1982

/ /

2

平成26年11月11日NEC SP研究会

( )

サイバーサイエンスセンターのHPCに関する取り組み

3

HPCI

HPCI

HPCI

平成26年11月11日

Hiroaki Kobayashi, Tohoku University

NEC SP研究会

Hiroaki Kobayashi, Tohoku University

東北大学大規模科学計算システム (H26.4.1~)最先端のスーパーコンピュータ設備の整備・運用

4

スカラ並列型 クラスタシステム

ベクトル並列型 スーパーコンピュータ

平成26年11月11日

Hiroaki Kobayashi, Tohoku University

NEC SP研究会

Hiroaki Kobayashi, Tohoku University

System 29.4TF 18TB 高バンド幅専用ネットワーク (128GB/s per direction)

Node 1.6TF 1TB 大規模・高性能SMP ノード

なぜ我々は「ベクトル型」スーパーコンピュータにこだわるのか!~東北大SX-9システムの特徴~

CPU 102.4GF 世界最高のシングルコア性能+高いメモリバンド幅(2.5BF)

平成26年11月11日

Hiroaki Kobayashi, Tohoku University

NEC SP研究会

Hiroaki Kobayashi, Tohoku University

スパコンに関する誤信と落とし穴:その1 単にピーク性能が高ければ良いってもんじゃない

256.0

128.0

64.0

32.0

16.0

8.0

4.0

2.0

1.0

0.5

8 4 2 1 0.5 0.25 0.125 0.063

Stream

BW 72

.95GB/s

Tesla C1060 1.3B/F (78Gflop/s)

SX-9 2.5B/F(102.4Gflop/s)

Stream

BW 25

6GB/s

SX-ACE 1B/F (256Gflop/s)

Stream

BW 17

.6GB/s

Nehalem EX 0.47B/F (72.48Gflop/s)

Stream

BW 17

.0GB/s

Nehalem EP 0.55B/F (46.93Gflop/s)

Stream

BW 34

.8GB/s

Sandy Bridge 0.27B/F (187.5Gflop/s)

Stream

BW 58

.61GB/s

Power7 0.52B/F(245.1Gflop/s)

Stream

BW 10

.0 GB/s

Stream

BW 43

.3GB/s

FX-1 1.0B/F (40.32Gflop/s)

FX-10 0.36B/F (236.5Gflop/s)

Stream

BW 64

.7GB/s

K computer 0.5B/F(128Gflop/s)

0.03 0.01

SX-8 4B/F (35.2Gflop/s)

Source: 2012 report of computational science roadmap

性能

上限

(Gflo

ps/s

)

アプリ B/F (アプリメモリ要求度)

高メモリバンド幅アプリ 演算指向アプリ

6

Hiroaki Kobayashi, Tohoku University

スパコンに関する過信と落とし穴:その2 単に数を増やせば良いってもんじゃない

7

Parallel Efficiency(%)

Sust

aine

d G

flop/

s

Y. Yamamoto, Progress Report of JHPCN12 - NA14

Efficiency20%

Efficiency10%

Efficiency5%

Efficiency2.5%

超大規模数値計算に基づく核融合炉先進ブランケットデザイン条件における高精度MHD 熱伝達データベースの構築(山梨大学 山本教授とのJHPCN共同研究)

Kコンピュータ KコンピュータSX-9

SX-9

平成26年11月11日NEC SP研究会

平成26年11月11日

Hiroaki Kobayashi, Tohoku University

NEC SP研究会

Hiroaki Kobayashi, Tohoku University

東北大学におけるスパコンサービス状況と 主な利活用分野

8

シミュレーションに活用された

浮動小数点演算量

(×10

15)

年度

Upper Limit of 24/7 service

航空機設計

ターボ機械

アンテナ・電磁解析

気象・気候

燃焼

地震磁気デバイス

材料・物性

産業利用

学術利用(学外)

学術利用(学内)

8

平成26年11月11日NEC SP研究会

大学の知・設備の民間活用支援事例

9

TDK

MRJ

Eco-wave

MHI

国際競争力のある製品開発へ貢献

毎年10%程度を民間利用支援へ

平成26年11月11日

Hiroaki Kobayashi, Tohoku University

NEC SP研究会

基本戦略: Supercomputers for the rest of usの研究開発・整備・運用を目指して...第2階層に位置するNISとして, 特にflop/s指向のフラグシップマシンを補完すべく,flop/sとバランスしたメモリ性能を有するマシンの研究・開発に取組み,導入時にリーディングマシンの1/10程度のシステムでも高い生産性(Short time to Solution)を提供できるシステムの整備・運用を目指す

システム運用と開発を両輪に,ユーザ支援・共同研究で得た知見を,次のシステムの設計・開発に生かす教員・技術系職員・ベンダー技術者が一体となった現ユーザ支援体制のさらなる強化社会貢献として産業利用支援の強化学部・研究科(リーディング大学院等)と連携したHPC教育プログラムへの参画

全国共同利用型の学内スパコン連携体制の構築, およびHPCI基盤を活用した学外スパコン機関との連携のさらなる推進

10

(1,500m2)

SX-9( )

HPCIFS

R&D

H24

東北大学サイバーサイエンスセンターの 今後のスーパーコンピュータ整備・運用・研究開発計画

~次の10年間の活動計画~

平成26年11月11日

Hiroaki Kobayashi, Tohoku University

NEC SP研究会

新スパコン棟の完成予定図

The design of the building is underway, and may be subject to change.

11

Hiroaki Kobayashi, Tohoku University

平成26年11月11日NEC SP研究会

東北大学新スーパーコンピュータシステムの構成

13

Cluster 0 Cluster 4

IXS IXS

Hiroaki Kobayashi, Tohoku University

HPC Activities of Cyberscience Center March 26, 2014

Hiroaki Kobayashi, Tohoku University

SX-ACEプロセッサの特徴4つの高性能ベクトルコア&オンチップメモリ機構の強化

272Gflop/s of VPU + 4Gflop/s of SPU per socket

• 4-core configuration, 68Gflop/s + 1Gflop/s per core

256 GB/s memory bandwidth

• 1B/F in 4-core Multiply-Add operations

~ 4B/F in 1-core Multiply-Add operations

1MB private ADB per core (4MB per socket)

• 4x compared with SX-9

• 4-way set-associative

• MSHR with 512 entries (address+data)

• 256GB/s to/from Vec. Reg.

• 4B/F for Multiply-Add operations

短ベクトル処理および間接メモリ参照処理の強化

Out of Order execution for vector load/store operations

Advanced data forwarding in vector pipes chaining

Shorter memory latency than SX-9

SX-ACE Processor Architecture

14

Crossbar

ADB 1MBMSHR

SPUCore

1

MC

MC

MC

MC

MC

MC

MC

MC

MC

MC

MC

MC

MC

MC

MC

MC

VPU

256GB/s

Core 2

Core 3

Core 0

256GB/s

RCU

4GB/s

4GB/s

256GB/s

256GB/s

Source: NEC

平成26年11月11日NEC SP研究会

Hiroaki Kobayashi, Tohoku University

平成26年11月11日NEC SP研究会

センタ利用者の実コードを用いたSX-ACEの評価評価のポイント

ソケット性能の向上&マルチベクトルコア化の効果は?

• Is there any negative effect of the reduction in B/F from 2.5(SX-9) to 1.0(SX-ACE) on the sustained performance?

ADB強化の効果は?

• Exploitation of locality in the inner-most loop

• Enlarged Capacity (4x compared with SX-9)

間接参照,短ベクトル処理に対する効果は?

• OoO Vector Load/Store Operations

• Shorter Memory Latency (1/2 of SX-9)

• Direct Data Forwarding in Vector Pipe Chaining

15

Hiroaki Kobayashi, Tohoku University

平成26年11月11日NEC SP研究会

評価対象システム一覧

16Remarks: Listed performances are obtained based on total Multiply-Add performances of individual systems

Hiroaki Kobayashi, Tohoku University

平成26年11月11日NEC SP研究会

評価に用いたアプリケーション一覧

17

† for single-node evaluation ‡ for multi-node evaluation

Hiroaki Kobayashi, Tohoku University

平成26年11月11日NEC SP研究会

Sustained Single CPU Performance

18

SX-9 SX-ACE LX 460 SR16K M1

Efficiency [%]

60

45

30

15

0

47%45.9%

17.5%

6.7%

35.6%

41.1%

9%

3.5%

30.1%27.4%

7.7%5.5%

39.4%

32.2%

7.9%

2.8%

29.4%

17.5%

7.0%3%

5.9%

10.4%

3.4%2.5%

9.8%12.3%

3%3.5%

Susta

ined P

erfo

rman

ce [G

flop/

s]

Hiroaki Kobayashi, Tohoku University

平成26年11月11日NEC SP研究会

Stream Memory Bandwidth

• STREAM (TRIAD)

19

Strea

m me

mory

band

widt

h (GB

/sec

.)

0

75

150

225

300

Number of threads0 2 4 6 8 10 12 14 16

SX-ACE LX406 SR16K M1 FX10

Hiroaki Kobayashi, Tohoku University

平成26年11月11日NEC SP研究会

Sustained Performance of SX-ACE Processor

20

1core (4B/F) 2core (2B/F) 4core (1B/F)

Efficiency [%]15

30

45

60

0

57.9%

53.4%

45.9%

47.9% 47.2%

41.1%

49.7%

41.5%

27.4%

57.4%

52.3%

32.2%

37.9%

30.6%

17.5%15.3%

12.8%10.4%

29.5%

22.2%

12.3%

Susta

ined P

erfo

rman

ce [G

flop/

s]

Hiroaki Kobayashi, Tohoku University

平成26年11月11日NEC SP研究会

Effects of ADB on Sustained Performance

21

1 Core 2 cores 4 cores

Spee

dup R

atio

Hiroaki Kobayashi, Tohoku University

平成26年11月11日NEC SP研究会

Impact of ADB/MSHR on BCM Performance(Stencil & Indirect Memory Accesses)

22

1core (4B/F) 2cores (2B/F) 4cores (1B/F)

Efficie

ncy [

%]

0

7.5

15

22.5

30

17%

10.5%

5.2%

18.4%

12%

6.2%

29.5%

22.2%

12.3%

Susta

ined P

erfo

rman

ce [G

flop/

s]

(j, k, l+1)

(j, k+1, l)

(j+1, k, l)

(j, k, l)

(j, k, l-1)

(j, k-1, l)

(j-1, k, l)

j

k

l

Hiroaki Kobayashi, Tohoku University

平成26年11月11日NEC SP研究会

Performance of Indirect Memory Accesses in TURBINE

23

SX-9 SX-ACE1core

SX-ACE2cores

SX-ACE4cores

DO 200 K=1,KF; DO 200 J=1,JF; DO 200 L=lstart,lend; DO 200 I=IS(L),IT(L) DQL = RH(AMIN0(I-2,IS(L)),J,K) - RH(AMIN0(I-3,IS(L)),J,K) DQM = RH(I-1,J,K) - RH(AMIN0(I-2,IS(L)),J,K) DQN = RH(I,J,K) - RH(I-1,J,K) DQP = RH(AMIN0(I+1,IT(L)),J,K) - RH(I,J,K) DQR = RH(AMIN0(I+2,IT(L)),J,K) - RH(AMIN0(I+1,IT(L)),J,K) ・・・・・・・・・・・・・ DQLM=SQL*DMAX1(0.0D0,DMIN1(AQL,COEFQ*SQL*DQM, COEFQ*SQL*DQN)) DQMM=SQM*DMAX1(0.0D0,DMIN1(AQM,COEFQ*SQM*DQL, COEFQ*SQM*DQN)) DQNM=SQN*DMAX1(0.0D0,DMIN1(AQN,COEFQ*SQN*DQM, COEFQ*SQN*DQL)) DQNN=SQN*DMAX1(0.0D0,DMIN1(AQN,COEFQ*SQN*DQM, COEFQ*SQN*DQP))          ・・・・・・・・・・・・・ DDQM=DQNM-2.0D0*DQMM+DQLM DDQN=DQPN-2.0D0*DQNN+DQMN          ・・・・・・・・・・・・・

QLL(I,J,K,M)=DQL0+COEFB*DPQM0+COEFC*DMQN0 QRR(I,J,K,M)=DQR0-COEFB*DMQP0-COEFC*DPQN0

200 CONTINUE

Susta

ined P

erfo

rman

ce [G

flop/

s]

ADB OFF ADB ON

Hiroaki Kobayashi, Tohoku University

平成26年11月11日NEC SP研究会

Performance of Indirect Memory Accesses in TURBINE on Modern HPC Processors

24

Susta

ined P

erfo

rman

ce [G

flop/

s]Effi

ciency [%]5

10

15

20

0

10.6%

18%

11.1%9.6%

Hiroaki Kobayashi, Tohoku University

平成26年11月11日NEC SP研究会

Performance of Short-Vector Processing in TURBINE

25

SX-9 SX-ACE1core

SX-ACE2cores

SX-ACE4coresSu

staine

d Per

form

ance

[Gflo

p/s]

DO 10 M=MMIN,MMAX; DO 10 K=KSTA,KEND; DO 10 I=ISTA,IEND UC11=U(I-1,J,K,1)*XIX(I-1,J,K,1) & +U(I-1,J,K,2)*XIX(I-1,J,K,4) & +U(I-1,J,K,3)*XIX(I-1,J,K,7) UC22=U(I,J,K,1)*XIX(I,J,K,1) & +U(I,J,K,2)*XIX(I,J,K,4) & +U(I,J,K,3)*XIX(I,J,K,7) ・・・・・・・・・・・・ AJXIX1=(AJR(I-1,J,k)*XIX(I-1,J,k,1) & +AJR(I,J,k)*XIX(I,J,k,KL))*0.5D0 AJXIX2=(AJR(II,JJ,kk)*XIX(II,JJ,kk,KL+3) & +AJR(I,J,k)*XIX(I,J,k,KL+3))*0.5D0       ・・・・・・・・・・・・ 10 continue

ADB OFF ADB ON

Hiroaki Kobayashi, Tohoku University

平成26年11月11日NEC SP研究会

Performance of Short-Vector Processing in TURBINE on Modern HPC Processors

26

Efficiency [%]

0

2.5

5

7.5

10

5.6%

8.3%

2.7%

1.8%

Susta

ined P

erfo

rman

ce [G

flop/

s]

27

スパコンを活用した学際的R&Dの取り組み: リアルタイム津波浸水・被害予測・災害情報 配信による自治体の減災力強化の実証事業

平成26年11月11日

Hiroaki Kobayashi, Tohoku University

NEC SP研究会

本事業の目的• 東日本大震災における津波被害の教訓を踏まえ,世界最先端のシミュレーション・センシング・ICTを融合し,迅速かつきめ細やかな被害情報の推計・把握と配信によるG空間防災モデルを構築

• 沿岸部10mメッシュの分解能での「世界初」のリアルタイム津波浸水予測とG空間情報の活用による建物被害予測を,地震発生から20

分以内に完了させ,実証自治体での災害対応の基盤情報に組み込み,準天頂衛星からのメッセージ送信や災害に強いワイヤレスネットワークを活用し,ユーザに対して確実に情報を配信

28

東北大 越村教授提供

平成26年11月11日

Hiroaki Kobayashi, Tohoku University

NEC SP研究会

リアルタイム津波浸水・被害予測・災害情報配信による自治体の減災力強化の実証事業体制図

29

事業代表者: 東北大学災害科学国際研究所 越村俊一教授

平成26年11月11日

Hiroaki Kobayashi, Tohoku University

NEC SP研究会G空間情報を活用した次世代防災・被災地支援システム研究会  第3回シンポジウム

シミュレーション領域

リアルタイム津波浸水シミュレーションの実現に向けて

30

例えば,静岡市の場合: 太平洋沖 1404Km×845km

741万格子(810mから10m) ΔT = 0.05 432,000ステップ(6時間)

浮動小数点演算数 2.5× 1015回

Hiroaki Kobayashi, Tohoku University

平成26年11月11日

領域1領域2領域3

領域4

領域5

地震

津波

発生

平成26年11月11日

Hiroaki Kobayashi, Tohoku University

NEC SP研究会

リアルタム津波浸水・被害予測システム処理フロー

31

   

   

  

  

• • 地震発生後20分以内に

地震断層モデルに基づく津波発生予測 SX-ACEによる10mメッシュの津波浸水予測および被害推計

平成26年11月11日

Hiroaki Kobayashi, Tohoku University

NEC SP研究会

津波浸水予測プログラム

地震による海面水位の変動を入力として,津波が到達する時刻,津波の高さ等を計算• 計算モデル:非線形長波理論• 計算スキーム:Staggered leap-frog法プログラムの特徴• Xeonサーバ用に開発されたコードがベース• 質量保存の式とナビエ・ストークスの式において,計算負荷とメモリ負荷が非常に高い

• メモリバンド幅制約:B/F = 1.82 (単精度)チューニングのポイント• ADBの効果的な活用

• 差分式での局所性活用• 高ベクトル化率:99.6%,平均ベクトル長:235

• ループ内条件式の削減,インライン展開等

32

プログラムフロー

初期評価結果 (single core)

LX 406Re-2SX-9 SX-ACE

時刻更新

平成26年11月11日

Hiroaki Kobayashi, Tohoku University

NEC SP研究会

0

20

40

60

80

100

120

140

160

32 64 128 256 512

LX 406Re-2 SX-9 SX-ACE

津波浸水予測プログラムの実行結果

33

10分ライン

実行時間(分)

プロセス数

Hiroaki Kobayashi, Tohoku University

平成26年11月11日NEC SP研究会

今後の予定

• 12月末 プロトタイプシステム完成

• 1月~3月 対象自治体を交えての実証実験の実施

• 3月16~18日 国連防災会議で成果発表

• 3月末 運用システムとして整備

• 4月以降 サービス開始,対象エリア・対象自治体の拡大

34

35

高メモリバンド幅アプリケーションのための 次世代スーパーコンピュータR&D

平成26年11月11日

Hiroaki Kobayashi, Tohoku University

NEC SP研究会 36

高メモリバンド幅アプリケーションのための次世代スーパーコンピュータに関する取り組み~文科省「将来のHPCIシステムのあり方に関する調査研究」~

Source: 2012 report of computational science roadmap

HPCI

y y p y

256.0

128.0

64.0

32.0

16.0

8.0

4.0

2.0

1.0

0.5

Att

aina

ble

Perf

orm

ance

(G

flops

/s)

Application B/F (Memory Access Intensity)8 4 2 1 0.5 0.25 0.125 0.063

Stream

BW 72

.95GB/s

Tesla C1060 1.3B/F (78Gflop/s)

SX-9 2.5B/F(102.4Gflop/s)

Stream

BW 25

6GB/s

NGV 1B/F (256Gflop/s)

Stream

BW 17

.6GB/s

Nehalem EX 0.47B/F (72.48Gflop/s)

Stream

BW 17

.0GB/s

Nehalem EP 0.55B/F (46.93Gflop/s)

Stream

BW 34

.8GB/s

Sandy Bridge 0.27B/F (187.5Gflop/s)

Stream

BW 58

.61GB/s

Power7 0.52B/F(245.1Gflop/s)

Stream

BW 10

.0 GB/s

Stream

BW 43

.3GB/s

FX-1 1.0B/F (40.32Gflop/s)

FX-10 0.36B/F (236.5Gflop/s)

Stream

BW 64

.7GB/s

K computer 0.5B/F(128Gflop/s)

0.03 0.01

SX-8 4B/F (35.2Gflop/s)

For Memory intensive

applicationsFor Computation-

intensive applications

HPCI調査研究の背景と東北大チームがめざすところ

多くのアプリがメモリ性能律速の状況を打破!

Hiroaki Kobayashi , Tohoku Univ.

平成26年11月11日NEC SP研究会

東北大チームの調査研究の背景 ~ハイエンドHPCシステムの「脳梗塞」状態からの脱却~

データ転送隘路(メモリ制約)で膨大な数の演算器に十分データが届いていないため,演算器が無駄になっている

• 例外としてLINPACK:90%以上の実行効率を達成できるので,CPU単体とシステム規模のピーク性能が意味を持つが...

数%の効率を前提にシステム規模で必要性能をリカバーするまえに,チップ内に眠っている演算器を有効活用することを考えるべき.そのためにはメモリサブシステム設計(先進デバイスとアーキテクチャ技術の融合)と利用技術(ソフトウェアによるデータ管理)のコデザインによるシステム再設計をする時期

SIMDをワイド化してベクトルユニットを強化する方向性はIBM/AMD/INTELなども目指すところ.我々のFSはそれをすでに先取りしており,重要なポイントはそれを生かすメモリサブシステムをいかに他に先駆けて実現するかであるメモリから撤退したといわれているインテルが次期プロセッサ向けメモリサブシステム設計/開発に取り組んでいるIBMはメモリインタフェースを強化し大容量・高バンド幅のpower8プロセッサを開発

Hiroaki Kobayashi , Tohoku Univ.

平成26年11月11日NEC SP研究会

東北大HPCI FSチームの調査研究の目的幅広い応用分野で高い実効性能を実現するHPCIシステムの実現を目指し, ピーク演算性能とバランスのとれた高メモリバンド幅を有するHPCIシステムの検討・開発ロードマップの策定

特に,高メモリバンド幅を必要とする,地震・津波,集中豪雨など都市災害の被害予測と避難予測に不可欠なアプリケーションがHPCIシステムに必要とする性能・機能を明らかにし,その実現のためのアーキテクチャおよびデバイス技術の検討を通じて,2018年頃にシステムを実現するための開発ロードマップの策定を行う.ターゲットアプリケーションの性能要件(例えば,1B/F以上のメモリバンド幅・演算スループット比)を低消費電力で実現するためのアーキテクチャの調査研究大容量・低消費電力・階層型メモリサブシステムアーキテクチャ検討アーキテクチャ,およびデバイスレベルでの低消費電力技術や耐故障技術と,OS,アプリケーションが協調してその効果の最大化を可能とするシステムソフトウェア技術の検討オフラインシミュレーションの高速化に加え,様々な時間制約の中でリアルタイムシミュレーションを実現する上で必要な将来のHPCIシステムが備えるべき機能・性能の明確化ターゲットアプリケーションによるシステムの評価と2018年頃の実現を目指す開発ロードマップの策定

高メモリバンド幅HPCシステムを活用して,2020年頃に解決が求められる社会的・科学的課題の明確化とその解決のためのアプリケーションの検討・開発ロードマップの策定

自然災害,とりわけ地震津波による災害軽減を目指すため,沿岸データを使用したリアルタイム津波予測・地震シナリオを含む津波ハザード予測・地震津波に伴う複合被害予測・集中豪雨等を含めた都市災害と避難の予測といった課題に取り組む.我が国の産業界の国際競争力の維持・強化のために必要な先端ものづくりを実現するための課題に取り組む

自然災害に対する防災・減災,および先進ものづくり分野での社会的・科学的課題の明確化

ターゲットアプリケーションの実行に適したHPCI システムの機能・性能要件の明確化システム評価用ベンチマーク開発

38

Hiroaki Kobayashi , Tohoku Univ.

平成26年11月11日NEC SP研究会

研究開発体制アプリ・システム・デバイス三位一体でスパコンをバランス良く再設計!

39

平成26年11月11日

Hiroaki Kobayashi, Tohoku University

NEC SP研究会 40

総合防災シミュレーションの実現

Hiroaki Kobayashi, Tohoku University

RSG

DX

MMA,

(

RSDGX

STOC-CADMAS (STOC-ML,NS,CADMAS)

Seis

m3D

MM

A1

(Mac

ro-s

cale

)

MM

A2

(Mic

ro-s

cale

)

Hiroaki Kobayashi , Tohoku Univ.

平成26年11月11日NEC SP研究会

HPCI FSで得られたシステム概念設計結果

41

•  100PF •  100 ~ 200 PB/s •  3.2PB ~ 6.4PB

VLSB

core core core core

Shared memory

CPU0 1 TFlop/s 1 2 3Node0 4TFlop/s

VLSB

core core core core

Shared memory

CPU0 1 2 3Node xxxx

Storage

1 2B/F

2 4B/F

    4TFlop/s

 UMA

 4CPU(16 ) SMP

  CPU

  128 256GB

  4 8TB/s

 2.5 3

平成26年11月11日

Hiroaki Kobayashi, Tohoku University

NEC SP研究会

Hiroaki Kobayashi, Tohoku University

FS検討システムとXeonベース推定システムの比較

1~2TB/s

Socket: 1TFSocket: 1.6TFcore : 90GF

0.1TB/s

2~4 B/F 1 B/F0.05TB/s

128GB x 2(NUMA)

検討中のFS機SMP(UMA)アーキテクチャ

4TF, ~8TB/s(~2B/F), ~512GB, 1~1.6KW

Xeon推定@2018NUMAアーキテクチャ

3.3TF, 0.2TB/s(0.1B/F), 128GBx2, 0.4KW

10GB/s x2

40GB/s x2

20GB/s

高次元トーラス

42

平成26年11月11日

Hiroaki Kobayashi, Tohoku University

NEC SP研究会

Hiroaki Kobayashi, Tohoku University

高メモリバンド幅システムの優位性(1/2) ~INTEL Xeonベースのシステムとの性能比較~

全体実行時間(=通信時間+演算処理時間)を評価Xeon(推定)で正規化

◆ 要求B/Fが高いSeism3D,RSGDXの消費電力あたりの性能は,FS機の方が4~8倍高い

◆ 要求B/Fが低い数値タービンににおいてもFS機はXeonと同等の性能/消費電力

FS機 Xeon推定

正規

化性

正規

化性

能/W

att

43

平成26年11月11日

Hiroaki Kobayashi, Tohoku University

NEC SP研究会

Hiroaki Kobayashi, Tohoku University

高メモリバンド幅システムの優位性 ~INTEL Xeonベースのシステム(2018年頃)との性能比較~

FS機Xeon推定

Xeon: プロセス数増加によりキャッシュヒット率up

  → Superscalabilityが得られるXeon: キャッシュヒット率変わらず

要求時間: 8時間以内

実行

時間

(hou

r)

プロセス数(並列処理規模)

Seism3D

プロセス数を増やす事でキャッシュヒット率が向上し,実行時間が短縮されるが,最終的にはキャッシュヒットしないリクエストのメモリアクセス時間が性能を決める HWの持つメモリ帯域が大きいシステムが有効 Xeon推定機を用いてFS機(100Pflop/s)と同等の実行時間を実現するためには,FS機の64倍のプロセス数,

すなわち640万プロセスを処理できる640万ノードのシステム,ピーク性能3.2EFlop/sの性能が必要 :そのときの消費電力は291MW(14nmを想定) → 非現実的 

44

平成26年11月11日

Hiroaki Kobayashi, Tohoku University

NEC SP研究会

東北大学サイバーサイエンスセンターの目指す役割

現在のHPCIシステムの安定運用・高度化への貢献 将来のHPCIシステムの研究開発への貢献

45

平成26年11月11日

Hiroaki Kobayashi, Tohoku University

NEC SP研究会

HPCに関する研究・人材育成機能の強化高性能計算技術開発(NEC)共同研究部門の新設

設置期間: H26.7.1~H30.6.30

46

 ・小林 広明 (教授)  ・滝沢 寛之 (情報科学研究科・准教授〕  ・江川 隆輔 (准教授〕  ・撫佐 昭裕 (客員教授, NEC〕  ・横川 三津夫(客員教授, 神戸大学〕  ・百瀬 真太郎 (客員准教授, NEC〕

サイバーサイエンスセンター 組織図

平成26年11月11日

Hiroaki Kobayashi, Tohoku University

NEC SP研究会 47

• 

– – 

• 

– 

– 

• 

– 

– 

• – – 

Hiroaki Kobayashi, Tohoku University

平成26年11月11日NEC SP研究会

さいごに・・

48

ユーザ支援体制

高速化支援実績

お問い合わせ先: uketuke@cc.tohoku.ac.jp

平成26年11月11日NEC SP研究会

ユーザー支援・講習会・利用相談

UNIX入門 (5/26&11月~)

大規模科学計算システムの紹介と利用法(5/27&11月~)

大規模科学計算システムにおける高速化技法の基礎(5/28&11月~)

並列プログラミングの概要とOpen MP プログラミング入門 (5/29&11月~)

MPIプログラミング入門(5/30&11月~)

可視化システムの利用法(6/3&11月~)

MATLAB入門 (6/6)

ネットワークとセキュリティ入門 (8/6)

Gaussian入門 (8/29)

Mathematica入門 ((9/3)

MARC入門 (9/4)

計算サーバにおける高速化技法の基礎(11月~)

講習会(平成26年度18回実施予定)

プログラム相談・利用相談

利用相談窓口・メールでの相談

プログラミング相談,ライブラリ,アプリケーション,統計解析,ネットワーク等の相談

49

遠隔地への配信型講習会の実施

大阪大学、秋田大学

他大学での出張講習会の実施

岩手大学、弘前大学、山形大学、秋田大学、会津大学

岩手大学・山形大学での出張講習(2007年から)

大阪大学との講習会の遠隔相互配信(2009年度)

どなたでも受講できます.11月以降の開催情報他はこちらを参照ください: http://www.ss.cc.tohoku.ac.jp

平成26年11月11日NEC SP研究会

情報処理学会分散コンピュータ博物館 先端コンピュータ/ネットワーク機器の保存・展示の取り組み(アウトリーチ活動)

50

サイバーサイエンスセンター展示室の充実 ~情報処理学会分散コンンピューータタ博物館のの認定~

  1998

  SENAC-1 

   

   

Hiroaki Kobayashi, Tohoku University

平成26年11月11日NEC SP研究会

Riken AICS

• Mitsuo Yokokawa

• Atsuya UnoUniversity of Tokyo

• Takashi Furumura

• Muneo Hori JAXA

• Kazuhiro NakahashiJAIST

• Yukinori SatoOsaka University

• Go Hasegawa

• Shinichi ArakawaJMA

• Hideo Tada

• Chiashi Muroi

• Keiichi Katayama

• Eiji Toyoda

• Junichi Ishida

• Takafumi KanehamaMeisei University

• Kanji Otsuka

謝辞

51

Tohoku University

• Hiroyuki Takizawa

• Kentaro Sano

• Ryusuke Egawa

• Kazuhiko Komatsu

• Mitsumasa Koyanagi

• Shunichi Koshimura

• Fumihiko Iwamura

• Takafumi Fukushima

• Kangwook Lee

• Hiroaki Muraoka

• Takahiro Hanyu

• Hiroshi MatsuokaJAMSTEC

• Yoshiyuki Kaneda

• Kunihiko Watanabe

• Keiko Takahashi

• Takane Hori

• Mamoru Hyodo

• Kenichi Itakura

• Hitoshi UeharaPARI

• Taro Arikawa

NEC

• Yukiko Hashimoto

• Shigeyuki Aino

• Hiroshi Takahara

• Akihiro Musa

• Osamu Watanabe

• Takashi Hagiwara

• Yoko Isobe

• Shintaro Momose

• Akihiro Yamashita

• Yasuhisa Masaoka

• Yasuharu Hayashi

• Shinji Tanaka

• Takashi Abe

• Hiroshi Matsuoka

• Takashi Soga

• Other NEC EngineersKanazawa Institute of Tech.

• Daisuke SasakiTohoku Micro-Tech

• Makoto MotoyoshiYamagata Univ.

• Jubee Tada

top related