hpcs 研究室 アーキテクチャ・チーム(朴、小林) (旧ネット...

15
HPCS 研究室 アーキテクチャ・チーム(朴、小林) (旧ネットワーク・チーム)

Upload: others

Post on 24-Mar-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: HPCS 研究室 アーキテクチャ・チーム(朴、小林) (旧ネット …taisuke/OpenLab2018-Arch.pdf · アクセラレータ向け並列プログラミング言語XcalableACCにおける

HPCS研究室アーキテクチャ・チーム(朴、小林)

(旧ネットワーク・チーム)

Page 2: HPCS 研究室 アーキテクチャ・チーム(朴、小林) (旧ネット …taisuke/OpenLab2018-Arch.pdf · アクセラレータ向け並列プログラミング言語XcalableACCにおける

研究テーマ:高性能計算機アーキテクチャ、プログラミング言語、高性能アプリケーション開発

• 次世代演算通信融合型スーパーコンピュータの研究– 複数ノードに跨がるGPU間の通信とGPUが苦手とする演算をFPGAによって解

決する (AiS:AcceleratorinSwitch)構想– 超並列GPUクラスタHA-PACS上での過去の実験を踏まえ、PPX(Pre-PACS-Xシス

テム)上で開発中

• 大規模並列プログラミング言語– 次世代超並列プログラミング言語XcalableMP– GPUクラスタにおける並列GPUプログラミングを簡単・効率的に実施するため

のプログラミング言語開発XcalableACC– これらの言語系・コンパイラの開発を連携大学院の佐藤教授と共同で実施

• 大規模GPU/メニーコア・クラスタにおける応用プログラム開発– 計算科学研究センターの計算科学研究者との共同研究– 実アプリケーションコードのGPU化/メニーコア化・大規模並列化と性能評価

• FPGAのHPC利用に関する研究– 次世代計算システムで電力性能的に有望視されているFPGAをHPCに適用– 演算・通信の融合、GPUなどのアクセラレータとの連携

Page 3: HPCS 研究室 アーキテクチャ・チーム(朴、小林) (旧ネット …taisuke/OpenLab2018-Arch.pdf · アクセラレータ向け並列プログラミング言語XcalableACCにおける

PEACH2ボードの写真

2013/11/15 京大・研究交流会 3

メインボード+ サブボード

大部分は250MHz動作(PCIe Gen2に合わせて)

PCI Express x8 カードエッジ

電源系DDR3-SDRAM

FPGA(Altera社Stratix IV

530GX)

PCIe x16 ケーブルコネクタ

PCIe x8 ケーブルコネクタ

Page 4: HPCS 研究室 アーキテクチャ・チーム(朴、小林) (旧ネット …taisuke/OpenLab2018-Arch.pdf · アクセラレータ向け並列プログラミング言語XcalableACCにおける

FPGAforHPC• FPGA上を用いた高性能システム AiS(AcceleratorinSwitch)– 高位言語OpenCLからFPGA間高速Ethernetを直

接アクセスする技術

– 高位言語OpenCLによる特定アプリケーションの高速実行と通信の融合

– 各種HPCアプリケーション実装をサポートするFPGAライブラリ

– その他FPGAアプリケーション開発

Page 5: HPCS 研究室 アーキテクチャ・チーム(朴、小林) (旧ネット …taisuke/OpenLab2018-Arch.pdf · アクセラレータ向け並列プログラミング言語XcalableACCにおける

CPU:XeonE5-2660v4

CPU:XeonE5-2660v4

GPU:NVIDIA P100 x2

FPGA:Bittware A10PL4

HCA:Mellanox IB/EDR

IB/EDR : 100Gbps

comp. node

PPX:Pre-PACS-X(計算科学研究センター)

5

Host OS CentOS 7.3

Host Compiler gcc 4.8.5

FPGA Compiler

Intel FPGA SDK for OpenCL,Intel Quartus Prime Pro Version 17.0.0 Build 289

QSFP+ : 40Gbpsx2

2017/09/20 IHPCF2017@Guangzhou

Page 6: HPCS 研究室 アーキテクチャ・チーム(朴、小林) (旧ネット …taisuke/OpenLab2018-Arch.pdf · アクセラレータ向け並列プログラミング言語XcalableACCにおける

通信経路

6

IB (InfiniBand) Switch

Ethernet Switch

CPU0

CPU1 FPGA

IB HCA

QPI

PCIe Gen.3x16

PCIe Gen.3x8

IB EDR(100Gbps)

QSFP+(40Gbps)

CPU0

CPU1 FPGA

IB HCA

NODE

NODE ・・・・

IB経由

Ethernet経由

CPU間通信のライブラリにはmvapich2-gdr

2.2を使用

Page 7: HPCS 研究室 アーキテクチャ・チーム(朴、小林) (旧ネット …taisuke/OpenLab2018-Arch.pdf · アクセラレータ向け並列プログラミング言語XcalableACCにおける

1.33

29.03

0.990

5

10

15

20

25

30

IB経由 Ethernet経由

レイテンシ[us]

2経路間における通信レイテンシの比較(通信データサイズ : 1 byte)

FPGA<->CPU1

CPU1->CPU1

通信レイテンシ

• Ethernet経由は約1usのレイテンシで通信できることを確認

• IB経由のレイテンシのほとんどをCPU-FPGA間が占める– BSPが提供するCPU-FPGA間のイン

ターフェースが原因

7

bette

r

27.70FPGA -> CPU

CPU -> FPGAの合計

00.20.40.60.811.2

Ethernet経由

レイテンシ[us]

Ethernet経由のレイテンシの内訳

Ethernet IP ControllerEthernet IP

Ethernet Switch

Page 8: HPCS 研究室 アーキテクチャ・チーム(朴、小林) (旧ネット …taisuke/OpenLab2018-Arch.pdf · アクセラレータ向け並列プログラミング言語XcalableACCにおける

アプリケーション高速化

• 計算科学研究センターのアプリケーション研究グループとの共同研究で実アプリケーションを各種先進的並列システム向けにチューニングする

• CS的な手法を多くの計算科学屋さんは知らない

– スケーラビリティ

– 通信最適化

– プロセッサ最適化

– GPU,many-core,etc.

• アプリとの連携で重要な先進的計算科学を推進すれば多くの科学的成果を生み出せる

Page 9: HPCS 研究室 アーキテクチャ・チーム(朴、小林) (旧ネット …taisuke/OpenLab2018-Arch.pdf · アクセラレータ向け並列プログラミング言語XcalableACCにおける

計算科学研究者とのコラボレーションの成果(例)

2011年ACM Gordon Bell 賞(「京」における物性計算、理化学研究所、筑波大学、東大、富士通の共同研究)

Page 10: HPCS 研究室 アーキテクチャ・チーム(朴、小林) (旧ネット …taisuke/OpenLab2018-Arch.pdf · アクセラレータ向け並列プログラミング言語XcalableACCにおける

2017/09/20 IHPCF2017@Guangzhou 10

Oakforest-PACS(OFP)

• 25 PFLOPS peak• 8208 KNL CPUs• FBB Fat-Tree by

OmniPath• HPL 13.55 PFLOPS

recorded on Nov. 2017:#1 in Japan#6 in WorldHPCG #3Green500 #6

• Full operation started Dec. 2016

• Official Program started on April 2017

Page 11: HPCS 研究室 アーキテクチャ・チーム(朴、小林) (旧ネット …taisuke/OpenLab2018-Arch.pdf · アクセラレータ向け並列プログラミング言語XcalableACCにおける

WeakscalingonOFPfullsystem

11

0

50

100

150

200

250

300

350

400

450

128 512 2048 8192

Dyn

amic

s tim

e / I

tera

tion

[mse

c]

# of compute node

Graphite Silicon

32

64

128

256

512

1024

2048

4096

128 512 2048 8192

Perfo

rman

ce [T

FLO

PS]

# of compute node

Hamiltonian performance

Graphite Silicon

Loweris

Faster Hi

gheris

Bette

r

4 PFLOPS

2017/09/20 IHPCF2017@Guangzhou

Page 12: HPCS 研究室 アーキテクチャ・チーム(朴、小林) (旧ネット …taisuke/OpenLab2018-Arch.pdf · アクセラレータ向け並列プログラミング言語XcalableACCにおける

大規模システム性能評価に関する研究

• 既存の超並列計算機をベースに、次世代システムを開発する際のアプリケーション性能をある程度の確度で予測する

• システムのモデル、プロセッサ、ネットワーク等の要素をパラメータ化し、コンパイラの助けを借りて同一問題をより大規模なシステムで解いた場合の時間を計算部分別に予測する

• 並列通信についてはネットワークシミュレータを用いて予測する

• 「京」コンピュータから「ポスト京」コンピュータへの移行で大きな問題となるため、現在理研との共同研究で実施している→ ポスト京の設計仕様を学生に見せることはできないが仮想パラメータ上での評価は可能

• SCAMP(SCAlable Mpi Profiler)ツールとして理研と共同開発

Page 13: HPCS 研究室 アーキテクチャ・チーム(朴、小林) (旧ネット …taisuke/OpenLab2018-Arch.pdf · アクセラレータ向け並列プログラミング言語XcalableACCにおける

SCAMP概要 (1) 小規模な実システムで通信イルを取得

(2) CPUシミュレータなどで演算定システムの演算性能に合

修正(3) 修正した少数のプロファイル

し想定システム規模のスーファイルを生成

(4) スード・プロファイルを用いてワークシミュレータにより全体

推定

Page 14: HPCS 研究室 アーキテクチャ・チーム(朴、小林) (旧ネット …taisuke/OpenLab2018-Arch.pdf · アクセラレータ向け並列プログラミング言語XcalableACCにおける

近年の受賞

• 佐藤賢太,藤田典久,塙敏博,松本和也,朴泰祐,KhaledIbrahim,"密結合並列演算加速機構TCAによるGPU対応GASNetの実装と評価",情報処理学会HPCS2016最優秀論文賞受賞

• YutaKuwahara,ToshihiroHanawa,TaisukeBoku,"AproposalofGMPI:GPUselfMPIforGPUclusters",情報処理学会ACSI2016OutstandingResearchAward.

• 小田嶋哲哉,朴泰祐,塙敏博,村井均,中尾昌広,田渕晶大,佐藤三久,"アクセラレータ向け並列プログラミング言語Xcalable ACCにおけるTCA/InfiniBandハイブリッド通信",情報処理学会第150回HPC研究会,2016年度CS領域奨励賞受賞:小田嶋哲哉.

• 論文をしっかり書けば海外での国際会議発表などのチャンスはいくらでもあり!

• 最先端のスパコンを使った研究もできる!

Page 15: HPCS 研究室 アーキテクチャ・チーム(朴、小林) (旧ネット …taisuke/OpenLab2018-Arch.pdf · アクセラレータ向け並列プログラミング言語XcalableACCにおける

今の体制• 教員:朴+小林(+HPCS研の他の6人)

• 研究員:– ポスドク1名

• 学生:– CS専攻 D2×1名(+佐藤先生のD3×2名)

– CS専攻 M2×1名,CS専攻 M1×1名– 情報科学類 4年×3名– H30年度修士課程進学予定者:5名(内部3名+外部2名)

• 大型研究予算– JST-CREST:H24年度〜H29年度、総額3億3千万円

– 理研ポスト京開発共同研究:H26年度〜H31年度:総額5千万円

• まだまだ多くの若手が必要⇒新4年生大募集!

• 連絡: taisuke [at]cs.tsukuba.ac.jpkobayashi [at]cs.tsukuba.ac.jp