hpcs 研究室 アーキテクチャ・チーム(朴、小林) (旧ネット...
TRANSCRIPT
HPCS研究室アーキテクチャ・チーム(朴、小林)
(旧ネットワーク・チーム)
研究テーマ:高性能計算機アーキテクチャ、プログラミング言語、高性能アプリケーション開発
• 次世代演算通信融合型スーパーコンピュータの研究– 複数ノードに跨がるGPU間の通信とGPUが苦手とする演算をFPGAによって解
決する (AiS:AcceleratorinSwitch)構想– 超並列GPUクラスタHA-PACS上での過去の実験を踏まえ、PPX(Pre-PACS-Xシス
テム)上で開発中
• 大規模並列プログラミング言語– 次世代超並列プログラミング言語XcalableMP– GPUクラスタにおける並列GPUプログラミングを簡単・効率的に実施するため
のプログラミング言語開発XcalableACC– これらの言語系・コンパイラの開発を連携大学院の佐藤教授と共同で実施
• 大規模GPU/メニーコア・クラスタにおける応用プログラム開発– 計算科学研究センターの計算科学研究者との共同研究– 実アプリケーションコードのGPU化/メニーコア化・大規模並列化と性能評価
• FPGAのHPC利用に関する研究– 次世代計算システムで電力性能的に有望視されているFPGAをHPCに適用– 演算・通信の融合、GPUなどのアクセラレータとの連携
PEACH2ボードの写真
2013/11/15 京大・研究交流会 3
メインボード+ サブボード
大部分は250MHz動作(PCIe Gen2に合わせて)
PCI Express x8 カードエッジ
電源系DDR3-SDRAM
FPGA(Altera社Stratix IV
530GX)
PCIe x16 ケーブルコネクタ
PCIe x8 ケーブルコネクタ
FPGAforHPC• FPGA上を用いた高性能システム AiS(AcceleratorinSwitch)– 高位言語OpenCLからFPGA間高速Ethernetを直
接アクセスする技術
– 高位言語OpenCLによる特定アプリケーションの高速実行と通信の融合
– 各種HPCアプリケーション実装をサポートするFPGAライブラリ
– その他FPGAアプリケーション開発
CPU:XeonE5-2660v4
CPU:XeonE5-2660v4
GPU:NVIDIA P100 x2
FPGA:Bittware A10PL4
HCA:Mellanox IB/EDR
IB/EDR : 100Gbps
comp. node
PPX:Pre-PACS-X(計算科学研究センター)
5
Host OS CentOS 7.3
Host Compiler gcc 4.8.5
FPGA Compiler
Intel FPGA SDK for OpenCL,Intel Quartus Prime Pro Version 17.0.0 Build 289
QSFP+ : 40Gbpsx2
2017/09/20 IHPCF2017@Guangzhou
通信経路
6
IB (InfiniBand) Switch
Ethernet Switch
CPU0
CPU1 FPGA
IB HCA
QPI
PCIe Gen.3x16
PCIe Gen.3x8
IB EDR(100Gbps)
QSFP+(40Gbps)
CPU0
CPU1 FPGA
IB HCA
NODE
NODE ・・・・
IB経由
Ethernet経由
CPU間通信のライブラリにはmvapich2-gdr
2.2を使用
1.33
29.03
0.990
5
10
15
20
25
30
IB経由 Ethernet経由
レイテンシ[us]
2経路間における通信レイテンシの比較(通信データサイズ : 1 byte)
FPGA<->CPU1
CPU1->CPU1
通信レイテンシ
• Ethernet経由は約1usのレイテンシで通信できることを確認
• IB経由のレイテンシのほとんどをCPU-FPGA間が占める– BSPが提供するCPU-FPGA間のイン
ターフェースが原因
7
bette
r
27.70FPGA -> CPU
CPU -> FPGAの合計
00.20.40.60.811.2
Ethernet経由
レイテンシ[us]
Ethernet経由のレイテンシの内訳
Ethernet IP ControllerEthernet IP
Ethernet Switch
アプリケーション高速化
• 計算科学研究センターのアプリケーション研究グループとの共同研究で実アプリケーションを各種先進的並列システム向けにチューニングする
• CS的な手法を多くの計算科学屋さんは知らない
– スケーラビリティ
– 通信最適化
– プロセッサ最適化
– GPU,many-core,etc.
• アプリとの連携で重要な先進的計算科学を推進すれば多くの科学的成果を生み出せる
計算科学研究者とのコラボレーションの成果(例)
2011年ACM Gordon Bell 賞(「京」における物性計算、理化学研究所、筑波大学、東大、富士通の共同研究)
2017/09/20 IHPCF2017@Guangzhou 10
Oakforest-PACS(OFP)
• 25 PFLOPS peak• 8208 KNL CPUs• FBB Fat-Tree by
OmniPath• HPL 13.55 PFLOPS
recorded on Nov. 2017:#1 in Japan#6 in WorldHPCG #3Green500 #6
• Full operation started Dec. 2016
• Official Program started on April 2017
WeakscalingonOFPfullsystem
11
0
50
100
150
200
250
300
350
400
450
128 512 2048 8192
Dyn
amic
s tim
e / I
tera
tion
[mse
c]
# of compute node
Graphite Silicon
32
64
128
256
512
1024
2048
4096
128 512 2048 8192
Perfo
rman
ce [T
FLO
PS]
# of compute node
Hamiltonian performance
Graphite Silicon
Loweris
Faster Hi
gheris
Bette
r
4 PFLOPS
2017/09/20 IHPCF2017@Guangzhou
大規模システム性能評価に関する研究
• 既存の超並列計算機をベースに、次世代システムを開発する際のアプリケーション性能をある程度の確度で予測する
• システムのモデル、プロセッサ、ネットワーク等の要素をパラメータ化し、コンパイラの助けを借りて同一問題をより大規模なシステムで解いた場合の時間を計算部分別に予測する
• 並列通信についてはネットワークシミュレータを用いて予測する
• 「京」コンピュータから「ポスト京」コンピュータへの移行で大きな問題となるため、現在理研との共同研究で実施している→ ポスト京の設計仕様を学生に見せることはできないが仮想パラメータ上での評価は可能
• SCAMP(SCAlable Mpi Profiler)ツールとして理研と共同開発
SCAMP概要 (1) 小規模な実システムで通信イルを取得
(2) CPUシミュレータなどで演算定システムの演算性能に合
修正(3) 修正した少数のプロファイル
し想定システム規模のスーファイルを生成
(4) スード・プロファイルを用いてワークシミュレータにより全体
推定
近年の受賞
• 佐藤賢太,藤田典久,塙敏博,松本和也,朴泰祐,KhaledIbrahim,"密結合並列演算加速機構TCAによるGPU対応GASNetの実装と評価",情報処理学会HPCS2016最優秀論文賞受賞
• YutaKuwahara,ToshihiroHanawa,TaisukeBoku,"AproposalofGMPI:GPUselfMPIforGPUclusters",情報処理学会ACSI2016OutstandingResearchAward.
• 小田嶋哲哉,朴泰祐,塙敏博,村井均,中尾昌広,田渕晶大,佐藤三久,"アクセラレータ向け並列プログラミング言語Xcalable ACCにおけるTCA/InfiniBandハイブリッド通信",情報処理学会第150回HPC研究会,2016年度CS領域奨励賞受賞:小田嶋哲哉.
• 論文をしっかり書けば海外での国際会議発表などのチャンスはいくらでもあり!
• 最先端のスパコンを使った研究もできる!
今の体制• 教員:朴+小林(+HPCS研の他の6人)
• 研究員:– ポスドク1名
• 学生:– CS専攻 D2×1名(+佐藤先生のD3×2名)
– CS専攻 M2×1名,CS専攻 M1×1名– 情報科学類 4年×3名– H30年度修士課程進学予定者:5名(内部3名+外部2名)
• 大型研究予算– JST-CREST:H24年度〜H29年度、総額3億3千万円
– 理研ポスト京開発共同研究:H26年度〜H31年度:総額5千万円
• まだまだ多くの若手が必要⇒新4年生大募集!
• 連絡: taisuke [at]cs.tsukuba.ac.jpkobayashi [at]cs.tsukuba.ac.jp