電気学会フォーラム tsuburaya 2017...

30
連立方程式の並列計算法 キーワード:ICCG 法,マルチカラーオーダリング 並列計算,RCM オーダリング 1 2017 3 10 日 (金) 電力・エネルギーフォーラム 「先進電磁界解析による 設計高度化技術」,同志社大学東京オフィス FUKUOKA UNIVERSITY 圓谷 友紀 * (福岡大学) 岡本 吉史(法政大学)

Upload: others

Post on 24-Jan-2021

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 電気学会フォーラム tsuburaya 2017 0310hbd.ist.hokudai.ac.jp/iga/電力エネルギー...Cuthill-McKee(CM)[5],1969年 行列の非零要素が対角部に集中⇒フィルインの削減

連立方程式の並列計算法

キーワード:ICCG 法,マルチカラーオーダリング並列計算,RCM オーダリング

12017 年 3 月 10 日 (金) 電力・エネルギーフォーラム 「先進電磁界解析による設計高度化技術」,同志社大学東京オフィス FUKUOKA UNIVERSITY

圓谷 友紀*(福岡大学)

岡本 吉史(法政大学)

Page 2: 電気学会フォーラム tsuburaya 2017 0310hbd.ist.hokudai.ac.jp/iga/電力エネルギー...Cuthill-McKee(CM)[5],1969年 行列の非零要素が対角部に集中⇒フィルインの削減

時間領域非線形有限要素解析

有限要素解析の簡易フローチャート

2

有限要素解析の計算時間 (磁気シールドの例)

start

stop

YesNo

( ) ( ) ( )1

CG( )|| ||

|| ||

m m mn

mH G AG

( ) ( )1

m mn n n n Α Α p

configuration of linearsystem

( 1)NR|| || [T]m B

( 1) ( ) ( )m m m Α A Α

n n 1m m 1l l 1

YesNo

tl NYesNo

NRLinearSolver Time

Step

( ) ( ) ( )m m mH Α G

磁気シールドの非線形渦電流解析

DoF が増加すると,線形反復の計算時間が増加傾向

DoF: 206,427 (係数行列の次元), 全計算時間: 646.3 s時間反復: 64 回, 非線形反復: 172 回, 線形反復: 30,649 回係数行列の生成: 135.4 s, 線形反復: 378.5 s

20 % 58 %

Page 3: 電気学会フォーラム tsuburaya 2017 0310hbd.ist.hokudai.ac.jp/iga/電力エネルギー...Cuthill-McKee(CM)[5],1969年 行列の非零要素が対角部に集中⇒フィルインの削減

1

1

11 1

1 1

1 1

,

( , ) ,( , )

,

,

,

( , ) ,( , )

.

k

k kk

k

k k k k

k k k

Tk k

k kk

k k

k k k k

A

C C

v p

r up v

x x p

r r v

u r

r ur u

p u p

前処理付き共役勾配(CG)法

Au C1u CTv (u, v) u + v u1 1 1 3 3 3

0 0 ,A r b x2 2 CG|| || / || ||k r bk = 0, 1, 2, … , until

10 0 0 0, ,TM CC M p r u p

行列ベクトル積

3

kC v r•前進代入

1T

kC u v•後退代入

一反復当たりの計算コスト

高速な線形ソルバを実装するには・・・

1. 反復回数の削減(強力な前処理の実装)

2. 一反復当たりの計算時間を削減

⇒ 並列計算

Page 4: 電気学会フォーラム tsuburaya 2017 0310hbd.ist.hokudai.ac.jp/iga/電力エネルギー...Cuthill-McKee(CM)[5],1969年 行列の非零要素が対角部に集中⇒フィルインの削減

前進・後退代入の並列化手法

並列度数を増加させても,収束特性の劣化はない.

バンド幅の増加による収束特性とキャッシュヒットの劣化

ブロック化前処理 [1]

[1] P. Concus, G. H. Golub, and G. Meurant, “Block preconditioning for the conjugate gradient method,” SIAM J. Sci. Stat.Comput., vol. 6, no. 1, pp. 220-252 (1985).

[2] T. Iwashita and M. Shimasaki, “Algebraic multicolor ordering for parallelized ICCG solver in finite-element analyses,”IEEE Trans. Magn., vol. 38, no. 2, pp. 429-432 (2002).

使用する非零要素に制限を設ける.

逐次実行時よりも収束特性が劣化傾向にある.

マルチカラー (MC) オーダリング [2]

Original MC (Greedy 法)

4

Page 5: 電気学会フォーラム tsuburaya 2017 0310hbd.ist.hokudai.ac.jp/iga/電力エネルギー...Cuthill-McKee(CM)[5],1969年 行列の非零要素が対角部に集中⇒フィルインの削減

内部反復1

1

1 1

1 1

1 1

,

( , ) ,( , )

,

,

solve ,

( , ) ,( , )

.

k

k kk

k

k k k k

k k k

k k

k kk

k k

k k k k

A

A

v p

r up v

x x p

r r v

u r

r ur u

p u p

2 2 CG|| || / || ||k r bk = 0, 1, 2, … , until

5

1 1k kA u r

前処理部を任意の反復法 (CG,JOR 等)で粗く解く.

単精度で求解 ⇒ 前処理部を高速に計算

IC 前処理よりも収束特性が改善される可能性あり

外部反復

倍精度

単精度

可変的前処理 (技術報告書 2.3.2 項)GPU・MICを用いた可変的前処理付き解法の並列化[3]

[3] S. Ikuno, Y. Kawaguchi, N. Fujita, T. Itoh, S. Nakata, and K. Watanabe, “Iterative solver for linear system obtained byedge element: variable preconditioned method with mixed precision on GPU,” IEEE Trans. Magn., vol. 48, no. 2, pp.467-470 (2012).

1 1ˆ ˆ ˆ( )T

k kLDL u r※ IC 前処理

ˆ ˆ ˆTA LDL R

Page 6: 電気学会フォーラム tsuburaya 2017 0310hbd.ist.hokudai.ac.jp/iga/電力エネルギー...Cuthill-McKee(CM)[5],1969年 行列の非零要素が対角部に集中⇒フィルインの削減

マルチカラーオーダリングによる ICCG法の並列化

発表内容 (技術報告書 2.3.1 項)

オーダリングの特質

Reverse Cuthill-McKee (RCM),Multicolor (MC)レベル構造を用いたブロックマルチカラーオーダリング

(PLES) の有効性

集中メモリ型計算機を使用 (API: OpenMP)非線形解析,時間領域渦電流解析への適用

6

Original MC BMC PLES

Page 7: 電気学会フォーラム tsuburaya 2017 0310hbd.ist.hokudai.ac.jp/iga/電力エネルギー...Cuthill-McKee(CM)[5],1969年 行列の非零要素が対角部に集中⇒フィルインの削減

7オーダリングの概要①

オーダリング:係数行列の非零要素を並び替えること

どのように並び替えるか? ⇒グラフ理論の考えを利用

利点は?⇒ 行列の計算を並列化できる,収束特性の向上,キャッシュミスの低減

情報数理学の考えを基に並列アルゴリズムを構築

行列と,節点と枝で表されるグラフは,1 対 1 の対応関係

1

6

8

13

11

16

21

232

4

9

14

19

12

17

243

5

7

10

15

20

22

18

行列 グラフ

Page 8: 電気学会フォーラム tsuburaya 2017 0310hbd.ist.hokudai.ac.jp/iga/電力エネルギー...Cuthill-McKee(CM)[5],1969年 行列の非零要素が対角部に集中⇒フィルインの削減

8オーダリングの概要②

Cuthill-McKee (CM) [5],1969 年

行列の非零要素が対角部に集中⇒ フィルインの削減

CM で得られる新たな未知変数番号を逆順に振り直す⇒ Reverse Cuthill-McKee (RCM),1971 年

Minimum Degree (MD) [4],1967 年

LDLT 分解におけるフィルイン (元々零だったものが非零要素へと変化) を削減

MD や RCM では,ガウスの消去法,LDLT 分解法などの直接法を効率的に解くために開発

直接法では大規模問題に不向き⇒反復法による求解[4] W. F. Tinney and J. W. Walker, “Direct solutions of sparse network equations by optimally ordered triangular

factorization,” Proc. IEEE 55, pp. 1801-1809 (1967).[5] E. Cuthill and J. McKee, “Reducing the bandwidth of sparse symmetric matrices,” Proc. ACM National Conference,

Association for Computing Machinery, pp. 157-172 (1969).

Page 9: 電気学会フォーラム tsuburaya 2017 0310hbd.ist.hokudai.ac.jp/iga/電力エネルギー...Cuthill-McKee(CM)[5],1969年 行列の非零要素が対角部に集中⇒フィルインの削減

9オーダリングの概要③

Multicolor オーダリングによる並列化 [6],1984 年

SOR 法を並列化するために,Multicolor オーダリングの考えを導入

[6] L. M. Adams and H. F. Jordan, “Is SOR color-blind ?,” SIAM J. Sci. Stat. Comput., vol. 7, no. 2, pp. 490-506 (1986).

11 1 12 2 13 3 1

21 1 22 2 23 3 2

31 1 32 2 33 3 3

a x a x a x ba x a x a x ba x a x a x b

( 1) ( ) ( )1 1 12 2 13 3

11

( 1) ( 1) ( )2 2 21 1 23 3

22

( 1) ( 1) ( 1)3 3 31 1 32 2

33

1

1

1

k k k

k k k

k k k

x b a x a xa

x b a x a xa

x b a x a xa

係数行列の非零構造を変更

ブロック対角行列の配置

( 1) ( ) ( 1) ( )k k k k x x x x : 加速パラメータ

Page 10: 電気学会フォーラム tsuburaya 2017 0310hbd.ist.hokudai.ac.jp/iga/電力エネルギー...Cuthill-McKee(CM)[5],1969年 行列の非零要素が対角部に集中⇒フィルインの削減

10

頂点彩色の定義

グラフの各点に 1 つの色

を割り当て,隣接する 2 点

が同じ色にならないように,

全ての点に色を塗る.

右のグラフでは,4 色

四色問題-地図の 4 色塗り分け-

平面状の空白地図

を,隣り合う領域が

同じ色にならないよ

うに 4 色で塗ること

が可能か.

グラフの彩色

Page 11: 電気学会フォーラム tsuburaya 2017 0310hbd.ist.hokudai.ac.jp/iga/電力エネルギー...Cuthill-McKee(CM)[5],1969年 行列の非零要素が対角部に集中⇒フィルインの削減

11

アメリカや日本地図の 4 色塗り分け

四色問題

1977 年 Appel と Hakenにより証明

コンピュータを使用して証明

Page 12: 電気学会フォーラム tsuburaya 2017 0310hbd.ist.hokudai.ac.jp/iga/電力エネルギー...Cuthill-McKee(CM)[5],1969年 行列の非零要素が対角部に集中⇒フィルインの削減

MC オーダリングの手順12

入力: 係数行列の非零情報

1

6

8

13

11

16

21

232

4

9

14

19

12

17

243

5

7

10

15

20

22

18

オーダリング(MC)

出力: 新たな非零要素分布

①彩色 ②リナンバリング

1

6

8

13

11

16

21

23

4

9

14

19

12

17

243

5

7

10

15

20

22

18

2

1

6

8

11

12

5

7

10

2

3

4

9

1

15

16

19

6

8

11

1213

14

5

7

10

18

21

242

3

4

17

20

22

23

9

1

6

8

13

11

16

21

232

4

9

14

19

12

17

243

5

7

10

15

20

22

18

1

15

16

19

6

8

11

1213

14

5

7

10

18

21

242

3

4

17

20

22

23

9

Page 13: 電気学会フォーラム tsuburaya 2017 0310hbd.ist.hokudai.ac.jp/iga/電力エネルギー...Cuthill-McKee(CM)[5],1969年 行列の非零要素が対角部に集中⇒フィルインの削減

色数 : 2 色

前進・後退代入における同期回数:1 回 (色数 1)

色数は,グラフの大次数以下

13MC (前進・後退代入の並列化)

•前進代入 C v u

color 1 PU 1

PU 2

1

12

v

v

color 2 PU 1

PU 2

13

24

v

v

•後退代入 TC w v

color 2 PU 2

PU 1

13

24

w

w

color 1 PU 2

PU 1

1

12

w

w

Original MC

Page 14: 電気学会フォーラム tsuburaya 2017 0310hbd.ist.hokudai.ac.jp/iga/電力エネルギー...Cuthill-McKee(CM)[5],1969年 行列の非零要素が対角部に集中⇒フィルインの削減

マルチカラーオーダリングの性能評価

MRI (A法,線形静磁界)

Original MC (9.2 秒)RCM (6.1 秒)

14

discret. NoN NoE DoF nonzero CG

2nd-hexa 93,879 87,120 1,014,600 82,050,304 106

0( ) ( ) d d

( ) d 0c

m

i ii

i r

G V V

V

N A N J

N B

Page 15: 電気学会フォーラム tsuburaya 2017 0310hbd.ist.hokudai.ac.jp/iga/電力エネルギー...Cuthill-McKee(CM)[5],1969年 行列の非零要素が対角部に集中⇒フィルインの削減

計算機環境 (集中メモリ型) 2-CPUs: Intel Xeon E5-2687W v2 3.4 GHz (8 cores) memory: Transcend TS512MKR72V3N (DDR-1333) 4 GB,

合計: 32 GB mother board: ASUS Z9PA-D8C並列化の API: OpenMP 適化オプション: /O2 /Qipo /Qprec-div- /QxHost /Qopenmp係数行列の格納方式: CRS 形式

15

Page 16: 電気学会フォーラム tsuburaya 2017 0310hbd.ist.hokudai.ac.jp/iga/電力エネルギー...Cuthill-McKee(CM)[5],1969年 行列の非零要素が対角部に集中⇒フィルインの削減

RCM と MC オーダリングの比較

Np linear it. elapsed time [s]1 882 169.52 960 94.74 968 63.36 993 48.18 972 53.2

Np linear it. elapsed time [s]1 1,975 801.52 1,980 426.54 1,994 246.76 1,969 175.08 1,994 160.6

MC RCM 付き Block IC

Np linear it. elapsed time [s]1 1,912 340.0

オーダリング無し遂次版 ICCG

16

1.02.03.04.05.06.07.08.0

406080

100120140160180

1 2 3 4 5 6 7 8

scalability

elap

sed

time

[s]

elapsed time(□) measured scal.(○)ideal scal.

Np

1.02.03.04.05.06.07.08.0

150

300

450

600

750

900

1 2 3 4 5 6 7 8

scalability

elap

sed

time

[s]

elapsed time(□) measured scal.(○)ideal scal.

Np

Page 17: 電気学会フォーラム tsuburaya 2017 0310hbd.ist.hokudai.ac.jp/iga/電力エネルギー...Cuthill-McKee(CM)[5],1969年 行列の非零要素が対角部に集中⇒フィルインの削減

レベル構造を用いた Block Multicolor17

レベル構造を用いた BMC の提案(PLES) [8]

マルチカラーオーダリングを使用すると,収束特性の劣化を防げるが,キャッシュミスが増加

岩下らはブロックマルチカラーオーダリング (BMC) を開発 [7]

パラメータ設定が必要,未知変数のグループ化の方法によっては性能が変化

• RCM オーダリングから得られるレベル構造を BMC に利用⇒ RBMC

• RBMC におけるロードバランスの改善⇒ PLES (技術報告書では,Modified RBMC)

[7] T. Iwashita, H. Nakashima, and Y. Takahashi, “Algebraic block multi-color ordering method for parallel multi-threadedsparse triangular solver in ICCG method,” Proc. of IEEE 26th International Parallel and Distributed ProcessingSymposium, pp. 474-483 (2012).

[8] T. Tsuburaya, Y. Okamoto and S. Sato: “Parallelized ICCG method using block-multicolor orderings in real symmetriclinear system derived from voltage-driven FEM in time domain”, The International Journal for Computation andMathematics in Electrical and Electronic Engineering (COMPEL), Vol. 34, No. 5, pp. 1433-1446, Sep. 2015.

Page 18: 電気学会フォーラム tsuburaya 2017 0310hbd.ist.hokudai.ac.jp/iga/電力エネルギー...Cuthill-McKee(CM)[5],1969年 行列の非零要素が対角部に集中⇒フィルインの削減

1 13 14 2 3 4 15 16 17 5 6 7 18 19 20 21 8 9 10 11 22 23 24 12L1 L2 L3 L4 L5 L6 L7 L8 L9

1

6

8

13

11

16

21

232

4

9

14

19

12

17

243

5

7

10

15

20

22

18

L1

L2

L3 L4 L5

L6

L7

L8 L9

RBMC オーダリングの手順

1. reverse Cuthill-McKee (RCM) オーダリングにより,レベル構造を作成

18

2. 各レベルに色を付ける.1 2 4 3 5 7 6 8 13 9 14 19 10 15 20 22 11 16 21 23 12 17 24 18L1 L2 L3 L4 L5 L6 L7 L8 L9

3. 色毎にリナンバリング

◎ 2 色で彩色可能 ⇒ 前進・後退代入における同期回数の削減

×各レベルに属する未知変数の数が不均一⇒ロードバランスの悪化RBMC

Page 19: 電気学会フォーラム tsuburaya 2017 0310hbd.ist.hokudai.ac.jp/iga/電力エネルギー...Cuthill-McKee(CM)[5],1969年 行列の非零要素が対角部に集中⇒フィルインの削減

1 2 3 4 13 14 15 16 5 6 7 8 17 18 19 20 9 10 11 12 21 22 23 24B1 B2 B3 B4 B5 B6

1

6

8

13

11

16

21

232

4

9

14

19

12

17

243

5

7

10

15

20

22

18

B1 B2 B3B4

B5B6

PLES オーダリングの手順

1. RCM オーダリングにより,レベル構造を作成

19

nb 2×3 6

2. nb 2Np , s DoF nb

(nb: ブロックの総数,Np: 並列度数)s 24 6 4

1 2 4 3 5 7 6 8 13 9 14 19 10 15 20 22 11 16 21 23 12 17 24 18L1 L2 L3 L4 L5 L6 L7 L8 L9

3. ブロックの構築

4. リナンバリング

B1 B2 B3 B4 B5 B6

PLES

Page 20: 電気学会フォーラム tsuburaya 2017 0310hbd.ist.hokudai.ac.jp/iga/電力エネルギー...Cuthill-McKee(CM)[5],1969年 行列の非零要素が対角部に集中⇒フィルインの削減

PLES (前進・後退代入の並列化)

Original PLES

色数 : 2 色

前進・後退代入における同期回数:1 回

バンド幅が MC よりも削減

20

•前進代入 C v u

1

12

v

v

13

24

v

v

•後退代入 TC w v

13

24

w

w

1

12

w

wcolor 1

PU 1

PU 2

PU 3

color 2

PU 1

PU 2

PU 3

color 2

PU 1

PU 2

PU 3

color 1

PU 1

PU 2

PU 3

Page 21: 電気学会フォーラム tsuburaya 2017 0310hbd.ist.hokudai.ac.jp/iga/電力エネルギー...Cuthill-McKee(CM)[5],1969年 行列の非零要素が対角部に集中⇒フィルインの削減

PLES の性能評価(MRI)

Original(DoF: 1,014,600)

MC (44 色)(Greedy 法)

BMC(s = 512,18 色)

RBMC PLES

21

RCM

Page 22: 電気学会フォーラム tsuburaya 2017 0310hbd.ist.hokudai.ac.jp/iga/電力エネルギー...Cuthill-McKee(CM)[5],1969年 行列の非零要素が対角部に集中⇒フィルインの削減

Np linear it. elapsed time [s]

1 1,975 801.52 1,980 426.54 1,994 246.76 1,969 175.08 1,994 160.6

MCNp linear it. elapsed

time [s]1 878 186.12 906 100.44 984 66.66 968 56.98 977 58.8

PLES

Np linear it. elapsed time [s]1 1,912 340.0

オーダリング無し遂次版 ICCG

Np linear it. elapsed time [s]

1 882 169.52 960 94.74 968 63.36 993 48.18 972 53.2

RCM 付き Block IC

22PLES の性能評価(MRI)

1.02.03.04.05.06.07.08.0

406080

100120140160180

1 2 3 4 5 6 7 8scalability

elap

sed

time

[s]

elapsed time(□) measured scal.(○)ideal scal.

Np

1.02.03.04.05.06.07.08.0

150

300

450

600

750

900

1 2 3 4 5 6 7 8

scalabilityel

apse

d tim

e [s

]

elapsed time(□) measured scal.(○)ideal scal.

Np

1.02.03.04.05.06.07.08.0

40

80

120

160

200

1 2 3 4 5 6 7 8

scalability

elap

sed

time

[s]

elapsed time(□) measured scal.(○)ideal scal.

Np

Page 23: 電気学会フォーラム tsuburaya 2017 0310hbd.ist.hokudai.ac.jp/iga/電力エネルギー...Cuthill-McKee(CM)[5],1969年 行列の非零要素が対角部に集中⇒フィルインの削減

23一反復当たりの計算時間(MRI)

ordering Npelapsed time [ms]

IC Au C1u CTu total

- 1 3.1(1.00)

79.7(1.00)

41.5(1.00)

47.1(1.00)

177.8(1.00)

RCM(Block IC)

6

0.7(0.22)

26.9(0.33)

9.2(0.22)

9.2(0.19)

48.4(0.27)

MC44 colors

3.9(1.25)

43.7(0.54)

17.5(0.42)

23.0(0.48)

88.8(0.49)

BMC s = 51218 colors

2.2(0.70)

28.3(0.35)

15.2(0.36)

18.1(0.38)

65.7(0.36)

RBMC2 ccolors

1.8(0.58)

26.6(0.33)

14.1(0.33)

16.1(0.34)

61.4(0.34)

PLES2 colors

1.8(0.58)

26.7(0.33)

12.5(0.30)

14.8(0.31)

58.7(0.33)

Au: 行列ベクトル積, C1u : 前進代入, CTu: 後退代入

Page 24: 電気学会フォーラム tsuburaya 2017 0310hbd.ist.hokudai.ac.jp/iga/電力エネルギー...Cuthill-McKee(CM)[5],1969年 行列の非零要素が対角部に集中⇒フィルインの削減

24

ordering Np linear it.elapsed time [s]

IC Au C1u CTu total

- 1 1,912(1.00)

3.1(1.00)

152.4(1.00)

79.4(1.00)

90.1(1.00)

340.0(1.00)

RCM(Block IC)

6

993(0.51)

0.7(0.22)

26.8(0.17)

9.2(0.11)

9.2(0.10)

48.1(0.14)

MC44 colors

1,969(1.02)

3.9(1.25)

86.2(0.56)

34.6(0.43)

45.4(0.50)

175.0(0.51)

BMC s = 51218 colors

1,661(0.86)

2.2(0.70)

47.1(0.30)

25.3(0.31)

30.1(0.33)

109.2(0.32)

RBMC2 ccolors

1,005(0.52)

1.8(0.58)

26.8(0.17)

14.2(0.17)

16.2(0.17)

61.8(0.18)

PLES2 colors

968(0.50)

1.8(0.58)

25.9(0.16)

12.1(0.15)

14.4(0.15)

56.9(0.16)

収束までの計算時間 (MRI)

オーダリングの実行時間

※ シフトパラメータ 1.2

ordering RCM MC BMC RBMC PLESelapsed time [s] 6.1 9.1 6.4 6.3 5.6

Page 25: 電気学会フォーラム tsuburaya 2017 0310hbd.ist.hokudai.ac.jp/iga/電力エネルギー...Cuthill-McKee(CM)[5],1969年 行列の非零要素が対角部に集中⇒フィルインの削減

電気学会(IEEJ)渦電流解析モデル

時間領域渦電流解析25

非零要素分布

メッシュ

discret. NoN NoE DoF nonzero CG

1st-tetra 439,600 2,557,135 2,983,657 48,711,313 106

渦電流分布

0( ) ( ) d d

d 0c

e

i ii

i

G V V

Vt

N A N J

AN

A法弱形式 (時間領域 1 ステップ目を評価)

Page 26: 電気学会フォーラム tsuburaya 2017 0310hbd.ist.hokudai.ac.jp/iga/電力エネルギー...Cuthill-McKee(CM)[5],1969年 行列の非零要素が対角部に集中⇒フィルインの削減

渦電流解析モデル (非零要素分布)26

Original MC (44 色)(Greedy 法)

BMC(s)(s = 512,18 色)

RBMC PLES

RCM

Page 27: 電気学会フォーラム tsuburaya 2017 0310hbd.ist.hokudai.ac.jp/iga/電力エネルギー...Cuthill-McKee(CM)[5],1969年 行列の非零要素が対角部に集中⇒フィルインの削減

Np linear it. elapsed time [s]

1 275 117.82 275 71.94 275 41.16 275 30.48 275 18.5

MCNp linear it. elapsed

time [s]1 198 36.52 217 23.24 221 14.26 227 13.08 229 12.9

PLES

Np linear it. elapsed time [s]1 236 51.9

オーダリング無し遂次版 ICCG

Np linear it. elapsed time [s]

1 199 32.82 255 23.54 274 15.96 276 14.58 287 12.5

RCM 付き Block IC

27PLES の性能評価(IEEJ)

1.02.03.04.05.06.07.08.0

10

15

20

25

30

35

1 2 3 4 5 6 7 8scalability

elap

sed

time

[s]

elapsed time(□) measured scal.(○)ideal scal.

Np

1.02.03.04.05.06.07.08.0

20

40

60

80

100

120

1 2 3 4 5 6 7 8

scalabilityel

apse

d tim

e [s

]

elapsed time(□) measured scal.(○)ideal scal.

Np

1.02.03.04.05.06.07.08.0

10152025303540

1 2 3 4 5 6 7 8

scalability

elap

sed

time

[s]

elapsed time(□) measured scal.(○)ideal scal.

Np

Page 28: 電気学会フォーラム tsuburaya 2017 0310hbd.ist.hokudai.ac.jp/iga/電力エネルギー...Cuthill-McKee(CM)[5],1969年 行列の非零要素が対角部に集中⇒フィルインの削減

28一反復当たりの計算時間(IEEJ)

ordering Npelapsed time [ms]

IC Au C1u CTu total

- 1 1.2(1.00)

85.5(1.00)

52.5(1.00)

52.1(1.00)

219.9(1.00)

RCM(Block IC)

6

0.2(0.16)

19.9(0.23)

11.2(0.21)

10.5(0.20)

52.5(0.23)

MC13 colors

1.0(0.83)

48.0(0.56)

21.0(0.40)

25.8(0.49)

110.5(0.50)

BMC s = 51255 colors

0.8(0.66)

32.2(0.37)

16.3(0.31)

19.5(0.37)

84.4(0.38)

RBMC2 ccolors

0.7(0.58)

18.9(0.22)

11.6(0.22)

12.1(0.23)

57.7(0.26)

PLES2 colors

0.5(0.41)

19.3(0.22)

11.4(0.21)

11.8(0.22)

57.2(0.26)

Au: 行列ベクトル積, C1u : 前進代入, CTu: 後退代入

Page 29: 電気学会フォーラム tsuburaya 2017 0310hbd.ist.hokudai.ac.jp/iga/電力エネルギー...Cuthill-McKee(CM)[5],1969年 行列の非零要素が対角部に集中⇒フィルインの削減

29

ordering Np linear it.elapsed time [s]

IC Au C1u CTu total

- 1 236(1.00)

1.2(1.00)

20.2(1.00)

12.4(1.00)

12.3(1.00)

51.9(1.00)

RCM(Block IC)

6

276(1.16)

0.2(0.16)

5.5(0.27)

3.1(0.25)

2.9(0.23)

14.5(0.27)

MC13 colors

275(1.16)

1.0(0.83)

13.2(0.65)

5.8(0.46)

7.1(0.57)

30.4(0.58)

BMC s = 51255 colors

245(1.03)

0.8(0.66)

7.9(0.39)

4.0(0.32)

4.8(0.39)

20.7(0.39)

RBMC2 ccolors

248(1.05)

0.7(0.58)

4.7(0.23)

2.9(0.23)

3.0(0.24)

14.2(0.27)

PLES2 colors

227(0.96)

0.5(0.41)

4.4(0.21)

2.6(0.20)

2.7(0.21)

13.0(0.25)

収束までの計算時間 (IEEJ)

オーダリングの実行時間

※ シフトパラメータ 1.05

ordering RCM MC BMC RBMC PLESelapsed time [s] 2.2 2.3 3.3 2.8 2.5

Page 30: 電気学会フォーラム tsuburaya 2017 0310hbd.ist.hokudai.ac.jp/iga/電力エネルギー...Cuthill-McKee(CM)[5],1969年 行列の非零要素が対角部に集中⇒フィルインの削減

まとめ マルチカラーオーダリングを援用した並列化 ICCG 法

の性能評価

今回の計算機環境・解析モデルにおいては・・・

• 6 ~ 8 スレッド付近で速度向上が飽和傾向• マルチカラー系統のオーダリングの中では,PLES が高性能

• RCM 付き Block IC が概して高速

30

•収束特性が劣化しない•バンド幅の拡大によりキャッシュミスが増加

•節点のグループ化によって,MC よりもキャッシュ ミスが減少

•グループ内の節点数を設定する必要あり

PLES

BMC

MC

•グループ内の節点数を自動設定•バンド幅が MC,BMC よりも削減可能