電気学会フォーラム tsuburaya 2017...
TRANSCRIPT
![Page 1: 電気学会フォーラム tsuburaya 2017 0310hbd.ist.hokudai.ac.jp/iga/電力エネルギー...Cuthill-McKee(CM)[5],1969年 行列の非零要素が対角部に集中⇒フィルインの削減](https://reader036.vdocuments.net/reader036/viewer/2022081411/60b1207f2747c03f0a22b4de/html5/thumbnails/1.jpg)
連立方程式の並列計算法
キーワード:ICCG 法,マルチカラーオーダリング並列計算,RCM オーダリング
12017 年 3 月 10 日 (金) 電力・エネルギーフォーラム 「先進電磁界解析による設計高度化技術」,同志社大学東京オフィス FUKUOKA UNIVERSITY
圓谷 友紀*(福岡大学)
岡本 吉史(法政大学)
![Page 2: 電気学会フォーラム tsuburaya 2017 0310hbd.ist.hokudai.ac.jp/iga/電力エネルギー...Cuthill-McKee(CM)[5],1969年 行列の非零要素が対角部に集中⇒フィルインの削減](https://reader036.vdocuments.net/reader036/viewer/2022081411/60b1207f2747c03f0a22b4de/html5/thumbnails/2.jpg)
時間領域非線形有限要素解析
有限要素解析の簡易フローチャート
2
有限要素解析の計算時間 (磁気シールドの例)
start
stop
YesNo
( ) ( ) ( )1
CG( )|| ||
|| ||
m m mn
mH G AG
( ) ( )1
m mn n n n Α Α p
configuration of linearsystem
( 1)NR|| || [T]m B
( 1) ( ) ( )m m m Α A Α
n n 1m m 1l l 1
YesNo
tl NYesNo
NRLinearSolver Time
Step
( ) ( ) ( )m m mH Α G
磁気シールドの非線形渦電流解析
DoF が増加すると,線形反復の計算時間が増加傾向
DoF: 206,427 (係数行列の次元), 全計算時間: 646.3 s時間反復: 64 回, 非線形反復: 172 回, 線形反復: 30,649 回係数行列の生成: 135.4 s, 線形反復: 378.5 s
20 % 58 %
![Page 3: 電気学会フォーラム tsuburaya 2017 0310hbd.ist.hokudai.ac.jp/iga/電力エネルギー...Cuthill-McKee(CM)[5],1969年 行列の非零要素が対角部に集中⇒フィルインの削減](https://reader036.vdocuments.net/reader036/viewer/2022081411/60b1207f2747c03f0a22b4de/html5/thumbnails/3.jpg)
1
1
11 1
1 1
1 1
,
( , ) ,( , )
,
,
,
( , ) ,( , )
.
k
k kk
k
k k k k
k k k
Tk k
k kk
k k
k k k k
A
C C
v p
r up v
x x p
r r v
u r
r ur u
p u p
前処理付き共役勾配(CG)法
Au C1u CTv (u, v) u + v u1 1 1 3 3 3
0 0 ,A r b x2 2 CG|| || / || ||k r bk = 0, 1, 2, … , until
10 0 0 0, ,TM CC M p r u p
行列ベクトル積
3
kC v r•前進代入
1T
kC u v•後退代入
一反復当たりの計算コスト
高速な線形ソルバを実装するには・・・
1. 反復回数の削減(強力な前処理の実装)
2. 一反復当たりの計算時間を削減
⇒ 並列計算
![Page 4: 電気学会フォーラム tsuburaya 2017 0310hbd.ist.hokudai.ac.jp/iga/電力エネルギー...Cuthill-McKee(CM)[5],1969年 行列の非零要素が対角部に集中⇒フィルインの削減](https://reader036.vdocuments.net/reader036/viewer/2022081411/60b1207f2747c03f0a22b4de/html5/thumbnails/4.jpg)
前進・後退代入の並列化手法
並列度数を増加させても,収束特性の劣化はない.
バンド幅の増加による収束特性とキャッシュヒットの劣化
ブロック化前処理 [1]
[1] P. Concus, G. H. Golub, and G. Meurant, “Block preconditioning for the conjugate gradient method,” SIAM J. Sci. Stat.Comput., vol. 6, no. 1, pp. 220-252 (1985).
[2] T. Iwashita and M. Shimasaki, “Algebraic multicolor ordering for parallelized ICCG solver in finite-element analyses,”IEEE Trans. Magn., vol. 38, no. 2, pp. 429-432 (2002).
使用する非零要素に制限を設ける.
逐次実行時よりも収束特性が劣化傾向にある.
マルチカラー (MC) オーダリング [2]
Original MC (Greedy 法)
4
![Page 5: 電気学会フォーラム tsuburaya 2017 0310hbd.ist.hokudai.ac.jp/iga/電力エネルギー...Cuthill-McKee(CM)[5],1969年 行列の非零要素が対角部に集中⇒フィルインの削減](https://reader036.vdocuments.net/reader036/viewer/2022081411/60b1207f2747c03f0a22b4de/html5/thumbnails/5.jpg)
内部反復1
1
1 1
1 1
1 1
,
( , ) ,( , )
,
,
solve ,
( , ) ,( , )
.
k
k kk
k
k k k k
k k k
k k
k kk
k k
k k k k
A
A
v p
r up v
x x p
r r v
u r
r ur u
p u p
2 2 CG|| || / || ||k r bk = 0, 1, 2, … , until
5
1 1k kA u r
前処理部を任意の反復法 (CG,JOR 等)で粗く解く.
単精度で求解 ⇒ 前処理部を高速に計算
IC 前処理よりも収束特性が改善される可能性あり
外部反復
倍精度
単精度
可変的前処理 (技術報告書 2.3.2 項)GPU・MICを用いた可変的前処理付き解法の並列化[3]
[3] S. Ikuno, Y. Kawaguchi, N. Fujita, T. Itoh, S. Nakata, and K. Watanabe, “Iterative solver for linear system obtained byedge element: variable preconditioned method with mixed precision on GPU,” IEEE Trans. Magn., vol. 48, no. 2, pp.467-470 (2012).
1 1ˆ ˆ ˆ( )T
k kLDL u r※ IC 前処理
ˆ ˆ ˆTA LDL R
![Page 6: 電気学会フォーラム tsuburaya 2017 0310hbd.ist.hokudai.ac.jp/iga/電力エネルギー...Cuthill-McKee(CM)[5],1969年 行列の非零要素が対角部に集中⇒フィルインの削減](https://reader036.vdocuments.net/reader036/viewer/2022081411/60b1207f2747c03f0a22b4de/html5/thumbnails/6.jpg)
マルチカラーオーダリングによる ICCG法の並列化
発表内容 (技術報告書 2.3.1 項)
オーダリングの特質
Reverse Cuthill-McKee (RCM),Multicolor (MC)レベル構造を用いたブロックマルチカラーオーダリング
(PLES) の有効性
集中メモリ型計算機を使用 (API: OpenMP)非線形解析,時間領域渦電流解析への適用
6
Original MC BMC PLES
![Page 7: 電気学会フォーラム tsuburaya 2017 0310hbd.ist.hokudai.ac.jp/iga/電力エネルギー...Cuthill-McKee(CM)[5],1969年 行列の非零要素が対角部に集中⇒フィルインの削減](https://reader036.vdocuments.net/reader036/viewer/2022081411/60b1207f2747c03f0a22b4de/html5/thumbnails/7.jpg)
7オーダリングの概要①
オーダリング:係数行列の非零要素を並び替えること
どのように並び替えるか? ⇒グラフ理論の考えを利用
利点は?⇒ 行列の計算を並列化できる,収束特性の向上,キャッシュミスの低減
情報数理学の考えを基に並列アルゴリズムを構築
行列と,節点と枝で表されるグラフは,1 対 1 の対応関係
1
6
8
13
11
16
21
232
4
9
14
19
12
17
243
5
7
10
15
20
22
18
行列 グラフ
![Page 8: 電気学会フォーラム tsuburaya 2017 0310hbd.ist.hokudai.ac.jp/iga/電力エネルギー...Cuthill-McKee(CM)[5],1969年 行列の非零要素が対角部に集中⇒フィルインの削減](https://reader036.vdocuments.net/reader036/viewer/2022081411/60b1207f2747c03f0a22b4de/html5/thumbnails/8.jpg)
8オーダリングの概要②
Cuthill-McKee (CM) [5],1969 年
行列の非零要素が対角部に集中⇒ フィルインの削減
CM で得られる新たな未知変数番号を逆順に振り直す⇒ Reverse Cuthill-McKee (RCM),1971 年
Minimum Degree (MD) [4],1967 年
LDLT 分解におけるフィルイン (元々零だったものが非零要素へと変化) を削減
MD や RCM では,ガウスの消去法,LDLT 分解法などの直接法を効率的に解くために開発
直接法では大規模問題に不向き⇒反復法による求解[4] W. F. Tinney and J. W. Walker, “Direct solutions of sparse network equations by optimally ordered triangular
factorization,” Proc. IEEE 55, pp. 1801-1809 (1967).[5] E. Cuthill and J. McKee, “Reducing the bandwidth of sparse symmetric matrices,” Proc. ACM National Conference,
Association for Computing Machinery, pp. 157-172 (1969).
![Page 9: 電気学会フォーラム tsuburaya 2017 0310hbd.ist.hokudai.ac.jp/iga/電力エネルギー...Cuthill-McKee(CM)[5],1969年 行列の非零要素が対角部に集中⇒フィルインの削減](https://reader036.vdocuments.net/reader036/viewer/2022081411/60b1207f2747c03f0a22b4de/html5/thumbnails/9.jpg)
9オーダリングの概要③
Multicolor オーダリングによる並列化 [6],1984 年
SOR 法を並列化するために,Multicolor オーダリングの考えを導入
[6] L. M. Adams and H. F. Jordan, “Is SOR color-blind ?,” SIAM J. Sci. Stat. Comput., vol. 7, no. 2, pp. 490-506 (1986).
11 1 12 2 13 3 1
21 1 22 2 23 3 2
31 1 32 2 33 3 3
a x a x a x ba x a x a x ba x a x a x b
( 1) ( ) ( )1 1 12 2 13 3
11
( 1) ( 1) ( )2 2 21 1 23 3
22
( 1) ( 1) ( 1)3 3 31 1 32 2
33
1
1
1
k k k
k k k
k k k
x b a x a xa
x b a x a xa
x b a x a xa
係数行列の非零構造を変更
ブロック対角行列の配置
( 1) ( ) ( 1) ( )k k k k x x x x : 加速パラメータ
![Page 10: 電気学会フォーラム tsuburaya 2017 0310hbd.ist.hokudai.ac.jp/iga/電力エネルギー...Cuthill-McKee(CM)[5],1969年 行列の非零要素が対角部に集中⇒フィルインの削減](https://reader036.vdocuments.net/reader036/viewer/2022081411/60b1207f2747c03f0a22b4de/html5/thumbnails/10.jpg)
10
頂点彩色の定義
グラフの各点に 1 つの色
を割り当て,隣接する 2 点
が同じ色にならないように,
全ての点に色を塗る.
右のグラフでは,4 色
四色問題-地図の 4 色塗り分け-
平面状の空白地図
を,隣り合う領域が
同じ色にならないよ
うに 4 色で塗ること
が可能か.
グラフの彩色
![Page 11: 電気学会フォーラム tsuburaya 2017 0310hbd.ist.hokudai.ac.jp/iga/電力エネルギー...Cuthill-McKee(CM)[5],1969年 行列の非零要素が対角部に集中⇒フィルインの削減](https://reader036.vdocuments.net/reader036/viewer/2022081411/60b1207f2747c03f0a22b4de/html5/thumbnails/11.jpg)
11
アメリカや日本地図の 4 色塗り分け
四色問題
1977 年 Appel と Hakenにより証明
コンピュータを使用して証明
![Page 12: 電気学会フォーラム tsuburaya 2017 0310hbd.ist.hokudai.ac.jp/iga/電力エネルギー...Cuthill-McKee(CM)[5],1969年 行列の非零要素が対角部に集中⇒フィルインの削減](https://reader036.vdocuments.net/reader036/viewer/2022081411/60b1207f2747c03f0a22b4de/html5/thumbnails/12.jpg)
MC オーダリングの手順12
入力: 係数行列の非零情報
1
6
8
13
11
16
21
232
4
9
14
19
12
17
243
5
7
10
15
20
22
18
オーダリング(MC)
出力: 新たな非零要素分布
①彩色 ②リナンバリング
1
6
8
13
11
16
21
23
4
9
14
19
12
17
243
5
7
10
15
20
22
18
2
1
6
8
11
12
5
7
10
2
3
4
9
1
15
16
19
6
8
11
1213
14
5
7
10
18
21
242
3
4
17
20
22
23
9
1
6
8
13
11
16
21
232
4
9
14
19
12
17
243
5
7
10
15
20
22
18
1
15
16
19
6
8
11
1213
14
5
7
10
18
21
242
3
4
17
20
22
23
9
![Page 13: 電気学会フォーラム tsuburaya 2017 0310hbd.ist.hokudai.ac.jp/iga/電力エネルギー...Cuthill-McKee(CM)[5],1969年 行列の非零要素が対角部に集中⇒フィルインの削減](https://reader036.vdocuments.net/reader036/viewer/2022081411/60b1207f2747c03f0a22b4de/html5/thumbnails/13.jpg)
色数 : 2 色
前進・後退代入における同期回数:1 回 (色数 1)
色数は,グラフの大次数以下
13MC (前進・後退代入の並列化)
•前進代入 C v u
color 1 PU 1
PU 2
1
12
v
v
color 2 PU 1
PU 2
13
24
v
v
•後退代入 TC w v
color 2 PU 2
PU 1
13
24
w
w
color 1 PU 2
PU 1
1
12
w
w
Original MC
![Page 14: 電気学会フォーラム tsuburaya 2017 0310hbd.ist.hokudai.ac.jp/iga/電力エネルギー...Cuthill-McKee(CM)[5],1969年 行列の非零要素が対角部に集中⇒フィルインの削減](https://reader036.vdocuments.net/reader036/viewer/2022081411/60b1207f2747c03f0a22b4de/html5/thumbnails/14.jpg)
マルチカラーオーダリングの性能評価
MRI (A法,線形静磁界)
Original MC (9.2 秒)RCM (6.1 秒)
14
discret. NoN NoE DoF nonzero CG
2nd-hexa 93,879 87,120 1,014,600 82,050,304 106
0( ) ( ) d d
( ) d 0c
m
i ii
i r
G V V
V
N A N J
N B
![Page 15: 電気学会フォーラム tsuburaya 2017 0310hbd.ist.hokudai.ac.jp/iga/電力エネルギー...Cuthill-McKee(CM)[5],1969年 行列の非零要素が対角部に集中⇒フィルインの削減](https://reader036.vdocuments.net/reader036/viewer/2022081411/60b1207f2747c03f0a22b4de/html5/thumbnails/15.jpg)
計算機環境 (集中メモリ型) 2-CPUs: Intel Xeon E5-2687W v2 3.4 GHz (8 cores) memory: Transcend TS512MKR72V3N (DDR-1333) 4 GB,
合計: 32 GB mother board: ASUS Z9PA-D8C並列化の API: OpenMP 適化オプション: /O2 /Qipo /Qprec-div- /QxHost /Qopenmp係数行列の格納方式: CRS 形式
15
![Page 16: 電気学会フォーラム tsuburaya 2017 0310hbd.ist.hokudai.ac.jp/iga/電力エネルギー...Cuthill-McKee(CM)[5],1969年 行列の非零要素が対角部に集中⇒フィルインの削減](https://reader036.vdocuments.net/reader036/viewer/2022081411/60b1207f2747c03f0a22b4de/html5/thumbnails/16.jpg)
RCM と MC オーダリングの比較
Np linear it. elapsed time [s]1 882 169.52 960 94.74 968 63.36 993 48.18 972 53.2
Np linear it. elapsed time [s]1 1,975 801.52 1,980 426.54 1,994 246.76 1,969 175.08 1,994 160.6
MC RCM 付き Block IC
Np linear it. elapsed time [s]1 1,912 340.0
オーダリング無し遂次版 ICCG
16
1.02.03.04.05.06.07.08.0
406080
100120140160180
1 2 3 4 5 6 7 8
scalability
elap
sed
time
[s]
elapsed time(□) measured scal.(○)ideal scal.
Np
1.02.03.04.05.06.07.08.0
150
300
450
600
750
900
1 2 3 4 5 6 7 8
scalability
elap
sed
time
[s]
elapsed time(□) measured scal.(○)ideal scal.
Np
![Page 17: 電気学会フォーラム tsuburaya 2017 0310hbd.ist.hokudai.ac.jp/iga/電力エネルギー...Cuthill-McKee(CM)[5],1969年 行列の非零要素が対角部に集中⇒フィルインの削減](https://reader036.vdocuments.net/reader036/viewer/2022081411/60b1207f2747c03f0a22b4de/html5/thumbnails/17.jpg)
レベル構造を用いた Block Multicolor17
レベル構造を用いた BMC の提案(PLES) [8]
マルチカラーオーダリングを使用すると,収束特性の劣化を防げるが,キャッシュミスが増加
岩下らはブロックマルチカラーオーダリング (BMC) を開発 [7]
パラメータ設定が必要,未知変数のグループ化の方法によっては性能が変化
• RCM オーダリングから得られるレベル構造を BMC に利用⇒ RBMC
• RBMC におけるロードバランスの改善⇒ PLES (技術報告書では,Modified RBMC)
[7] T. Iwashita, H. Nakashima, and Y. Takahashi, “Algebraic block multi-color ordering method for parallel multi-threadedsparse triangular solver in ICCG method,” Proc. of IEEE 26th International Parallel and Distributed ProcessingSymposium, pp. 474-483 (2012).
[8] T. Tsuburaya, Y. Okamoto and S. Sato: “Parallelized ICCG method using block-multicolor orderings in real symmetriclinear system derived from voltage-driven FEM in time domain”, The International Journal for Computation andMathematics in Electrical and Electronic Engineering (COMPEL), Vol. 34, No. 5, pp. 1433-1446, Sep. 2015.
![Page 18: 電気学会フォーラム tsuburaya 2017 0310hbd.ist.hokudai.ac.jp/iga/電力エネルギー...Cuthill-McKee(CM)[5],1969年 行列の非零要素が対角部に集中⇒フィルインの削減](https://reader036.vdocuments.net/reader036/viewer/2022081411/60b1207f2747c03f0a22b4de/html5/thumbnails/18.jpg)
1 13 14 2 3 4 15 16 17 5 6 7 18 19 20 21 8 9 10 11 22 23 24 12L1 L2 L3 L4 L5 L6 L7 L8 L9
1
6
8
13
11
16
21
232
4
9
14
19
12
17
243
5
7
10
15
20
22
18
L1
L2
L3 L4 L5
L6
L7
L8 L9
RBMC オーダリングの手順
1. reverse Cuthill-McKee (RCM) オーダリングにより,レベル構造を作成
18
2. 各レベルに色を付ける.1 2 4 3 5 7 6 8 13 9 14 19 10 15 20 22 11 16 21 23 12 17 24 18L1 L2 L3 L4 L5 L6 L7 L8 L9
3. 色毎にリナンバリング
◎ 2 色で彩色可能 ⇒ 前進・後退代入における同期回数の削減
×各レベルに属する未知変数の数が不均一⇒ロードバランスの悪化RBMC
![Page 19: 電気学会フォーラム tsuburaya 2017 0310hbd.ist.hokudai.ac.jp/iga/電力エネルギー...Cuthill-McKee(CM)[5],1969年 行列の非零要素が対角部に集中⇒フィルインの削減](https://reader036.vdocuments.net/reader036/viewer/2022081411/60b1207f2747c03f0a22b4de/html5/thumbnails/19.jpg)
1 2 3 4 13 14 15 16 5 6 7 8 17 18 19 20 9 10 11 12 21 22 23 24B1 B2 B3 B4 B5 B6
1
6
8
13
11
16
21
232
4
9
14
19
12
17
243
5
7
10
15
20
22
18
B1 B2 B3B4
B5B6
PLES オーダリングの手順
1. RCM オーダリングにより,レベル構造を作成
19
nb 2×3 6
2. nb 2Np , s DoF nb
(nb: ブロックの総数,Np: 並列度数)s 24 6 4
1 2 4 3 5 7 6 8 13 9 14 19 10 15 20 22 11 16 21 23 12 17 24 18L1 L2 L3 L4 L5 L6 L7 L8 L9
3. ブロックの構築
4. リナンバリング
B1 B2 B3 B4 B5 B6
PLES
![Page 20: 電気学会フォーラム tsuburaya 2017 0310hbd.ist.hokudai.ac.jp/iga/電力エネルギー...Cuthill-McKee(CM)[5],1969年 行列の非零要素が対角部に集中⇒フィルインの削減](https://reader036.vdocuments.net/reader036/viewer/2022081411/60b1207f2747c03f0a22b4de/html5/thumbnails/20.jpg)
PLES (前進・後退代入の並列化)
Original PLES
色数 : 2 色
前進・後退代入における同期回数:1 回
バンド幅が MC よりも削減
20
•前進代入 C v u
1
12
v
v
13
24
v
v
•後退代入 TC w v
13
24
w
w
1
12
w
wcolor 1
PU 1
PU 2
PU 3
color 2
PU 1
PU 2
PU 3
color 2
PU 1
PU 2
PU 3
color 1
PU 1
PU 2
PU 3
![Page 21: 電気学会フォーラム tsuburaya 2017 0310hbd.ist.hokudai.ac.jp/iga/電力エネルギー...Cuthill-McKee(CM)[5],1969年 行列の非零要素が対角部に集中⇒フィルインの削減](https://reader036.vdocuments.net/reader036/viewer/2022081411/60b1207f2747c03f0a22b4de/html5/thumbnails/21.jpg)
PLES の性能評価(MRI)
Original(DoF: 1,014,600)
MC (44 色)(Greedy 法)
BMC(s = 512,18 色)
RBMC PLES
21
RCM
![Page 22: 電気学会フォーラム tsuburaya 2017 0310hbd.ist.hokudai.ac.jp/iga/電力エネルギー...Cuthill-McKee(CM)[5],1969年 行列の非零要素が対角部に集中⇒フィルインの削減](https://reader036.vdocuments.net/reader036/viewer/2022081411/60b1207f2747c03f0a22b4de/html5/thumbnails/22.jpg)
Np linear it. elapsed time [s]
1 1,975 801.52 1,980 426.54 1,994 246.76 1,969 175.08 1,994 160.6
MCNp linear it. elapsed
time [s]1 878 186.12 906 100.44 984 66.66 968 56.98 977 58.8
PLES
Np linear it. elapsed time [s]1 1,912 340.0
オーダリング無し遂次版 ICCG
Np linear it. elapsed time [s]
1 882 169.52 960 94.74 968 63.36 993 48.18 972 53.2
RCM 付き Block IC
22PLES の性能評価(MRI)
1.02.03.04.05.06.07.08.0
406080
100120140160180
1 2 3 4 5 6 7 8scalability
elap
sed
time
[s]
elapsed time(□) measured scal.(○)ideal scal.
Np
1.02.03.04.05.06.07.08.0
150
300
450
600
750
900
1 2 3 4 5 6 7 8
scalabilityel
apse
d tim
e [s
]
elapsed time(□) measured scal.(○)ideal scal.
Np
1.02.03.04.05.06.07.08.0
40
80
120
160
200
1 2 3 4 5 6 7 8
scalability
elap
sed
time
[s]
elapsed time(□) measured scal.(○)ideal scal.
Np
![Page 23: 電気学会フォーラム tsuburaya 2017 0310hbd.ist.hokudai.ac.jp/iga/電力エネルギー...Cuthill-McKee(CM)[5],1969年 行列の非零要素が対角部に集中⇒フィルインの削減](https://reader036.vdocuments.net/reader036/viewer/2022081411/60b1207f2747c03f0a22b4de/html5/thumbnails/23.jpg)
23一反復当たりの計算時間(MRI)
ordering Npelapsed time [ms]
IC Au C1u CTu total
- 1 3.1(1.00)
79.7(1.00)
41.5(1.00)
47.1(1.00)
177.8(1.00)
RCM(Block IC)
6
0.7(0.22)
26.9(0.33)
9.2(0.22)
9.2(0.19)
48.4(0.27)
MC44 colors
3.9(1.25)
43.7(0.54)
17.5(0.42)
23.0(0.48)
88.8(0.49)
BMC s = 51218 colors
2.2(0.70)
28.3(0.35)
15.2(0.36)
18.1(0.38)
65.7(0.36)
RBMC2 ccolors
1.8(0.58)
26.6(0.33)
14.1(0.33)
16.1(0.34)
61.4(0.34)
PLES2 colors
1.8(0.58)
26.7(0.33)
12.5(0.30)
14.8(0.31)
58.7(0.33)
Au: 行列ベクトル積, C1u : 前進代入, CTu: 後退代入
![Page 24: 電気学会フォーラム tsuburaya 2017 0310hbd.ist.hokudai.ac.jp/iga/電力エネルギー...Cuthill-McKee(CM)[5],1969年 行列の非零要素が対角部に集中⇒フィルインの削減](https://reader036.vdocuments.net/reader036/viewer/2022081411/60b1207f2747c03f0a22b4de/html5/thumbnails/24.jpg)
24
ordering Np linear it.elapsed time [s]
IC Au C1u CTu total
- 1 1,912(1.00)
3.1(1.00)
152.4(1.00)
79.4(1.00)
90.1(1.00)
340.0(1.00)
RCM(Block IC)
6
993(0.51)
0.7(0.22)
26.8(0.17)
9.2(0.11)
9.2(0.10)
48.1(0.14)
MC44 colors
1,969(1.02)
3.9(1.25)
86.2(0.56)
34.6(0.43)
45.4(0.50)
175.0(0.51)
BMC s = 51218 colors
1,661(0.86)
2.2(0.70)
47.1(0.30)
25.3(0.31)
30.1(0.33)
109.2(0.32)
RBMC2 ccolors
1,005(0.52)
1.8(0.58)
26.8(0.17)
14.2(0.17)
16.2(0.17)
61.8(0.18)
PLES2 colors
968(0.50)
1.8(0.58)
25.9(0.16)
12.1(0.15)
14.4(0.15)
56.9(0.16)
収束までの計算時間 (MRI)
オーダリングの実行時間
※ シフトパラメータ 1.2
ordering RCM MC BMC RBMC PLESelapsed time [s] 6.1 9.1 6.4 6.3 5.6
![Page 25: 電気学会フォーラム tsuburaya 2017 0310hbd.ist.hokudai.ac.jp/iga/電力エネルギー...Cuthill-McKee(CM)[5],1969年 行列の非零要素が対角部に集中⇒フィルインの削減](https://reader036.vdocuments.net/reader036/viewer/2022081411/60b1207f2747c03f0a22b4de/html5/thumbnails/25.jpg)
電気学会(IEEJ)渦電流解析モデル
時間領域渦電流解析25
非零要素分布
メッシュ
discret. NoN NoE DoF nonzero CG
1st-tetra 439,600 2,557,135 2,983,657 48,711,313 106
渦電流分布
0( ) ( ) d d
d 0c
e
i ii
i
G V V
Vt
N A N J
AN
A法弱形式 (時間領域 1 ステップ目を評価)
![Page 26: 電気学会フォーラム tsuburaya 2017 0310hbd.ist.hokudai.ac.jp/iga/電力エネルギー...Cuthill-McKee(CM)[5],1969年 行列の非零要素が対角部に集中⇒フィルインの削減](https://reader036.vdocuments.net/reader036/viewer/2022081411/60b1207f2747c03f0a22b4de/html5/thumbnails/26.jpg)
渦電流解析モデル (非零要素分布)26
Original MC (44 色)(Greedy 法)
BMC(s)(s = 512,18 色)
RBMC PLES
RCM
![Page 27: 電気学会フォーラム tsuburaya 2017 0310hbd.ist.hokudai.ac.jp/iga/電力エネルギー...Cuthill-McKee(CM)[5],1969年 行列の非零要素が対角部に集中⇒フィルインの削減](https://reader036.vdocuments.net/reader036/viewer/2022081411/60b1207f2747c03f0a22b4de/html5/thumbnails/27.jpg)
Np linear it. elapsed time [s]
1 275 117.82 275 71.94 275 41.16 275 30.48 275 18.5
MCNp linear it. elapsed
time [s]1 198 36.52 217 23.24 221 14.26 227 13.08 229 12.9
PLES
Np linear it. elapsed time [s]1 236 51.9
オーダリング無し遂次版 ICCG
Np linear it. elapsed time [s]
1 199 32.82 255 23.54 274 15.96 276 14.58 287 12.5
RCM 付き Block IC
27PLES の性能評価(IEEJ)
1.02.03.04.05.06.07.08.0
10
15
20
25
30
35
1 2 3 4 5 6 7 8scalability
elap
sed
time
[s]
elapsed time(□) measured scal.(○)ideal scal.
Np
1.02.03.04.05.06.07.08.0
20
40
60
80
100
120
1 2 3 4 5 6 7 8
scalabilityel
apse
d tim
e [s
]
elapsed time(□) measured scal.(○)ideal scal.
Np
1.02.03.04.05.06.07.08.0
10152025303540
1 2 3 4 5 6 7 8
scalability
elap
sed
time
[s]
elapsed time(□) measured scal.(○)ideal scal.
Np
![Page 28: 電気学会フォーラム tsuburaya 2017 0310hbd.ist.hokudai.ac.jp/iga/電力エネルギー...Cuthill-McKee(CM)[5],1969年 行列の非零要素が対角部に集中⇒フィルインの削減](https://reader036.vdocuments.net/reader036/viewer/2022081411/60b1207f2747c03f0a22b4de/html5/thumbnails/28.jpg)
28一反復当たりの計算時間(IEEJ)
ordering Npelapsed time [ms]
IC Au C1u CTu total
- 1 1.2(1.00)
85.5(1.00)
52.5(1.00)
52.1(1.00)
219.9(1.00)
RCM(Block IC)
6
0.2(0.16)
19.9(0.23)
11.2(0.21)
10.5(0.20)
52.5(0.23)
MC13 colors
1.0(0.83)
48.0(0.56)
21.0(0.40)
25.8(0.49)
110.5(0.50)
BMC s = 51255 colors
0.8(0.66)
32.2(0.37)
16.3(0.31)
19.5(0.37)
84.4(0.38)
RBMC2 ccolors
0.7(0.58)
18.9(0.22)
11.6(0.22)
12.1(0.23)
57.7(0.26)
PLES2 colors
0.5(0.41)
19.3(0.22)
11.4(0.21)
11.8(0.22)
57.2(0.26)
Au: 行列ベクトル積, C1u : 前進代入, CTu: 後退代入
![Page 29: 電気学会フォーラム tsuburaya 2017 0310hbd.ist.hokudai.ac.jp/iga/電力エネルギー...Cuthill-McKee(CM)[5],1969年 行列の非零要素が対角部に集中⇒フィルインの削減](https://reader036.vdocuments.net/reader036/viewer/2022081411/60b1207f2747c03f0a22b4de/html5/thumbnails/29.jpg)
29
ordering Np linear it.elapsed time [s]
IC Au C1u CTu total
- 1 236(1.00)
1.2(1.00)
20.2(1.00)
12.4(1.00)
12.3(1.00)
51.9(1.00)
RCM(Block IC)
6
276(1.16)
0.2(0.16)
5.5(0.27)
3.1(0.25)
2.9(0.23)
14.5(0.27)
MC13 colors
275(1.16)
1.0(0.83)
13.2(0.65)
5.8(0.46)
7.1(0.57)
30.4(0.58)
BMC s = 51255 colors
245(1.03)
0.8(0.66)
7.9(0.39)
4.0(0.32)
4.8(0.39)
20.7(0.39)
RBMC2 ccolors
248(1.05)
0.7(0.58)
4.7(0.23)
2.9(0.23)
3.0(0.24)
14.2(0.27)
PLES2 colors
227(0.96)
0.5(0.41)
4.4(0.21)
2.6(0.20)
2.7(0.21)
13.0(0.25)
収束までの計算時間 (IEEJ)
オーダリングの実行時間
※ シフトパラメータ 1.05
ordering RCM MC BMC RBMC PLESelapsed time [s] 2.2 2.3 3.3 2.8 2.5
![Page 30: 電気学会フォーラム tsuburaya 2017 0310hbd.ist.hokudai.ac.jp/iga/電力エネルギー...Cuthill-McKee(CM)[5],1969年 行列の非零要素が対角部に集中⇒フィルインの削減](https://reader036.vdocuments.net/reader036/viewer/2022081411/60b1207f2747c03f0a22b4de/html5/thumbnails/30.jpg)
まとめ マルチカラーオーダリングを援用した並列化 ICCG 法
の性能評価
今回の計算機環境・解析モデルにおいては・・・
• 6 ~ 8 スレッド付近で速度向上が飽和傾向• マルチカラー系統のオーダリングの中では,PLES が高性能
• RCM 付き Block IC が概して高速
30
•収束特性が劣化しない•バンド幅の拡大によりキャッシュミスが増加
•節点のグループ化によって,MC よりもキャッシュ ミスが減少
•グループ内の節点数を設定する必要あり
PLES
BMC
MC
•グループ内の節点数を自動設定•バンド幅が MC,BMC よりも削減可能