open for smp cluster の survey
DESCRIPTION
Open for SMP Cluster の Survey. Talk by Shuhei Ohkado Email: [email protected]. なぜ SMP Cluster (の研究)か?. HPC using clusters of commodity hardware Cluster with fast network provide high performance equal to MPP Cost-effective parallel computing platform SMP Cluster 向けの HPC の研究の方向性. - PowerPoint PPT PresentationTRANSCRIPT
Open for SMP ClusterのSurvey
Talk by Shuhei OhkadoEmail: [email protected]
なぜ SMP Cluster (の研究)か? HPC using clusters of commodity hardwar
e Cluster with fast network provide high per
formance equal to MPP Cost-effective parallel computing platform SMP Cluster 向けの HPC の研究の方向性
なぜ OpenMP か? Emerging standard for parallel
programming on shared-memory multiprocessors
OpenMP ってどんなの? 並列性を記述する指示文を追加 Fork-join 型
OpenMP の利点 Incremental approach to parallelization o
f sequential program Portability Programming が容易
OpenMP の directive Parallelism/work sharing Data environment synchronization
これからの話 Hybrid Programming の紹介 Inserting Remote communication primiti
ve の紹介
紹介する論文 吉川 茂洋 , 早川 秀利 , 近藤 正章 , 板倉 憲一 , 朴
泰祐 , 佐藤 三久 ,"SMP-PC クラスタにおける OpenMP+MPI の性能評価 ", 情報処理学会ハイパフォーマンスコンピューティング研究会 (HOKKE2000),2000-HPC-80-27, 2000, pp155-160.
M. Sato, S. Satoh, K. Kusano and Y. Tanaka, TsukubaResearch Center, Real World Computing Partnership, "Design of OpenMP Compiler for an SMP Cluster", First European Workshop on OpenMP - EWOMP’99, Lund University, Lund, Sweden, September 1999
SMP-PC クラスタにおける OpenMP+MPI の性能評価 SMP Cluster のデザイン COSMO(Clusters of Symmetric MultiprOcessor)
ハイブリッドプログラミング OpenMP+MPI の問題点 ベンチマークアプリ 性能評価 まとめ
SMP Cluster のデザイン 分散メモリ : ノード間でメッセージ
パッシング 共有メモリ : ノード内でマルチスレッ
ド
COSMO の仕様 Intel Pentium-II Xeon(450MHz)x4 4ノード構成 100base-TX Ethernet Switch Linux 2.2.10 SMP
ハイブリッドプログラミング OpenMP と MPI の混合
ノード内では OpenMP ノード間では MPI
Pthread+MPI のハイブリッドの論文もある
ハイブリッドとメッセージパッシング統一型の比較 ハイブリッドプログラミング
プログラミング難しい 性能がより引き出せる
メッセージパッシング統一型 簡単なプログラミング MPI の豊富な資産
OpenMP + MPI の問題点 並列領域内で MPI 関数がある場合排他
制御が必要 安全な通信のためにマスタースレッド
のみが通信
アプリケーション Linpack
密行列連立一次方程式のガウス消去法 データの時間局所性が高い
CG NAS Parallel Benchmarks 大規模疎行列の最小固有値をの CG 法 データの時間局所性が低い
性能評価 グラフ略 (~9つ) Full MPI版よりも OpenMP+MPI の方が速度向上が良い
Linpack 計算粒度を大きくしたら性能が良くなった
CG 速度低下はメモリバスの混雑による
この論文のまとめ 並列化は容易だった OpenMP は標準 APIだから MPI とのハ
イブリッドも可搬性がある( really ?)
SMP クラスタではメモリバスボトルネックの問題解決が必要
Design of OpenMP Compiler for an SMP Cluster Omni OpenMP Design for SMP Cluster Base DSM runtime Optimization COMPas Preliminary Result
Omni Experimental compiler Translator: OpenMP->multithreaded C Linked with runtime library Java libraries that analyze & transform
OpenMP Design for SMP Cluster Compiler-directed approach Runtime DSM library Structured parallel description of OpenM
P(higher)
Extend OpenMP compiler Memory coherence maintenace code Insertion Compiler analysis
Efficient collective communication SMP cluster
fork & synchronize between different nodes Software implementation
Flexible cache coherence protocol
Base DSM runtime system Mapping into same address Cache by multiple nodes Status bit Check code before load/store
Optimization Parallel extent detection Redundant check code elimination Merging multiple check code (Data-parallel communication
optimization)
COMPaS COMPaS
Cluster Of Multi-Processor Systems Eight 4-processor Pentium Pro(200MHz) Myrinet Solaris 2.5.1
NICAM User-level communication layer DMA
Preliminary Result グラフ略 Jacobi over relaxation solver of dense m
atrix 21.76 speedup/32 node x thread
Concluding Remarks Extend OpenMP for SMP Cluster Compiler-directed SDSM Optimization for the system Easy to program
Hide configuration of SMP Cluster
全体のまとめ OpenMP on SMP Cluster の論文を読んだ
一方は MPI を利用、もう一方は Shasta-like
両者の性能評価の図を比べると、アプリケーションは異なるものの、前者よりも後者の方が速度向上が良い