open for smp cluster の survey

Open for SMP ClusterのSurvey

Talk by Shuhei OhkadoEmail: [email protected]

なぜ SMP Cluster （の研究）か？ HPC using clusters of commodity hardwar

e Cluster with fast network provide high per

formance equal to MPP Cost-effective parallel computing platform SMP Cluster 向けの HPC の研究の方向性

なぜ OpenMP か？ Emerging standard for parallel

programming on shared-memory multiprocessors

OpenMP ってどんなの？並列性を記述する指示文を追加 Fork-join 型

OpenMP の利点 Incremental approach to parallelization o

f sequential program Portability Programming が容易

OpenMP の directive Parallelism/work sharing Data environment synchronization

これからの話 Hybrid Programming の紹介 Inserting Remote communication primiti

ve の紹介

紹介する論文吉川茂洋 , 早川秀利 , 近藤正章 , 板倉憲一 , 朴

泰祐 , 佐藤三久 ,"SMP-PC クラスタにおける OpenMP+MPI の性能評価 ", 情報処理学会ハイパフォーマンスコンピューティング研究会 (HOKKE2000),2000-HPC-80-27, 2000, pp155-160.

M. Sato, S. Satoh, K. Kusano and Y. Tanaka, TsukubaResearch Center, Real World Computing Partnership, "Design of OpenMP Compiler for an SMP Cluster", First European Workshop on OpenMP - EWOMP’99, Lund University, Lund, Sweden, September 1999

SMP-PC クラスタにおける OpenMP+MPI の性能評価 SMP Cluster のデザイン COSMO(Clusters of Symmetric MultiprOcessor)

ハイブリッドプログラミング OpenMP+MPI の問題点ベンチマークアプリ性能評価まとめ

SMP Cluster のデザイン分散メモリ : ノード間でメッセージ

パッシング共有メモリ : ノード内でマルチスレッ

ド

COSMO の仕様 Intel Pentium-II Xeon(450MHz)x4 ４ノード構成 100base-TX Ethernet Switch Linux 2.2.10 SMP

ハイブリッドプログラミング OpenMP と MPI の混合

ノード内では OpenMP ノード間では MPI

Pthread+MPI のハイブリッドの論文もある

ハイブリッドとメッセージパッシング統一型の比較ハイブリッドプログラミング

プログラミング難しい性能がより引き出せる

メッセージパッシング統一型簡単なプログラミング MPI の豊富な資産

OpenMP ＋ MPI の問題点並列領域内で MPI 関数がある場合排他

制御が必要安全な通信のためにマスタースレッド

のみが通信

アプリケーション Linpack

密行列連立一次方程式のガウス消去法データの時間局所性が高い

CG NAS Parallel Benchmarks 大規模疎行列の最小固有値をの CG 法データの時間局所性が低い

性能評価グラフ略 (~9つ） Full MPI版よりも OpenMP+MPI の方が速度向上が良い

Linpack 計算粒度を大きくしたら性能が良くなった

CG 速度低下はメモリバスの混雑による

この論文のまとめ並列化は容易だった OpenMP は標準 APIだから MPI とのハ

イブリッドも可搬性がある（ really ？）

SMP クラスタではメモリバスボトルネックの問題解決が必要

Design of OpenMP Compiler for an SMP Cluster Omni OpenMP Design for SMP Cluster Base DSM runtime Optimization COMPas Preliminary Result

Omni Experimental compiler Translator: OpenMP->multithreaded C Linked with runtime library Java libraries that analyze & transform

OpenMP Design for SMP Cluster Compiler-directed approach Runtime DSM library Structured parallel description of OpenM

P(higher)

Extend OpenMP compiler Memory coherence maintenace code Insertion Compiler analysis

Efficient collective communication SMP cluster

fork & synchronize between different nodes Software implementation

Flexible cache coherence protocol

Base DSM runtime system Mapping into same address Cache by multiple nodes Status bit Check code before load/store

Optimization Parallel extent detection Redundant check code elimination Merging multiple check code (Data-parallel communication

optimization)

COMPaS COMPaS

Cluster Of Multi-Processor Systems Eight 4-processor Pentium Pro(200MHz) Myrinet Solaris 2.5.1

NICAM User-level communication layer DMA

Preliminary Result グラフ略 Jacobi over relaxation solver of dense m

atrix 21.76 speedup/32 node x thread

Concluding Remarks Extend OpenMP for SMP Cluster Compiler-directed SDSM Optimization for the system Easy to program

Hide configuration of SMP Cluster

全体のまとめ OpenMP on SMP Cluster の論文を読んだ

一方は MPI を利用、もう一方は Shasta-like

両者の性能評価の図を比べると、アプリケーションは異なるものの、前者よりも後者の方が速度向上が良い

open for smp cluster の survey

Documents