gpu環境へ！ hpe engineering vdi · gpu gpu gpu gpu プリエンプション処理....

HPE HPC & AI フォーラム 2018

日本ヒューレット・パッカード株式会社ハイブリッドIT事業統括コアソリューション部久保田隆志

より使いやすいGPU環境へ！HPEのEngineering VDI最新情報

本日の内容

–Engineering VDI 技術変遷

–HPE SimpliVity 380

–パブリッククラウド環境の利用

–NVIDIA GRID最新情報

–まとめ

Engineering VDI 技術変遷おさらい

Engineering VDIの振り返り

Single Image管理

HA対応

Live Migration対応

Bare MetalGPU

PassthroughvGPU

NVIDIA GRIDHCI & Cloud

NVENC対応

2008 2012 2014 2018

VDI技術

画面転送プロトコル

※ プリエンプション対応

仮想マシン

アプリケーション

仮想マシン

GPUパススルー方式CADも快適に－仮想マシンに直接GPUを1枚割当てる方式

Hypervisor• VMware ESXi

• Citrix XenServer

• Microsoft Hyper-V

Server GPU

Graphics

Driver

Graphics

Driver

Graphics

Driver

Graphics

Driver

Graphics

Driver

NVIDIA GRID vGPU方式GPU分割機能－さらに集約率を高める

Hypervisor

管理コンソール

GRID vGPU

Manager

NVIDIA Kernel

Driver

Server with NVIDIA GRID

仮想マシン

メモリ

NVIDIA

Driver

仮想マシン

メモリ

NVIDIA

Driver

仮想マシン

メモリ

NVIDIA

Driver

仮想マシン

メモリ

NVIDIA

Driver

NVENC - 画面転送プロトコル最適化手法CPU負荷削減、操作レスポンス向上

NVIDIA GPU

System Memory

RGB YUV エンコード

GPU Frame Buffer

Graphics API

内部遅延が発生

CPUパワーを消費

NVENC - 画面転送プロトコル最適化手法CPU負荷削減、操作レスポンス向上

NVIDIA GPU

System Memory

GPU Frame Buffer NVENC ASIC (*)

Graphics API

NIC (*) NVENC ASICNVIDIA GPUに搭載されているH.264/265専用のHWエンコーダ

NVIDIA GPU プリエンプション対応

– Maxwell世代までのGPUはプリエンプションがなかった（グラフィックスだけを考えればこれでもよかった）

– Pascalからはプリエンプション対応なので以下のような処理が可能

Graphcis

GPU GPU

プリエンプション処理

プリエンプション対応によるメリット

–vGPU環境でもCUDAを利用可能（これまではGPU占有して使用しない限りCUDAを利用できなかった）

–GPU ModeSwitchが不要に(*)

Hypervisor

Server + NVIDIA

GraphicsVM

CUDAVM

Hypervisor

Server + NVIDIA

GPUModeSwitch

(要再起動)

Graphics Compute

Maxwellまで Pascal以降

(*) ECCメモリの扱いには注意が必要

Engineering VDI進化のまとめ

NVIDIA GRIDの登場

• 柔軟なGPUリソースの割り当てが可能

VDI技術のGPU対応

• GPUがあっても一般のVDIと同じ管理が可能

NVENC対応

• CPU負荷の削減および操作レスポンスが向上

NVIDIA GPUのプリエンプション対応

• CAD/CUDAの仮想マシンの共存が可能

HPE SimpliVity 380Hyper Converged Infrastructure

ビジネスに必要不可欠なあらゆる機能をビルトインで提供する高性能かつ多機能なハイパーコンバージドインフラストラクチャ（）

データ効率PCI Acceleratorカードを用いたFPGA

テクノロジでCPU/メモリのリソースを

専有せずにデータ圧縮・重複排除

データ保護1TBの仮想マシンの

ローカルバックアップ

ローカルリストアを1分で完了

シンプルコンソール画面から3クリックで

仮想マシンのバックアップ、リストア、

移行、複製が可能

管理性複数サイトにまたがる1000もの仮想マ

シンに対して1分未満でバックアップポ

リシーの作成・更新が可能

可用性ローカルもしくはリモートサイトへ

停止時間ゼロでシステム追加

リプレイス可能

マーケットリーダーの製品を信頼のサーバーで提供開始

2018 年 5 月

Hyper-V 版も登場

HPE SimpliVity による画期的な VDI 運用

– SimpliVity は 30 年来の不可能を “可能” にできる

RPOバックアップによる性能影響がないため、

最短 10 分おきに PC 状態を保存できる

RTO容量に限らず、

バックアップもリストアも一瞬で処理完了

NOTALL

すべてのVDI仮想マシンを一台一台、

PC 丸ごとイメージバックアップできる

※ ファイル単位で戻すことも可能

HPE SimpliVityを利用した構成例通常サーバーを組み合わせた柔軟な構成が可能

HPE SimpliVity 380メイン

HPE SimpliVity 380バックアップ

HPE ProLiantDL380 Gen10

ComputeNode

VDI管理サーバー群が稼働ストレージ領域として利用

バックアップサーバーとして利用

eVDIホストとして利用

SimpliVityFederation

GTC Japan 2018で事例発表9/14（金） 14:00 – 14:25

@ Room 2-2

パブリッククラウド環境の利用ハイブリッド環境への適合

パブリッククラウドはやはり必要かなぁ、高いけど....

データセンターの拡張

遅延に敏感なアプリの配置最適化

BCP/DR対策の提供

一時的なデスクトップおよびアプリ環境の提供

クイックなPOC環境としての利用

Citrix Cloud

NetScaler

Gateway

オンプレミス

Citrix Cloud XenApp & XenDesktop ServiceコントロールプレーンのCloud化

Active

Directory

Cloud Connector

(Replication)

Horizon 7 with VMware Cloud on Amazon Web Services

–柔軟なデプロイメント

–Horizon7 CPAを用いたハイブリッドクラウド環境の構築

–Horizon 7 on VMC on AWSスタンドアローン環境・展開のサポート

–シンプルなvSphere環境の展開と時間課金の選択肢

–HorizonおよびWorkspace ONEサブスクリプションライセンスの提供

AWSもしくはオンプレミスのPods

Horizon 7 Connection Servers

vSphere / VMware Cloud

AWSもしくはオンプレミスのPods

グローバルデータレイヤー

Horizon 7 Connection Servers

vSphere / VMware Cloud

ポッド間コミュニケーション通信

Cloud Pod アーキテクチャ（CPA）

Horizon on VMCはDaaS (Desktop-as-a-Service)ではない

顧客の管理スコープ

デスクトップ&アプリ

Horizonインフラ

ハードウェア

オンプレミスのインフラ

Horizonインフラ

ハードウェア

VMware Cloudon AWS

Horizonインフラ

ハードウェア

マネージドクラウドサービス

Software-Defined Data Centerのデプロイ

こまめな消灯をお忘れなく

電源管理はCloudではとても大事

NVIDIA GRID 最新情報最適なGPU選択のためのヒント

STANDARD SCHEDULERこれまでのスケジューラ

Scheduler

SHARE OF

GPU CYCLES

8 7 6 5 4 3 2 1

GPU Engine

6 4 2 1

–ベストエフォート型のスケジューラ

–タイムスライス、ラウンドロビンでスケジューリング

–タイムスライスでタスクは実行される

STANDARD SCHEDULERの課題ベストエフォート型の限界

Scheduler

SHARE OF

GPU CYCLES

GPU Engine

–計算タスクのような長時間GPUを占有するタイプのジョブが実行されると、ラウンドロビンスケジューラでは、1つのタスクしか実行できない事が想定される。

EQUAL SHARE SCHEDULERQoSを保証するスケジューラ

Scheduler

SHARE OF

GPU Engine

–新しいスケジュラー: Equal ShareScheduler (Pascal以降のHWのみ)

–長時間実行されているタスクはプリエンプトされ、再スケジューリング時にコンテキストを保存して再開される

–VM単位でGPUサイクルが決定される

– vGPU対応VMは、GPUサイクルを同等にシェアされる

VM1VM3

8 1 7 6 1 5 4 1

FIXED SHARE SCHEDULER固定型のスケジューラ

Scheduler

SHARE OF

GPU Engine

6 4 2 1

VM3 VM2

–Fixed Share Round Robin Scheduler

–タイムスライスでスケジュールされる

–VM単位でGPUの利用率は固定

–GPUプロファイル(分割数)で性能が決まる。各VMの性能は、1/vGPU分割数

–クラウド事業者向けを想定(常に一定の性能を保証する）

13254768

NVIDIA Tesla 製品一覧仮想環境向けのグラフィックス製品

M10 P4 P40 P100 V100 P6

GPU 4 Maxwell GPUs 1 Pascal GPUs 1 Pascal GPUs 1 Pascal GPUs 1 Volta GPUs 1 Pascal GPUs

CUDA cores 2,560 2,560 3,840 3,584 5,120 2,048

Memory Size32GB GDDR5

(8GB per GPU)8GB GDDR5 24GB GDDR5 16GB HBM2 16GB HBM2 16GB GDDR5

H.264 1080p30

streams28 24 24 36 36 24

Max vGPU

instances

(512MB Profile)

(1GB Profile)

vGPU Profiles0.5GB, 1GB, 2GB,

4GB, 8GB

1GB, 2GB, 4GB,

1GB, 2GB, 3GB,

4GB, 6GB, 8GB,

12GB, 24GB

1GB, 2GB, 4GB,

8GB, 16GB

1GB, 2GB, 4GB,

8GB, 16GB

1GB, 2GB, 4GB,

8GB, 16GB

Form FactorPCIe 3.0 Dual Slot

(rack servers)

PCIe 3.0 Single Slot

(rack servers)

PCIe 3.0 Dual Slot

(rack servers)

PCIe 3.0 Dual Slot

(rack servers)

PCIe 3.0 Dual Slot

(rack servers)

(blade servers)

Power 225W 50 – 75W 250W 250W 250W90W

(70W opt)

Thermal passive passive passive passive passive bare board

USER DENSITYOptimized

PERFORMANCEOptimized

BALDEOptimized

NVIDIA Tesla 製品一覧仮想環境向けのグラフィックス製品

M10 P4 P40 P100 V100 P6

USER DENSITYOptimized

PERFORMANCEOptimized

BALDEOptimized

32G 8G 24G 12G

無視してはいけない大事な疑問

どのGPUを選択するのが賢い？

どのスケジューラを使用するのが賢い？

同じビデオメモリサイズのプロファイルならGPUが違ってもパフォーマンスは同じ？

分割数上げても本当に大丈夫？

どのGPUを選択するのが賢い？Best Effort スケジューラにおけるGPUパフォーマンス差

Catia NX SolidWorks

Best Effort スケジューラを使用した場合のパフォーマンス比較

（Tesla P4を1とした場合の相対比較）

P4 P40 V100 -32G V100-FHHL

※仮想マシン1台だけで実施

どのGPUを選択するのが賢い？

えっ、違わないの？

[正しい理解]

はい。

–Best Effort では、ピーク性能はFRL（Frame Rate Limitter）でキャップされてしまう（仮想マシン1台だけでは差が全くないように見える）

–GPUの性能差は多重度を上げたときに現れる（多重度を上げてもパフォーマンス劣化の度合いが少ない）

どのGPUを選択するのが賢い？本来のGPU性能差の確認

3dsmax-06 catia-05 energy-02 maya-05 medical-02 showcase-02 snx-03 sw-04

SPEC viewperf 13ベンチマーク

（Tesla P4を1とした時の相対比較）

Tesla P4 Tesla P40 Tesla V100 -32G Tesla V100 -FHHL

Equal Share を使用し、全て2Gのプロファイルを使用（仮想マシン1台だけで実施）

Best Effort と Equal Share どちらが良い？（Fixed Shareはクラウド事業者向けなので普通使わないのはわかったけど）

[正しい理解のために]

ベンチマーク結果を見てみましょう

どのスケジューラを使用するのが賢い？スケジューラの比較： Best Effort vs. Equal Share

Catia NX SolidWorks

Tesla P40におけるスケジューラの比較

（Best Effortを1とした時の相対比較）

Best Effort Equal Share

※仮想マシン1台だけで実施

じゃ、Equal Shareを使用すればOK？

[正しい理解]

そうとは限りません。

–Equal Shareは、ホスト上で稼働している仮想マシン数で「必ず」等分される（GPUの性能を使いきれない状況が発生する可能性）

–Best Effortは、FRLでキャップされた状態だが、GPUリソースを使えるだけ使える（分割数は多いが、同時に負荷の高い仮想マシンが少ない場合は有利）

2.3 2.5

1.5 1.5 1.7

1.1 1.1 1.4

0.7 0.7 1.1

0.5 0.5

0.3 0.4 0.7

Catia NX SolidWorks

Best Effort (VM=1) と Fixed Shareのパフォーマンス劣化について

（Best Effort (VM=1)を1とした場合の相対比較）

Best Effort 1分割 2分割 3分割 4分割 6分割 8分割 12分割

どのスケジューラを使用するのが賢い？ベンチマーク結果 - Tesla P40 分割数による違い

同じビデオメモリサイズのプロファイルならパフォーマンスは同じ？

P4-2G vs. V100D-2G

パフォーマンスは同じなんだよね？

[正しい理解]

先のベンチマーク結果からご想像いただけると思いますが、分割数がパフォーマンスに影響を与えます。ベンチマーク結果を見てみましょう。

同じビデオメモリサイズのプロファイルならパフォーマンスは同じ？分割数がパフォーマンスに与える影響度（2GBのプロファイルを使用）

Catia Creo NX SolidWorks

Fixed Share スケジューラを使用した場合のパフォーマンス比較

(Tesla P4を1とした場合の相対比較）

Tesla P4

（4分割）Tesla P40

（12分割）Tesla V100 - 32G

（16分割）Tesla V100 - FHHL

（8分割）

NVIDIA GRIDまとめ

Best Effortでは、GPUの性能差がパフォーマンス差として現れない

• ただし、性能の高いGPUは多重度を上げてもパフォーマンスの劣化度は少なくなる

分割数には注意

• 単純にGPUの集約率を上げてしまうと期待したパフォーマンスが得られない可能性

スケジューラの選択について

• Best Effortの方が失敗する確率は低い。明確にEqual Shareを選ぶ方が良いケースは、CUDAを利用する仮想マシンの共存を考える場合と分割数が少なめの場合に限られる

まとめ

VDI環境においてGPUがあることによる制限はほとんどなくなった

HCI製品を利用した展開によって管理がより容易に

全てクラウドに移行するのではなくコントロールプレーンのみ移行等、より柔軟な選択（ハイブリッド環境）が可能に

NVIDIA GRIDの進化により、CADとCAEの垣根がさらに低くなった

GPUの選択（とくに分割数）は注意が必要

様々な製品でEngineering VDIを支援していきます

HPE ProLiantDL380 Gen10

HPE Apollo 2000

XL190r Gen10

HPE Synergy 480 Gen10HPE SimpliVity 380

引き続き、日本ヒューレット・パッカード株式会社をよろしくお願いいたします

Thank you

ベンチマーク環境について

項目構成備考

Server HPE ProLiant DL380 Gen9• CPU： Intel Xeon E5-2667 （3.2GHz, 2P/16Core）• Memory： 160GB

• Storage： 15krpm SAS 600GB （RAID 5）

GPU NVIDIA Tesla P4 / P40 / V100-32G / V100-FHHL NVIDIA GRID 6.2

VDI vSphere ESXi 6.5U1

VMware Horizon 7.5

Virtual Machine Windows 10 64bit Enterprise （1709）• CPU: 4vCPU

• Memory： 16GB

• HDD： 200GB

Benchmark Software SPEC viewperf 13 現時点では、Best Effort および Equal Shareでcreoのベンチマークを取得できない

搭載可能 NVIDIA GPUラインアップ

DL380 SimpliVity 380 Synergy 480 Apollo 2000

• Quadro P2000 (5)

• Quadro P4000 (5)

• Quadro P6000 (3)

• Quadro GV100 (3)

• Tesla M10 (2)

• Tesla P4 (5)

• Tesla P40 (3)

• Tesla P100-12G (3)

• Tesla P100-16G (3)

• Tesla V100-16G (3)

• Tesla V100-32G (3)

• Tesla V100-FHHL (5)

• Tesla M10 (1)

• Tesla P40 (1)

Single Wide

• Quadro M3000SE (1)

• Tesla P6 (1)

Expansion Module - MXM

• Quadro M3000SE (7)

• Tesla P6 (6)

Expansion Module - PCIe

• Quadro P6000 (2)

• Tesla M10 (2)

• Tesla P40 (2)

• Quadro P4000 (4)

• Tesla M10 (4)

• Tesla P40 (4)

• Tesla P100-12G (4)

• Tesla P100-16G (4)

• Tesla V100-16G (4)

• Tesla V100-32G (4)

• 括弧内は最大搭載枚数• 太字はvGPU対応• 緑字のものは今後搭載予定

gpu環境へ！ hpe engineering vdi · gpu gpu gpu gpu プリエンプション処理....

Documents

optimizing cuda for gpu architecture - macalester...

nvidia cuda 编程指南 · - 2 - gpu .....1 nvidia cuda

programación gpu con cuda

gpu computing and cuda

gpu architecture & cuda programming

cuda and gpu programming - cuda teaching center at uga

cuda without cuda (cuda libraries) -...

code gpu with cuda - simt

code gpu with cuda - cuda introduction

gpu computing with cuda lecture 8 - cuda libraries - …gpu...

chapter 18 gpu ( cuda)

gpu workshop cluster universe: scripting cuda

gpu programming: cuda

gpu (graphics processing unit) programming in cudanvidia...

gpu computing with cuda

gpu programming: cuda - | institut de ... · gpu...

gpu history cuda

gpu&cuda labwork week 6

gpu computing with cuda lecture 6 - cuda libraries -...

inf5062 – gpu & cuda