ieee itss nagoya chapter nvidia

55
エヌビディア合同会社 ディープラーニング部 部長 井﨑 武士 NVIDIA GPUが加速するディープラーニングと 最新事例

Upload: tak-izaki

Post on 15-Feb-2017

322 views

Category:

Science


2 download

TRANSCRIPT

Page 1: IEEE ITSS Nagoya Chapter NVIDIA

エヌビディア合同会社 ディープラーニング部部長 井﨑 武士

NVIDIA GPUが加速するディープラーニングと最新事例

Page 2: IEEE ITSS Nagoya Chapter NVIDIA

創業1993年

共同創立者兼CEO ジェンスン・フアン(Jen-Hsun Huang)

1999年 NASDAQに上場(NVDA)

1999年にGPUを発明その後の累計出荷台数は10億個以上

2015年度の売上高は46億8,000万ドル

社員は世界全体で9,100人

約7,300件の特許を保有

本社は米国カリフォルニア州サンタクララ

Page 3: IEEE ITSS Nagoya Chapter NVIDIA

自動車HPC&Cloudエンタープライズグラフィックスゲーミング

GEFORCE

SHIELDQUADRO

QUADRO VCA

Tesla

GRID

JETSON

DRIVE

インテリジェントマシン

Page 4: IEEE ITSS Nagoya Chapter NVIDIA

広がるGPUコンピューティング2008 2016

15万CUDA Downloads

4,000Academic Papers

60Universities

Teaching

77Supercomputing

Teraflops

3700万CUDA GPUs

27CUDA Apps

350万 CUDA Downloads

400 CUDA Apps

950 Universities Teaching

77,500 Academic Papers

77,000 Supercomputing Teraflops

6億3800万 CUDA GPUs

Page 5: IEEE ITSS Nagoya Chapter NVIDIA

Deep Learning

Page 6: IEEE ITSS Nagoya Chapter NVIDIA

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

2009 2010 2011 2012 2013 2014 2015 2016

ディープラーニングの目覚しい進化

Baidu の Deep Speech 2人間を超える

多くのディープラーニングフレームワークが発表

IMAGENET正答率

従来 CV 手法 ディープラーニング

DeepMindのAlphaGoが囲碁で世界チャンピオンを越える

トヨタ自動車が人工知能研究所に1200億円投資

Atomwiseがエボラウィルスの感染力を低減する可能性のある2つの新薬を開発

UCバークレーが作業を自ら学ぶロボットを開発

Page 7: IEEE ITSS Nagoya Chapter NVIDIA

新たなコンピューティングモデル

従来のコンピュータビジョン

特定領域の専門家が特徴検出を設計品質 = アルゴリズムのパッチワークコンピュータビジョンの専門家と時間が必要

ディープラーニングの物体検出

大量のデータからDNNが特徴を学習品質 = データ & 学習手法大量のデータと演算能力が必要

Page 8: IEEE ITSS Nagoya Chapter NVIDIA

ディープラーニングソフトウェア

“亀”

フォワード プロパゲーション

“亀” から “犬” へ計算の重み付けを更新

バックワード プロパゲーション

学習済みモデル

“猫”

反復

トレーニング

推論

Page 9: IEEE ITSS Nagoya Chapter NVIDIA

様々な分野でディープラーニングを応用

インターネットとクラウド

画像分類音声認識言語翻訳言語処理感情分析推薦

メディアとエンターテイメント

字幕ビデオ検索

リアルタイム翻訳

機械の自動化

歩行者検出白線のトラッキング信号機の認識

セキュリティと防衛

顔検出ビデオ監視衛星画像

医学と生物学

癌細胞の検出糖尿病のランク付け

創薬

Page 10: IEEE ITSS Nagoya Chapter NVIDIA

なぜGPUがディープラーニングに向いているか

Page 11: IEEE ITSS Nagoya Chapter NVIDIA

ディープラーニングを加速する3つの要因

“The GPU is the workhorse of modern A.I.”

ビッグデータ GPUDNN

Page 12: IEEE ITSS Nagoya Chapter NVIDIA

典型的なネットワーク例多量なトレーニングデータと多数の行列演算

目的顔認識

トレーニングデータ1,000万~1億イメージ

ネットワークアーキテクチャ10 層10 億パラメータ

ラーニングアルゴリズム30 エクサフロップスの計算量GPU を利用して30日

Page 13: IEEE ITSS Nagoya Chapter NVIDIA

CNN: Convolution neural networkLeNet5 [LeCun et al.,1998]

Page 14: IEEE ITSS Nagoya Chapter NVIDIA

FULL CONNECTION

Forward

Layer 1 Layer 2 Layer 3 Layer 4

Page 15: IEEE ITSS Nagoya Chapter NVIDIA

FULL connection

𝑦𝑦 𝑖𝑖 = 𝐹𝐹 �𝑗𝑗

(𝑤𝑤 𝑖𝑖 𝑗𝑗 × 𝑥𝑥 𝑗𝑗 )

x[N] y[M]w[N][M]

Page 16: IEEE ITSS Nagoya Chapter NVIDIA

FULL connection

x[N] y[M]w[N][M]

x =

w[N][M] x[N] y[M]

Matrix Vector

𝑦𝑦 𝑖𝑖 = 𝐹𝐹 �𝑗𝑗

(𝑤𝑤 𝑖𝑖 𝑗𝑗 × 𝑥𝑥 𝑗𝑗 )

メモリバンド幅で性能が決まる

Xeon E5-2690v3 Tesla M40

68GB/s 288 GB/s

Page 17: IEEE ITSS Nagoya Chapter NVIDIA

FULL connection (Mini-BATCH)

x[N] y[M]w[N][M]

x =

w[N][M] x[N] y[M]

Matrix Vector

𝑦𝑦 𝑖𝑖 = 𝐹𝐹 �𝑗𝑗

(𝑤𝑤 𝑖𝑖 𝑗𝑗 × 𝑥𝑥 𝑗𝑗 )

Page 18: IEEE ITSS Nagoya Chapter NVIDIA

FULL connection (Mini-BATCH)

x[K][N] y[K][M]w[N][M]

x =

w[N][M] x[K][N] y[K][M]

Matrix Matrix

高い演算能力を発揮できる

𝑦𝑦[𝑘𝑘] 𝑖𝑖 = 𝐹𝐹 �𝑗𝑗

(𝑤𝑤 𝑖𝑖 𝑗𝑗 × 𝑥𝑥[𝑘𝑘] 𝑗𝑗 )Xeon E5-2690v3 Tesla M40

0.88 TFLOPS 7.0 TFLOPS

Page 19: IEEE ITSS Nagoya Chapter NVIDIA

CNN: Convolution neural network

LeNet5 [LeCun et al.,1998]

Page 20: IEEE ITSS Nagoya Chapter NVIDIA

CONVOLUTIONs

Output feature maps

Input feature map(s)

Page 21: IEEE ITSS Nagoya Chapter NVIDIA

CONVOLUTIONs

Input feature maps

Output feature maps

Page 22: IEEE ITSS Nagoya Chapter NVIDIA

CONVOLUTIONs

Direct Convolution- 膨大な組み合わせ

- それぞれ向けに最適化するのは困難

FFT- メモリ負荷が高い

- 柔軟性が低い

Matrix Multiply

Output feature maps

Input feature map(s)

Page 23: IEEE ITSS Nagoya Chapter NVIDIA

CONVOLUTIONs

I0 I1 I2

I3 I4 I5

I6 I7 I8

F0 F1

F2 F3

InputFilter

O0 O1

O2 O3

Output

Page 24: IEEE ITSS Nagoya Chapter NVIDIA

CONVOLUTIONs

I0 I1 I2

I3 I4 I5

I6 I7 I8

F0 F1

F2 F3

Input data

Filter data

F0 F1 F2 F3

I0

I1

I3

I4

I1

I2

I4

I5

I3

I4

I6

I7

I4

I5

I7

I8

Expanded input data

Output data

Page 25: IEEE ITSS Nagoya Chapter NVIDIA

CONVOLUTIONs

I0 I1 I2

I3 I4 I5

I6 I7 I8

F0 F1

F2 F3

Input data

Filter data

F0 F1 F2 F3

F0 F1

F2 F3

F0 F1 F2 F3

I0

I1

I3

I4

I1

I2

I4

I5

I3

I4

I6

I7

I4

I5

I7

I8

Expanded input data

Output data

Page 26: IEEE ITSS Nagoya Chapter NVIDIA

CONVOLUTIONs

I0 I1 I2

I3 I4 I5

I6 I7 I8

F0 F1

F2 F3

Input data

Filter data

F0 F1 F2 F3G0 G1 G2 G3

J0

J1

J3

J4

J1

J2

J4

J5

J3

J4

J6

J7

J4

J5

J7

J8

J0 J1 J2

J3 J4 J5

J6 J7 J8

I0

I1

I3

I4

I1

I2

I4

I5

I3

I4

I6

I7

I4

I5

I7

I8

G0 G1

G2 G3

F0 F1

F2 F3

G0 G1

G2 G3

F0 F1 F2 F3G0 G1 G2 G3

Output data

Page 27: IEEE ITSS Nagoya Chapter NVIDIA

行列演算のサイズ (lenet5)

LeNet5 [LeCun et al.,1998]

OutputsFilter

(Expanded)Inputs

16

100 * batch size

150

150

Page 28: IEEE ITSS Nagoya Chapter NVIDIA

行列演算のサイズ (googlenet)

GoogLeNet [Szegedy et al.,2014]

OutputsFilter

(Expanded)Inputs

192

3136 * batch size

576

576

Page 29: IEEE ITSS Nagoya Chapter NVIDIA

NVIDIA TESLA GPUによる機械学習の革命

GOOGLE BRAIN APPLICATION – DEEP LEARNING

TESLA導入前 TESLA導入後

コスト $5,000K $200K

サーバー数 1,000 サーバー 16 Tesla サーバー

消費電力 600 KW 4 KW

性能 1x 6x

Page 30: IEEE ITSS Nagoya Chapter NVIDIA

学習と推論プラットフォームワークステーション サーバー

NVIDIA Tesla NVIDIA TEGRA

学習

推論

NVIDIA Tesla/DGX-1

オンライン オフライン

X

Page 31: IEEE ITSS Nagoya Chapter NVIDIA

TESLA M40ディープラーニングに向けた最速アクセラレータ

0 1 2 3 4 5

GPU Server with4x TESLA M40

Dual CPU Server

学習時間を13倍高速化

Number of Days

CUDA コア数 3072

ピーク単精度性能 7 TFLOPS

GDDR5 メモリ 12 GB/24 GB

メモリ帯域 288 GB/s

消費電力 250W

Reduce Training Time from 5 Days to less than 10 Hours

Note: Caffe benchmark with AlexNet, training 1.3M images with 90 epochsCPU server uses 2x Xeon E5-2699v3 CPU, 128GB System Memory, Ubuntu 14.04

シングルGPUで最高の単精度演算性能

Page 32: IEEE ITSS Nagoya Chapter NVIDIA

32

TESLA M4最高のスループットを持つ

ハイパースケールアクセラレータ

CUDA コア数 1024

ピーク単精度性能 2.2 TFLOPS

GDDR5 メモリ 4 GB

メモリ帯域 88 GB/s

形状 PCIe Low Profile

消費電力 50 – 75 W

Video Processing

4x

Image Processing

5x

Video Transcode

2x

Machine Learning Inference

2x

H.264 & H.265, SD & HD

Stabilization and Enhancements

Resize, Filter, Search, Auto-Enhance

Preliminary specifications. Subject to change.推論用途に最適

Page 33: IEEE ITSS Nagoya Chapter NVIDIA

33

TEGRA JETSON TX1モジュール型スーパーコンピューター

主なスペック

GPU 1 TFLOP/s 256コア Maxwell

CPU 64ビット ARM A57 CPU

メモリ 4 GB LPDDR4 | 25.6 GB/s

ストレージ 16 GB eMMC

Wifi/BT 802.11 2x2 ac / BT Ready

ネットワーク 1 Gigabit Ethernet

サイズ 50mm x 87mm

インターフェース 400ピン ボード間接続コネクタ

消費電力 最大10W

Under 10 W for typical use cases

Page 34: IEEE ITSS Nagoya Chapter NVIDIA

34

NVIDIA DRIVE PX 212 CPUコア | Pascal GPU | 8 TFLOPS | 24 DL TOPS | 16nm FF | 250W | リキッドクーリング方式

世界初自動運転向けAIスーパーコンピュータ

Page 35: IEEE ITSS Nagoya Chapter NVIDIA

NVIDIA GPU スケーラブル アーキテクチャモバイルからスーパーコンピュータまで

TeslaIn Super Computers

QuadroIn Work Stations

GeForceIn PCs

Mobile GPU

In Tegra

Tegra

Page 36: IEEE ITSS Nagoya Chapter NVIDIA

NVIDIA GeForce

NVIDIA Jetson

NVIDIA Tesla

NVIDIA DRIVE PX

deep learning EVERYWHERE

Page 37: IEEE ITSS Nagoya Chapter NVIDIA

自動運転に求められること

LOCALIZEMAP SEE DRIVE

Page 38: IEEE ITSS Nagoya Chapter NVIDIA

DRIVE PX AUTO-PILOT CAR COMPUTER

NVIDIA GPU DEEP LEARNING SUPERCOMPUTER

TrainedNeural Net Model

Classified Object

!

ONE-ARCHITECTURE ENABLES END-TO-END SOLUTIONTime-consuming Training on Server & Real-Time Recognition on Embedded System

Camera Inputs

Page 39: IEEE ITSS Nagoya Chapter NVIDIA

2012 20142008 2010 2016 2018

48

36

12

0

24

60

72

TeslaFermi

Kepler

Maxwell

Volta

GPU ロードマップSG

EMM

/ W

Pascal

Page 40: IEEE ITSS Nagoya Chapter NVIDIA

倍精度 5.3TF | 単精度 10.6TF | 半精度 21.2TF

TESLA P100ハイパースケールデータセンターのための世界で最も先進的な GPU

Page 41: IEEE ITSS Nagoya Chapter NVIDIA

Tesla P100 の先進テクノロジー

16nm FinFETPascal アーキテクチャ HBM2 積層メモリ NVLink システムインターコネクト

Page 42: IEEE ITSS Nagoya Chapter NVIDIA

NVIDIA CONFIDENTIAL. DO NOT DISTRIBUTE.

NVIDIA DGX-1世界初ディープラーニング スーパーコンピューター

ディープラーニング向けに設計170 TF FP16

8個 Tesla P100 ハイブリッド・キューブメッシュ主要なAIフレームワークを加速

Page 43: IEEE ITSS Nagoya Chapter NVIDIA
Page 44: IEEE ITSS Nagoya Chapter NVIDIA

NVIDIA Deep Learning プラットフォーム

COMPUTER VISION SPEECH AND AUDIO BEHAVIORObject Detection Voice Recognition Translation

Recommendation Engines Sentiment Analysis

DEEP LEARNING

cuDNN

MATH LIBRARIES

cuBLAS cuSPARSE

MULTI-GPU

NCCL

cuFFT

Mocha.jl

Image Classification

DEEP LEARNING SDK

FRAMEWORKS

APPLICATIONS

GPU PLATFORM

CLOUD GPU

Tesla P100

TeslaK80/M40/M4 Jetson TX1

SERVER

DGX-1

GIE

DRIVEPX2

Page 45: IEEE ITSS Nagoya Chapter NVIDIA

ディープラーニングの最新事例

Page 46: IEEE ITSS Nagoya Chapter NVIDIA

バルセロナ自治大学/仮想世界を用いたセグメンテーション

Page 47: IEEE ITSS Nagoya Chapter NVIDIA

DEEP LEARNING INSIGHT従来のアルゴリズム ディープラーニング

0%20%40%60%80%

100%

overall passengerchannel

indoor public area sunny day rainny day winter summer

Pedestrian detection Recall rate

Traditional Deep learning

70

75

80

85

90

95

100

vehicle color brand model sun blade safe belt phone calling

Vehicle feature accuracy increased by Deep Learning

traditional algorithm deep learning

監視カメラ

Page 48: IEEE ITSS Nagoya Chapter NVIDIA

Princeton University / 3D Object Recognition

Page 49: IEEE ITSS Nagoya Chapter NVIDIA

NVIDIA/ジェスチャー認識

Page 50: IEEE ITSS Nagoya Chapter NVIDIA

表情による感情認識

http://www.affectiva.com/ http://www.emotient.com/

Page 51: IEEE ITSS Nagoya Chapter NVIDIA

ディープラーニング+強化学習(行動を学習)

MONOist より

8時間の学習で90%の取得率達成(熟練者のチューニングに匹敵)

DEEP LEARNING DAY2016講演資料

Page 52: IEEE ITSS Nagoya Chapter NVIDIA
Page 53: IEEE ITSS Nagoya Chapter NVIDIA

Intelligent Voice/CNNを用いた方言分類NIST LRE Competition

6言語、20方言

アラビア語(エジプト、イラク、レバノン、マグレビ、標準語)

中国語(広東、北京、上海、台湾)

英語(英国、米国、インド)

フランス語(西アフリカ、ハイチ)

リベリア語(カリブスペイン、ヨーロッパスペインラテンアメリカスペイン、ブラジルポルトガル)

スラブ語(ポーランド、ロシア)

500時間以上のスピーチデータ

Page 54: IEEE ITSS Nagoya Chapter NVIDIA

スタンフォード大学/Deep Compression

Page 55: IEEE ITSS Nagoya Chapter NVIDIA