[d17]dbエンジニアのための最新hw講座 by masaya ishikawa

41
DB エンジニアのための 最新 HW 講座 株式会社インサイトテクノロジー CTO 石川 雅也 SSD, Infiniband and Memory

Upload: insight-technology-inc

Post on 21-May-2015

1.200 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: [D17]DBエンジニアのための最新HW講座 by Masaya Ishikawa

DBエンジニアのための最新HW講座

株式会社インサイトテクノロジー

CTO 石川 雅也

SSD, Infiniband and Memory

Page 2: [D17]DBエンジニアのための最新HW講座 by Masaya Ishikawa

Disclaimer本資料の内容はすべて執筆者の個人的な見解であり、株式会社インサイトテクノロジーの公式な見解を示すものではありません。

本資料内で使用されている社名、ロゴ、製品、サービス名およびブランド名は、該当する各社の登録商標または商標です。

本資料内でベンチマークプログラムの一部を流用して性能測定していますが、データベースのベンチマーク目的ではありません。

本資料の一部あるいは全体について許可無く複製および転載することを禁じます。

Copyright © 2012 Insight Technology, Inc. All Rights Reserved. 2

Page 3: [D17]DBエンジニアのための最新HW講座 by Masaya Ishikawa

自己紹介• 石川 雅也 (いしかわ まさや)

• 現職o 株式会社インサイトテクノロジー 取締役 CTO

FB: MasayaIshikawa

• 職歴o 外資系HWベンダーにて、ミニコンOS, UNIX OS担当SE. 社内SE向け技術

情報発信、トラブルシュート。crash dump解析、UNIX SCSI Device Driverの改造なども。

o 1993年 日本オラクルに入社。DBインフラ系テクニカルサポート、コンサルティング、トラブルシュート。

o 1995年 インサイトテクノロジー設立Oracleパフォーマンス管理ツール Performance Insight開発 (1995~)Oracleアクセスログ取得管理ツール PISO開発 (2004~)SQL Server版、富士通Symfoware版 PISO開発 (2005~)DB コンサルティング、トラブルシュート

2009年 SSDのR&D開始2011年1月 DB向けHW Insight Qube R&D開始。2012年3月 Insight Qube発売

Copyright © 2012 Insight Technology, Inc. All Rights Reserved. 3

Page 4: [D17]DBエンジニアのための最新HW講座 by Masaya Ishikawa

Copyright © 2013 Insight Technology, Inc. All Rights Reserved. 4

Page 5: [D17]DBエンジニアのための最新HW講座 by Masaya Ishikawa

What’s Insight Qube?

Copyright © 2013 Insight Technology, Inc. All Rights Reserved. 5

Low Performance I/Oメモリの容量が少ないためI/Oが多発し、またI/Oの制約によって性能は制限されていた

CPU / Memory

NFS/SAN/iSCSI

HDD

CPU / Memory

SSD<

Disk I/Oのボトルネックにより、本来のCPU性能を発揮できない

データ量増加に伴うパフォーマンスの問題は、単なるチューニングでは解決できない

DBパフォーマンス課題

コモディティパーツだけを使用

Disk I/Oの「制約」から解放

大容量メモリによるオンメモリ処理

システムリソースのボトルネック解消により“チューニングレス”で解決

Insight Qubeで解決

InfiniBand

High Performance I/OI/O制約を取り除くことで高速処理を実現し、さらに大容量メモリによりI/O自体を抑制し CPU性能を最大限に発揮

Page 6: [D17]DBエンジニアのための最新HW講座 by Masaya Ishikawa

DB専用機器と同等の性能

Copyright © 2013 Insight Technology, Inc. All Rights Reserved. 6

0

500

1000

1500

2000

2500

3000

3500

4000

1 2 3

処理時間(秒)

Copyright © 2013 Insight Technology, Inc. All Rights Reserved. 6

テスト内容:

約30GB相当のデータをRAC2ノードからinsert (シーケンシャル/ランダム ライト)のテストを実施

競合A:某DB専用機 競合B:高性能汎用機器でのチューニング

Insight QubeスペックOracle RAC 2 node構成

DB:サーバ×2CPU: Xeon 5690 (12Mcache/3.46GHz/6cores/12threads) * 2Memory: 48GB

Storageサーバ×3:Storage * 3 (240 * 8 * 3 = 5.8TB / 実効容量 = 2.9TB)

Page 7: [D17]DBエンジニアのための最新HW講座 by Masaya Ishikawa

DB専用機器では許されないマルチテナント

Copyright © 2013 Insight Technology, Inc. All Rights Reserved. 7

DB node: Multi DB support

Storage node: Full SSD & Scale Out

Network: InfiniBand

Aシステム Bシステム Cシステム

ストレージリソースは共有されるので無駄がないストレージノードを増やすことで全体のパフォーマンスが向上!

DBノードはマルチテナントOracle RACを構成することも、Standard Editionも利用可能

RACSingleSingle

ASM

※ Oracleの場合

Page 8: [D17]DBエンジニアのための最新HW講座 by Masaya Ishikawa

コストパフォーマンス

Copyright © 2013 Insight Technology, Inc. All Rights Reserved. 8

0

50

100

150

200

250

300

1 2

5年間の TCO

系列1 系列2 系列3 系列4

1/5以下

1,920

432

0

500

1,000

1,500

2,000

2,500

1 2

32GB LR-DIMM

24枚の価格

1/4以下

百万

Page 9: [D17]DBエンジニアのための最新HW講座 by Masaya Ishikawa

HWもわかるDBエンジニアに

HWまで理解している DBエンジニアって、

重宝されるゾ♪

このセッションでは、DB専用ハードウェアInsight Qubeの開発を通じて得た知見を、SSD, Infiniband, 大容量Memory という 3つの最新技術と共にご紹介します。

Copyright © 2013 Insight Technology, Inc. All Rights Reserved. 9

Page 10: [D17]DBエンジニアのための最新HW講座 by Masaya Ishikawa

OS, HWも含めた知識

• OS, HWも含めて設計、チューニングするべしo カーネルパラメータチューニングはよく行うが、HWとなるとせいぜいシーケン

シャルIOとランダムIOを物理的に異なるデバイスに割り振るとか、データとインデックスを別々に格納するとか、その程度。もっとHWの特性を理解することで、より良いシステムを作ることが出来る

• 異なるHWの性能を比較できる知識をつけるべきo 特にフラッシュ系ストレージ製品で顕著

o SSDタイプ、PICeタイプ、フラッシュ・ストレージなどの性能を客観的に比較し、自分のシステムで、どの構成が必要でコストパフォーマンスが良いのかを正しく判断できるようにする

• 最新HWでは今までと異なるチューニング知識が必要o シーケンシャルとランダムでデバイスを分けるのは、HDD時代の知識であり、

SSDを使用するのであれば、その知識は役立たない

Copyright © 2013 Insight Technology, Inc. All Rights Reserved. 10

Page 11: [D17]DBエンジニアのための最新HW講座 by Masaya Ishikawa

Agenda of SSD

13

• HDD, SSD, PCIe Flash の比較

• SSDのパフォーマンスを考える• 書き込み速度劣化、Client/Enterpriseモデルの違い

• IOサイズ別パフォーマンスとデータベース

• カタログスペックに騙されないためには

• アライメント、OSチューニング、IOスケジューラー など

• SSDの寿命を考える• 寿命とは

• Client/Enterpriseモデルの違い

• カタログから寿命を読む

• Flashベースの製品を比較するCopyright © 2012 Insight Technology, Inc. All Rights Reserved.

Page 12: [D17]DBエンジニアのための最新HW講座 by Masaya Ishikawa

Storageの性能比較

14

0 500 1000 1500 2000

1

2

3

系列2Throughput

700~2GB/s

~500MB/s

~200MB/s

0 100 200 300 400 500

1

2

3

系列2IOPS

70K~500k

20k~70k

~300

Copyright © 2012 Insight Technology, Inc. All Rights Reserved.

* コンシューマー向け製品を含む。 HDDは 2.5”

Page 13: [D17]DBエンジニアのための最新HW講座 by Masaya Ishikawa

Storageの仕様比較

15

0 500 1000 1500 2000 2500

1

2

3

系…Capacity

300MB~2.4TB

1.6TB

1TB

0 2000 4000 6000 8000

1

2

3

系列2価格

2000 ~ 6000円

100 ~ 1200円 [3000円]

60 ~ 300円

0 20 40 60 80

1

2

3

系列2消費電力Idle:20w RW:50w

Idle:~1w RW:数w

Idle:4w RW:8w

* コンシューマー向け製品を含む。 HDDは 2.5”

Page 14: [D17]DBエンジニアのための最新HW講座 by Masaya Ishikawa

SSDのパフォーマンスを考える

Copyright © 2013 Insight Technology, Inc. All Rights Reserved. 16

Page 15: [D17]DBエンジニアのための最新HW講座 by Masaya Ishikawa

Copyright © 2013 Insight Technology, Inc. All Rights Reserved. 17

http://www.snia.org/sites/default/files/UnderstandingSSDPerformance.Jan12.web_.pdf

SSDのパフォーマンスを考える

FOB

Steady State

Page 16: [D17]DBエンジニアのための最新HW講座 by Masaya Ishikawa

Copyright © 2013 Insight Technology, Inc. All Rights Reserved. 18

http://www.snia.org/sites/default/files/UnderstandingSSDPerformance.Jan12.web_.pdf

SSDのパフォーマンスを考える

Page 17: [D17]DBエンジニアのための最新HW講座 by Masaya Ishikawa

SSDの書き込み速度低下

19

Write Amplification

NAND Flash Chipの特性で、データの上書きは出来ず、一度

消去してから書き込むしかない。また消去の単位は書込みの

単位より大きい。そのため余計な読み込み・書込みが発生。

1. データが書き込まれていな

い場合は、

2. そのまま書き込める

Copyright © 2013 Insight Technology, Inc. All Rights Reserved.

Page 18: [D17]DBエンジニアのための最新HW講座 by Masaya Ishikawa

20

Write Amplification

NAND Flash Chipの特性で、データの上書きは出来ず、一度

消去してから書き込むしかない。また消去の単位は書込みの

単位より大きい。そのため余計な読み込み・書込みが発生。

1. データが書き込まれている場合、

2. 1箇所だけ変更しようとしても、

3. 消去するサイズのデータをコピー

し、

4. データを消去し、

5. 1箇所を変更して、

SSDの書き込み速度低下

Copyright © 2013 Insight Technology, Inc. All Rights Reserved.

Page 19: [D17]DBエンジニアのための最新HW講座 by Masaya Ishikawa

21

Write Amplification

NAND Flash Chipの特性で、データの上書きは出来ず、一度

消去してから書き込むしかない。また消去の単位は書込みの

単位より大きい。そのため余計な読み込み・書込みが発生。

1. データが書き込まれている場合、

2. 1箇所だけ変更しようとしても、

3. 消去するサイズのデータをコピー

し、

4. データを消去し、

5. 1箇所を変更して、

6. 全て書き戻す。

SSDの書き込み速度低下

Copyright © 2013 Insight Technology, Inc. All Rights Reserved.

• read: 数10μs

• write: 数10μs ~ 数100μs

• erase: 数ms

Page 20: [D17]DBエンジニアのための最新HW講座 by Masaya Ishikawa

22

0%

20%

40%

60%

80%

100%

1 2 3 4

系列1

系列2

系列3

系列4

最大速度を100とし

て、速度劣化時の速度

の割合。

SSD製品別 速度劣化率 2011

Copyright © 2012 Insight Technology, Inc. All Rights Reserved.

Page 21: [D17]DBエンジニアのための最新HW講座 by Masaya Ishikawa

23

0%

20%

40%

60%

80%

100%

1 2 3 4 5

系列1

系列2

系列3

系列4

最大速度を100として、

速度劣化時の速度の割

合。

SSD製品別 速度劣化率 2012

Copyright © 2012 Insight Technology, Inc. All Rights Reserved.

Page 22: [D17]DBエンジニアのための最新HW講座 by Masaya Ishikawa

DBの典型的なIOサイズ

• Oracleo Sequential Read – block size 4KB, 8KB,… の Random Read

o Scattered Read – block size x multiblock_read_count = 128KB, 256KB … の Sequential Read

o Direct Path Read – Scattered Readと同じ

• SQL Servero Clustered Index Seek – block size 8KB の Random Read

o Clustered Index Scan – extent size 64KB の Sequential Read

o 起動オプション設定などの調整で 最大512KB まで可能

• Vectorwiseo スペック上は 1MB、実測値は 512KB? の Sequential Read

• Filesystemo 512B ~

Copyright © 2013 Insight Technology, Inc. All Rights Reserved. 25

Page 23: [D17]DBエンジニアのための最新HW講座 by Masaya Ishikawa

カタログ・スペックに騙されるな

• Th. R/W 500MB/500MB (大体はIOサイズ128KB~の性能)

• IOPS R/W 2万~7万 (大体はIOサイズ4KB の性能)

中には 512Bの性能を載せている製品もあるので注意

• 前のチャートで見たとおり製品により特性が異なるので4Kの性能から 8Kの性能は推測できない。

• 自分の使用するDBのIOサイズを見極めて、そのサイズの性能値をメーカーに聞くべきである。

• これらの値は、(大体は) FOB(Fresh Out of Box)の性能と思え。なので、Steady (Sustained) Performanceを聞け。(心あるメーカーは Steady Performanceを載せている。)

• だめなら検証するしか無い

Copyright © 2013 Insight Technology, Inc. All Rights Reserved. 26

Page 24: [D17]DBエンジニアのための最新HW講座 by Masaya Ishikawa

SSD本体以外の考慮点アライメント

Copyright © 2013 Insight Technology, Inc. All Rights Reserved. 27

http://www.smartstoragesys.com/pdfs/AN001_Benchmarking_and_Performance.pdf

• NAND Flush Memory Blocks• RAID Stripe Size, Chunk Size• Partition Alignment• FileSystem Blocksize• DB Blocksize

Page 25: [D17]DBエンジニアのための最新HW講座 by Masaya Ishikawa

• IOスケジューラ (Linux)o HDDの場合は cfq

o SSDの場合は noop (or deadline)

• Kernel options, FileSystem Options, …

Copyright © 2013 Insight Technology, Inc. All Rights Reserved. 28

SSD本体以外の考慮点OS関連

Page 26: [D17]DBエンジニアのための最新HW講座 by Masaya Ishikawa

SSDの寿命を考える

Copyright © 2013 Insight Technology, Inc. All Rights Reserved. 29

Page 27: [D17]DBエンジニアのための最新HW講座 by Masaya Ishikawa

SSDの寿命を考える

30

SSDの寿命とは?ビットエラーが多発したブロックを不良ブロックとして切り離し、予備

領域を使う。予備領域がなくなった時が寿命で、SSDはリードオンリー

またはアクセス不能!! になる。

MLCで3千回から5千回、eMLCで3万回、SLCで10万回が

NAND Flash Chipとしての書込み寿命(P/E 回数)

MLCは、このままではEnterpriseに使用できないので、

いかに寿命を延ばすかが、各社の技術!!

Enterprise向けSSDはS.M.A.R.T機能で寿命の予測が可能

Copyright © 2013 Insight Technology, Inc. All Rights Reserved.

Page 28: [D17]DBエンジニアのための最新HW講座 by Masaya Ishikawa

SSDの寿命を延ばすには

31

Ware Leveling

書込みを並列化させ、書込み速度の向上を図るとともに、

特定のチップに書込みが偏らないように調整する。

すべてのチップが同時に書込み寿命を迎えるのが理想的

予備領域 (Over Provisioning)

一般的なコンシューマー向けSSDの場合 Binary GiB(ギビバイト) (1024 ^ 3)

と Decimal GB (1000 ^ 3)の違いを利用している。

例えば 256GBの製品の場合 274.88GiB(256 x 1024 ^ 3) なので、その差

18.8GBが予備領域 (約 7%)

エンタープライズ向けの場合、25%程度を予備領域として確保している製品が

多い。製品によっては 40%~200%以上を予備領域としている製品もある。

Copyright © 2013 Insight Technology, Inc. All Rights Reserved.

Page 29: [D17]DBエンジニアのための最新HW講座 by Masaya Ishikawa

SSDの寿命を延ばすには

32

ECCエラー訂正

512byte毎に数ビット(1年前は 4~8bit)のエラーが訂正出来る。

Flashメモリのプロセスルールが微細になると、エラー発生率も上がるため、プ

ロセスルールが進化すると ECCの bit数も大きくする必要がある。

ECCで訂正できるビット数を増やすと、その分チップを長く使うことが出来る

ので、結果として寿命が延びる。

Fusion-ioの ioDriveは 512byteあたり 39bit

SandForce SF-2500は 512byteあたり 55bit

Copyright © 2013 Insight Technology, Inc. All Rights Reserved.

Page 30: [D17]DBエンジニアのための最新HW講座 by Masaya Ishikawa

寿命をスペックから読む

• WA – Write Amplification

WA =Flashに書き込まれたデータ量

Hostから書き込んだデータ量

通常1.1~10程度。圧縮機能付きコントローラの場合は 0.2 ~ 7.5アクセスメソッドやデータの種類などにより異なる。が、コントローラー(ファームウェア)の良し悪しが一番影響するところ。小さいほうが良い

• Sequential Access: WA値が小さいRandom Access: WA値が大きい

• 圧縮機能付きコントローラの場合、未圧縮データは WA値が小さい圧縮済みデータは WA値が大きい

Copyright © 2013 Insight Technology, Inc. All Rights Reserved. 33

Page 31: [D17]DBエンジニアのための最新HW講座 by Masaya Ishikawa

寿命をスペックから読む

• TBW – Total Byte Written 書き込み可能 総容量

TBW =Capacity 容量 ∗ (1 + 𝑂𝑃) ∗ PE可能回数

WA

𝑂𝑃 = 𝑂𝑣𝑒𝑟𝑃𝑟𝑜𝑣𝑖𝑠𝑖𝑜𝑛𝑖𝑛𝑔 =𝑃ℎ𝑦𝑠𝑖𝑐𝑎𝑙 Capacity

𝐿𝑜𝑔𝑖𝑐𝑎𝑙 𝐶𝑎𝑝𝑎𝑐𝑖𝑡𝑦− 1

• DWPD – Data Write per Day 1日に容量の何倍書き込みして、何年保証するか

DWPD =TBW

保証期間 日 ∗ Capacity(容量)=

1 + 𝑂𝑃 ∗ PE可能回数

WA ∗ 保証期間(日)

Copyright © 2013 Insight Technology, Inc. All Rights Reserved. 34

Page 32: [D17]DBエンジニアのための最新HW講座 by Masaya Ishikawa

SSD製品別 書き込み寿命

35

0

5

10

15

20

25

30

35

1 2 3 4 5

系列1

容量1GBあたり、何TB書き

込むと寿命になるか。

TB

10 DWPD/5y

Page 33: [D17]DBエンジニアのための最新HW講座 by Masaya Ishikawa

Flash製品を比較してみる

Copyright © 2013 Insight Technology, Inc. All Rights Reserved. 36

Page 34: [D17]DBエンジニアのための最新HW講座 by Masaya Ishikawa

Flash Vendors

37

SSDベンダーだけでも、全世界で 200社以上。

Enterprise向けだけでも、数十社。HDDと同様再編が進んでいる。

Flash Based StorageHP (3PAR), DELL, Hitachi Data Systems, Kaminario, NetApp(LSI), Nimbus Data, Pure Storage, Skyera, Tegile Systems, IBM(Texas Memory Systems),Violin Memory, Cisco(Whiptail), EMC(XtremIO)

PCIe FlashFusion-io, LSI, Intel, WD/HGST(STEC, Virident),Micron, OCZ, EMC

SAS/SATA SSDWD/HGST(STEC), Micron, OCZ, Samsung, Intel, ToshibaSanDisk(FlashSoft, Smart Storage Systems) …

Copyright © 2012 Insight Technology, Inc. All Rights Reserved.

Page 35: [D17]DBエンジニアのための最新HW講座 by Masaya Ishikawa

比較のポイント

• 機能o SPOF 有無

o 故障時の運用性 (ホットスワップ可否、自動リビルド など)

o ストレージとしての機能 (スナップショット、DR対応 など)

• 性能o Throughput

o IOPS

o Latency

o (消費電力)

Copyright © 2013 Insight Technology, Inc. All Rights Reserved. 38

Page 36: [D17]DBエンジニアのための最新HW講座 by Masaya Ishikawa

Copyright © 2013 Insight Technology, Inc. All Rights Reserved. 39

http://www.macnica.net/violinmemory/spec.html/?l3=&l4=&l5=&l6=&l7=&mi=5&ai=5

Page 37: [D17]DBエンジニアのための最新HW講座 by Masaya Ishikawa

Copyright © 2013 Insight Technology, Inc. All Rights Reserved. 40

http://www-06.ibm.com/systems/

jp/storage/products/flash/

820_720/specs.html

Page 38: [D17]DBエンジニアのための最新HW講座 by Masaya Ishikawa

Copyright © 2013 Insight Technology, Inc. All Rights Reserved. 41

http://www.fusionio.com/products/iodrive2/

Page 39: [D17]DBエンジニアのための最新HW講座 by Masaya Ishikawa

44

•エンタープライズ市場で使えるMLC SSDが多数。

•HDDと比較すると、台数削減が見込めるため、

HWコスト、スペースコスト、運用コスト、消費電力コスト

の削減が実現可能。性能向上による業務へのプラスのイン

パクトも考えるべき。

SSD まとめ

Copyright © 2013 Insight Technology, Inc. All Rights Reserved.

Page 40: [D17]DBエンジニアのための最新HW講座 by Masaya Ishikawa

45

•性能劣化は、ほとんどのSSDで発生する。

•どれ位劣化するかはカタログには書いていない !!!!

劣化の度合いは値段には比例しない !!!

• Steadyなパフォーマンスを教えてもらおう!

•寿命もWA値の設定次第でどうにでも見せられる。

•こちらも理論武装して、

WA値がいくつで計算した寿命なのか教えてもらおう!

•複数の製品を比較できる知識を養おう

•その他、性能を引き出すため、寿命を延ばすために、

正しい使い方を。

•困ったらインサイトテクノロジーに相談

SSD まとめ

Copyright © 2013 Insight Technology, Inc. All Rights Reserved.

Page 41: [D17]DBエンジニアのための最新HW講座 by Masaya Ishikawa