d21 dbts tokyo_2013_ssd

80
20131114ソルナック株式会社 基幹システム向けSSDとは SSDの基礎 ~ Enterprise SSD

Upload: insight-technology-inc

Post on 19-Jun-2015

3.547 views

Category:

Technology


2 download

TRANSCRIPT

Page 1: D21 dbts tokyo_2013_ssd

2013年11月14日ソルナック株式会社

基幹システム向けSSDとは

(SSDの基礎 ~ Enterprise SSD)

Page 2: D21 dbts tokyo_2013_ssd

2

本日の内容(一部)は後日、“db tech showcase”サイトに

て公開いたしますが、

なお公開資料には、 マークの付いた頁(ページ)は含まれておりません。

内容についてのご質問は、

本日: 16時までは会場内にて対応

明日以降: 弊社にメールにてお問い合わせください。E-mail: [email protected] (http://www.solnac.jp)

なおご質問への回答は、本日お話した内容に限らせていただきます。

はじめに(おことわり)

非配布

Page 3: D21 dbts tokyo_2013_ssd

3

商標および登録商標について

日経エレクトロニクスは、株式会社日経BPが発行する業界・技術専門誌です。

Intelは、米国およびその他の国におけるIntel Corporationの商標です。

Micronは、米国Micron Technology, Inc.およびその他の国における商標また

は登録商標です。

Samsungは、Samsung Electronics Co., Ltd.およびその他の国における商標ま

たは登録商標です。

東芝は、株式会社 東芝またはその子会社の商標または登録商標です。

その他、本文に記載の会社名、製品名はそれぞれの会社の商標もしくは登録商標です。

(順不同)

Page 4: D21 dbts tokyo_2013_ssd

4

弊社紹介

産業用ならびにエンタープライズ用SSD,産業用メモリモジュール販売

会社名

ソルナック株式会社

主な業務内容

HDD技術支援サービス(障害解析/選定評価/使用機器評価)

高信頼性HDD/HDD関連製品の提供

SSD評価サービス

電子機器設計・開発・製造,品質評価サービス

会社略歴

2001年11月 創業

2012年 株式会社MCJによる買収完了

所在地

〒530-0003 大阪市北区堂島1-1-25,TEL 06-4796-3233 (http://www.solnac.jp)その他

IDEMA Japan 会員 (日本HDD協会,http://www.idema.gr.jp/)

Page 5: D21 dbts tokyo_2013_ssd

5

HDD vs. SSD 比較非配布

Page 6: D21 dbts tokyo_2013_ssd

6

HDD vs. SSD 比較非配布

Page 7: D21 dbts tokyo_2013_ssd

7

目次

71頁・・・・Enterprise SSD vs. Client SSD (データ信頼性能)

39頁・・・・Enterprise SSD vs. Client SSD (評価すべき基準)

56頁・・・・Enterprise SSD vs. Client SSD (耐久性能)

SSD の正しい理解 ・・・・ 8頁

理解の低さが招いた災禍(データ保持能力) ・・・・ 35頁

Enterprise SSD vs. Client SSD (処理速度性能) ・・・・ 42頁

Page 8: D21 dbts tokyo_2013_ssd

SSDの正しい理解

(NAND基本原理~問題点)

Page 9: D21 dbts tokyo_2013_ssd

9

初に“クイズ”です!?

同一モデル(SSD)を、まったく同じ「環境 &処理負荷」

で使用した場合、以下のような数式が成立。

容量が2倍あれば、製品寿命は2倍になる。

上記のSSDが、データ信頼性(完全性)に対して特段の

機能を装備していない場合、以下のような数式が成立。

容量が2倍あれば、データ信頼性は「2分の1」倍になる。

回答は後ほど

Page 10: D21 dbts tokyo_2013_ssd

10

SSDは…

“夢のストレージ”ではありません!!特に保存(アーカイブ)用ストレージには向いていません。

あるエンタープライズ向けSSDメーカーのメッセージ

Your data will be there in the morning.

しかし弱点を理解した上で利用すれば、皆さんの悩みを解決する大きな武器に!!

そこで本日は時間の許す限り、お聴きになっているのがデータベース技術者であることを前提に、SSDを選択するにあたって 低限知っていただきたいことに絞ってお

話を進めます。

なお本セミナーでは現在市場で入手可能な、「NAND型メモリフラッシュ(※)」を記憶素子として搭載した、SSDを前提にご説明しています。

※ NAND(ナンド)とは「Not AND」の略で論理回路の一種で、この仕組みを採用しているフラッシュメモリがNAND型フラッシュメモリとなります。この資料においては以降、NANDと記述しています。

Page 11: D21 dbts tokyo_2013_ssd

11

SSD内部回路・基本構成

SSDの詳細構成は製品により異なりますが、大まかには以下の基本構成になっています。(Channel = Bank 複数個, Bank = Die 複数個)

SATA

I/F

NA

ND

CO

NTR

OLLER

HostI/O

MPU NAND I/F

NAND I/F

NAND I/F

NAND I/F

NANDNANDNANDNANDNANDNANDNAND(Die)

NAND(Die)

NANDNANDNANDNANDNANDNANDNAND(Die)

NAND(Die)

Cache

(DRAM )

※NAND I/F①Intel・Micron

ONFi②Samsung・東芝

Toggle DDR

NANDNANDNANDNANDNANDNANDNAND(Die)

NAND(Die)

NANDNANDNANDNANDNANDNANDNAND(Die)

NAND(Die)

SSD内部

Channel

Page 12: D21 dbts tokyo_2013_ssd

12

NAND 基本構造 1/2

Die(NANDチップ) = Plane 複数個

Plane = Block(ブロック)複数個

NANDチップ(Die)

Block Block Block Block Block Block Block Block Block Block Block Block Block Block Block

Block Block Block Block Block Block Block Block Block Block Block Block Block Block Block

Block Block Block Block Block Block Block Block Block Block Block Block Block Block Block

Block Block Block Block Block Block Block Block Block Block Block Block Block Block Block

Block Block Block Block Block Block Block Block Block Block Block Block Block Block Block

Block Block Block Block Block Block Block Block Block Block Block Block Block Block Block

NAND(Die)

NAND(Die)

Page 13: D21 dbts tokyo_2013_ssd

13

Blo

ck

NAND 基本構造 2/2

Block = Page(ページ) 複数個Page = 記憶素子複数個 = WL(Word Line)

記録素子が「碁盤の目」構造になっています。

Block(ブロック)

SGWLWLWLWLWLWLWLWLWLWLWLWLWLWLWL

BL

WLSG

SL SL

BL

BL

BL

BL

BL

Block=PagePage・・・

PagePagePagePage

Page 14: D21 dbts tokyo_2013_ssd

14

記憶素子(セル)処理 1/3

Write(Program)処理

コントロールゲート(浮遊ゲート)側への正電圧印加によりフローティングゲートに電子が流入。

フローティングゲートに流入した電子は、トンネル酸化膜によって、そのまま保持。

+ + +

- -

(データのWrite処理)

フローティングゲート

コントロールゲート

コントロールゲート電極(正電圧“18V”を印加)

(基板側)絶縁体(トンネル酸化膜)

Page 15: D21 dbts tokyo_2013_ssd

15

記憶素子(セル)処理 2/3

Erase(消去)処理

基盤側への正電圧印加により、フローティングゲートから電子が流出。

本書では消去処理のことを、DeleteではなくEraseを使用し、書き込み処理については、Program と Write を併用しています。理由としてはSSDやNANDに関する英文文献等に

おいて、併用されていることが多いためです。

フローティングゲート

コントロールゲート

- - -

コントロールゲート電極

(データのErase処理)

絶縁体(トンネル酸化膜)

(基板側)++

基盤側(正電圧“20V”印加)

Page 16: D21 dbts tokyo_2013_ssd

16

記憶素子(セル)処理 3/3

Read処理(SLCの場合)

ソース-ドレイン電極に電流を印加することで判別。

フローティングゲート側に電子が蓄えられている状態では、基板側の抵抗が高い状態であるため、より高い電圧で電流を流さないと基板側に電流が流れません。(上図)

フローティングゲート側に電子がない状態では、基板側の抵抗が低い状態であるため、低い電圧で基板側に電流が流れます。(下図)

(SLC: “1”)

(SLC: “0”)

- - -

(基板側)

- - -

(基板側)

ソース電極

ドレイン電極

ソース電極

ドレイン電極

Page 17: D21 dbts tokyo_2013_ssd

17

記憶素子(セル)特性 1/2

ちょっと大雑把な表現ですが….通常時は

電子を通さない「絶縁体」のおかげで、フローティングゲートの電子はそのまま維持されます。

Write処理時

上側から強い力で吸引されることで、通常は電子を通さない「絶縁体」を、電子が通過し、下側から上側に移動。

Erase処理時下側から強い力で吸引されることで、

「絶縁体」を電子が通過し、上側から下側に移動。

通常時

Write処理時 Erase処理時

フローティングゲート側

基板側

Page 18: D21 dbts tokyo_2013_ssd

18

記憶素子(セル)特性 2/2

書き換え可能回数

絶縁体(トンネル酸化膜)耐用回数書き換え耐性 (Write Endurance)

工場出荷時は

「絶縁体」は、フローティングゲートの電子を維持するのに十分な性能。

Write/Erase処理のたびに

絶縁体が傷つくと、吸引されなくても、フローティ

ングゲートの電子が漏れていくようになります。

また磨耗が更に進むと、絶縁体の様々な場所に、電子を溜め込んでしまう電荷トラップスペース(溜り空間)が発生。

なお書き換え可能回数は、英語では、Program & Erase cyclesと呼ばれるため、“P/E回数”と記載さ

れているものもあります。

工場出荷時

製品磨耗後

Page 19: D21 dbts tokyo_2013_ssd

19

Write/Read/Erase 各処理単位

NAND内部

SGWLWLWLWLWLWLWLWLWLWLWLWLWLWLWL

BL

WLSG

SL SL

BL

BL

BL

BL

BL

NANDは、記憶素子“1個単位”での処理はできません。

Write処理 = Page(ページ)単位 = Word Line x1Read処理 = Page(ページ)単位 = Word Line x1Erase処理 = Block(ブロック)単位 = Word Line x32~256

Page 20: D21 dbts tokyo_2013_ssd

20

NAND記憶素子は、上書きが出来ないので、Re-Write(修正)処理の場合、「Read – Modify – Write – Erase」処理で、一つの処理になります。

① 書き換え対象となるデータの存在する該当Blockを特定。

② Block全体を作業用メモリに読み込む。

③ 該当データをメモリ内で書き換える。

④ 未使用のBlockに書き込む。 (1回目)

⑤ 元Blockを消去する。(2回目) → 1回分消費

Read–Modify–Write–Erase 1/2

書換対象部分(書換前)

書換対象部分(書換後)

未使用部分

巻き添え書換部分

作業用メモリ

作業用メモリ

作業用メモリ

Page 21: D21 dbts tokyo_2013_ssd

21

前頁の処理方法は初期のSSDで実行されていた動きですが、毎回消去(Erase)処理を行っていると、処理速度性能が遅くなるので、現在販売されているSSDは、一般的に以下の動きになっています。

① 書き換え対象となるデータの存在する該当Blockを特定。

② 対象Pageを作業用メモリに読み込む。

③ 該当データをメモリ内で書き換える。

④ 未使用のBlockに修正データを書き込む。

⑤ 元Block内の元Pageを、「消去対象Page」に登録する。

Read–Modify–Write–(Erase) 2/2

書換対象部分(書換前)

書換対象部分(書換後)

未使用部分

書換対象外部分

作業用メモリ

作業用メモリ

作業用メモリ

消去処理対象Page部分

Page 22: D21 dbts tokyo_2013_ssd

22

ガベージコレクション &ハウスキーピング

前頁の「消去対象Page」は、このままでは再利

用できません。

よってこのような複数Blockに散乱している「消去対象Page」を、同一Block内に統合して消去

処理可能な状態にすることを、ガベージコレクション処理。

さらに対象BlockをErase処理することをハウス

キーピング処理といいます。

この一連の処理は、SSDにとっては、もっとも

時間的ペナルティが高く、負荷の重い処理であるため、古いSSDにおいては、しばしばフ

リーズ現象の原因になっていました。

MLC SLC速度 vs. Read 速度 vs. Read

Read 50μs - 25μs -

Write 900μs 18倍 650μs 26倍Erase 3ms 60倍 2ms 80倍(※某社 NAND製品場合)

ガベージコレクション処理

SSD(4 Block)

ファイルA(容量: 1.5 Block)

ファイルB(容量: 1.5 Block)

Write処理時

ファイルC(容量: 1 Block)

保存後の状態

使用可能領域創出

SSD(4 Block)

ファイルA(容量: 1.5 Block)

ファイルB(容量: 0.5 Block)

Write処理時

保存後の状態

ファイルCのみ削除

使用不可領域

使用不可領域

使用可能領域創出

ファイルBのみ修正

Page 23: D21 dbts tokyo_2013_ssd

23

多値化(NAND種別 SLC vs. MLC)

SLC = Single Level Cell MLC = Multi Level Cell LC (電圧の細やかな制御が必要。)

いずれもRead 処理は、基板側(ソース・ドレイン電極間)に電流を流し、Vth(threshold Voltage, 閾値電圧)を測定。

- - - - -

01 10 00

4.0V 5.0V1.0V 6.0V2.5V

- - - - - -

- - - -- - -- -

11

1 0SLC →

MLC →

+ + +

- -

Page 24: D21 dbts tokyo_2013_ssd

24

微細化(製造プロセス)

SSDの低価格化を実現する手段として多値化とは別に、微細化という手法があります。

微細化(製造プロセス微細化)とは、その名の通り、各記憶素子(NAND)を小さくして、単一面積あたりの記憶容量を増やす技術。

現在の主流製造技術。(NAND”19nm”,DRAM”25nm”)ただし今年に入り、NAND微細化限界説が本格化。

従 来 微細化

Page 25: D21 dbts tokyo_2013_ssd

25

多値化 & 微細化により…

多値化

NAND個数が減少(同一容量の場合、記憶素子

数が減少)

電子リークの影響を受けやすくなり、微妙な電圧制御に耐えられる書き換え可能回数が減少。

微細化

低下していく耐久性能(書き換え可能回数低下)

低下していく信頼性データ保持性能低下

ファイル破損,文字化け(信頼性低下)

多値化

微細化/多値化

微細化

1

0-

- --

-- --

- --

- --

- --

- -- -

- -- -

3

2

1

- -

- -

--

--

--

--

--

--

0

- -1

0

--

- - - --

- - - --

- - - --

- - - --

- - - --

- -

- - - --

- - - --

3

1

--

- - - --

- - - --

- - - --

- - - --

- - - --

- -

- - - --

- - - --

-0

2

Page 26: D21 dbts tokyo_2013_ssd

26

Tips: 多値化 & 微細化の影響非配布

Page 27: D21 dbts tokyo_2013_ssd

27

書き換え可能回数 &データ保持能力

書き換え可能回数(横軸)とデータ保持性能(縦軸)の関係

書き換え回数の増加に伴い、データ保持性能も低下

書き換え可能回数は、微細化に伴い低下傾向

保持期間

書き換え回数

3年間

2年間

1年間

1万回 2万回 3万回3千回

半年

1年間(データ保持性能)寿命満了時:

3万回(書き換え可能回数 )/ 3年間(データ保持性能)新品時:

MLC(2006年)

6ヶ月間(データ保持性能)寿命満了時:

3千回(書き換え可能回数 )/ 2年間(データ保持性能)新品時:

MLC(2012年)低下

Page 28: D21 dbts tokyo_2013_ssd

28

Tips: eMLC(HET) 非配布

Page 29: D21 dbts tokyo_2013_ssd

29

データ保持性能劣化

データ保持性能(Data Retention)とは

フローティングゲートに、保存(Write)された電子を、そのまま蓄えられ続けられる

能力。電子漏出(電子リーク)や電荷トラップにより破損。

データ保持性能は、以下の影響を受けます。NAND種別/微細化に伴い低下

多値化:閾値の設定数(SLC: 1個,MLC: 3個)

微細化: フローティングゲート内の電子量

ちなみに、1xnm台のプロセスで製造されたNANDにおいては、フローティングゲート内の電子数は、100個程度!!

書き換え回数絶縁体(トンネル酸化膜)の劣化に伴い、データ保持性能も低下

動作温度によっても低下

動作ストレス

書き換え間隔(Write処理頻度)

※主要参考資料: 東芝レビュー「 Vol.66 No.9(2011) 」(http://www.toshiba.co.jp/tech/review/2011/09/66_09pdf/a07.pdf)

Page 30: D21 dbts tokyo_2013_ssd

30

電子リークと電荷トラップ

電子は、動作・非動作,電源ON/OFFに関係なく、リーク(漏出)

し、電子量(電圧)が変化。

また絶縁体(トンネル酸化膜)が劣化していくと、電荷トラップ(電子を捕獲する欠陥)が増加するため、電子リーク速度が増加。

++++++++++++

--

--

-------------

--

---

コップの中の水が少しづつ蒸発して減っていくように、フローティングゲート内、および絶縁体(トンネル酸化膜)の電子が時間とともに漏れていきます。

絶縁体(トンネル酸化膜)の劣化に伴い、この膜の途中で留まる(トラップ)電子の量が増加していきます。

また絶縁体(トンネル酸化膜)に留まってしまった電子は、フローティングゲート内の電子より早く漏れていき、かつ、“しつこく”残ります。

NANDに保存された値を決めるのは、基板側に

存在する電子量。

Page 31: D21 dbts tokyo_2013_ssd

31

データ保持性能劣化 with 磨耗度

データ保持性能は、磨耗度に伴い低下。

未使用時(使用率 = 0%)

絶縁体には、まったく傷がない状態です。

製品寿命満了時(使用率 = 100%)

絶縁体が傷ついたことで、書き込まれた電子は直ぐに、“抜けて”行きます。

下表を一見すると、製品寿命満了時の保持能力は変わっていないように見えますが、書き換え可能回数が少なければ早く満了。

(製品寿命満了間際)

- - -

(未使用時)

絶縁体に問題なし

- - -

痛んだ絶縁体

2012年2006年(NAND製品傾向)

MLC製造プロセス 9xnm 19 – 2x

保持能力

0% 3 years ≧ 2 years100% 6months - 1year ≧ 6 months

Page 32: D21 dbts tokyo_2013_ssd

32

データ保持性能劣化 with 高温

電荷トラップ

書き換え回数が増えるほど、絶縁体(トンネル酸化膜)にトラップされる電子量が増加。

測定電圧は、「フローティングゲート+絶縁体」の電子量で決定。

高温環境下での電荷トラップ

トンネル酸化膜にトラップされる電子は高温ほど多くなる。

但しトラップされる場所は、高温ほど基板から遠い位置になる。

高温環境下のWrite処理時にトラップされた電子は、基板面側

から、より離れた領域(絶縁体内)にトラップされるため、基板面近くにトラップされた電子より、リーク開始時間は遅い。

高温環境下での電子リーク

ただし高温に起因した運動エネルギー活性化に伴い、電子リーク発生量は大きくなる。

Write時(初期)

++ + + + + + +

- - - - - - - -

- - - - - - - -

基板側

絶縁体(トンネル酸化膜)

高温Write時(磨耗後)

++ + + + + + +

- - - - - - - -

- - - - -

- - -

基板側

Page 33: D21 dbts tokyo_2013_ssd

33

動作ストレス耐性 1/2

Write Disturb隣接する素子へのWrite処理(電子

注入)が、処理対称でない素子にも影響。

MLCは不具合が顕在化しやすい。

(閾値が多い)

NAND微細化技術進展で顕在化

フローティングゲート内電子量低下

記憶素子間の距離低下

※上下の記憶素子が影響を受け、基板側の電子が、フローティングゲート側に移動。

+ + + +

- - -

- - - -

+ + + +

- - -

- - - -

+ + + +

- - -

- - - -

Word Line

書き込み(Write

)処理対象記憶素子

影響

影響

Page 34: D21 dbts tokyo_2013_ssd

34

動作ストレス耐性 2/2

Read DisturbRead処理とは、Read処理対称となった素子に対して、「Bit Line(前述参照)」を経由して電流を流し、電流の流れ具合(= 電圧)を測定することで

保存されている「データ値」を決定。

Read処理のために流れる電流によっても、「フローティングゲート」内の

電子量が変化。

MLCは不具合が顕在化しやすい。(閾値が多い)

NAND微細化技術進展で顕在化

フローティングゲート内電子量低下

記憶素子間の距離低下

- -

- - -

- - - - -

- - - - -

電流を流して流れ具合を測定

Page 35: D21 dbts tokyo_2013_ssd

理解の低さが招いた災禍

(データ保持能力への理解不足)

Page 36: D21 dbts tokyo_2013_ssd

36

データ保持能力への理解不足

電源ON/OFFに関係なく、データ破損は発生電子リークに電源ON/OFFは関係ない。

動作ストレス(Read/Write Disturb)により加速化。

Read処理対象でないファイルは、リフレッシュ処理も動作しないECC回路はRead処理時に動作。

この場合のリフレッシュ処理とは、エラービット数が一定の閾値を超えた場合に強制書き換えを行う機能

4.0V 5.0V1.0V 2.5V

10 01 00

★ ★ ★

MLC11

Page 37: D21 dbts tokyo_2013_ssd

37

避けられた災禍

起動専用デバイスとしてのSSD続発する“データ破損・消失”起動デバイスとしてのSSDを使用する場合は、データ保持能力に注視!!

障害発生事例OS(Windows)用起動デバイスとして使用

ある日突然、複数のシステムにて「Operating System not found」が発生。

すべて再フォーマット/再インストールで正常利用可能。

暫くすると再発。

OS(Linux)用起動デバイスとして使用

ある日突然、複数のシステムにて「Unexpected Inconsistency Error」が発生。

すべて再フォーマット/再インストールで正常利用可能。

暫くすると再発。

Data Retention(データ保持性能)& Read Disturb が原因

Page 38: D21 dbts tokyo_2013_ssd

3838

災禍の加速

書き換え回数(製品寿命)ばかりを気にして、対象製品のデータ保持能力を意識することなく、購入製品容量を増やすと、ファイル破損を誘発。

“MLC-SSD パラドックス”とも言われています。

製品寿命とデータ保持性能が反比例

ウェアレベリングのタイミング一般的には、Average Erase Countと、Maximum Erase Count の比較

電子漏出(リーク)によるビットエラー同一使用条件の場合、容量が大きいほど、「Read-only Data / Write-Once Data」は移動しにくく、電子漏出(リーク)

の影響を受けやすい。

ウェアレベリングによるリフレッシュ効果を期待するのであれば、製品容量は出来る限り小さいほうが望ましい。

ただしWrite処理が少ないシステムの場合は、ウェアレベリ

ングによるリフレッシュ効果は期待薄。

= Read-only Data, = Write Data

起動

起動

Page 39: D21 dbts tokyo_2013_ssd

Enterprise SSD vs. Client SSD

(評価すべき基準)

Page 40: D21 dbts tokyo_2013_ssd

40

まず 初に

SSD製造ベンダーのセールストークは別として、SSDを

基幹システムへ展開する場合、以下の観点での評価が必要

処理速度性能(Performance)定常状態(Steady State)での評価

処理速度性能の安定性

耐久性能(Endurance)製品保証満了時期と製品磨耗度とのバランス

データ信頼性(Data Integrity)データ信頼性(データ完全性)対策

Page 41: D21 dbts tokyo_2013_ssd

41

ちなみに…(2回目のクイズです)

前ページを絵に例えると、こんな感じになりそうですが… (どこか

のメーカーが書きそうな絵ですね)

今日のお話は、これとは微妙に違います。(回答は後ほど)

処理速度Performance

データ信頼性Data Integrity

耐久性能Endurance

Page 42: D21 dbts tokyo_2013_ssd

Enterprise SSD vs. Client SSD

(処理速度,Performance)

Page 43: D21 dbts tokyo_2013_ssd

43

Enterprise SSD vs. Client SSD

ベンチマーク試験は実施するにしても、正しい試験方法をご存知ですか?

5年間3年間製品保証

≤ 1 in 1016≤ 1 in 1015UBER(JEDEC規格)信頼性

“1”以上“1”未満(通常 0.1~0.4)耐久性能(DWPD)

短い・頻度でカバー比較的長いガベージコレクション処理時間

速度

Trimコマンド

ランダム転送, Read & Writeバースト転送,Read or Writeチューニング基準

処理速度,Latency時間性能

安価高価単価÷ TBW

安定性 > 瞬間速度性能瞬間速度性能 > 安定性

サポート必須ではないサポート必須

単価÷容量

EnterpriseClient項目

高価安価耐久性

Page 44: D21 dbts tokyo_2013_ssd

44

バースト vs. ランダム転送

Burst(バースト,高速)⇒転送速度

≒ Sequential/Sustained Sequential (連続的)

≒ Bandwidth(バンドウィズ,帯域幅)

Random(ランダム,無作為)

≒ IOPS(Input Output per Second) Sequential でない送信

Random領域がバラバラ

≒ 小さなファイル

Sequential連続領域

≒ 大きなファイル

SSD内部

HDDとSSDでは

意味合いが微妙に違います

I/F

MPU

Cache

I/F

I/F

NAND

NAND

I/F

NA

ND

Cont.

NAND

Sequential ではない

送信◆Read or Write 単独

比較的大きなファイルを使用

RandomSequential

Page 45: D21 dbts tokyo_2013_ssd

45

チューニングの違い & 処理速度

製品カタログ表記

Sequential(≒ Burst )= Read or Write 100% & 比較的大きなサイズ

IOPS(≒ Random)= Read or Write 100% & 比較的小さなサイズ

業務系データベースシステムの場合

バッチ: Read/Write比率 = 4:6~6:4混合,通常 4/8KByte 固定

オンライン: Read/Write比率 = 9:1~7:3混合,通常 4/8KByte 固定

Client Enterprise

バースト転送

ランダム転送

4548

3624

Latency

Page 46: D21 dbts tokyo_2013_ssd

46

SNIA: SSDベンチマーク仕様

SNIA(Storage Networking Industry Association)とは、SANやNASの普及を目

的とするストレージ関連ベンダーによって設立された世界 大の業界団体。

米国SNIA: http://www.snia.org/日本SNIA: http://www.snia-j.org/

SNIAによってSSDのベンチマーク試験方法を定義・公開しています。主なドキ

ュメントとしては以下のものがあります。

SNIA SSS性能試験仕様に基づくSSDパフォーマンスの把握(日本語翻訳)

http://www.snia-j.org/tech/WH/SSD_TEST/files/SSD_TEST.pdf

ベンチマーク仕様書

Enterprise SSD用とClient SSD用に別れています。

http://www.snia.org/tech_activities/standards/curr_standards/pts

ただしベンチーマーク試験とはSSDに限らず、接続先環境(例: ハードウェア仕様,OS等)によっても数値が大きく変化するため、結果を公表しているメーカは

存在しません。

Page 47: D21 dbts tokyo_2013_ssd

47

Enterprise vs. Client SSD with SNIA 非配布

Page 48: D21 dbts tokyo_2013_ssd

48

速度測定:定常状態

定常状態(Steady State)での処理速度を計測

オンライン・ガベージコレクション処理停止時間:数秒~数十秒

オンライン・コンパクション処理メモリ(SRAM/DRAM)領域のデフラグメンテーション処理停止時間:数百ミリ秒~数秒

処理性能測定はSteady State 状態での

測定が望ましい

Steady State状態が

判らない場合は低限

「製品容量分 x2」後の平均値測定を!!

Page 49: D21 dbts tokyo_2013_ssd

49

混合率(0%=Read 100%)

IOPS

速度測定: Read/Write処理混合

Write処理

全容量を使用してのWrite処理が遅くなる製品あり

Read/Write処理の混合

に弱い製品あり

業務系DBの場合

バッチ:

R/W比率 = 4:6~6:4混合

オンライン:

R/W比率 = 9:1~7:3混合

Page 50: D21 dbts tokyo_2013_ssd

50時間経過

消費電力が上下

高性能な“オンライン・リサイクル処理”を実行

ガベージコレクション処理

ハウスキーピング処理

Tips: 速度が低下しにくいSSD(例)

消費

電力

Page 51: D21 dbts tokyo_2013_ssd

51

速度安定性(Performance Stability) 非配布

Page 52: D21 dbts tokyo_2013_ssd

52

Trim & ガベージコレクション非配布

Page 53: D21 dbts tokyo_2013_ssd

53

同じ製品でも、容量によって速度が変わる可能性あり。

Tips: 同じ製品でも….

NANDNAND

NANDNAND

NANDNAND

NANDNAND

製品容量 32GB 製品容量 64GB

SATA

I/F

NA

ND

Controller

MPU

NAND I/F

Cache

NANDNANDNAND I/F

NAND I/F

NAND I/F

NAND I/F

NANDNAND

SSD内部

NAND I/F

NAND I/F

NAND I/F

NAND I/F

NAND I/F

NAND I/F

NAND I/F

NANDNAND

NANDNAND

NANDNAND

NANDNAND

NANDNAND

NANDNAND

NANDNAND

SATA

I/F

NA

ND

Controller

MPU

CacheNANDNAND

NANDNAND

NANDNAND

製品容量 64GB

SATA

I/F

NA

ND

Controller

MPU

NAND I/F

Cache

NANDNANDNAND I/F

NAND I/F

NAND I/F

NANDNAND

NANDNAND

NANDNAND

Page 54: D21 dbts tokyo_2013_ssd

54

Tips: SSD処理性能の不思議 1/2

SSDは、ホスト側からデータが送信されてくると、FTL(Flash Translation Layer)と呼ばれる回路で、ホスト側からの指定アドレス(論理アドレス,LBA - Logical Block Address-)を、各NAND内の適当な物理領域(物理アドレス,PBA - Physical Block Address-)に割り当て保存しています。

この割り当て(LBA-PBA変換)処理によって作成された「紐付け情報」を、一般にはマッピング情報と言い、情報が保存されたファイルを、L2P Table (Logical-to-physical table)と呼んで

います。

このマッピング情報は、新しいデータが保存されるたびに追加され、データが修正保存されると新しい領域(場所)が割り当てられるため更新され、データが消去されると該当する箇所も消去されます。

SSD

FTL(Flash Translation Layer)

ホスト側から「データ + LBA」が送信

・・・・

L2P

Page 55: D21 dbts tokyo_2013_ssd

55

Tips: SSD処理性能の不思議 2/2 非配布

Page 56: D21 dbts tokyo_2013_ssd

Enterprise SSD vs. Client SSD

(耐久性能,Endurance)

Page 57: D21 dbts tokyo_2013_ssd

57

Enterprise SSD vs. Client SSD

安物買いの銭失い!! になっていませんか?TBWやDWPDってご存知ですか?

5年間3年間製品保証

≤ 1 in 1016≤ 1 in 1015UBER(JEDEC規格)信頼性

“1”以上“1”未満(通常 0.1~0.4)耐久性能(DWPD)

短い・頻度でカバー比較的長いガベージコレクション処理時間

速度

Trimコマンド

ランダム転送, Read & Writeバースト転送,Read or Writeチューニング基準

処理速度,Latency時間性能

安価高価単価÷ TBW

安定性 > 瞬間速度性能瞬間速度性能 > 安定性

サポート必須ではないサポート必須

単価÷容量

EnterpriseClient項目

高価安価耐久性

Page 58: D21 dbts tokyo_2013_ssd

58

製品保証 vs. 製品寿命

SSDの“製品保証”たとえば製品保証が5年間と記載されていても、

内容的には、「限定的5年間製品保証」であり、Write処理量が多く、5年間以内に「製品寿命が満了(Wear-out)」した場合

は、製品保証の対象にはなりません。

パソコン等に組み込まれているSSDを除き、・・・・そういった場合は、パソコン等の製品保証が優先(多分..)・・・・ SSD単体では販売され

ている場合は、上記の限定保証になります。

ただしSSDメーカとしては、一般的な使用内容で、上記の「製品寿命が

満了」するようなことにはならないと考えています。

逆に、この“制限条項”を明記していないSSDは信用できない?!

Page 59: D21 dbts tokyo_2013_ssd

59

Tips: “MTBF”は関係なし!!

MTBF(Mean Time Between Failure)とは

対象製品が故障するまでの時間の平均故障間隔値。

使用を開始して、あるいは故障から回復してから、次に故障するまでの平均時間。

SSD(NAND)の磨耗は故障ではありません!!

稼動

故障

10時間

50時間 60時間 40時間

20時間

MTBF = 稼働時間の合計

=50 + 60 + 40

= 50時間稼動回数 3回

Page 60: D21 dbts tokyo_2013_ssd

60

リアルな“製品寿命”

現実は計算困難。

影響要素①(ユーザ要素)a. アプリケーション特性(1日の書き換えファイル容量・数)

b. 設置環境(温度等)

影響要素②(製品仕様/特性)c. 書き換え倍率(Write Amplification)d. ウェレベリング(Wear Leveling)効率

耐久性能(製品寿命) =SSD全体”書き換え可能回数“÷ 平均書き換え回数(日)

Page 61: D21 dbts tokyo_2013_ssd

61

製品寿命指標

SSD製品寿命に関する業界標準基準JEDEC(JEDEC Solid State Technology Association,半導体技術協会)により、2010年9月に公開。(仕様書番号 JESD218A)

製品寿命を“TBW(Tera-byte Written)”という数値で表現。

定義された試験環境/試験方法/負荷において、対象となるSSDが、製品寿命満了までに、何TBのデータを書き込めるかを数値で表現。

SSDを二つのカテゴリーに分類

Enterpriseクラス(サーバ用途),Clientクラス(PC用途)

製品カタログ等での表記TBW(Tera Bytes Written)」が記述されている場合と、 近はTBWに基づいた「DWPD(Drive Write Per Day)」、あるいは「Random drive writes/day」が記述されている場合があります。

※参考資料: JEDEC “JESD218A”(http://www.jedec.org/)

Page 62: D21 dbts tokyo_2013_ssd

62

TBW(Tera Byte Written)計算方法

上記の計算式から

製品寿命(耐久性能)を「書き換え可能容量」として算出。

同一モデル製品であれば、“製品容量”に比例。

但し、後述記載の条件を満たしていること。

動作環境,データ保存条件,SSD製品としての故障率,データ破損率。

TBW =Capacity (容量)× Program/Erase可能回数

Write Amplification (書き換え倍率)× 1000(GB換算)

Page 63: D21 dbts tokyo_2013_ssd

63

TBWの検証条件

諸条件について動作環境: Enterpriseクラスは連続稼動(速度は関係ない)

FER(Functional Failure Requirement)を満たしていること

故障したSSDの割合。テストには、31台以上の試験結果の提出が必須。

試験終了後: 以下の条件を満たすこと電源Off/一定温度/一定期間保存し、UBER(Uncorrectable Bit Error Rate)を満たし

ていること。

ECC補正後の読み込み時のデータエラー数を、読み込んだ総ビット数で割った率。

常温付近では、7℃の温度上昇で「約2倍のリーク電流」があるとの研究結果あり。

異なる合格条件

要注意

(二つのクラス)

※参考資料: JEDEC “JESD218” (http://www.jedec.org/)

製品クラス 動作環境 データ保存(電源Off) FER UBER

Client 40℃ (8時間/日) 30℃,1年間 ≤ 3% ≤ 10-15

Enterprise 55℃ (24時間/日) 40℃,3ヶ月 ≤ 3% ≤ 10-16

Page 64: D21 dbts tokyo_2013_ssd

64

ただしクラスの違い以外にも

1. 同一モデル製品であれば、“製品容量”に比例。

2倍の製品容量 = 2倍のTBW

2. JESD218規格には、ベンチマークで使用するファイルサイズ/種別についての規定がない。

ベンチマークで使用するファイルサイズが、対象となるSSD(NAND)のPageサイズやBlockサイズに一致すると好結果になる。

Write Amplification 値が低下

ファイルサイズは、 Enterprise向けのみ別規格(仕様書番号 JESD219)で規定しているが使用義務はなし。

TBWの問題でも..

参考にはなります

Page 65: D21 dbts tokyo_2013_ssd

65

DWPD (Full Drive Write Per Day)

TBWが保存可能総量を、単純に数値化しているのに

対してDWPDは、製品容量と製品保証期間を加味。

容量に関係なく、耐久性能を相対比を提示する試み

例えば、「x10 DWPD」と記載されている場合は、

製品容量に対して、10倍のデータを保存し続けても、製品

保証期間中は使用可能であることを示しています。

Page 66: D21 dbts tokyo_2013_ssd

66

DWPD計算方法 & 注意事項

DWPD計算式

製品保証期間中、毎日、製品容量に対して、“何倍”のデータ保存可能かを示す。

注意事項

よって同じTBWでも保証期間によって、数値は変わります。

DWPD =TBW(書き換え可能容量)

製品容量(ユーザ容量)×製品保証期間(365日×製品保証年数)

TBW 製品容量 製品保証 DWPD

XXX3000 TBW 240 GB 5年間 6.8

DWPD = 3000TBW ÷ 240GB ÷ 365日÷ 5年間≒ 6.84….

YYY3000 TBW 240 GB 3年間 11.4

DWPD = 3000TBW ÷ 240GB ÷ 365日÷ 3年間≒ 11.41….

Page 67: D21 dbts tokyo_2013_ssd

67

Tips: 耐久性能をアップさせる方法

余剰領域(Over-Provisioned Capacity)の設定

予備領域(Spare Capacity/Area)とは考え方が異なる

一般的SSDは、2進法表示(Binary Gigabytes)と、IDEMA標準容量の“差”を、予備領域(交替領域)用として使用。

余剰領域は以下の効果を狙ったもの(ただし物理上は同じ)

設定効果

Write Amplification 向上

ガベージコレクション効率向上

速度向上(速度劣化防止)

製品寿命延伸

余剰領域 & WA (関係例)

参考論文IBM Zurich Research LaboratoryWrite Amplification Analysis in Flash-Based Solid State Drives

Page 68: D21 dbts tokyo_2013_ssd

68

Tips: 廉価なSSDの場合非配布

Page 69: D21 dbts tokyo_2013_ssd

69

Tips: 余剰領域の影響例非配布

Page 70: D21 dbts tokyo_2013_ssd

70

NAND特性 & SSD速度性能劣化書き換え回数の増加に伴い、絶縁体が劣化すると、Write速度が速くなる。

書き込み回数の増加に伴い、絶縁体が劣化すると、Erase速度が遅くなる。

Erase処理が、 も時間的ペナルティが高い。

SSD速度性能劣化

+++++++++++++

--

--

-------------

--

---

MLC SLC速度 vs. Read 速度 vs. Read

Read 50μs - 25μs -

Write 900μs 18倍 650μs 26倍Erase 3ms 60倍 2ms 80倍(※某社 NAND製品場合)

耐久性能が高いSSDは、速度性能劣化が遅い!!

Page 71: D21 dbts tokyo_2013_ssd

Enterprise SSD vs. Client SSD

(データ信頼性,Data Integrity)

Page 72: D21 dbts tokyo_2013_ssd

72

Enterprise SSD vs. Client SSD

RAID構成等で複数のSSDを搭載する場合、データ信頼性って結構重要です!!

5年間3年間製品保証

≤ 1 in 1016≤ 1 in 1015UBER(JEDEC規格)信頼性

“1”以上“1”未満(通常 0.1~0.4)耐久性能(DWPD)

短い・頻度でカバー比較的長いガベージコレクション処理時間

速度

Trimコマンド

ランダム転送, Read & Writeバースト転送,Read or Writeチューニング基準

処理速度,Latency時間性能

安価高価単価÷ TBW

安定性 > 瞬間速度性能瞬間速度性能 > 安定性

サポート必須ではないサポート必須

単価÷容量

EnterpriseClient項目

高価安価耐久性

Page 73: D21 dbts tokyo_2013_ssd

73

まず信頼性といえば、ECCですが… 非配布

Page 74: D21 dbts tokyo_2013_ssd

74

データ信頼性指標 “UBER”

データ信頼性は、UBER(Uncorrectable Bit Error Rate)で表されます。

UBERとは、ECC回路による補正後、読み込み時のデータエラー数を、読み込

んだ総ビット数で割った率。

下記の表を一見すると、Client SSDでも充分な気がしますが、あくまで下記の値は、1台分の数値です。RAID等で複数台使用すれば、倍数になります。

でもRAIDコントローラが修復しているから大丈夫・・・・??

Readエラー発生率

1回/約12,500TB

1回/約1,250TB

1回/約125TB1回/約12TB

容量

1回/約868時間EnterpriseSATA EnterpriseSAS/FC (7200rpm)

10-16

1回/約87時間ClientSATA Desktop,Enterprise10-15

SSD(JDEC)

SAS/FC

SATA DesktopHDD “400MByte/s”

1回/約8,681時間

1回/約9時間

10-17

10-14

USER

Page 75: D21 dbts tokyo_2013_ssd

75

JEDEC規格UBERは、 後に書かれたデータのエラー

発生率同じクラスであれば、データ信頼性を比較する相対値としては利用可能。(決して製品の絶対値ではない!!)ただしWrite Disturb等により、テスト過程で発生したエラー発生は考慮さ

れていない。

つまり実際のエラー発生率はもっと高い!!実際の発生率は判りません!! →カタログ値ぐらい高いものを!!

JEDEC規格UBERの注意点

製品クラス 動作環境 データ保存(電源Off) FER UBER

Client 40℃ (8時間/日) 30℃,1年間 ≤ 3% ≤ 10-15

Enterprise 55℃ (24時間/日) 40℃,3ヶ月 ≤ 3% ≤ 10-16

Page 76: D21 dbts tokyo_2013_ssd

76

現実のエラー発生頻度は想像より高い!!

さらにSSDはHDDと違って、SSD全体

が読めなくなることがある。

SSD内部は並列I/Oつまり、RAID0(スト

ライピング)で速度向上しています。

よって1個のチップに問題が出ただけで、

“全損”の可能性があります。

よって低い信頼性のSSDを使ってしまうと速度低下の元に!!

信頼性 = 速度維持に貢献

NAND I/F

NANDNAND

SSD内部

NAND I/F

NAND I/F

NAND I/F

NAND I/F

NAND I/F

NAND I/F

NAND I/F

NANDNAND

NANDNAND

NANDNAND

NANDNAND

NANDNAND

NANDNAND

NANDNAND

I/F

NA

ND

Controller

MPU

Cache

Page 77: D21 dbts tokyo_2013_ssd

77

Tips: Full‐data‐path protection

Full‐data‐path protection 機能があれば..できる限り早い段階で誤りを見つけ再送処理できれば、より速度低下は低く抑えられる。

車の渋滞メカニズムと同じ

交通量が多いほど僅かな遅延が、大きな渋滞を発生。

SSD内部

CPURAIDCPURAID

CRCor ECCGeneration

I/F

CRC or ECCcheck

NANDI/F

NANDI/F NANDNAND

NANDNAND

CRC or ECCcheck

CRC or ECCGeneration

NA

ND

Cont.

CacheCable

Page 78: D21 dbts tokyo_2013_ssd

78

まとめ(2番目のクイズの回答です)

SSD導入の1番の理由は何でしょうか?ご導入のSSDに対して、安定的かつ長期間にわたって高速

処理性能を期待されるのであれば...

Client SSD

処理速度

データ信頼性耐久性能

処理速度

データ信頼性耐久性能

Enterprise SSD

処理速度

耐久性能

信頼性能

処理速度

耐久性能

信頼性能

Page 79: D21 dbts tokyo_2013_ssd

79

後に

長時間のご清聴、まことに有難うございました。本書は内容について万全を期して作成いたしましたが、万一ご不審な点や誤り、記載もれなどお気付きのことがありましたらご連絡頂ければ幸いです。

ご質問については本日: 16時までは会場内にて対応

明日以降: 弊社にメールでお問い合わせください。E-mail: [email protected] (http://www.solnac.jp)

なおご質問への対応は、本日お話した内容に限らせていただきます。

Page 80: D21 dbts tokyo_2013_ssd

80

誠実

H o n e s t y

ソルナック株式会社は日本の製造業を強力にサポートします。

http://www.solnac.jp