fast track data warehouse reference guide for...

Fast Track Data Warehouse Reference Guide for SQL Server 2012

SQL Server 2012 Fast Track Data Warehouse リファレンスガイド

SQL Server 技術記事

執筆者: Eric Kraemer、Mike Bassett、Eric Lemoine、Dave Withers

技術校閲者: Claude Lorenson、Susan Price、Ralph Kemperdick、Henk van der Valk、Alexi Khalyako、Oliver Chiu

発行日: 2012 年 3 月

適用対象: SQL Server 2012

概要: このホワイトペーパーでは、Fast Track Data Warehouse と呼ばれるリファレンス構成モデルについて詳しく説明します。このモデルでは、リソースのバランスに重点を置いた手法を使用し、対称型マルチプロセッサ (SMP) ベースの SQL Server データベースシステムアーキテクチャを導入することで、データウェアハウスのワークロードに対して高いパフォーマンスとスケーラビリティを発揮することが知られています。Fast Track Data Warehouse のリファレンスアーキテクチャの目的は、SQL Server のデータ処理能力とコンポーネントハードウェアの実効スループットの間でバランスを取りながら、効率的にリソースを配分することです。

著作権

このドキュメントは現状有姿で提供されます。このドキュメントに記載されている情報や見解 (URL 等のインターネット Web サイトに関する情報を含む) は、将来予告なしに変更されることがあります。お客様は、その使用に関するリスクを負うものとします。

このドキュメントは、Microsoft 製品の無体財産権に関する法的な権利をお客さまに許諾するものではありません。内部的な参照目的に限り、このドキュメントを複製して使用することができます。

© 2012 Microsoft. All rights reserved.

目次FTDW の変更履歴6概要6対象読者6Fast Track Data Warehouse6Fast Track7なぜ FTDW か7手法7総合的なコンポーネントアーキテクチャ7ワークロードに合わせて最適化された手法8検証済みの SQL Server Fast Track リファレンス構成9概要9FTDW のワークロード9データウェアハウスのワークロードパターン9ワークロードの評価10データウェアハウスのワークロードの定性的な特性12FTDW リファレンス構成の選択13方法 1: 基本評価14手順 1: 顧客のユースケースを評価する14手順 2: 公開 FTDW リファレンスアーキテクチャを選ぶ15方法 2: 完全評価15プロセスの概要15手順 1: 顧客のユースケースを評価する16手順 2: 評価のメトリックを決定する16手順 3: Fast Track Data Warehouse リファレンスアーキテクチャを選択する17方法 3: ユーザー定義のリファレンスアーキテクチャ18手順 1: ワークロードを定義する18手順 2: コンポーネントアーキテクチャのベンチマークを測定する18FTRA 選択のまとめ19FTDW の標準構成19ハードウェアコンポーネントアーキテクチャ19コンポーネントの要件と構成20アプリケーション構成22Windows Server 2008 R222SQL Server 2012 Enterprise23ストレージシステム24FTDW における SQL Server のベストプラクティス29データアーキテクチャ30テーブルの構造30テーブルのパーティション分割31インデックス作成31xVelocity インメモリ列ストアインデックス32データベースの統計34圧縮35データの断片化の管理35ファイルシステムの断片化35複数のファイルグループ38データの読み込み38増分読み込み38データの移行41ベンチマークと検証43ベースライン FTDW 検証の実行44SQLIO を使用したベースラインのテスト45Fast Track データベースベンチマークの実行48MCR の計算49BCR の計算50公開 FTDW リファレンスアーキテクチャ53結論53付録55FTDW システムサイジングツール55ユーザー定義の FTRA の検証55架空 I/O テスト55SQLIO を使用したテストファイルの生成55ワークロードのテスト58サーバーの MCR の測定 (省略可能)58ワークロードの BCR の測定59クエリの消費率に影響する要因63

FTDW の変更履歴

次の表は、『Fast Track Data Warehouse リファレンスガイド』の過去のバージョンからの主な変更点をまとめた履歴の一覧です。

説明

バージョン

注

場所

SQL Server 2012 で新たに追加

4.0

SQL Server のベストプラクティスに関連した他のドキュメントへのリンク

重要


4.0

ベンチマークと検証

注意


4.0

メモリ要件

RAM


4.0

xVelocity メモリ最適化列ストアインデックス

列ストアインデックス


4.0

ソリッドステートストレージ



4.0

検証と列ストアインデックス

検証


4.0

ベースライン I/O の検証

SQLIO

表 1: 変更履歴

概要

このドキュメントでは、SQL Server Fast Track Data Warehouse (FTDW) プログラムのコンポーネントアーキテクチャと操作方法について解説します。最終的には、データウェアハウスのさまざまなワークロードに対応するベースラインレベルのパフォーマンスを、運用開始時点で達成し維持するために必要な、Microsoft SQL Server データベースシステムの最小アーキテクチャ (ソフトウェアとハードウェアを含む) について検証します。

対象読者

このドキュメントの対象読者は、IT プランナー、設計担当者、DBA、ビジネスインテリジェンス (BI) ユーザーです。FTDW に適合した SQL Server のワークロードに対応する、実績ある標準的なシステムアーキテクチャの導入に関心のある方を想定しています。

Fast Track Data Warehouse

SQL Server Fast Track Data Warehouse プログラムは、データウェアハウスのワークロードに対応するために、ハードウェアとデータベースをバランスよく導入する基本的な手法と具体例を示します。詳細については、このドキュメントの「FTDW のワークロード」のセクションを参照してください。

バランスは、SQL Server の主要なシステムコンポーネント (ストレージ、サーバー、ストレージネットワーク、データベース、オペレーティングシステム) に対する 1 つの基準です。これらのコンポーネントをそれぞれ調整することで、最適な構成を目指します。目標は、運用を開始した時点で、SQL Server のデータ処理能力とハードウェアコンポーネントリソースが効率よく機能するバランスを達成することです。理想とされるのは、データウェアハウスのワークロードに求められるストレージ容量とパフォーマンスを、最低限のシステムハードウェアで実現する構成です。

Fast Track

SQL Server Fast Track ブランドは、FTDW リファレンスアーキテクチャ (FTRA) の原則に適合したコンポーネントハードウェア構成に与えられます。それぞれの FTRA には、主要な構成、検証、およびデータベースのベストプラクティスガイドラインとワークロードが定められています。Fast Track プログラムを構成する基本原則を次に示します。

· ワークロード固有のベンチマーク。システムの設計と構成は、実際の同時実行クエリのワークロードを基準に行います。

· ハードウェアコンポーネントの細部にわたる検証済みの仕様。

· データベースの機能と主要ハードウェアリソースの関係における、コンポーネントアーキテクチャのバランス。

なぜ FTDW か

FTDW が顧客にもたらす高い価値は、以下の原則によって支えられています。

· 主要なシステムコンポーネントの全体的なバランスをあらかじめ決める。これによって、CPU やストレージリソースが浪費されるリスクが最小限に抑えられます。このようなことは、アプリケーションレベルでは決して実現できません。

· 運用開始時点で予測可能なパフォーマンスを実現する。選択されたサーバーやワークロードに合わせて、SQL Server アプリケーションの機能に適合するような処理能力で Fast Track が事前に構成されます。

· ワークロード本位である。FTDW は、データベース構成に汎用的に対応するのではなく、データウェアハウスのユースケースに合わせて調整されます。

手法総合的なコンポーネントアーキテクチャ

SQL Server FTDW リファレンスアーキテクチャは、データベースシステムアーキテクチャの主要コンポーネント間の複雑な関係に最適なバランスを確保するための実用的なフレームワークです。図 1 に示したのは、通称スタックと呼ばれるコンポーネントアーキテクチャです。

図 1: Fast Track データベースコンポーネントアーキテクチャの例

スタックのコンポーネントはそれぞれ、SQL Server 内でデータを処理するために必要な一連の過程を分担しています。統合されたシステムとしてスタックを評価することで、各コンポーネントの実際の帯域幅を判断するベンチマークを作成できます。これを利用して、所定のスタックに関して、SQL Server アプリケーションの機能に十分対応できるスループットを個々のコンポーネントで提供することができます。

ワークロードに合わせて最適化された手法

データベースアプリケーションのワークロードが変われば、最適なリソースバランスを得るために必要となるコンポーネントアーキテクチャも大きく変わる場合もあります。その典型的な例が、要求の規模が小さいルックアップベースのオンライントランザクション処理 (OLTP) のワークロードと、スキャンを多用し要求が大量に発生する分析データウェアハウスとの違いです。OLTP のユースケースでは、少数の行をデータセットから短い待機時間で取得するために、インデックスの構築が頻繁に発生します。多くの場合、このデータセットには履歴データボリュームがほとんど存在しません。この種のデータベース操作はディスクヘッドの移動が激しく、典型的なランダム I/O のスキャンパターンを発生させます。データウェアハウスなどの分析関連のユースケースでは、OLTP に比べてはるかに多くのデータ要求が発生する可能性があり、シーケンシャルなディスクスキャンの合計スループットを向上することができれば、大きなメリットが期待できます。

この対照的なユースケースでは、バランスのとれたコンポーネントスタックを実現することが重要になります。最新の SAS ディスクドライブの平均的なディスク単位のランダム I/O スキャン速度は、同一ハードウェアのシーケンシャルなスキャン速度の 10 分の 1 にとどまる場合があります。従来は 1 秒あたりの操作の回数 (IOPS) が重視されがちでしたが、Fast Track データウェアハウスのワークロードで重視されるのは、高い I/O スキャン速度 (MB/秒) を安定して達成することです。

ワークロードがまったく異なるという問題は、ユーザーのワークロードの特性を明確に把握することで解決します。SQL Server Fast Track のワークロードによって、一般的なデータベースアプリケーションのユースケースを個別に定義する、性質を表す複数の属性が構成されます。また、各ワークロードは、標準的なベンチマーククエリを含む量的な尺度によって表されます。ワークロード別のベンチマークを使用して、データベース構成、ベストプラクティス、および推奨コンポーネントハードウェアを検証します。

検証済みの SQL Server Fast Track リファレンス構成

すべての公開 Fast Track リファレンスアーキテクチャは、このリファレンスガイドに記載された一連の原則とガイドラインへの適合が確認されています。そのプロセスについては、このドキュメントの中でいくつかの例を紹介しています。

概要

このリファレンスガイドで取り上げる SQL Server FTDW の仕様では、ワークロードを基準にコンポーネントのバランスが調整されています。この仕様の背景には、汎用的なプロビジョニングはデータベースの多様なユースケースに向かず、コストも大きくなる場合があるという認識があります。ビジネス要件が複雑化し、データボリュームが急増する中で、より現実的な手法が求められています。このドキュメントでは、基本となるリファレンスアーキテクチャ、ハードウェアコンポーネントおよびソフトウェアコンポーネントのベンチマーク、そして対象を明確に定めたワークロードを組み合わせて説明し、バランスのとれたコンポーネントアーキテクチャを達成するための現実的な手法を紹介します。

FTDW のワークロードデータウェアハウスのワークロードパターン

通常、データウェアハウスが受け付けたクエリを処理するには、大量のデータにアクセスする必要があります。データウェアハウスは、さまざまな利用者 (財務部門、マーケティング、事業部門、リサーチチームなど) からの多様なクエリに対応することが求められます。

これまでは、従来のデータウェアハウスシステムの限界を克服するために、インデックスの構築、データの事前集計、低レベルのデータに対するアクセスの制限などの従来型の RDBMS 最適化手法に頼ってきました。こうした手法はメンテナンスの負荷が大きく、十分な保守時間帯を確保しても時間が足りなくなることが少なくありません。データウェアハウスが膨張し、利用者が急増すると、このようなユースケースに特化した最適化が困難になります。特に、後からデータが追加されたり訂正されたりする場合、その傾向が顕著になります。

この問題に対処するためによく行われるのは、単純にドライブを増やすという対策です。スキャン中心のワークロードにシーク中心の I/O インフラストラクチャを割り当てることで生じた I/O パフォーマンスの問題を解決するために、比較的小規模のデータウェアハウスを数百台のディスクでまかなっているケースも少なくありません。このようなケースが多いのは、従来からシーク中心で最適化されることの多い大規模共有ストレージエリアネットワーク (SAN) 環境です。多くのストレージ I/O で基準となっているパターンや手法の多くではランダム I/O アクセスが推奨されていますが、スキャンの比重が大きいデータウェアハウスのワークロードに対しては、ディスクの待機時間が増加し、ストレージサブシステムの全体的なスループットが低下します。

Fast Track Data Warehouse は、それとは異なる方法でデータウェアハウスのワークロードに対する最適化を実現します。シークではなく、効率的なディスクスキャンアクセスに合わせてデータベースファイルとデータベース構成を調整することで、個々のディスクのパフォーマンスを何倍も向上させることができます。その結果、ディスクあたりのパフォーマンスが向上し、SQL Server で特定のワークロードのデータを処理するために必要な I/O スループットを少数のディスクで十分に確保できます。さらに、ディスクシークを改善するために使用されるインデックスベースの最適化手法も、一部は使用せずに済みます。

ワークロードの評価

FTDW ベースのシステムのワークロードを分析する際は、このドキュメントで取り上げているベストプラクティスやシステム構成に準拠することを考慮してください。データウェアハウスの要件は顧客によって異なります。FTDW ベースで設計されたシステムに、特定の要件 (データベースレプリケーションなど) が適合しない場合もあります。このタイプのワークロード評価の主要な基準を以下に示します。

スキャン中心

データウェアハウスのワークロードに伴うクエリは、大量の行を頻繁にスキャンします。そのため、ディスクのシークタイムを重視する従来のワークロードと比べ、ディスクスキャンのパフォーマンスに対する優先度が高くなります。FTDW リファレンスアーキテクチャは、ディスクスキャンのパフォーマンスを最優先に、ハードウェアコンポーネントとデータベースソフトウェアコンポーネントを最適化します。それにより、シーケンシャルなディスク読み取りの効率が向上し、それに伴ってドライブあたりのディスク I/O のスループットも向上します。

不揮発性 (変更の頻度が低い)

書き込み後のデータが変更されることはほとんどありません。同じデータベーステーブルに関連付けられたページを連続した記録位置から移動するような DML 操作 (SQL の更新操作など) は、慎重に扱う必要があります。そのような変更を頻繁に行うワークロードは、FTDW に適しているとは言えません。高い頻度で変更が生じる場合は、定期的にメンテナンスし、断片化を最小限に抑えることをお勧めします。

インデックスが軽量

非クラスター化インデックスを追加すると、一般的には 1 件から数件程度のレコードをルックアップする際のパフォーマンスが向上します。しかし、大量の行が取得対象となるようなテーブルに非クラスター化インデックスが適用された場合、ランダムなディスクシーク操作が発生し、全体的なシステムパフォーマンスが低下するおそれがあります。インデックスのメンテナンスでもデータ管理のオーバーヘッドが著しく増大し、サービスレベル契約 (SLA) を達成できなくなるリスクや、所定の時間内にデータベースの読み込みが完了しなくなるリスクが発生します。

これに対し、シーケンシャルなスキャンの速度は、ランダムアクセスよりも 10 倍以上高速です。セカンダリインデックスを導入してランダムシークの使用を最小限に抑えたシステムは、一般的に、I/O の連続平均速度が非常に高くなります。つまり、ストレージの I/O リソースを効率よく利用し、大規模なスキャン型のクエリに対応する予測可能なパフォーマンスを向上できることになります。

FTDW では、対象となるワークロードの性質に合ったデータベースの最適化手法が規定されています。効率的なスキャンベースのディスク I/O をサポートするデータ構造には、"クラスター化インデックス" と "範囲パーティション" があります。データのアーキテクチャに応じて FTDW 環境を最適化する際に、この 2 つのデータ構造を活用することをお勧めします。

パーティションがアラインメントされている

FTDW のワークロードに共通する特徴は、SQL Server のパーティション分割を有効活用できる点です。パーティション分割によって、データのライフサイクル管理が容易になり、時間の経過に伴う断片化を極力減らすことができます。さらに、大規模なスキャンのクエリパターンでは範囲パーティション条件を利用でき、断片化やディスク I/O のスループット低下を招くことなく、テーブルスキャンを大幅に減らすことができます。

その他の考慮事項

データベースのワークロードを評価する際は、他にも次の点を考慮する必要があります。

· データベースを最適化するための方法である軽量インデックスの実装と管理は、FTDW のワークロードの基本要件です。

· データウェアハウス内のデータの断片化が最小限に保たれていることが前提条件となります。そのためには、次のことが必要になります。

· 最も注意が必要な断片化の種類は、フラグメントサイズで評価することができます。1 つのフラグメントは 8K のデータベースページの連続する割り当てを表します。

· ストレージの増設によってサーバーを拡張する場合、高いパフォーマンスが要求されるテーブルについては、すべてこのホワイトペーパーのガイドラインに従った方法でデータを再投入する必要があります。

· 行レベルの更新処理が定期的に発生するテーブルなど、変化しやすいデータ構造を実装する場合は、メンテナンス (最適化、インデックスの再構築など) を定期的に行い、断片化を解消する必要があります。

· 一連のクラスターキー ID が既存の範囲と重複しているクラスターインデックステーブルを読み込むと、断片化の大きな原因となります。このリファレンスガイドに示しすベストプラクティスに従って、注意深く監視、管理する必要があります。

· データウェアハウスの利用目的は、顧客によってさまざまです。顧客の要件が FTDW ワークロードの特性に適しているかどうか、十分に検討する必要があります。

データウェアハウスのワークロードの定性的な特性

FTDW のワークロードは、データベース操作に関連した各種の性質によって定義できます。それらの性質は、大きく次の領域に分けることができます。

· ユーザーの要件とアクセスパターン

· データモデル

· データのアーキテクチャ

· データベースの最適化

次の表は、OLTP または ODS (Operational Data Store) のワークロードを比較対象として、データウェアハウスのワークロードの特性をまとめたものです。

特性

ワークロードの親和性:

データウェアハウス

OLTP/ODS

ユースケースの説明

· 読み取りがほとんど (9 : 1)

· 更新はほぼデータの品質要件に限定される

· 大量の一括挿入

· クエリ全体の同時実行性は中～低。ピーク時の同時クエリ要求は 10 ～ 30 個

· 同時クエリのスループットは分析とレポートのニーズによって特徴付けられる

· 広範囲のスキャンまたは集計

· 複雑なクエリ (フィルター、結合、グループ化、集計)

· 読み取りと更新の比率は均等 (6 : 4)

· 同時クエリのスループットは運用ニーズによって特徴付けられる

· 粒度の細かい挿入と更新

· 高いトランザクションスループット (毎秒数万件など)

· ユーザー全体の同時実行性は中～高。ピーク時の同時クエリ要求は 50 ～ 100 個またはそれ以上

· 通常、トランザクションは非常に短い (ごく少数の不連続の行をルックアップするなど)

データモデル

· 高度に正規化された一元的データウェアハウスモデル

· レポート作成要件をサポートするための非正規化は BI アプリケーション (SQL Server Analysis Services など) によって実施されることが多い

· ディメンションデータ構造を持ち、同時実行性はさほど高くないものの大量の分析要求を処理するデータベースでホストされる

· 広範囲のスキャンが一般的

· アドホック分析に使用される

· 高度に正規化された運用データモデル

· 意思決定を支援するために非正規化が頻繁に行われる。同時実行性が高く、待ち時間の短い不連続ルックアップ

· データの履歴の保存は限定的

· 運用上の意思決定を支援するために、他のソースシステムから非正規化データモデルが抽出される

データのアーキテクチャ

· ヒープテーブル構造を多用する

· パーティション分割された大きなテーブルと、範囲を限定したスキャンを可能にするクラスター化インデックス

· 非常に大きなファクトテーブル (数百 GB ～数 TB)

· 非常に大きなデータサイズ (数百 TB ～ 1 PB など)

· ヒープテーブル構造の使用は最小限

· クラスター化インデックステーブル構造による詳細なレコードルックアップのサポート (1 回の要求で 1 行から数行)

· ファクトテーブルは比較的小さい (100 GB 未満)

· データサイズが比較的小さい (数 TB など)

データベースの最適化

· セカンダリインデックスの使用は最小限 (「インデックスが軽量」を参照)

· 一般にパーティション分割される

· セカンダリインデックスによる最適化に強く依存

表 2: データウェアハウスのワークロードの特性

FTDW リファレンス構成の選択

このドキュメントで取り上げる FTDW の手法には、大きく 3 種類の利用方法があります。最初の 2 種類は、データウェアハウス用として公開されている適合 Fast Track リファレンスアーキテクチャの使用に関するものです。この 2 種類の方法では、FTDW プログラムの一環として公開されている事前設計されたシステムを選ぶことができます。3 つ目の方法は、ユーザー定義のデータウェアハウスシステムの作成時に Fast Track の中心的手法をガイドラインとすることです。この場合、購入または展開の前に、ワークロードのプロファイリングとシステムのベンチマーク測定を綿密に行う必要があります。エンタープライズサーバー、ストレージ構成、さらに SQL Server データベースの最適化に関する高度な技術知識が要求されます。

方法 1: 基本評価

このシナリオは、顧客が FTDW リファレンス構成の採用を既に決定しているか、それ以外の方法でサーバーと CPU の要件を決定していることを前提とします。この方法を選んだ場合、詳細なプラットフォーム評価 (実証試験) は不要です。

手順 1: 顧客のユースケースを評価する

Fast Track Data Warehouse のリファレンス構成は、ソフトウェアとハードウェアの汎用的な構成ではなく、データウェアハウスのワークロードの特性に合わせて構成されます。構成を選択する際には、最初にこうした特性を見極めます。まず、顧客の主な要件や使用パターンを調査します。

ワークロード

FTDW のワークロードの定義には、ユースケースを評価するうえで重要なポイントが 2 つあります。1 つは、ワークロードの主要要素を SQL Server のパフォーマンスとの関連で定義する一連の基本原則です。この原則は、特定のユースケースと比較しながら慎重に評価する必要があります。原則が満たされない場合、対象ワークロードが FTDW リファレンスアーキテクチャに適合しない可能性があります。

2 つ目のポイントは、対象ユースケースの概要です。これによって、ワークロードの適合性を評価するための合理的な評価基準が得られるだけでなく、ユースケースの大まかな枠組みを把握することができます。

ワークロードの評価

以下、顧客のワークロードを評価する基本的な流れを箇条書きで示しています。これは性質に基づく評価であり、あくまでガイドラインと考えてください。

1. 対象となるワークロードの要件を明らかにする。FTDW のワークロードの特性と比較します。詳細については、このドキュメントの「FTDW のワークロード」のセクションを参照してください。

2. FTDW のベストプラクティスを評価する。データベースの管理、データアーキテクチャの最適化、システムの最適化に関連したベストプラクティスを、対象のユースケースや運用環境と比較して評価する必要があります。

意思決定

ワークロードを評価する目的は、検証済みの FTDW リファレンスアーキテクチャを十分な根拠に基づいて選択できるようにすることです。データウェアハウスの使用事例の大半は、FTDW のワークロードに適合する特性と適合しない特性が混在しているのが実情です。Fast Track リファレンス構成との親和性が強い優先度の高いワークロード特性について、以下に箇条書きで示しています。顧客の主要なユースケースがこれらの特性と相反する場合は、Fast Track の手法がそのユースケースに適合しない可能性があるため、慎重に評価する必要があります。

ワークロード

優先度の高いワークロード特性は次のとおりです。

· 主要なワークロードのデータアクセスパターンがスキャン中心である (つまり、シーケンシャルなデータ配置のときに効率が高まる)。一般的には、1 回のクエリ要求で数万行から数百万行 (またはそれ以上) の読み取りが発生します。

· 一般的な OLTP ワークロードに比べてデータ容量が大きく、同時実行性が低い。

· データの変更頻度が低い。データウェアハウス全体の使用率に占める更新/削除の DML 操作の比率を低く抑える必要があります。

データベース管理

データベースの管理、データアーキテクチャ (データモデルとテーブル構造)、およびデータ統合の手法が含まれます。

· インデックスが軽量な、パーティション分割されたデータアーキテクチャ。

· 適切な読み込み、ETL 手法、定期的なメンテナンスによってデータベースの断片化が適切に管理されている。

· データ増加要件が事前に把握できる。FTDW システムは、容量のバランスを考慮して事前に構築されています。ストレージを増設するためには、データの移行が必要となります。

手順 2: 公開 FTDW リファレンスアーキテクチャを選ぶ

顧客が事前にサーバーを想定しており、予算や経験に基づいて単純な評価を実施するケースがあります。また、帯域幅要件の分析の基準となる、ワークロードの容量や既存のシステムについて十分な情報が顧客から提供される場合もあります。いずれにしても、FTDW の基本評価としてプラットフォームをゼロから評価する必要はありません。そのようなときは、顧客の想定する要件に適合した FTDW 構成を選択してください。

方法 2: 完全評価

Fast Track 適合リファレンスアーキテクチャは、特定された顧客のワークロードに適合するハードウェアコンポーネント構成を示します。以降で紹介する手法を使って、データベースコンポーネントのアーキテクチャを合理的に選択することができ、ユースケースの要件、パフォーマンス、スケーラビリティの最適なバランスを運用開始時点から実現できます。この手法を実行するには、データベースシステムアーキテクチャとデータウェアハウスの展開に関する高度な知識と経験が必要です。通常、このプロセスには、Fast Track パートナーと Microsoft のテクニカルセールスリソースが携わります。

プロセスの概要

次のプロセスフローは、完全評価に基づく FTDW 選択プロセスをまとめたものです。

1. 対象となる使用シナリオで、Fast Track のワークロード特性を評価します。

2. 顧客のユースケースに適合するサーバーと帯域幅の要件を特定します。評価を開始する前に、公開 FTDW リファレンス構成を選択してください。

3. 顧客のワークロード要件から、代表的なクエリを特定します。

4. そのクエリについて、SQL Server の BCR (Benchmark Consumption Rate) を計算します。

5. 必要な UDC (User Data Capacity) を計算します。

6. 適合する Fast Track リファレンスアーキテクチャの公開されている MCR (Maximum CPU Consumption Rate) および容量と、BCR および UDC の評価を比較します。

以降、完全評価プロセスフローの各ポイントについて説明します。

手順 1: 顧客のユースケースを評価するワークロードの評価

このプロセスは「方法 1: 基本評価」と同じです。

FTDW 評価用ハードウェアの選択

システムの完全評価を始める前に、テストに使用する公開 FTDW リファレンス構成を選択して展開する必要があります。適切なリファレンス構成は、いくつかの方法で決定できます。一般的な方法は次のとおりです。

· 予算。予算の範囲内で最も容量が大きい (またはパフォーマンスが高い) システムを選択します。

· パフォーマンス。入手できる最もパフォーマンスの高いシステムを選択します。

· 社内分析。既存のハードウェアで実施したワークロード分析に基づいて決定します。

· アドホック分析。FTDW サイジングツールを使用すると、対象となるデータベースワークロードについての基本的な想定を基に、FTDW のシステム要件を簡単に計算することができます。このスプレッドシートツールは、http://download.microsoft.com/download/D/F/A/DFAAD98F-0F1B-4F8B-988F-22C3F94B08E0/Fast%20Track%20Core%20Calculator%20v1.2.xlsx からダウンロードできます。

手順 2: 評価のメトリックを決定する

FTDW の完全評価には、次の 3 つのメトリックを使用します。これはハードウェア評価の意志決定における重要な基準となります。

· MCR (Maximum CPU Core Consumption Rate)

· BCR (Benchmark Consumption Rate)

· 必要な UDC (User Data Capacity)

各メトリックの計算の詳細については、このドキュメントの「ベンチマークと検証」のセクションを参照してください。

MCR

このメトリックは、特定のサーバーと CPU の組み合わせに対し標準的なクエリとデータセットを想定した、SQL Server の最大データ処理速度の尺度です。コアあたりの処理速度として得られ、メモリキャッシュからのクエリに基づくスキャンとして測定されます。MCR は、Fast Track システム設計の出発点となります。MCR によって表されるのは、サーバー、CPU、ワークロードに対して必要な最大 I/O 帯域幅の推定値です。最小限のローカルストレージとデータベーススキーマで特定の CPU の潜在的スループットを推測できるため、MCR は初期設計の目安となります。MCR は、あくまでシステム設計の出発点です。システムパフォーマンスの尺度ではありません。

BCR

BCR は、FTDW のワークロードと判断される一連のクエリによって評価されます。MCR の計算のようにキャッシュだけでなく、ディスクとキャッシュからの合計読み取り帯域幅に基づいて計算されます。顧客のワークロードパターンに合致した一連のクエリを評価基準とすることで、特定の顧客のユースケースに合わせたインフラストラクチャを構築することができます。FTRA をパートナーが検証する場合は、一連のベンチマーククエリを使用することで、負荷の大きいワークロードに対応したシステム設計を行います。まとめると、BCR は非常に大きいデータボリュームに対してワークロードを同時実行する際に複数のクエリを使用するデータ処理の実測指標と言えます。

UDC (User Data Capacity)

これは、SQL Server データベースに対して予想されるデータベース容量です。Fast Track UDC は、読み込み後にデータベースが圧縮されるときに、Fast Track システムに読み込むことのできる未圧縮のユーザーデータファイルまたはストリームの推定量を表します。FTDW に使用される標準的な圧縮率は 3.5:1 です。

初期展開量を超えてストレージを増設した場合、データの移行が必要になる可能性があり、既存のデータが実質的に新しいデータベースファイルの位置に書き込まれることになります。そのため、適切なリファレンスアーキテクチャを選択する際に、データベースの予想増加量とシステムの予想耐用年数を考慮しておくことが重要です。

手順 3: Fast Track Data Warehouse リファレンスアーキテクチャを選択する

BCR を計算したら、公開されている MCR および容量の評価 (公開 FTRA ごとに Fast Track パートナーによって提供されます) と比較します。パートナーの詳細については、「Fast Track データウェアハウス (http://www.microsoft.com/sqlserver/en/us/solutions-technologies/data-warehousing/fast-track.aspx)」を参照してください。

BCR メトリックは、テスト/評価システムの結果を、公開されている構成と比較して評価する際の共通基準として使用できます。顧客は BCR データを基に、テスト結果に最も適合した Fast Track オプションを選択することができます。

方法 3: ユーザー定義のリファレンスアーキテクチャ

FTDW の手法を利用して、特定のワークロードまたは一連のハードウェアに合わせたシステムを構築します。この方法を採用する場合は、SQL Server とそれを実行するハードウェアコンポーネントを深く理解している必要があります。以下の手順で、FTDW の原則に沿ってユーザー定義のリファレンスアーキテクチャを開発するための一般的な方法を簡単に紹介します。

手順 1: ワークロードを定義する

対象となるデータベースのユースケースを把握することは、FTDW の構成の基本です。これは、このドキュメントで取り上げているガイダンスのカスタムアプリケーションにも同様に当てはまります。ワークロードの評価をコンポーネントアーキテクチャの設計に取り入れる際は、FTRA のガイダンス (具体的にはワークロードについてのトピック) を参考にしてください。

手順 2: コンポーネントアーキテクチャのベンチマークを測定する

以下に示したのは、定義済みのワークロードに対するリファレンスアーキテクチャを開発する際の基本的枠組みです。

1. 選択したサーバーと CPU の MCR (Maximum CPU Core Consumption Rate) を算出します。このドキュメントの「ベンチマークと検証」のセクションで示した方法で MCR を計算してください。FTDW 構成で公開されている MCR 評価を使用してもかまいません。一般的には、同じファミリの CPU は SQL Server データベースの CPU コア消費率も近い数値になります。

2. MCR 値を基にストレージおよびストレージネットワークの要件を見積もり、初期システム設計を作成します。

3. 初期システム設計に基づいてテストシステムを調達します。可能であれば、指定された構成をすべて反映するようにします。

4. BCR (Benchmark Consumption Rate) を算出します。ワークロードの評価に基づいて、クエリ (可能であれば代表的なクエリ一式) を特定します。このドキュメントの「ワークロードの BCR の測定」のセクションで説明した手法に従ってください。

5. その結果に基づいてシステム設計を調整します。

6. 最終的なサーバーとストレージの構成を決定します。

手順 3: システムの検証

システムのベンチマークを測定する目的は、手順 2. で特定されたハードウェアコンポーネントの構成とスループットを検証することです。このプロセスの詳細については、このドキュメントの「ユーザー定義の FTRA の検証」のセクションを参照してください。システムを検証するには、次の手順を実行します。

1. 決定したパフォーマンス要件と比較して、コンポーネントのスループットを評価します。実際のスループットが予測値と一致していることを確認してください。

2. 最終的な構成となるように再調整し、最終的なベンチマーク測定を行って、システムのスループットを検証します。一般的には、最終的な BCR がシステム MCR の 80% 以上を達成することが求められます。

FTRA 選択のまとめ

次の表は、FTRA 選択の 3 つの方法をまとめたものです。

方法

長所

短所

基本評価

· システムのセットアップと調達にかかる期間がきわめて短い (数日から数週間)

· 設計と評価のコストが最小限

· インフラストラクチャスキル要件が比較的低い

· ストレージ容量が過剰になる場合や、CPU 速度が低くなりすぎる場合がある

完全評価

· 予想されるワークロードに合わせたリファレンスアーキテクチャを事前に定義できる

· ハードウェアのコストを削減できる可能性がある

· ソリューションの信頼度が高い

· 評価に要する時間と労力が大きい (数週間から数か月)

· 対象となるワークロードを詳細に把握する必要がある

ユーザー定義のリファレンスアーキテクチャ

· 既存ハードウェアを再利用できる

· 最新のハードウェアを導入できる

· ユースケースに合わせてシステムを自由に構築できる

· 作業に数か月かかる

· インフラストラクチャに関する高度な専門知識が必要

· SQL Server に関する高度な専門知識が必要

表 3: 各評価方法の比較

FTDW の標準構成ハードウェアコンポーネントアーキテクチャ

現行の FTDW リファレンスアーキテクチャは、専用のストレージ構成をベースとします。現在公開されているオプションには、スイッチ SAN、直接接続 SAN、直接接続 SAS、SAS-RBOD、iSCSI などがあります。ディスク I/O のスループットは、独立した専用のストレージエンクロージャとプロセッサを使用することによって確保されます。さらに詳しい情報と構成は、それぞれの Fast Track ベンダーから公開されています。図 2 に示したのは、SAN ストレージを利用した FTDW リファレンスアーキテクチャの、コンポーネントレベルの構成要素です。

図 2: ストレージ構成の例 (2 ソケット、12 コアサーバー)

コンポーネントの要件と構成サーバーのメモリ

合計 RAM: FTRA の RAM 容量は、論理上の最大スループット (一定時間にディスクやバッファーから読み取られる総ページ数) と CPU 使用率が最適なバランスとなるように、ベンチマークの結果に基づいて割り当てられます。表 4 は、SQL Server 2012 のリファレンスアーキテクチャに対して推奨されるメモリ割り当ての一覧です。ここに記載されている最大メモリの値は、物理的な限界を表しているのではなく、検証を経たシステムの平均値を表しています。

サーバーサイズ

最小メモリ

最大メモリ

1 ソケット

64 GB

128 GB

2 ソケット

128 GB

256 GB

4 ソケット

256 GB

512 GB

8 ソケット

512 GB

768 GB

表 4: SQL Server 2012 に推奨されるメモリ割り当て

以下に、システムメモリの要件を評価する際に重要となるその他の考慮事項を示します。

· キャッシュからのクエリ: キャッシュからのクエリを多く処理するワークロードについては、ワークロードの増加に応じて RAM の割当量を増やすことで、全体として大きなメリットが期待できます。

· ハッシュ結合と並べ替え: 大規模なハッシュ結合に依存したクエリや、大規模な並べ替え操作を行うクエリは、物理メモリの量を増やすことで効率が向上します。このような操作は少ないメモリ量では処理しきれず、ディスクへの書き込みが発生し、tempdb が頻繁に利用されます。その結果、サーバー上のデータドライブ全体にランダム I/O パターンが発生します。

· 読み込み: 使用可能なメモリ内で一括挿入を処理できない場合も、tempdb を利用した並べ替え処理が発生する可能性があります。

· xVelocity メモリ最適化列ストアインデックス: 列ストアインデックスのクエリプランを頻繁に利用するワークロードは、表 4 に示した上限近くまで増強したメモリプールを使用することで、効率的な実行が可能になります。

ファイバーチャネル SAN

HBA – SAN: HBA および SAN ネットワークのすべてのコンポーネントは、メーカーやモデルによって多少異なります。加えて、ストレージエンクロージャのスループットは、SAN 構成や PCIe バスの能力に大きく左右される場合があります。この推奨事項は一般的なガイドラインであり、FTDW リファレンス構成の開発中に実施されたテストに従ったものです。

ゾーニングが利用される場合、Fast Track で使用されているポートだけがそのゾーンに存在する必要があります。FC ネットワークのトポロジと構成の詳細は、各 Fast Track パートナーから提供される技術構成ガイドに記載されています。その内容は、公開 FTRA ごとに異なります。

マルチパス I/O (MPIO): MPIO が構成されている必要があります。専用ストレージアレイ上でホストされる各ボリュームには、少なくとも 1 つのアクティブパスが必要です。

Fast Track の構成に使われる既定のポリシーは "サブセットを含むラウンドロビン" ですが、それよりも適した構成が FTDW パートナーのエンジニアリングチームによって指定されるため、パートナーのリファレンスアーキテクチャで既定のポリシーが使用されることはほとんどありません。各パートナーのデバイス固有モジュール (DSM) やドキュメントで、それぞれ異なる設定が指定されている場合も多いため、構成する前に確認しておくようにしてください。

ストレージ

ローカルディスク: Windows Server と SQL Server のインストール環境では、2 ディスクの RAID1 アレイが最小構成となります。仮想 RAM とページングの要件を満たす十分なディスク領域を確保する必要があります。通常は、システム RAM の 1.5 倍 (1.5 倍しても 250 GB 未満であれば 250 GB) の容量を空きディスク領域に確保してください。それ以外のディスク構成は、ユースケースと顧客の希望に応じて決定します。

論理ファイルシステム: 多くの Fast Track システムでは、ボリューム数が多いため、LUN はドライブ文字ではなく Windows フォルダーのパス (マウントポイント) にマウントすることをお勧めします。

また、Windows オペレーティングシステムのドライブ割り当てと、ストレージエンクロージャ内の LUN (ボリューム)、RAID ディスクグループ、Windows Server マウントポイントとの対応関係を把握しておくこともお勧めします。LUN を Windows のフォルダーにマウントする際に、マウントポイントとボリュームに一定の命名規則を適用してもよいでしょう。デバイスの命名規則の詳細については、Fast Track パートナーの技術構成ガイダンスを参照してください。

ベンダー固有のツールを使用して、推奨されるボリューム命名規則を適用できる場合もあります。適切なツールが用意されていない場合は、Windows から 1 回に利用できるストレージアレイ内のディスクを 1 つとし、ドライブ名を割り当てるようにすることで、物理上と論理上のトポロジを正しく作成することができます。

物理ファイルシステム: 詳細な情報や詳しい手順については、このドキュメントの「アプリケーション構成」のセクションを参照してください。

ストレージエンクロージャの構成: Fast Track パートナーの技術ドキュメントに特別な記載がない限り、エンクロージャの設定はすべて既定のままになっています。ファイルシステムの構成に関する FTDW の仕様上、RAID グループや LUN 割り当てを目的に合わせて構成できるストレージエンクロージャが必要です。FTDW のリファレンス構成とは異なるハードウェアやカスタムハードウェアを評価する際には、この点を考慮する必要があります。

アプリケーション構成Windows Server 2008 R2

特に指定されていない限り、Windows Server 2008 R2 Enterprise オペレーティングシステムは既定の設定を使用してください。最新のサービスパックと重要な更新プログラムをすべて適用してください。リファレンスアーキテクチャの多くは、マルチパス I/O 機能を必要とします。MPIO 構成の詳細については、特定のリファレンスアーキテクチャを対象とした Fast Track パートナーの技術構成ガイドを参照してください。.NET framework のインストールと既定の設定を適切な状態にするために、Windows Server 2008 R2 がアプリケーションサーバーの役割としてインストールされていることを確認してください。

SQL Server 2012 Enterpriseスタートアップオプション

スタートアップオプションとして -E を追加します。これにより、データベーステーブルの拡大に応じて、データベーステーブルに割り当てられる、各ファイルの連続エクステントの数が増えます。これによってシーケンシャルディスクアクセスが改善されます。このオプションの詳細については、サポート技術情報の資料 329526 (http://support.microsoft.com/kb/329526) を参照してください。-E オプションが、データベースの起動時に確実に適用されるようにすることが重要です。このオプションは、大文字と小文字が区別されるほか、形式の違いも区別されます。オプションの前後に空白が入っていると、初期化の妨げになる場合があります。

スタートアップオプションには、-T1117 も追加する必要があります。これは、自動拡張が有効になっている場合に、ファイルグループ内のすべてのファイルを均等に増加させるトレースフラグです。データベースファイルの拡張に関して、FTDW の標準的な推奨構成は、領域を事前に割り当てる設定になっており、自動拡張は使用されていません (tempdb を除く)。詳細については、このドキュメントの「ストレージ構成の詳細」のセクションを参照してください。

"メモリ内のページのロック" オプションは有効にします。詳細については、「Lock Pages in Memory オプションの有効化 (Windows)」(http://go.microsoft.com/fwlink/?LinkId=141863) を参照してください。

- T834 は、ケースバイケースで検討してください。このトレースフラグを指定すると、データウェアハウスのさまざまなワークロードでスループットレートが向上する可能性があります。このフラグは、SQL Server のバッファープール用メモリのラージページ割り当てを有効にします。このトレースフラグを含め、各種トレースフラグの詳細については、サポート技術情報の資料 920093 (http://support.microsoft.com/kb/920093) を参照してください。

注: 現時点の SQL Server 2012 では、データベースで列ストアインデックスが使用されている場合、–T834 の使用がサポートされません。列ストアインデックスを使用する予定がある場合は、このトレースフラグを使用しないでください。

SQL の最大メモリ

SQL Server に割り当てるメモリ量は、SQL Server 2012 ではサーバーの合計 RAM の 92% までとします。サーバーを利用するアプリケーションが他にも存在する場合、オペレーティングシステムで利用できる RAM の残量が適宜調整されます。この設定は、Max Server Memory オプションで制御されます。検証済みリファレンスアーキテクチャに使用されているメモリ設定の詳細については、FTDW パートナーのドキュメントを参照してください。

リソースガバナー

一般的なデータウェアハウスのワークロードには、大量のデータを扱う複雑なクエリが含まれています。こうしたクエリは大量のメモリを消費するため、メモリが不足し、ディスクへの書き込みが発生する場合があります。この動作は、リソース管理によって調整できます。SQL Server 2012 のリソースガバナーテクノロジを使用して、リソース使用率を管理することができます。

SQL Server の既定の設定では、SQL Server のメモリリソースの最大 25% がリソースガバナーによって個々のセッションに割り当てられます。つまり、最悪の場合、使用可能なメモリの 25% 以上を消費するクエリが 3 つ実行されただけで、メモリを必要とする他のクエリがブロックされます。このとき、大きな Memory Grant を必要とする他のクエリは、リソースに空きが生じるまで待ち状態となります。

リソースガバナーを使用すると、1 件のクエリに消費される最大メモリを減らすことができます。ただし、その結果、大量のメモリを消費するはずだった同時実行クエリが tempdb を利用するようになり、ランダム I/O が増加し、全体的なスループットが低下する可能性があります。多くのデータウェアハウスワークロードでは個々のセッションが利用できるシステムリソースの量を制限することで効率が向上する場合がありますが、同時実行クエリのワークロードを分析して評価することをお勧めします。リソースガバナーの使用方法の詳細については、「リソースガバナーを使用した SQL Server ワークロードの管理」(http://msdn.microsoft.com/ja-jp/library/bb933866.aspx) を参照してください。

Fast Track ソリューションの各ベンダーのガイダンスやベストプラクティスも参考にしてください。特に、比較的大きな 4 ソケットや 8 ソケットの Fast Track ソリューションは、リソースガバナーの特定の設定を調整して、最適なパフォーマンスを確保している場合があります。

まとめると、制約を少なくすると個々のクエリのパフォーマンスを高めることができる一方で、制約を厳しくすると同時実行可能なクエリ数を保証できるという、トレードオフの関係が存在することになります。

リソースガバナーのベストプラクティスと一般的なシナリオの詳細については、ホワイトペーパー『リソースガバナーの使用』(http://msdn.microsoft.com/ja-jp/library/ee151608.aspx) を参照してください。

ストレージシステム

プライマリデータベースのストレージをハードディスクドライブ (HDD) に格納する FTDW リファレンスアーキテクチャでは、長期的にシステムパフォーマンスを維持するために、断片化の管理が欠かせません。このため、ストレージとファイルシステムの構成が詳細に指定されています。

ストレージシステムコンポーネント

図 3 は、ストレージ構成の 3 つの主要レイヤーが組み合わさって統合データベーススタックを形成している環境を示しています。これはあくまで参考事例と考えてください。実際のトポロジは、Fast Track パートナーによって大きく異なります。代表的なデータベーススタックは、次の要素で構成されます。

· 物理ディスクアレイ: 4 スピンドルの RAID 1+0 が、標準の手法です (図 3)。一部のパートナーでは SQL Server 2008 R2 および SQL Server 2012 のリファレンスアーキテクチャに RAID 5 および RAID 6 を使用している場合もあります。

· オペレーティングシステムボリューム割り当て (LUN)

· データベース: ユーザー、システム Temp、システムログ

図 3: 各ディスクグループで 1 つの LUN (ボリューム) を使用した、3 台のストレージエンクロージャを基づく FTDW システムのサンプルストレージアーキテクチャの全体像

ストレージ構成の詳細

それぞれのストレージエンクロージャについて、次の手順を実行します。

1. 4 台のディスクで構成されるディスクグループを、RAID 1+0 (RAID 10) を使用して作成します。ストレージエンクロージャ 1 台あたりの実際のディスクグループ数は、ベンダーによって異なります。詳細については、ベンダーのドキュメントを参照してください。一般的には、LFF (Large Form Factor) エンクロージャの場合は RAID10 ディスクグループで 2 つ、RAID1 ディスクグループで 1 つになります。SFF (Small Form Factor) エンクロージャの場合は、RAID10 ディスクグループで 5 つとなります。プライマリデータのファイルグループの格納場所として使用されるボリュームの総数が 32 を超えないようにしてください。ストレージシステムの LUN 数の合計がそれを超える場合は、より大きなディスクグループを使用することで、同等の I/O スループットを維持しながら LUN 数を減らすことができます。たとえば、4 ディスクの RAID 10 ディスクグループを 1 LUN で使用する代わりに、8 ディスクの RAID 10 ディスクグループを 1 LUN で使用します。ディスクグループが大きくなると、スループットや効率が若干低下します。この点は、ストレージテクノロジによって異なります。

2. 1 つを除くすべてのディスクグループをプライマリユーザーデータ (PRI) 専用にします。SQL Server データベースのファイルグループの場所として代表的なものが、プライマリユーザーデータの場所です。すべての FTRA で、1 つの PRI ディスクグループにつき 1 ～ 2 個の LUN が必要となります。選択したリファレンスアーキテクチャのベンダーのガイダンスを参照してください。これらの LUN は、SQL Server のデータベースファイル (.mdf および .ndf ファイル) の格納場所として使用されます。

3. ストレージエンクロージャ内でプライマリデータに割り当てられた各ディスクボリュームに、プライマリストレージプロセッサが均等になるように割り当てます。たとえば、ストレージエンクロージャ内の 4 つのディスクボリュームがプライマリデータ用に割り当てられている場合、ストレージプロセッサ "A" とストレージプロセッサ "B" にそれぞれ 2 つずつボリュームが割り当てられます。

4. 残りのディスクグループに、データベースのトランザクションログをホストするための LUN を 1 つ作成します。より大規模な Fast Track 構成では、システム内の最初の数台のストレージエンクロージャにログの割り当て先を限定します。この場合、その他のディスクグループは、データベース以外のステージングに使用するか、コストを削減するために不使用とします。

データベースごとに次の手順を実行します。

1. PRI LUN ごとに 1 つのデータファイルを含んだファイルグループを少なくとも 1 つ作成します。すべてのファイルのサイズが等しくなるようにしてください。1 つのデータベース内で複数のファイルグループを使用してオブジェクト (データの読み込みを支援するステージングデータベースなど) を分離する場合、各ファイルグループの場所として、すべての PRI LUN を含めるようにします。

2. 各ファイルグループに使用するファイルを作成したら、それを予想される最大のサイズに事前割り当てします。予想されるオブジェクトを十分に保持できるサイズを確保してください。

3. データファイルの自動拡張オプションは無効にし、現在のサイズの上限に達したときはすべてのデータファイルを手動で拡張するようにします。

4. ユーザーデータベースとファイルグループの推奨事項の詳細については、このドキュメントの「データの断片化の管理」のセクションを参照してください。

tempdb について、次の手順を実行します。

1. 領域を事前割り当てした後で、各 LUN に 1 つずつデータファイルを追加します。すべてのファイルのサイズが等しくなるようにしてください。

2. ログファイル専用の LUN の 1 つに一時ログファイルを割り当てます。

3. 自動拡張を有効にします。データウェアハウスのワークロードの場合、拡張増分を多めにするのが一般的です。最初は、初期ファイルサイズの 10% に相当する値をお勧めします。

4. データベースや tempdb のサイズを検討する際は、SQL Server の標準的なベストプラクティスに従ってください。データウェアハウスの初期データ読み込み時や移行フェーズ時に、領域の割り当てを増やさなければならない場合があります。詳細については、SQL Server オンラインブックの「tempdb に使用するディスク領域の計画」(http://msdn.microsoft.com/ja-jp/library/ms345368.aspx) を参照してください。

トランザクションログについて、次の手順を実行します。

1. トランザクションログ領域に割り当てた LUN の 1 つに、データベース別に 1 つのトランザクションログファイルを作成します。利用可能な複数の LUN に各種データベースのログファイルを分散させるか、ログの増大に対応するために必要に応じて複数のログファイルを使用します。

2. ログファイルの自動拡張オプションを有効にします。

3. ログの容量は、表 5 に記載した要件を満たしている必要があります。システム設計の特定の性質に応じて、ある程度逸脱してもかまいません。

システム RAM (GB)

FT 定格容量 (テラバイト)

推奨される最小ログ割り当て

ミラーリングされた空き領域 (GB)

<= 96

<=10

300 GB x 1 ボリューム

<= 128

>10

<=40


または


表 5: 推奨されるログ割り当て

SQL Server のトランザクションログの割り当てと管理については、既存のベストプラクティスを参照してください。


プライマリ (PRI) データにソリッドステートストレージを利用する FTDW リファレンスアーキテクチャは、管理のシンプルさ、低い運用コスト、保守計画の立てやすさなど、さまざまな利点があります。

管理がシンプル: ソリッドステートストレージは断片化の管理が不要です。SQL Server のスタートアップオプション –E は使用する必要がありますが、それ以外の最適化やページ割り当ての管理は不要です。このシンプルさが、FTDW 環境の長期的管理を大幅に省力化しています。また、ディスクグループを大きくしたり、ボリューム/LUN 数を小さくしたりする際のパフォーマンス低下も発生しません。ファイルグループの作成と保守を楽に行うことができます。

I/O の安定性: ソリッドステートストレージは、同時実行の負荷が大きい状況やページが断片化している状況でのパフォーマンスの低下がごくわずかで済みます。また、ランダム読み取り (シーク) の混在するワークロードが、大規模な要求 (スキャン) の I/O パターンに悪影響を及ぼすこともありません。

保守計画が立てやすい: ソリッドステートストレージは、多くの場合、書き換え寿命をソフトウェアで監視することができるため、予測困難な物理的故障の発生頻度を低く抑えることができます。

運用コストが低い: ソリッドステートストレージは高価ですが、単位容量あたりの I/O スループットが非常に優れています。FTDW ワークロードの実効 I/O 速度は、300 GB、1 万 RPM の SAS HDD で平均 50 MB/秒です。これに対し、エンタープライズクラスの MLC SSD では、容量 600 GB で 150 ～ 200 MB/秒が実現されています。さらに、ソリッドステートストレージは消費電力がきわめて低く、発生する熱量も小さいため、多くは高密度設置ソリューションに対応しています。

ソリッドステートストレージの構成

ソリッドステートストレージを PRI ボリュームに使用する場合は、FTDW ストレージ構成の標準ガイドラインに以下の調整を加えることができます。

· ミラーリングが必要な場合、RAID1+0 または RAID5 を使用できます。ソリッドステートストレージでの FTDW ワークロードについては、パフォーマンスが低下せず、容量面でも有利な RAID5 が最適です。

· LUN とボリュームの数を減らすことができ、ストレージユニットあたりの PRI ボリューム数を最小で 1 つにすることができます。状況によっては、PRI ボリュームの数を CPU コア数の倍数にすると効果的です。最小 PRI ボリューム数は 2 です。

· トランザクションログはソリッドステートストレージに置くこともできますが、通常、FTDW のワークロードでログがボトルネックになることはありません。ログを従来の HDD に格納することでコストを削減することができます。ローカルストレージに Windows Server と SQL Server をインストールする場合についても、同じことが言えます。

· データベースの論理的な断片化はソリッドステートストレージの I/O パフォーマンスに影響しないため、ページの断片化管理やクラスターインデックスの並列読み込みに関する推奨事項は無視することができます。

FTDW における SQL Server のベストプラクティス

ここでは 2 つのケースについて、Fast Track のワークロードに対するベストプラクティスを検証し、まとめています。1 つ目のケースは、Fast Track のベストプラクティスが、確立されている SQL Server のベストプラクティスと実質的に異なる場合です。2 つ目のケースは、ベストプラクティスがそもそも存在しない場合や、実施が難しい場合です。SQL Server データベースの導入に関するドキュメントは豊富に存在しているため、ここですべてのベストプラクティスを紹介することはしません。FTDW の導入に関連するさまざまな事柄については、SQL Server の既存の技術ドキュメントやベストプラクティスを参考にしてください。

重要: このガイドには、SQL Server 2008 R2 向けに執筆されたドキュメントへのリンクがいくつか紹介されています。その内容の多くは SQL Server 2012 にも該当すると思われますが、最新版のドキュメントが公開されれば、そちらを参照してください。そのようなリンクについては、このリファレンスガイドの今後のリリースで更新されます。

データアーキテクチャテーブルの構造

データベースのデータを格納するために使用するテーブルの種類は、シーケンシャルアクセスのパフォーマンスに大きく影響します。クエリプランでシーケンシャル I/O のパフォーマンスを限界まで高めるには、この点を踏まえて物理スキーマを設計することがきわめて重要です。

選択したテーブルの種類によって、テーブルのデータの通常のアクセス方法が変わります。以下の情報を参考に、格納するデータの特性に基づいてテーブルの種類を検討してください。

ヒープテーブル

ヒープテーブルは、純粋なシーケンシャル I/O によるテーブルスキャンを実現します。一般的に、テーブルの断片化に伴うオーバーヘッドは小さくなります。クラスター化インデックステーブルに見られるような最適化された (直接アクセスによる) 範囲ベースのスキャンは本質的に発生しません。ヒープテーブルの一定範囲をスキャンする状況では、テーブル全体 (パーティション分割が適用されている場合は該当する範囲パーティション) がスキャンの対象となります。

ヒープテーブルのスキャンは、32 ファイルで最大スループットに達します。そのため、LUN 数が 32 を超えるシステムや、コア数が 16 を超えるシステムで大きなファクトテーブルにヒープを使用するためには、リソースガバナー (DOP 制約) を使用するか、または標準的な Fast Track データベースファイルの割り当てへの変更が必要になる場合があります。

ヒープテーブルが最も適しているのは次のケースです。

· テーブル参照に対して実行される優先度の高いクエリのほとんどで、述語で参照される列が不揃いであるか、列述語がまったく使用されていない。

· クエリで通常実行されるのが、範囲の限定されたスキャンではなく、大規模なスキャンである。たとえば、Analysis Services キューブにデータを入力するためだけに使用されるテーブルなどです (その場合、ヒープテーブルは、入力先の Analysis Services キューブと同じ粒度で分割する必要があります)。

· インデックス管理の増分オーバーヘッドがなく、クエリワークロードの要件が満たされている。または、読み込みのパフォーマンスが何より重要である (ヒープテーブルは読み込みが速い)。

クラスター化インデックステーブル

データウェアハウス環境でクラスター化インデックスの効果が最も期待できるのは、そのキーが範囲限定列 (日付列など) であり、対応するクエリのワークロードの制限条件に使用される頻度が高いときです。この場合、インデックスを使用してスキャン対象のデータを大幅に絞り込み、最適化することができます。

クラスター化インデックステーブルが最も適しているのは次のケースです。

· 範囲限定列がテーブルに存在し、そのテーブルに対する優先度の高いクエリワークロードを実行するシナリオの多くで、その範囲限定列がクエリの範囲を絞り込むために使用されている。FTDW の構成では、パーティション分割されたクラスター化インデックスの日付列は同時に、クラスター化インデックスのキーになっている必要があります。注: クラスター化インデックステーブルについては、日付パーティション列以外のクラスター化インデックスキーを選択すると効率が向上する場合があります。ただし、既存のクラスター化インデックスのキーの範囲と重なる新しいデータによってページ分割が発生するため、パーティション全体が読み込まれない限り、断片化が進行するおそれがあります。

· 範囲を限定した粒度の細かいルックアップを行うクエリをテーブルに対して実行することが多い (テーブル全体や、複数の範囲にまたがる大規模なスキャンは行われない)。

テーブルのパーティション分割

テーブルのパーティション分割は、FTDW のデータベースの断片化を管理する重要な手段として利用できます。たとえば、パーティション分割を使用すると、テーブル内の一定の範囲のユーザーデータを大きなブロック単位で更新または削除でき、テーブルの他の部分を参照する必要がありません。一方、クラスターインデックスから 1 行ずつ削除した場合、エクステントが著しく断片化する可能性があります。一般的には、時間が経過して特定範囲のデータに対する DML 操作の頻度が減った後で、新しいパーティションを再構築します。それ以降、そのパーティションは DML 操作で変更されることが少なくなり、エクステントの断片化は最小限で済みます。

また、主に SQL Server Analysis Services キューブへのデータ入力に使用される大きなテーブルをヒープテーブルとして作成し、キューブのパーティションに合わせて分割することができます。データにアクセスする際は、大きなテーブルの中の、関連するパーティションだけをスキャン対象とすることができます (Analysis Services の ROLAP モードをサポートするパーティションは、クラスター化インデックスとして構築した方がよい場合もあります)。

テーブルのパーティション分割の詳細については、ホワイトペーパー『SQL Server 2008 を使用したパーティションテーブルとパーティションインデックス』(http://msdn.microsoft.com/ja-jp/library/dd578580(v=SQL.100).aspx) を参照してください。

インデックス作成

FTDW のインデックス作成では、次のガイドラインを考慮してください。

· 日付範囲または一般的な制限条件にクラスター化インデックスを使用する。

· 列ストアインデックスを可能な限り使用する。FTDW 環境で列ストアインデックスを扱う際のベストプラクティスについては、次のセクションで説明します。

· 非クラスター化インデックスは、粒度の細かいルックアップが必要であり、テーブルのパーティション分割で十分なパフォーマンスが得られない状況でのみ予約する。可能であれば、非クラスター化インデックスではなく列ストアインデックスを使用してください。

· データウェアハウスの一部のワークロードでは、非クラスター化カバリングインデックスが適している場合がある。この点は、ケースバイケースで評価し、列ストアインデックスと比較して判断する必要があります。

xVelocity インメモリ列ストアインデックス

SQL Server 2012 には、"列ストアインデックス" という、列指向のテクノロジを使った新しいデータウェアハウスクエリアクセラレーション機能が導入されています。この新しいインデックスに加え、クエリ処理機能が強化されたことで、さまざまな分析クエリにおけるデータウェアハウスクエリのパフォーマンスが向上しています。

xVelocity のメモリ最適化列ストアインデックスでは、対象となる列のすべてのデータが別個のページに格納されるため、"純粋" な列ストア型と言えます (ハイブリッド型ではありません)。列ストアインデックスは、I/O のスキャンパフォーマンスとバッファーヒット率を高め、FTDW の設計手法とも高い親和性があります。

ベストプラクティス

列ストアインデックスのオブジェクトはテーブルと併存し、非クラスター化インデックスと同様の方法で作成されます。この事実は、漸増的なストレージ容量の必要性を示しています。列ストアインデックスを別個のファイルグループに作成する必要はありませんが、インデックスの対象となるテーブルが頻繁に変更されると予想される場合は例外です。変化の激しい環境では、列ストアインデックスを別のファイルグループで管理することで、長期的なページの断片化を効率的に管理することができます。

正規化されたデータモデルに対する列ストアインデックスの作成

標準的なデータモデル (3NF) は、複数の大きな (ファクト) テーブルの結合を伴うことが少なくありません。現在こうしたタイプの結合は列ストアインデックスの処理には適しておらず、列ストアインデックスを使わないクエリプランと比べて、パフォーマンスが低くなる場合があります。標準的なデータモデルで生じるこの問題は、次の手法で回避できる可能性があります。

· クエリレベルのヒントを使用して、列ストアインデックスの処理が使用されないようにする。

· OPTION(IGNORE_NONCLUSTERED_COLUMNSTORE_INDEX) を使用する。

· クエリを書き換える。詳細については、このドキュメントの「列ストアインデックスの一般的なベストプラクティス」のセクションに示したリソースを参照してください。

· 列ストアインデックスを使わないクエリプランでパフォーマンスが低くなる SQL 結合操作に共通する結合キーを、その結合操作に関与する 1 つのテーブルから試験的に省略する。1 つのテーブルの列ストアインデックスから結合キーを省略すると、その省略された列で結合操作を実行するクエリに、その列ストアインデックスが使用されなくなる場合があります。この手法は、クエリレベルオプションを適用できない環境で活用できます。ただし、列ストアインデックスから列を省略しても、クエリプランが改善されるとは限りません。列ストアインデックスによってパフォーマンスが向上している他のクエリに影響を及ぼす可能性もあります。この手法を使用する場合、小さいテーブルの列を選択することで、他のクエリへのパフォーマンスの影響を抑えることができます。列ストアインデックスには、宣言された (DDL の) 主キーを含める必要があるため、使用できる結合列が制限される場合があります。列ストアインデックスの定義から主キー列を省略した場合でも、列ストアインデックスには、その作成時にすべての主キー列が自動的に追加されます。

現行リリースでは、標準的なデータモデルは列ストアインデックスに完全には最適化されていませんが、FTDW のベンチマークは、正規化されたモデルである修正版の TPC-H に基づいています。列ストアインデックスと非列ストアインデックスの両方のクエリプランが混在した同時実行ワークロードでも、大幅なパフォーマンスゲインが測定されています。たとえば、FTDW の定格スループットが、全体的なワークロードパフォーマンスの 2 倍近くに達するケースもありました。

ディメンショナルデータモデルに対する列ストアインデックスの作成

ディメンショナルモデル (スタースキーマなど) では、列ストアインデックスの標準的なベストプラクティスに従ってください。これは、列ストアインデックス処理のベストケースのシナリオと考えることができます。

列ストアインデックスのメモリ管理

SQL Server 2012 向けに検証された FTRA のほとんどは、SQL Server 2008 R2 向けの同様の構成と比べて合計システム RAM が多くなります。その主な理由は、列ストアインデックスが適用されるワークロードは、メモリプールが大きいほど効率よく実行できるためです。列ストアインデックスの利用を計画している FTDW 環境では、必ずリソースガバナーを使用して、セッションごとの最大メモリ量を設定する必要があります。検証済みの FTRA では、FT の定格パフォーマンスを得るために使用されたリソースガバナー設定が記録されています。その値は、顧客のワークロードの基礎となる数値と言えます。システムのインストール後に、その設定を評価し、顧客のワークロードに合わせて具体的に調整することをお勧めします。

次の SQL コマンドでは、以上の推奨事項に従って、SQL Server のリソースガバナーを構成します。このケースでは、セッションあたりの最大メモリ量を 19% に設定しています。

ALTER RESOURCE GOVERNOR RECONFIGURE;

ALTER WORKLOAD GROUP [default] WITH(request_max_memory_grant_percent=19);

xVelocity メモリ最適化�

fast track data warehouse reference guide for...

Documents