【17-c-1】 big data を扱うアーキテクチャーの原則
TRANSCRIPT
Developers Summit 2011
(C) 2011 Microsoft Corporation 2
(C) 2011 Microsoft Corporation 3
ロードバランサ
Web サーバ ビジネスロジック
RDB サーバ
http://www.perfdynamics.com/Manifesto/USLscalability.html
4 (C) 2011 Microsoft Corporation
(C) 2011 Microsoft Corporation 5
(C) 2011 Microsoft Corporation 6
(C) 2011 Microsoft Corporation 7
マスター データ
参照系 データ
トランザクション データ
トランザクション データ
バッチ処理や 非同期処理
AP1
AP2
AP3
AP4
参照
挿入
更新系
AP: データベースの アプリケーション (SOA のサービス)
(C) 2011 Microsoft Corporation 8
非定型プロセス フロー ドキュメント
ロング トランザクション フロー、ストック SOA
バッチ処理 ストック KVS、カラム指向、MapReduce
ACID トランザクション ストック RDB、KVS、カラム指向(参照)、分散キャッシュ、ストリーム
漸次変更処理 ストック OLAP、グラフデータ
システムの実運用に必要となる 情報の事前準備の部分
リアルタイムの操作が実行され新たな情報が生成される部分
新たな発展が見られる分野
(C) 2011 Microsoft Corporation 9
画面 (サービス)
サービス
画面 (サービス)
サービス
行指向
列指向
Web フロントエンド レイテンシー
ロジック、バックエンド スループット
更新系 (OLTP)
参照系 (分析)
キュー
キュー
データ更新の伝播
Command
Query
(C) 2011 Microsoft Corporation 10
構造 (アーキテクチャ―スタイル)
アルゴリズム戦略
実装戦略
並列実行機構
振る舞い (アルゴリズム)
www.upcrc.illinois.edu
(C) 2011 Microsoft Corporation 11
(C) 2011 Microsoft Corporation 12
データ分割による競合防止 分類→分割→配置→集約 ホットスポットの回避 データ偏在の解決
メモリ上の効率利用 index データ構造アクセス 遅延永続化
転送効率化 Co-location、転送プロトコル 簡易検査、圧縮などデータ量の削減
並列可能箇所の並列実行 時間順序保証の上
負荷分散 非同期による時間差
(C) 2011 Microsoft Corporation 13