データ活用を推進する「pivotal hdb(apache hawq(ホーク))」
TRANSCRIPT
1 © Copyright 2016 Pivotal. All rights reserved. 1 © Copyright 2016 Pivotal. All rights reserved.
データ活用を推進する 「Pivotal HDB(Apache HAWQ(ホーク))」
2016年12月14日 Pivotalジャパン株式会社 技術統括部 松下 正之
- SQL on Hadoop の決定版、Pivotal HDB2.0技術解説 -
2 © Copyright 2016 Pivotal. All rights reserved.
Pivotalの提供するサイクルモデル
データ活用成功のためのサイクルモデル
3 © Copyright 2016 Pivotal. All rights reserved.
Pivotalの主要製品ポートフォリオ
クラウド
アジャイル
Pivotal Cloud Foundry PaaS基盤 (オープンソース・商用版)
Pivotal Labs アジャイル開発&データサイエンス
オープンソース Spring, Rabbit MQ, Redis等
Pivotal Greenplum 並列処理DB
Pivotal GemFire インメモリ
データストア
ビッグデータ
Pivotal HDB Hadoop及びNative SQLエンジン
クラウドサービス=新たなハードウェア
4 © Copyright 2016 Pivotal. All rights reserved.
Pivotal HDB (Apache HAWQ)
5 © Copyright 2016 Pivotal. All rights reserved.
Pivotal HDB or Apache HAWQ ? � これまで商用版として提供していた、Pivotal HAWQを昨年OSS化
� それに伴い名称変更 – 商用版: Pivotal HDB OSS版: Apache HAWQ
6 © Copyright 2016 Pivotal. All rights reserved.
Pivotal HDB 概要 • Pivotal HDB
– オープンソースのApache HAWQの商用版 – HAWQ: HAdoop With Query、読み方: ホーク – 参考URL: http://hawq.incubator.apache.org/
– Pivotal HDB 2.1(最新)の主要機能 – 性能:HDFSに対する標準SQLによる高速クエリ処理
– 連携:Hive、Hbase、Avro、等 Hadoopデータとの連携
– エンタープライズストレージ対応
– EMC Isilonとの連携
– Pivotalのデータレーク・アーキテクチャの分析エンジンの要
7 © Copyright 2016 Pivotal. All rights reserved.
SQL on Hadoop “HDB(HAWQ)” � HDFS上の高速データベースエンジン
– ビッグデータに対する高速クエリ処理
– 標準SQL準拠
– データ・ローカリティ/ショート・サーキット・リード機能
– 統計解析関数 MADlib に対応 ▪ http://madlib.incubator.apache.org/
� HDB 2.x - 主なハイライト - – Elastic Query Execution Runtime機能 – Ambariによる統合管理 – YARN対応 – HCatalog対応
HDFS Pig MapReduce
Hadoop
8 © Copyright 2016 Pivotal. All rights reserved.
Pivotal HDP/HDBのコンポーネント
Apache Pivotal追加機能
セキュリティ プロビジョニング 管理 監視
Ranger
Knox
Atlas
HDFS encrypt
ion
スケジューリング
Oozie
Ambari
Cloudbreak
Zookeeper
データ ライフサイクル
& ガバナンス
Atlas
Falcon
データ ワークフロー
WebHDFS
NFS
Kafka
Flume
Sqoop
Xtensionフレームワーク
カタログ サービス
クエリオプティマイザ
ANSI SQL + アナリティクス
Pivotal HDB
MADlib アルゴリズム
ダイナミックパイプライニング
Map Reduce
Solr Spark Pig
Tez
Hive
Tez
Storm
Slider Slider
Hbase Accumulo Phoenix
HDB
ツール
Ambari User Views
Zeppelin
Hadoop分散ファイルシステム
HDFS
YARN
データアクセス
Pivotal HDP
9 © Copyright 2016 Pivotal. All rights reserved.
Hadoop処理をより高速に
OS
HDFS
MapReduce
OS
GPDB データ 処理層
データ IO層
OS
HDFS
HDB
• Cプロセスによる低いオーバヘッド
• 中間データのオンメモリ処理
• Javaプロセスによる高いオーバヘッド
• 中間データのオンディスク処理
HDFSレイヤーにIO処理時のオーバヘッド
• Cプロセスによる低いオーバヘッド
• 中間データのオンメモリ処理
10 © Copyright 2016 Pivotal. All rights reserved.
Pivotal HDB2.x系性能検証 (業界標準指標TPC-DSを使用)
� TPC-DS Performance Review – 比較: Pivotal HDB2.0 vs. Cloudera Impala 2.5
� 別資料で説明致します – Pivotal HDBの導入を検討されている方で、本内容にご興味のある方は、
私(松下)もしくはPivotal社員まで別途お問い合せ下さい
11 © Copyright 2016 Pivotal. All rights reserved.
Pivotal eXtension Framework(PXF) � HDB(HAWQ)から外部データに対して、
クエリアクセスを可能にする拡張フレームワーク
� HDFS上のファイル、Hiveテーブル、Hbaseテーブルのデータなどにアクセスするためのビルトイン・コネクタ
– HDFS/Hive/HBase/AVRO
� 拡張フレームワークによる、連携対象データの追加も可能
– ユーザは他のデータストアにアクセスするためのオリジナル・コネクタ(Java)を作成することも可能
HDFS HBase Hive
Xtension Framework
12 © Copyright 2016 Pivotal. All rights reserved.
HDB(HAWQ)高度分析機能の標準実装 � パラレル処理による高い性能
� SQLインタフェイス
� 分析関数 MADLib の標準実装 – 線形回帰
– ロジスティック回帰
– 多重ロジスティック回帰
– K平均
– アソシエーションルール
– PLDA – …
13 © Copyright 2016 Pivotal. All rights reserved.
高度分析機能MADlibの標準実装
予測的モデリングライブラリ
線形システム解析 • 疎行列ソルバー • 密行列ソルバー
行列因子分解 • 特異値分解 (SVD) • 低ランク近似
一般化線形モデル • 線形回帰 • ロジスティック回帰 • 多項ロジスティック回帰 • コックス比例ハザード • 回帰分析 • エラスティックネット型正規化 • サンドイッチ推定
機械学習アルゴリズム • 主成分分析(PCA) • アソシエーションルール分析 (アフィニティ分
析,マーケットバスケット分析) • トピックモデリング (パラレルLDA) • 決定木 • アンサンブル学習(ランダムフォレスト) • サポートベクターマシン • コンディショナルランダムフィールズ(CRF) • クラスタリング (K平均法) • クロスバリデーション
記述統計
スケッチベース推定 • CountMinスケッチ • Flajolet-Martinスケッチ • 最頻値スケッチ 相関関係 統計値サマリ
サポートモジュール
配列演算 疎ベクトル ランダムサンプリング
確率関数
Latest release: MADlib v1.9, URL: madlib.net
14 © Copyright 2016 Pivotal. All rights reserved.
Pivotal HDB (Apache HAWQ)
詳細
15 © Copyright 2016 Pivotal. All rights reserved.
HAWQ � HAWQのサービス
� マスターサービス
� クライアント接続の制御
� 問い合わせへの回答
� クエリプランの作成
� スレーブノードへの処理の割り当て、処理結果のとりまとめ
� メタデータ (global system catalog)の保持・管理(ユーザデータは保持しない)
HAWQ Standby Master
HAWQ Segment Server
HAWQ Master
� マスターサービス
� HA構成におけるウォーム・スタンバイノード(手動HA)
� HAWQ Masterとの間でトランザクションログのレプリケーションを実施(メタデータの同期)
� スレーブサービス
� Masterからのクエリプランに従いHDFS上のユーザデータを処理
16 © Copyright 2016 Pivotal. All rights reserved.
HAWQ � HAWQの構成
– マスター/スレーブ構成。マスターサービスはActive – Standby のHA構成 – HDFS稼働が前提。 – PXFを通じてHive / HBase連携する場合はその準備も必要 – スケールアウト (必要に応じてスレーブノードの追加が可能)
HAWQ Segment Server
HAWQ Master
HAWQ Standby Master
マスター系ノード(HA構成)
スレーブ系ノード
HAWQ Segment Server
HAWQ Segment Server
HAWQ Segment Server
HAWQ Segment Server
HA
HDFS
17 © Copyright 2016 Pivotal. All rights reserved.
HAWQ データ書き込み(InsertによるCSVファイルのロード)
Inter Connect
HAWQ Master
HDFS DataNode
HAWQ Segment 2
HDFS DataNode
HAWQ Segment 3
HDFS DataNode
HAWQ Segment 1
1 1 1
libhdfs3 libhdfs3 libhdfs3
HDFS DataNode
HAWQ Segment 4
libhdfs3
2 2 2 3 3 3
書き込み要求 HDFS NameNode
HAWQ Metadata
HDFS NameNode
Address HDFS Datanode list
Point! Pivotalが改良した
libhdfs3(C API)により高速にHDFSへデータ配置
Point! <Data Locality>
セグメントに割り振られたデータブロックの1つを必ず自身のデータノードに配置
gpfdist
18 © Copyright 2016 Pivotal. All rights reserved.
Read 要求
HAWQ Data読み込み(Selectによるデータの参照)
Inter Connect
HAWQ Master
HDFS NameNode
HDFS DataNode
HAWQ Segment 2
HDFS DataNode
HAWQ Segment 3
HDFS DataNode
HAWQ Segment 1
1 1 1
libhdfs3 libhdfs3
HDFS DataNode
HAWQ Segment 4
libhdfs3
2 2 2 3 3 3
List of file to read HDFS
Datanode list
Point! <Short circuit read>
ローカルディスクにあるデータブロックをlibhdfs3を通して、最優先で読み込む。 DataNode(Java)を介さず直接HDDより読み込むことで高速化を実現している。 これをShort circuit readをいう。
libhdfs3
19 © Copyright 2016 Pivotal. All rights reserved.
Pivotal HDB(Apache HAWQ)がもたらす価値 � インタラクティブな分析環境の提供
– Hiveと比較して数十倍から数百倍の性能向上
� 既存資産(プログラムとスキル)の活用 – ANSI SQL92,98,2003への対応
� Hadoop環境でBI/BAツールを利用してデータ分析 – ODBC/JDBC標準インターフェースを提供
� データ連携機能により、Hadoop/HDB間のデータ移動が不要 – PXF機能によるHive、Hbase、Avro、等のHadoopデータへの透過的クエリアクセス
� 既存DBとのデータ二重持ちコストの削減 – HDFS上への全データの統合
20 © Copyright 2016 Pivotal. All rights reserved.
おまけ
� Pivotal HDBをちょっと使ってみたい方には、 – HDB 2.0 Sandbox on HDP VM をご用意しております – https://network.pivotal.io/products/pivotal-hdb#/releases/1695 (無償・ユーザ登録)
� Pivotal Japan Tech Community のご紹介 – Pivotal関連の技術情報を共有するグループ – https://pivotal-japan.connpass.com/
21 © Copyright 2016 Pivotal. All rights reserved.