データ活用を推進する「pivotal hdb(apache hawq(ホーク))」

21
1 © Copyright 2016 Pivotal. All rights reserved. データ活用を推進する Pivotal HDB(Apache HAWQ(ホーク))20161214Pivotalジャパン株式会社 技術統括部 松下 正之 - SQL on Hadoop の決定版、Pivotal HDB2.0技術解説 -

Upload: masayuki-matsushita

Post on 16-Apr-2017

419 views

Category:

Data & Analytics


1 download

TRANSCRIPT

Page 1: データ活用を推進する「Pivotal HDB(Apache HAWQ(ホーク))」

1 © Copyright 2016 Pivotal. All rights reserved. 1 © Copyright 2016 Pivotal. All rights reserved.

データ活用を推進する 「Pivotal HDB(Apache HAWQ(ホーク))」

2016年12月14日 Pivotalジャパン株式会社 技術統括部 松下 正之

- SQL on Hadoop の決定版、Pivotal HDB2.0技術解説 -

Page 2: データ活用を推進する「Pivotal HDB(Apache HAWQ(ホーク))」

2 © Copyright 2016 Pivotal. All rights reserved.

Pivotalの提供するサイクルモデル

データ活用成功のためのサイクルモデル

Page 3: データ活用を推進する「Pivotal HDB(Apache HAWQ(ホーク))」

3 © Copyright 2016 Pivotal. All rights reserved.

Pivotalの主要製品ポートフォリオ

クラウド

アジャイル

Pivotal Cloud Foundry PaaS基盤 (オープンソース・商用版)

Pivotal Labs アジャイル開発&データサイエンス

オープンソース Spring, Rabbit MQ, Redis等

Pivotal Greenplum 並列処理DB

Pivotal GemFire インメモリ

データストア

ビッグデータ

Pivotal HDB Hadoop及びNative SQLエンジン

クラウドサービス=新たなハードウェア

Page 4: データ活用を推進する「Pivotal HDB(Apache HAWQ(ホーク))」

4 © Copyright 2016 Pivotal. All rights reserved.

Pivotal HDB (Apache HAWQ)

Page 5: データ活用を推進する「Pivotal HDB(Apache HAWQ(ホーク))」

5 © Copyright 2016 Pivotal. All rights reserved.

Pivotal HDB or Apache HAWQ ? �  これまで商用版として提供していた、Pivotal HAWQを昨年OSS化

�  それに伴い名称変更 –  商用版: Pivotal HDB OSS版: Apache HAWQ

Page 6: データ活用を推進する「Pivotal HDB(Apache HAWQ(ホーク))」

6 © Copyright 2016 Pivotal. All rights reserved.

Pivotal HDB 概要 •  Pivotal HDB

–  オープンソースのApache HAWQの商用版 –  HAWQ: HAdoop With Query、読み方: ホーク –  参考URL: http://hawq.incubator.apache.org/

–  Pivotal HDB 2.1(最新)の主要機能 –  性能:HDFSに対する標準SQLによる高速クエリ処理

–  連携:Hive、Hbase、Avro、等 Hadoopデータとの連携

–  エンタープライズストレージ対応

–  EMC Isilonとの連携

–  Pivotalのデータレーク・アーキテクチャの分析エンジンの要

Page 7: データ活用を推進する「Pivotal HDB(Apache HAWQ(ホーク))」

7 © Copyright 2016 Pivotal. All rights reserved.

SQL on Hadoop “HDB(HAWQ)” �  HDFS上の高速データベースエンジン

–  ビッグデータに対する高速クエリ処理

–  標準SQL準拠

–  データ・ローカリティ/ショート・サーキット・リード機能

–  統計解析関数 MADlib に対応 ▪  http://madlib.incubator.apache.org/

�  HDB 2.x - 主なハイライト - –  Elastic Query Execution Runtime機能 –  Ambariによる統合管理 –  YARN対応 –  HCatalog対応

HDFS Pig MapReduce

Hadoop

Page 8: データ活用を推進する「Pivotal HDB(Apache HAWQ(ホーク))」

8 © Copyright 2016 Pivotal. All rights reserved.

Pivotal HDP/HDBのコンポーネント

Apache Pivotal追加機能

セキュリティ プロビジョニング 管理 監視

Ranger

Knox

Atlas

HDFS encrypt

ion

スケジューリング

Oozie

Ambari

Cloudbreak

Zookeeper

データ ライフサイクル

& ガバナンス

Atlas

Falcon

データ ワークフロー

WebHDFS

NFS

Kafka

Flume

Sqoop

Xtensionフレームワーク

カタログ サービス

クエリオプティマイザ

ANSI SQL + アナリティクス

Pivotal HDB

MADlib アルゴリズム

ダイナミックパイプライニング

Map Reduce

Solr Spark Pig

Tez

Hive

Tez

Storm

Slider Slider

Hbase Accumulo Phoenix

HDB

ツール

Ambari User Views

Zeppelin

Hadoop分散ファイルシステム

HDFS

YARN

データアクセス

Pivotal HDP

Page 9: データ活用を推進する「Pivotal HDB(Apache HAWQ(ホーク))」

9 © Copyright 2016 Pivotal. All rights reserved.

Hadoop処理をより高速に

OS

HDFS

MapReduce

OS

GPDB データ 処理層

データ IO層

OS

HDFS

HDB

•  Cプロセスによる低いオーバヘッド

•  中間データのオンメモリ処理

•  Javaプロセスによる高いオーバヘッド

•  中間データのオンディスク処理

HDFSレイヤーにIO処理時のオーバヘッド

•  Cプロセスによる低いオーバヘッド

•  中間データのオンメモリ処理

Page 10: データ活用を推進する「Pivotal HDB(Apache HAWQ(ホーク))」

10 © Copyright 2016 Pivotal. All rights reserved.

Pivotal HDB2.x系性能検証 (業界標準指標TPC-DSを使用)

� TPC-DS Performance Review –  比較: Pivotal HDB2.0 vs. Cloudera Impala 2.5

� 別資料で説明致します –  Pivotal HDBの導入を検討されている方で、本内容にご興味のある方は、

私(松下)もしくはPivotal社員まで別途お問い合せ下さい

Page 11: データ活用を推進する「Pivotal HDB(Apache HAWQ(ホーク))」

11 © Copyright 2016 Pivotal. All rights reserved.

Pivotal eXtension Framework(PXF) �  HDB(HAWQ)から外部データに対して、

クエリアクセスを可能にする拡張フレームワーク

�  HDFS上のファイル、Hiveテーブル、Hbaseテーブルのデータなどにアクセスするためのビルトイン・コネクタ

–  HDFS/Hive/HBase/AVRO

�  拡張フレームワークによる、連携対象データの追加も可能

–  ユーザは他のデータストアにアクセスするためのオリジナル・コネクタ(Java)を作成することも可能

HDFS HBase Hive

Xtension Framework

Page 12: データ活用を推進する「Pivotal HDB(Apache HAWQ(ホーク))」

12 © Copyright 2016 Pivotal. All rights reserved.

HDB(HAWQ)高度分析機能の標準実装 �  パラレル処理による高い性能

�  SQLインタフェイス

�  分析関数 MADLib の標準実装 –  線形回帰

–  ロジスティック回帰

–  多重ロジスティック回帰

–  K平均

–  アソシエーションルール

–  PLDA –  …

Page 13: データ活用を推進する「Pivotal HDB(Apache HAWQ(ホーク))」

13 © Copyright 2016 Pivotal. All rights reserved.

高度分析機能MADlibの標準実装

予測的モデリングライブラリ

線形システム解析 •  疎行列ソルバー •  密行列ソルバー

行列因子分解 •  特異値分解 (SVD) •  低ランク近似

一般化線形モデル •  線形回帰 •  ロジスティック回帰 •  多項ロジスティック回帰 •  コックス比例ハザード •  回帰分析 •  エラスティックネット型正規化 •  サンドイッチ推定

機械学習アルゴリズム •  主成分分析(PCA) •  アソシエーションルール分析 (アフィニティ分

析,マーケットバスケット分析) •  トピックモデリング (パラレルLDA) •  決定木 •  アンサンブル学習(ランダムフォレスト) •  サポートベクターマシン •  コンディショナルランダムフィールズ(CRF) •  クラスタリング (K平均法) •  クロスバリデーション

記述統計

スケッチベース推定 •  CountMinスケッチ •  Flajolet-Martinスケッチ •  最頻値スケッチ 相関関係 統計値サマリ

サポートモジュール

配列演算 疎ベクトル ランダムサンプリング

確率関数

Latest release: MADlib v1.9, URL: madlib.net

Page 14: データ活用を推進する「Pivotal HDB(Apache HAWQ(ホーク))」

14 © Copyright 2016 Pivotal. All rights reserved.

Pivotal HDB (Apache HAWQ)

詳細

Page 15: データ活用を推進する「Pivotal HDB(Apache HAWQ(ホーク))」

15 © Copyright 2016 Pivotal. All rights reserved.

HAWQ �  HAWQのサービス

�  マスターサービス

�  クライアント接続の制御

�  問い合わせへの回答

�  クエリプランの作成

�  スレーブノードへの処理の割り当て、処理結果のとりまとめ

�  メタデータ (global system catalog)の保持・管理(ユーザデータは保持しない)

HAWQ Standby Master

HAWQ Segment Server

HAWQ Master

�  マスターサービス

�  HA構成におけるウォーム・スタンバイノード(手動HA)

�  HAWQ Masterとの間でトランザクションログのレプリケーションを実施(メタデータの同期)

�  スレーブサービス

�  Masterからのクエリプランに従いHDFS上のユーザデータを処理

Page 16: データ活用を推進する「Pivotal HDB(Apache HAWQ(ホーク))」

16 © Copyright 2016 Pivotal. All rights reserved.

HAWQ �  HAWQの構成

–  マスター/スレーブ構成。マスターサービスはActive – Standby のHA構成 –  HDFS稼働が前提。 –  PXFを通じてHive / HBase連携する場合はその準備も必要 –  スケールアウト (必要に応じてスレーブノードの追加が可能)

HAWQ Segment Server

HAWQ Master

HAWQ Standby Master

マスター系ノード(HA構成)

スレーブ系ノード

HAWQ Segment Server

HAWQ Segment Server

HAWQ Segment Server

HAWQ Segment Server

HA

HDFS

Page 17: データ活用を推進する「Pivotal HDB(Apache HAWQ(ホーク))」

17 © Copyright 2016 Pivotal. All rights reserved.

HAWQ データ書き込み(InsertによるCSVファイルのロード)

Inter Connect

HAWQ Master

HDFS DataNode

HAWQ Segment 2

HDFS DataNode

HAWQ Segment 3

HDFS DataNode

HAWQ Segment 1

1 1 1

libhdfs3 libhdfs3 libhdfs3

HDFS DataNode

HAWQ Segment 4

libhdfs3

2 2 2 3 3 3

書き込み要求 HDFS NameNode

HAWQ Metadata

HDFS NameNode

Address HDFS Datanode list

Point! Pivotalが改良した

libhdfs3(C API)により高速にHDFSへデータ配置

Point! <Data Locality>

セグメントに割り振られたデータブロックの1つを必ず自身のデータノードに配置

gpfdist

Page 18: データ活用を推進する「Pivotal HDB(Apache HAWQ(ホーク))」

18 © Copyright 2016 Pivotal. All rights reserved.

Read 要求

HAWQ Data読み込み(Selectによるデータの参照)

Inter Connect

HAWQ Master

HDFS NameNode

HDFS DataNode

HAWQ Segment 2

HDFS DataNode

HAWQ Segment 3

HDFS DataNode

HAWQ Segment 1

1 1 1

libhdfs3 libhdfs3

HDFS DataNode

HAWQ Segment 4

libhdfs3

2 2 2 3 3 3

List of file to read HDFS

Datanode list

Point! <Short circuit read>

ローカルディスクにあるデータブロックをlibhdfs3を通して、最優先で読み込む。 DataNode(Java)を介さず直接HDDより読み込むことで高速化を実現している。 これをShort circuit readをいう。

libhdfs3

Page 19: データ活用を推進する「Pivotal HDB(Apache HAWQ(ホーク))」

19 © Copyright 2016 Pivotal. All rights reserved.

Pivotal HDB(Apache HAWQ)がもたらす価値 �  インタラクティブな分析環境の提供

–  Hiveと比較して数十倍から数百倍の性能向上

�  既存資産(プログラムとスキル)の活用 –  ANSI SQL92,98,2003への対応

�  Hadoop環境でBI/BAツールを利用してデータ分析 –  ODBC/JDBC標準インターフェースを提供

�  データ連携機能により、Hadoop/HDB間のデータ移動が不要 –  PXF機能によるHive、Hbase、Avro、等のHadoopデータへの透過的クエリアクセス

�  既存DBとのデータ二重持ちコストの削減 –  HDFS上への全データの統合

Page 20: データ活用を推進する「Pivotal HDB(Apache HAWQ(ホーク))」

20 © Copyright 2016 Pivotal. All rights reserved.

おまけ

� Pivotal HDBをちょっと使ってみたい方には、 –  HDB 2.0 Sandbox on HDP VM をご用意しております –  https://network.pivotal.io/products/pivotal-hdb#/releases/1695 (無償・ユーザ登録)

� Pivotal Japan Tech Community のご紹介 –  Pivotal関連の技術情報を共有するグループ –  https://pivotal-japan.connpass.com/

Page 21: データ活用を推進する「Pivotal HDB(Apache HAWQ(ホーク))」

21 © Copyright 2016 Pivotal. All rights reserved.