[cloud onair ] #03 no-ops で大量データ処理基盤を簡単に構築する
TRANSCRIPT
Cloud OnAir
企業で保有するデータサイズ
563 TB 〜 100,000 TB ※1
※1 https://www.symantec.com/content/dam/symantec/docs/reports/2012-state-of-information-global-en.pdf※2 1スプレッドシート = 10MBの場合
約10,000,000 スプレッドシート※2
6
Cloud OnAir
大量のデータを扱うときの課題
分析
クラスタを作成
クラスタを管理
クラスタをアップグレード
インデックスを定義
ソフトウェアをセットアップ
ネットワークをセットアップ
スケールを管理
8
Cloud OnAir
大量データに対す るGoogle のアプローチ
2016
Google Research
20082002 2004 2006 2010 2012 2014 2015
OpenSource
2005
GoogleCloudProducts BigQuery Pub/Sub Dataflow Bigtable ML
GFS MapReduce BigTable Dremel Flume
Java Millwheel Tensorflow
Apache Beam
PubSub
9
Cloud OnAir
分析に費やす時間を増やす
分析
クラスタを作成
クラスタを管理
クラスタをアップグレード
インデックスを定義
ソフトウェアをセットアップ
ネットワークをセットアップ
スケールを管理
典型的なデータ ウェアハウス
インフラではなく、
データから知見を
導くところに
フォーカスする
分析
クラウド時代の
Big Data アーキテクチャ
10
Cloud OnAir
GCPのプロダクトで実現するには
保存収集
BigQuery(SQL)
加工 / 分析
Cloud Dataflow(stream
and batch)
CloudStorage(objects)
CloudDatastore
(NoSQL)
BigQuery Storage
(structured)
Cloud Dataproc (Hadoop & Ecosystem)
Cloud Bigtable(NoSQLHBase)
Cassandra hBase MongoDBRabbit MQ Kafka
Cloud 2.0
Cloud 3.0
可視化
Cloud Datalab (iPython/Jupyter)
Tableau
CloudPub/Sub
Stackdriver Logging
BQ Streaming
App Engine
Cloud SQL(SQL)
Cloud Machine Learning
CloudSpanner(NewSQL)
13
Cloud OnAir
リファレンスアーキテクチャ
Cloud Pub/SubAt Least One の信頼性を持つ、スケーラブルなグローバル分散メッセージ・キュー
Cloud Storageオブジェクトストレージ。外部システムが出力するファイルの GCP へのエントリーポイントとなる
イベント、メトリック等
Stackdriver LoggingGCP および AWS(EC2) からログイベントを収集API を介して任意のアプリケーションログも収集
Transfer Service
生ログ、ファイル、外部システムからの
アウトプット 等
GCP のシステムログ、アプリケーション
ログ 等
14
Cloud OnAir
リファレンスアーキテクチャ
イベント、メトリック等
Stream
Batch
Cloud Dataflowバッチ/ストリーム両方に対応したデータ処理エンジン
Cloud DataprocSpark / Hadoop のマネージド・サービス
Batch
生ログ、ファイル、外部システムからの
アウトプット 等
GCP のシステムログ、アプリケーション
ログ 等
15
Cloud OnAir
リファレンスアーキテクチャ
イベント、メトリック等
Stream
Batch
Batch
BigQuery大規模データ セットに対する高性能クエリーエンジン
生ログ、ファイル、外部システムからの
アウトプット 等
GCP のシステムログ、アプリケーション
ログ 等
16
Cloud OnAir
リファレンスアーキテクチャ
イベント、メトリック等
Stream
Batch
Batch
外部アプリケーション
Cloud Datalab
可視化およびBI
データ共有
B CA
BigQuery
Dataproc
Dataflow
Cloud Storage
Pub/Sub
Stackdriver Logging
Data Studio
生ログ、ファイル、外部システムからの
アウトプット 等
GCP のシステムログ、アプリケーション
ログ 等
17
Cloud OnAir
リファレンスアーキテクチャ
生ログ、ファイル、外部システムからのア
ウトプット 等
イベント、メトリック等
GCPのシステムログ、アプリケーション
ログ 等
Stream
Batch
Batch
外部アプリケーション
Cloud Datalab
可視化およびBI
データ共有
B CA
BigQuery
Dataproc
Dataflow
Cloud Storage
Pub/Sub
Stackdriver Logging
Data StudioNo-ops で自動的にスケールするビックデータ処理基盤
Cloud OnAir
Spotify: 音楽ストリーミングの巨大インフラを Google Cloud Platform へ移行
https://cloudplatform-jp.googleblog.com/2016/02/spotify-google-cloud-platform.html
● 世界中に 7,500 万以上のユーザー
● 20 億を超えるプレイリスト
● 3,000 万曲以上の楽曲
● パーソナライズされたプレイリストを提供
技術の重要性を早くから認識して自前で
インフラを作り上げてきた
”最も重要なこと ” にフォーカスするために
自前主義から脱却
21
Cloud OnAir
Spotify: BigQuery により分析処理をスピードアップ
Common query types Hive / Hadoop BigQuery
KPIs by specified ad hoc parameters ~1,200 secs ~10 - 20 secs
FB audience list for social targeting for AU campaign ~4,000 secs ~15 - 30 secs
Top tracks by age / gender by market ~17,500 secs ~500 secs
24
Cloud OnAir
Spotify: BigQuery により分析処理をスピードアップ
“”
BIGQUERY が、私にとって人生最高のものだと、
ついに世界に伝えることができる。
BIGQUERY が、私にとって人生最高のものだと、
ついに世界に伝えることができる。
25
“クラウドプロバイダは成熟してきた。コストが下がり、信頼性が増し、様々なサービスを提供するようになってきた”
Spotifyhttp://www.slideshare.net/JoshBaer/shortening-the-feedback-loop-big-data-spain-external
“物理マシンを所有して運用することは、我々にとっては競争優位ではない “
Spotifyhttp://www.slideshare.net/JoshBaer/shortening-the-feedback-loop-big-data-spain-external
“我々はビッグデータ技術における Google の先進性が、我々のデータ処理に優
位をもたらしてくれると信じている”
Spotifyhttp://www.slideshare.net/JoshBaer/shortening-the-feedback-loop-big-data-spain-external
Cloud OnAir
Google Cloud で簡単に始める大量データ処理
調査分析
PoC 機器購入メンテナス 機器増強
セットアップ
分析
事前準備 分析作業
今まで
Google Cloud だと
Google Cloud
申し込み短縮されるタイムライン
30