[cloud onair ] #03 no-ops で大量データ処理基盤を簡単に構築する

32
Cloud Onr Cloud OnAir Cloud OnAir No-ops で大量データ処理基盤を簡 単に構築する 3 回放送 - 11 2

Upload: google-cloud-platform-japan

Post on 21-Jan-2018

2.860 views

Category:

Technology


0 download

TRANSCRIPT

Cloud Onr

Cloud OnAir

Cloud OnAir

No-ops で大量データ処理基盤を簡単に構築する第 3 回放送 - 11 月 2 日

Agenda

Cloud OnAir

1

3

2

4

大量データ処理とは

簡単に構築するには

Google Cloud 事例

Questions

2

Cloud OnAir

Cloud OnAir

大量データ処理とは

Cloud OnAir

データ処理とは

4

Cloud OnAir

データ処理基盤の要素

加工/分析

可視化保存収集

5

Cloud OnAir

企業で保有するデータサイズ

563 TB 〜 100,000 TB ※1

※1 https://www.symantec.com/content/dam/symantec/docs/reports/2012-state-of-information-global-en.pdf※2 1スプレッドシート = 10MBの場合

約10,000,000 スプレッドシート※2

6

Cloud OnAir

大量のデータをどうやって処理・利用するか

大量・高性能のサーバ アプリケーション(データベース等)

7

Cloud OnAir

大量のデータを扱うときの課題

分析

クラスタを作成

クラスタを管理

クラスタをアップグレード

インデックスを定義

ソフトウェアをセットアップ

ネットワークをセットアップ

スケールを管理

8

Cloud OnAir

大量データに対す るGoogle のアプローチ

2016

Google Research

20082002 2004 2006 2010 2012 2014 2015

OpenSource

2005

GoogleCloudProducts BigQuery Pub/Sub Dataflow Bigtable ML

GFS MapReduce BigTable Dremel Flume

Java Millwheel Tensorflow

Apache Beam

PubSub

9

Cloud OnAir

分析に費やす時間を増やす

分析

クラスタを作成

クラスタを管理

クラスタをアップグレード

インデックスを定義

ソフトウェアをセットアップ

ネットワークをセットアップ

スケールを管理

典型的なデータ ウェアハウス

インフラではなく、

データから知見を

導くところに

フォーカスする

分析

クラウド時代の

Big Data アーキテクチャ

10

Cloud OnAir

Cloud OnAir

簡単に構築するには

Cloud OnAir

簡単とは

すぐ 安価に

12

Cloud OnAir

GCPのプロダクトで実現するには

保存収集

BigQuery(SQL)

加工 / 分析

Cloud Dataflow(stream

and batch)

CloudStorage(objects)

CloudDatastore

(NoSQL)

BigQuery Storage

(structured)

Cloud Dataproc (Hadoop & Ecosystem)

Cloud Bigtable(NoSQLHBase)

Cassandra hBase MongoDBRabbit MQ Kafka

Cloud 2.0

Cloud 3.0

可視化

Cloud Datalab (iPython/Jupyter)

Tableau

CloudPub/Sub

Stackdriver Logging

BQ Streaming

App Engine

Cloud SQL(SQL)

Cloud Machine Learning

CloudSpanner(NewSQL)

13

Cloud OnAir

リファレンスアーキテクチャ

Cloud Pub/SubAt Least One の信頼性を持つ、スケーラブルなグローバル分散メッセージ・キュー

Cloud Storageオブジェクトストレージ。外部システムが出力するファイルの GCP へのエントリーポイントとなる

イベント、メトリック等

Stackdriver LoggingGCP および AWS(EC2) からログイベントを収集API を介して任意のアプリケーションログも収集

Transfer Service

生ログ、ファイル、外部システムからの

アウトプット 等

GCP のシステムログ、アプリケーション

ログ 等

14

Cloud OnAir

リファレンスアーキテクチャ

イベント、メトリック等

Stream

Batch

Cloud Dataflowバッチ/ストリーム両方に対応したデータ処理エンジン

Cloud DataprocSpark / Hadoop のマネージド・サービス

Batch

生ログ、ファイル、外部システムからの

アウトプット 等

GCP のシステムログ、アプリケーション

ログ 等

15

Cloud OnAir

リファレンスアーキテクチャ

イベント、メトリック等

Stream

Batch

Batch

BigQuery大規模データ セットに対する高性能クエリーエンジン

生ログ、ファイル、外部システムからの

アウトプット 等

GCP のシステムログ、アプリケーション

ログ 等

16

Cloud OnAir

リファレンスアーキテクチャ

イベント、メトリック等

Stream

Batch

Batch

外部アプリケーション

Cloud Datalab

可視化およびBI

データ共有

B CA

BigQuery

Dataproc

Dataflow

Cloud Storage

Pub/Sub

Stackdriver Logging

Data Studio

生ログ、ファイル、外部システムからの

アウトプット 等

GCP のシステムログ、アプリケーション

ログ 等

17

Cloud OnAir

実際にやってみる

BigQuery

Data Studio

18

Cloud OnAir

リファレンスアーキテクチャ

生ログ、ファイル、外部システムからのア

ウトプット 等

イベント、メトリック等

GCPのシステムログ、アプリケーション

ログ 等

Stream

Batch

Batch

外部アプリケーション

Cloud Datalab

可視化およびBI

データ共有

B CA

BigQuery

Dataproc

Dataflow

Cloud Storage

Pub/Sub

Stackdriver Logging

Data StudioNo-ops で自動的にスケールするビックデータ処理基盤

Cloud OnAir

Cloud OnAir

Google Cloud の事例

Cloud OnAir

Spotify: 音楽ストリーミングの巨大インフラを Google Cloud Platform へ移行

https://cloudplatform-jp.googleblog.com/2016/02/spotify-google-cloud-platform.html

● 世界中に 7,500 万以上のユーザー

● 20 億を超えるプレイリスト

● 3,000 万曲以上の楽曲

● パーソナライズされたプレイリストを提供

技術の重要性を早くから認識して自前で

インフラを作り上げてきた

”最も重要なこと ” にフォーカスするために

自前主義から脱却

21

Cloud OnAir

Spotify: アーキテクチャ

22

Cloud OnAir

Spotify: Cloud Pub/Sub

スケーラビリティはシステムに組み込まれている

23

Cloud OnAir

Spotify: BigQuery により分析処理をスピードアップ

Common query types Hive / Hadoop BigQuery

KPIs by specified ad hoc parameters ~1,200 secs ~10 - 20 secs

FB audience list for social targeting for AU campaign ~4,000 secs ~15 - 30 secs

Top tracks by age / gender by market ~17,500 secs ~500 secs

24

Cloud OnAir

Spotify: BigQuery により分析処理をスピードアップ

“”

BIGQUERY が、私にとって人生最高のものだと、

ついに世界に伝えることができる。

BIGQUERY が、私にとって人生最高のものだと、

ついに世界に伝えることができる。

25

“クラウドプロバイダは成熟してきた。コストが下がり、信頼性が増し、様々なサービスを提供するようになってきた”

Spotifyhttp://www.slideshare.net/JoshBaer/shortening-the-feedback-loop-big-data-spain-external

“物理マシンを所有して運用することは、我々にとっては競争優位ではない “

Spotifyhttp://www.slideshare.net/JoshBaer/shortening-the-feedback-loop-big-data-spain-external

“我々はビッグデータ技術における Google の先進性が、我々のデータ処理に優

位をもたらしてくれると信じている”

Spotifyhttp://www.slideshare.net/JoshBaer/shortening-the-feedback-loop-big-data-spain-external

Cloud OnAir

Cloud OnAir

まとめ

Cloud OnAir

Google Cloud で簡単に始める大量データ処理

調査分析

PoC 機器購入メンテナス 機器増強

セットアップ

分析

事前準備 分析作業

今まで

Google Cloud だと

Google Cloud

申し込み短縮されるタイムライン

30

Cloud OnAir

まずは無料でお試しください

https://cloud.google.com31

Cloud OnAir

第一歩は BigQuery から

チュートリアルhttps://goo.gl/fwSgKj

クイックスタートhttps://goo.gl/VEfFyk

BigQuery

32