データレイクアーキテクチャと purpose-build な 分析サービ...

47
© 2021, Amazon Web Services, Inc. or its Affiliates. アマゾン ウェブ サービス ジャパン 株式会社 ソリューションアーキテクト 川村 誠 データレイクアーキテクチャと Purpose-build 分析サービス活用事例の紹介

Upload: others

Post on 10-Aug-2021

2 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: データレイクアーキテクチャと Purpose-build な 分析サービ …...機械学習にSpark on EMR を 活用 • S3 にデータレイクを構築 • 可視化とレポーティングには

© 2021, Amazon Web Services, Inc. or its Affiliates.

アマゾンウェブサービスジャパン株式会社

ソリューションアーキテクト

川村誠

データレイクアーキテクチャと Purpose-build な分析サービス活用事例の紹介

Page 2: データレイクアーキテクチャと Purpose-build な 分析サービ …...機械学習にSpark on EMR を 活用 • S3 にデータレイクを構築 • 可視化とレポーティングには

© 2021, Amazon Web Services, Inc. or its Affiliates.

自己紹介

川村誠

ソリューションアーキテクト

データ分析系サービスを担当

好きなサービス

• Amazon EMR

• AWS Glue

• Amazon Athena

Page 3: データレイクアーキテクチャと Purpose-build な 分析サービ …...機械学習にSpark on EMR を 活用 • S3 にデータレイクを構築 • 可視化とレポーティングには

© 2021, Amazon Web Services, Inc. or its Affiliates.

内容

データレイクを実現するリファレンスアーキテクチャ

サービス選択における基本的な考え方

Purpose-build な分析サービス活用事例

まとめ

Page 4: データレイクアーキテクチャと Purpose-build な 分析サービ …...機械学習にSpark on EMR を 活用 • S3 にデータレイクを構築 • 可視化とレポーティングには

© 2021, Amazon Web Services, Inc. or its Affiliates.

データレイクを実現する

リファレンスアーキテクチャ

Page 5: データレイクアーキテクチャと Purpose-build な 分析サービ …...機械学習にSpark on EMR を 活用 • S3 にデータレイクを構築 • 可視化とレポーティングには

© 2021, Amazon Web Services, Inc. or its Affiliates.

ベーシックなデータレイクのアーキテクチャ

収集 変換 分析

保存(ストレージ + データカタログ)

Page 6: データレイクアーキテクチャと Purpose-build な 分析サービ …...機械学習にSpark on EMR を 活用 • S3 にデータレイクを構築 • 可視化とレポーティングには

© 2021, Amazon Web Services, Inc. or its Affiliates.

ラムダアーキテクチャ

• Apache Storm の開発者 Nathan Marz が 2012 年に提唱

• データ処理の流れを,全量のデータを保持し定期的な処理を行うバッチレイヤーと,新しく入ってきたデータをストリーム処理するスピードレイヤーに分割

• 両者を組み合わせて結果を表示する

新しいデータ

すべてのデータ

スピードレイヤー

バッチレイヤー

バッチビュー

リアルタイムビュー

バッチ処理

ストリーム処理

クエリの実行

サービングレイヤー

Page 7: データレイクアーキテクチャと Purpose-build な 分析サービ …...機械学習にSpark on EMR を 活用 • S3 にデータレイクを構築 • 可視化とレポーティングには

© 2021, Amazon Web Services, Inc. or its Affiliates.

ストリーム処理を組み込んだデータレイクのアーキテクチャ

バッチ処理バッチ処理バッチ処理

ストリーム処理

収集 変換 分析

収集 変換 分析

保存

Page 8: データレイクアーキテクチャと Purpose-build な 分析サービ …...機械学習にSpark on EMR を 活用 • S3 にデータレイクを構築 • 可視化とレポーティングには

© 2021, Amazon Web Services, Inc. or its Affiliates.

ストリーム処理を組み込んだデータレイクのアーキテクチャ

バッチ処理バッチ処理バッチ処理

ストリーム処理

分析

収集 変換 分析

保存

収集 変換

あくまでこれは原則なので,こうならない場合もある

たとえば,ストリーム処理で「収集」と「変換」だけして「保存」してしまい,「分析」は後からバッチで実行するといったパターンなど

Page 9: データレイクアーキテクチャと Purpose-build な 分析サービ …...機械学習にSpark on EMR を 活用 • S3 にデータレイクを構築 • 可視化とレポーティングには

© 2021, Amazon Web Services, Inc. or its Affiliates.

ストリーム処理を組み込んだデータレイクのアーキテクチャ

バッチ処理バッチ処理バッチ処理

ストリーム処理

収集 変換 分析

収集

保存

変換 分析

バッチ処理側でも,たとえば変換と分析を同時にやってしまうパターンも考えられる

もちろんコンポーネントの連携が密になるため,処理時間の制約など,必要性に応じて選択

Page 10: データレイクアーキテクチャと Purpose-build な 分析サービ …...機械学習にSpark on EMR を 活用 • S3 にデータレイクを構築 • 可視化とレポーティングには

© 2021, Amazon Web Services, Inc. or its Affiliates.

さまざまな種類のデータ処理・分析がある

• データレイクに活用可能なデータを準備するための、多段 ETL

• 可視化 / 他サービス連携のための、SQL ベースのデータマート作成

• アクセスログに基づいたレコメンド

• アナリストのためのインタラクティブなデータ分析

• 離脱可能性の高いユーザー予測に基づくキャンペーンメール送信

Page 11: データレイクアーキテクチャと Purpose-build な 分析サービ …...機械学習にSpark on EMR を 活用 • S3 にデータレイクを構築 • 可視化とレポーティングには

© 2021, Amazon Web Services, Inc. or its Affiliates.

ユースケースに応じた最適なツールの選択

なんでも完璧にできる、唯一の万能なツールは存在しない

Swiss Army Knife Vector: https://www.freevector.com/swiss-army-knife-vector

Page 12: データレイクアーキテクチャと Purpose-build な 分析サービ …...機械学習にSpark on EMR を 活用 • S3 にデータレイクを構築 • 可視化とレポーティングには

© 2021, Amazon Web Services, Inc. or its Affiliates.

ベーシックなデータレイクのアーキテクチャ

収集 変換 分析

保存(ストレージ + データカタログ)

Page 13: データレイクアーキテクチャと Purpose-build な 分析サービ …...機械学習にSpark on EMR を 活用 • S3 にデータレイクを構築 • 可視化とレポーティングには

© 2021, Amazon Web Services, Inc. or its Affiliates.

ベーシックなデータレイクのアーキテクチャ

収集 変換 分析

保存(ストレージ + データカタログ)

Amazon Database

Migration Service

Amazon Kinesis

Amazon Managed

Streaming for Kafka

Amazon S3 AWS Glue AWS Lake Formation

AWS Glue

AWS Lake Formation

Amazon QuickSight

Amazon Athena

Amazon Redshift Amazon SageMaker

Amazon Personalize

Amazon Forecast

Amazon ESAmazon EMR

AWS Glue DataBrew

Page 14: データレイクアーキテクチャと Purpose-build な 分析サービ …...機械学習にSpark on EMR を 活用 • S3 にデータレイクを構築 • 可視化とレポーティングには

© 2021, Amazon Web Services, Inc. or its Affiliates.

サービス選択における基本的な考え方

• 同時に分析するユーザー数はどのくらい増える見込みがあるか

• 処理対象のデータ量はどのくらいの頻度でどう増えるか

• 処理にかかる時間が十分短いか、大幅に増減する可能性があるか

• 処理内容の変更頻度がどのくらい高いか

• 運用コストとカスタマイズ性のどちらを優先するか

Page 15: データレイクアーキテクチャと Purpose-build な 分析サービ …...機械学習にSpark on EMR を 活用 • S3 にデータレイクを構築 • 可視化とレポーティングには

© 2021, Amazon Web Services, Inc. or its Affiliates.

AWS が提供するフルマネージドな分析サービスインフラの管理ではなく、イノベーションと新しいアプリケーションの開発に時間を活用可能

セルフマネージド

アプリ中心の開発

データ処理設計

データ・ライフサイクルの最適化

ノードのプロビジョニング

ソフトウェア設定

データ取込とインデックス作成の自動化

データの分離とセキュリティ

業界のコンプライアンス

クラスターのサイズ変更

パッチ適用の自動化

アラートと監視

ハードウェアのメンテナンス

フルマネージド

アプリ中心の開発

データ処理設計

データ・ライフサイクルの最適化

ノードのプロビジョニング

ソフトウェア設定

データ取込とインデックス作成の自動化

データの分離とセキュリティ

業界のコンプライアンス

クラスターのサイズ変更

パッチ適用の自動化

アラートと監視

ハードウェアのメンテナンス

お客様 AWS

Page 16: データレイクアーキテクチャと Purpose-build な 分析サービ …...機械学習にSpark on EMR を 活用 • S3 にデータレイクを構築 • 可視化とレポーティングには

© 2021, Amazon Web Services, Inc. or its Affiliates.

サーバーレスとは

サーバーがない?

サーバーの存在を意識しない

ユーザーコントロール可能なサーバーを前提としない AWS のフルマネージドな管理 ただしコンピュータリソースを意識する設定はある

例) AWS Lambda:実行する関数のランタイムのメモリ量

Page 17: データレイクアーキテクチャと Purpose-build な 分析サービ …...機械学習にSpark on EMR を 活用 • S3 にデータレイクを構築 • 可視化とレポーティングには

© 2021, Amazon Web Services, Inc. or its Affiliates.

Purpose-build な分析サービスユースケース毎にパフォーマンス、コスト、スケーラビリティを最適化

Amazon EMR AWS Glue Amazon Redshift

ETL/ データカタログ データウェアハウス

Amazon Kinesis

リアルタイム分析 ビッグデータ処理

Page 18: データレイクアーキテクチャと Purpose-build な 分析サービ …...機械学習にSpark on EMR を 活用 • S3 にデータレイクを構築 • 可視化とレポーティングには

© 2021, Amazon Web Services, Inc. or its Affiliates.

ユースケース

Page 19: データレイクアーキテクチャと Purpose-build な 分析サービ …...機械学習にSpark on EMR を 活用 • S3 にデータレイクを構築 • 可視化とレポーティングには

© 2021, Amazon Web Services, Inc. or its Affiliates.

ユースケース1: Disney+ (米国) ストリーミング顧客分析

出典:re:invent 2020発表資料「How Disney+ uses fast data ubiquity

to improve the customer experience」より

https://www.youtube.com/watch?v=WAOrqsHpJuM

顧客の行動をリアルタイムに分析し、レコメンデーション、広告、顧客体験向上につなげるプラットフォーム

Page 20: データレイクアーキテクチャと Purpose-build な 分析サービ …...機械学習にSpark on EMR を 活用 • S3 にデータレイクを構築 • 可視化とレポーティングには

© 2021, Amazon Web Services, Inc. or its Affiliates.

ユースケース1: Disney+ (米国) ストリーミング顧客分析

出典:re:invent 2020発表資料「How Disney+ uses fast data ubiquity

to improve the customer experience」より

https://www.youtube.com/watch?v=WAOrqsHpJuM

顧客の行動をリアルタイムに分析し、レコメンデーション、広告、顧客体験向上につなげるプラットフォーム

Page 21: データレイクアーキテクチャと Purpose-build な 分析サービ …...機械学習にSpark on EMR を 活用 • S3 にデータレイクを構築 • 可視化とレポーティングには

© 2021, Amazon Web Services, Inc. or its Affiliates.

リアルタイム: Amazon Kinesis容易にビデオ/データストリームの収集・処理・分析をリアルタイムで実現可能

https://aws.amazon.com/jp/kinesis/

Kinesis

Data Firehose

データストリームをA

データストアにロード

Kinesis

Data Analytics

SQLやJava(Flink)でデータストリームをリアルタイムに分析

Kinesis

Data Streams

リアルタイム分析に必要なデータストリームを収集し、保存する

分析のための、動画ストリームのキャプチャ、

処理、保存

Kinesis

Video Streams

Page 22: データレイクアーキテクチャと Purpose-build な 分析サービ …...機械学習にSpark on EMR を 活用 • S3 にデータレイクを構築 • 可視化とレポーティングには

© 2021, Amazon Web Services, Inc. or its Affiliates.

リアルタイム: Amazon Kinesisストリーミングストレージ

https://aws.amazon.com/jp/kinesis/

データは、設定された期間受信した順序で保存され、設定期間内にいつでも再生可能

デフォルト保持期間 24 時間

延長保持期間

最大 1 年間長期データ保持

最大 7 日間

Kinesis

Data Streams

リアルタイム分析に必要なデータストリームを収集し、保存する

Page 23: データレイクアーキテクチャと Purpose-build な 分析サービ …...機械学習にSpark on EMR を 活用 • S3 にデータレイクを構築 • 可視化とレポーティングには

© 2021, Amazon Web Services, Inc. or its Affiliates.

Amazon Kinesis Data Streams

Amazon Kinesis

Data Analytics

Amazon Kinesis

Data Firehose

Spark on EMR

Amazon EC2

AWS LambdaINPUT

Capture and send data to

Amazon Kinesis Data Streams

Shard 1

Shard 2

Shard 3

Shard 4

Shard n

Kinesis Data Streams

リアルタイム分析に必要なデータストリームを収集し、保存する

OUTPUT

Analyze Streaming data using

your favorite BI tools

容易に管理できて低コスト

リアルタイム、弾力性のあるパフォーマンス

安全で耐久性のあるストレージ

複数のリアルタイム分析アプリケーションで利用可能

1台の標準コンシューマで平均 200 ミリ秒のレイテンシー

拡張ファンアウトは 70 ミリ秒の標準平均レイテンシーを提供します

Page 24: データレイクアーキテクチャと Purpose-build な 分析サービ …...機械学習にSpark on EMR を 活用 • S3 にデータレイクを構築 • 可視化とレポーティングには

© 2021, Amazon Web Services, Inc. or its Affiliates.

Amazon Kinesis Data Firehose

Amazon S3

Amazon Redshift

Amazon ES

Splunk

HTTP EndpointsINPUT

データをキャプチャして

Amazon Kinesis Data Frehoseに送信する

Kinesis Data Firehose

データを準備し、選択した宛先に継続的にロード

OUTPUTお好みの BI ツールを使用して

ストリーミングデータを分析する

管理不要でシームレスにオートスケール

データストアにストリームデータを直接連携

サーバーレスで継続的にデータを変換可能

ほぼリアルタイム

Parquet/ ORCへのデータ形式の変換

Datadog, Sumo Logic, New Relic, MongoDBに

データを直接配信

Page 25: データレイクアーキテクチャと Purpose-build な 分析サービ …...機械学習にSpark on EMR を 活用 • S3 にデータレイクを構築 • 可視化とレポーティングには

© 2021, Amazon Web Services, Inc. or its Affiliates.

Amazon Kinesis Data Analytics

OUTPUT処理されたデータを分析ツールに送信して、アラートを作成し、リアルタイムに応答可能

KINESIS DATA ANALYTICS

SQL

SQL を使用したストリーミングデータに対するクエリと分析

Apache Flink を使用したステートフルストリーム処理

Amazon Kinesis

Data Firehose

Amazon Kinesis

Data Streams

Amazon MSK

Additional

streaming sources

INPUTキャプチャされたストリーミングデータ

SQL または統合された Apache Flink アプリケーションを使用して、ストリーミングデータをリアルタイムに操作

完全に管理された伸縮自在なストリーム処理アプリケーションを構築可能

Page 26: データレイクアーキテクチャと Purpose-build な 分析サービ …...機械学習にSpark on EMR を 活用 • S3 にデータレイクを構築 • 可視化とレポーティングには

© 2021, Amazon Web Services, Inc. or its Affiliates.

ユースケース2: リアルタイム分析を活用した広告データレイク

• リアルタイムデータソース• CDN,• リアルタイムビディング基盤• リターゲティング基盤

• ETL / アトリビューション /

機械学習に Spark on EMR を活用

• S3 にデータレイクを構築

• 可視化とレポーティングには3rd パーティツールを活用

• オンプレに対し、7割以上のコストを節約

Spark on EMR

ETL / アトリビューション/ 機械学習 3rd party

可視化ツール

Kinesis

3rd Party レポーティング

ツール

S3

CDN

リアルタイムビディング基盤

リターゲティング基盤

毎秒 2M+ のピークで毎日 90B+ メッセージがストリーミングされるデジタルマーケティングプラットフォームを運用。10 PB+ 規模のデータレイクには、200 TB の新しいデータが毎日追加されている。13 リージョンで 24 時間 365 日稼働中。

Page 27: データレイクアーキテクチャと Purpose-build な 分析サービ …...機械学習にSpark on EMR を 活用 • S3 にデータレイクを構築 • 可視化とレポーティングには

© 2021, Amazon Web Services, Inc. or its Affiliates.

ユースケース2: リアルタイム分析を活用した広告データレイク

• リアルタイムデータソース• CDN,• リアルタイムビディング基盤• リターゲティング基盤

• ETL / アトリビューション /

機械学習に Spark on EMR を活用

• S3 にデータレイクを構築

• 可視化とレポーティングには3rd パーティツールを活用

• オンプレに対し、7割以上のコストを節約

Spark on EMR

ETL / アトリビューション/ 機械学習 3rd party

可視化ツール

Kinesis

3rd Party レポーティング

ツール

S3

CDN

リアルタイムビディング基盤

リターゲティング基盤

毎秒 2M+ のピークで毎日 90B+ メッセージがストリーミングされるデジタルマーケティングプラットフォームを運用。10 PB+ 規模のデータレイクには、200 TB の新しいデータが毎日追加されている。13 リージョンで 24 時間 365 日稼働中。

Page 28: データレイクアーキテクチャと Purpose-build な 分析サービ …...機械学習にSpark on EMR を 活用 • S3 にデータレイクを構築 • 可視化とレポーティングには

© 2021, Amazon Web Services, Inc. or its Affiliates.

Amazon EMRSpark、Hadoop、Hive、Presto、Hbase など、ビッグデータフレームワークを簡単に実行可能

ローコスト

EC2スポットとリザーブドインスタンスでコストを50~80%削減

リソース利用率に基づくオートスケーリングでコスト削減

S3 をストレージとして利用

EMRFSコネクタを使用し、S3上のデータを高パフォーマンス

で安全に処理

最新バージョン

30日以内に最新のオープンソースフレームワークに更新

フルマネージドでクラスタのセットアップ、ノードのプロビジョニング、クラスタのチューニングは不要

簡単

https://aws.amazon.com/jp/emr/

Page 29: データレイクアーキテクチャと Purpose-build な 分析サービ …...機械学習にSpark on EMR を 活用 • S3 にデータレイクを構築 • 可視化とレポーティングには

© 2021, Amazon Web Services, Inc. or its Affiliates.

Amazon EMRコンピューティングとストレージの分離

永続的なクラスター

(Spark Streaming | Hbase)

一時的なクラスター : バッチジョブ(毎晩 N 時間稼働、ノードの足し引き可能) External Metastore

特定処理に特化したクラスター(必要なキャパやバージョンが異なる)

Amazon S3

Page 30: データレイクアーキテクチャと Purpose-build な 分析サービ …...機械学習にSpark on EMR を 活用 • S3 にデータレイクを構築 • 可視化とレポーティングには

© 2021, Amazon Web Services, Inc. or its Affiliates.

Amazon EMR性能向上

オープンソースの Apache Spark 3.0 よりも 1.7 倍のパフォーマンスを 40% のコストで実現

Graviton2 インスタンス利用で平均 25.7 %のコスト削減

Graviton2 インスタンス利用で平均 11.5 % のパフォーマンス向上

オープンソースの Presto 0.238 よりも最大 2.6 倍のパフォーマンスを 80 % のコストで実現

Page 31: データレイクアーキテクチャと Purpose-build な 分析サービ …...機械学習にSpark on EMR を 活用 • S3 にデータレイクを構築 • 可視化とレポーティングには

© 2021, Amazon Web Services, Inc. or its Affiliates.

ユースケース3: マーケティング&広告データレイクマーケティングソリューションのリーダーであり、最大の代理店持株会社Omnicom グループの一社。Amazon S3、AWS Glue、Amazon Redshift を使用して、高速で費用対効果の高いデータレイクソリューションを AWS

上に構築

AWS GlueData Catalog

ETL、結合、エンリッチ、フォーマット変換

Amazon Redshift

S3 生データ

各種レポート

S3最適化済データ

SNSデータ

1st party広告データ

Adサーバログデータ

• 複数ソースからデータを取り込み

• 動的に性能を調整

• 3 年間で数兆のイベントデータ

• AWS Glue を ETL とデータカタログとして使用

• Amazon Redshift Spectrumでスケーラブルなクエリ環境

Page 32: データレイクアーキテクチャと Purpose-build な 分析サービ …...機械学習にSpark on EMR を 活用 • S3 にデータレイクを構築 • 可視化とレポーティングには

© 2021, Amazon Web Services, Inc. or its Affiliates.

ユースケース3: マーケティング&広告データレイクマーケティングソリューションのリーダーであり、最大の代理店持株会社Omnicom グループの一社。Amazon S3、AWS Glue、Amazon Redshift を使用して、高速で費用対効果の高いデータレイクソリューションを AWS

上に構築

• 複数ソースからデータを取り込み

• 動的に性能を調整

• 3年間で数兆のイベントデータ

• AWS Glue を ETL とデータカタログとして使用

• Amazon Redshift Spectrumでスケーラブルなクエリ環境

AWS GlueData Catalog

ETL、結合、エンリッチ、フォーマット変換

Amazon Redshift

S3 生データ

各種レポート

S3最適化済データ

SNSデータ

1st party広告データ

Adサーバログデータ

Page 33: データレイクアーキテクチャと Purpose-build な 分析サービ …...機械学習にSpark on EMR を 活用 • S3 にデータレイクを構築 • 可視化とレポーティングには

© 2021, Amazon Web Services, Inc. or its Affiliates.

AWS Glueカタログ・ETL・データ前処理

データストアをクロールし、データフォーマットの識別とスキーマをサジェストの上、マネージドなカタログリポジトリで管理

Apache Spark / Python で ETL ジョブを実行するマネージドなサーバーレスエンジンを利用可能

ETL ジョブのビルド、保守、実行の作業を自動化可能

ジョブに使用されたリソースの料金のみの支払い

AWS Glue

Data

catalog

Serverless

Engine

Orchestration

AWS Glue

https://aws.amazon.com/jp/glue/

Page 34: データレイクアーキテクチャと Purpose-build な 分析サービ …...機械学習にSpark on EMR を 活用 • S3 にデータレイクを構築 • 可視化とレポーティングには

© 2021, Amazon Web Services, Inc. or its Affiliates.

AWS Glueカタログ・ETL・データ前処理

データストアをクロールし、データフォーマットの識別とスキーマをサジェストの上、マネージドなカタログリポジトリで管理

Apache Spark / Python で ETL ジョブを実行するマネージドなサーバーレスエンジンを利用可能

ETL ジョブのビルド、保守、実行の作業を自動化可能

ジョブに使用されたリソースの料金のみの支払い

https://aws.amazon.com/jp/glue/

AWS Cloud:: Data Lake Account

AWS Glue

ETL

AWS Glue

data catalog

/raw

Corporate

data center

Bucket policy

Crawler

転送サーバ

データレイク

/trusted

/refined

S3 Bucket

Page 35: データレイクアーキテクチャと Purpose-build な 分析サービ …...機械学習にSpark on EMR を 活用 • S3 にデータレイクを構築 • 可視化とレポーティングには

© 2021, Amazon Web Services, Inc. or its Affiliates.

AWS Glue DataBrewノンコーディングで簡単にデータ加工

https://aws.amazon.com/jp/glue/

分析や処理を開始する前に必要となるデータの前処理(クリーニングや正規化等)を迅速に実施するための新しいビジュアルツール

ノンコーディングで視覚的にデータの前処理を実施することができるため、データ分析者やサイエンティストが容易に利用可能

250以上の構築済み変換処理を利用して効率的に異常値の排除やフォーマットの整理を行い、分析処理や学習処理に注力することができる

New

Page 36: データレイクアーキテクチャと Purpose-build な 分析サービ …...機械学習にSpark on EMR を 活用 • S3 にデータレイクを構築 • 可視化とレポーティングには

© 2021, Amazon Web Services, Inc. or its Affiliates.

ユースケース3: マーケティング&広告データレイクマーケティングソリューションのリーダーであり、最大の代理店持株会社Omnicom グループの一社。Amazon S3、AWS Glue、Amazon Redshift を使用して、高速で費用対効果の高いデータレイクソリューションを AWS

上に構築

• 複数ソースからデータを取り込み

• 動的に性能を調整

• 3年間で数兆のイベントデータ

• AWS Glue を ETL とデータカタログとして使用

• Amazon Redshift Spectrumでスケーラブルなクエリ環境

AWS GlueData Catalog

ETL、結合、エンリッチ, フォーマット変換

Amazon Redshift

S3 生データ

各種レポート

S3最適化済データ

SNSデータ

1st party広告データ

Adサーバログデータ

Page 37: データレイクアーキテクチャと Purpose-build な 分析サービ …...機械学習にSpark on EMR を 活用 • S3 にデータレイクを構築 • 可視化とレポーティングには

© 2021, Amazon Web Services, Inc. or its Affiliates.

Amazon Redshift最速かつ最も広く使用されているクラウドデータウェアハウス

最も高速なパフォーマンス

とスケーラビリティ

新しいインスタンスタイプ(RA3)とハードウェアアクセラレーション

(AQUA) を利用することで、さらなる高速処理を実現

他のクラウド DW よりも最大 3 倍のコストパフォーマンス

低コスト

コンピュートとストレージを分離、コスト最適化された

ワークロード

他のクラウドDW よりも少なくとも 50% 低コスト

データレイクとAWSサービスとの

統合

データウェアハウス、データレイク、オペレーショナル

データベースにまたがる膨大なデータに対する分析

セキュア

AWS グレードのセキュリティ機能

(eg. VPC, encryption with KMS,

CloudTrail)

主要なコンプライアンスをサポート

SOC, PCI, DSS, ISO,

FedRAMP, HIPPA

https://aws.amazon.com/jp/redshift/

Page 38: データレイクアーキテクチャと Purpose-build な 分析サービ …...機械学習にSpark on EMR を 活用 • S3 にデータレイクを構築 • 可視化とレポーティングには

© 2021, Amazon Web Services, Inc. or its Affiliates.

Amazon Redshift互換性を維持しつつ大きく進化

Page 39: データレイクアーキテクチャと Purpose-build な 分析サービ …...機械学習にSpark on EMR を 活用 • S3 にデータレイクを構築 • 可視化とレポーティングには

© 2021, Amazon Web Services, Inc. or its Affiliates.

Amazon Redshift最近のアップデート

全てのデータを分析する

AWS との統合によるレイクハウス

低コストで最高の価値

予測可能なコスト

パフォーマンスと拡張性

高速かつ自動チューニング

Data Lake

Export

Federated

Query

Amazon Redshift

Spectrum +

Lake Formation

Amazon

Redshift ML

Lambda UDF Partner console

integration

Data sharing Super data type

with JSON support

AQUA HyperLogLogMaterialized

views

Concurrency

scaling

RA3 nodes &

managed storage

100K tablesPerformance tuning:

automated

Data APIAutomatic

workload

manager

Cross-AZ cluster

recovery

Pause

and resume

Built-in

security features

Cost controlsOn-demand

and RIs

Page 40: データレイクアーキテクチャと Purpose-build な 分析サービ …...機械学習にSpark on EMR を 活用 • S3 にデータレイクを構築 • 可視化とレポーティングには

© 2021, Amazon Web Services, Inc. or its Affiliates.

まとめ

Page 41: データレイクアーキテクチャと Purpose-build な 分析サービ …...機械学習にSpark on EMR を 活用 • S3 にデータレイクを構築 • 可視化とレポーティングには

© 2021, Amazon Web Services, Inc. or its Affiliates.

ベーシックなデータレイクのアーキテクチャ

収集 変換 分析

保存(ストレージ + データカタログ)

Amazon Database

Migration Service

Amazon Kinesis

Amazon Managed

Streaming for Kafka

Amazon S3 AWS Glue AWS Lake Formation

AWS Glue

AWS Lake Formation

Amazon QuickSight

Amazon Athena

Amazon Redshift Amazon SageMaker

Amazon Personalize

Amazon Forecast

Amazon Elasticsearch Service

Amazon EMR

AWS Glue DataBrew

Page 42: データレイクアーキテクチャと Purpose-build な 分析サービ …...機械学習にSpark on EMR を 活用 • S3 にデータレイクを構築 • 可視化とレポーティングには

© 2021, Amazon Web Services, Inc. or its Affiliates.

ベーシックなデータレイクのアーキテクチャ

収集 変換 分析

保存(ストレージ + データカタログ)

Amazon Database

Migration Service

Amazon Kinesis

Amazon Managed

Streaming for Kafka

Amazon S3 AWS Glue AWS Lake Formation

AWS Glue

AWS Lake Formation

Amazon QuickSight

Amazon Athena

Amazon Redshift Amazon SageMaker

Amazon Personalize

Amazon Forecast

Amazon Elasticsearch Service

Amazon EMR

AWS Glue DataBrew

Page 43: データレイクアーキテクチャと Purpose-build な 分析サービ …...機械学習にSpark on EMR を 活用 • S3 にデータレイクを構築 • 可視化とレポーティングには

© 2021, Amazon Web Services, Inc. or its Affiliates.

まとめ

データレイクを実現するリファレンスアーキテクチャ

ラムダアーキテクチャ

ユースケースに応じた最適なツールを選択する(万能のツールは存在しない)

サービス選択における基本的な考え方

Purpose-build な分析サービス

Amazon Kinesis

Amazon EMR

AWS Glue

Amazon Redshift

Page 44: データレイクアーキテクチャと Purpose-build な 分析サービ …...機械学習にSpark on EMR を 活用 • S3 にデータレイクを構築 • 可視化とレポーティングには

© 2021, Amazon Web Services, Inc. or its Affiliates.

技術セミナー資料(以下のサイトに集約しています)

AWS クラウドサービス活用資料集

http://aws.amazon.com/jp/aws-jp-introduction/

Page 45: データレイクアーキテクチャと Purpose-build な 分析サービ …...機械学習にSpark on EMR を 活用 • S3 にデータレイクを構築 • 可視化とレポーティングには

© 2021, Amazon Web Services, Inc. or its Affiliates.

オンライン・セミナー(無料)

火曜・水曜にネット経由の無料セミナーを実施中

火曜 12時~13時

水曜 18時~19時

今後の予定&申し込みサイト

• https://aws.amazon.com/jp/about-aws/events/webinars/

Page 46: データレイクアーキテクチャと Purpose-build な 分析サービ …...機械学習にSpark on EMR を 活用 • S3 にデータレイクを構築 • 可視化とレポーティングには

© 2021, Amazon Web Services, Inc. or its Affiliates.

公式Twitter/Facebook

AWSの最新情報をお届けします

最新技術情報、イベント情報、お役立ち情報、お得なキャンペーン情報などを

日々更新しています!

@awscloud_jp

検索

もしくはhttp://on.fb.me/1vR8yWm

Page 47: データレイクアーキテクチャと Purpose-build な 分析サービ …...機械学習にSpark on EMR を 活用 • S3 にデータレイクを構築 • 可視化とレポーティングには

© 2021, Amazon Web Services, Inc. or its Affiliates.

Thank you.