改めて理解する「データレイク」 その意味と役割、 …データレイクとは...

14
Copyright (c)2017 ITOCHU Techno-Solutions Corporation 改めて理解する「データレイク」 その意味と役割、そしてテクノロジー 2017年3月8日 1

Upload: others

Post on 06-Jul-2020

2 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 改めて理解する「データレイク」 その意味と役割、 …データレイクとは (出典:ITpro「今日のキーワード」(C)日経BP社): 米ゼネラル・エレクトリック(GE)などが提唱するビッグデータ処理のアーキテクチャー。非構造化データの管理・分析に適し、

Copyright (c)2017 ITOCHU Techno-Solutions Corporation

改めて理解する「データレイク」その意味と役割、そしてテクノロジー

2017年3月8日

1

Page 2: 改めて理解する「データレイク」 その意味と役割、 …データレイクとは (出典:ITpro「今日のキーワード」(C)日経BP社): 米ゼネラル・エレクトリック(GE)などが提唱するビッグデータ処理のアーキテクチャー。非構造化データの管理・分析に適し、

Copyright (c)2017 ITOCHU Techno-Solutions Corporation

データレイクとは (出典:ITpro「今日のキーワード」(C)日経BP社):

米ゼネラル・エレクトリック(GE)などが提唱するビッグデータ処理のアーキテクチャー。非構造化データの管理・分析に適し、IoT

(モノのインターネット)のニーズが高まる製造業で特に注目を集める。

特徴:非構造データをOSSで管理データレイクはセンサーのログやGPS(全地球測位システム)、ソーシャルメディア、画像・映像、音声といった非構造化データを管理するのに適

したアーキテクチャーだ。具体的には、あらゆるデータをネットワーク経由で収集し、オープンソースソフト(OSS)の分散処理基盤であ

る「Hadoop(ハドゥープ)」に蓄積する。

非定型分析はデータサイエンティストなどの専門家がHadoop上で実行する一方で、定型分析については一般の利用者が使いやすいデータ

ウエアハウス(DWH)を別途用意する。使用頻度の高いデータはDWHのメモリー上に展開し、データの「アクセシビリティー(使いやすさ)」を確保しているのだ。従来のDWHは分析の目的をはっきりさせたうえで、収集するデータを必要なものだけに絞り込んでいた。あらゆるデータをアクセシビリティーが

確保された状態で保存しようとすると、コストがかかり過ぎるためである。

Data Lake(データレイク) (出典:Wikipedia)

A data lake is a method of storing data within a system or repository, in its natural format, that facilitates the

collocation of data in various schemata and structural forms, usually object blobs or files.

提唱:

James Dixon, then chief technology officer at Pentaho coined the term to contrast it with data mart, which is a smaller

repository of interesting attributes extracted from raw data. He argued that data marts have several inherent problems, and that data

lakes are the optimal solution. These problems are often referred to as information siloing.

PricewaterhouseCoopers said that data lakes could "put an end to data silos. In their study on data lakes they noted that enterprises were "starting to extract and place data for analytics into a single, Hadoop-based repository.“

特徴:

The idea of data lake is to have a single store of all data in the enterprise ranging from raw data (which implies exact copy

of source system data) to transformed data which is used for various tasks including reporting, visualization, analytics and machine learning.The data lake includes structured data from relational databases (rows and columns), semi-structured data (CSV, logs, XML, JSON),

unstructured data (emails, documents, PDFs) and even binary data (images, audio, video) thus creating a centralized data store accommodating all forms of data

データレイクとは?

Page 3: 改めて理解する「データレイク」 その意味と役割、 …データレイクとは (出典:ITpro「今日のキーワード」(C)日経BP社): 米ゼネラル・エレクトリック(GE)などが提唱するビッグデータ処理のアーキテクチャー。非構造化データの管理・分析に適し、

Copyright (c)2017 ITOCHU Techno-Solutions Corporation

全米最大小売チェーンの例

既存データはデータベースに関連無く広範囲に存在

システムにロックされた状態を簡単に解除することは困難(統合顧客視点では無く、システム視点)

効果的なロイヤルティプログラムを打ちたい(ロイヤル顧客へのプロモーション)

消費者の購買行動を部分的に理解したい

競合は顧客実装が進んでる : 小売戦略中心

オンライン及びオフラインの行動を関連付ける

売れ筋商品の捕捉と理解

どんな人(性別、年齢)が何時に何人来店してるのか

動線・陳列最適化による商品クロスセリング

– レジ到達時間等の顧客のより包括的な視点活用

クロスセリングからアップセリングを加速

Financial & Logistics Data(構造化データ)

SNS, On-Line, POS, ポイント,位置情報ログ(非構造化データ)

分析✓ O2O✓ レポート✓ ターゲティング✓ レコメンデーション

データレイク

データレイクイメージ

Page 4: 改めて理解する「データレイク」 その意味と役割、 …データレイクとは (出典:ITpro「今日のキーワード」(C)日経BP社): 米ゼネラル・エレクトリック(GE)などが提唱するビッグデータ処理のアーキテクチャー。非構造化データの管理・分析に適し、

Copyright (c)2017 ITOCHU Techno-Solutions Corporation

• データのサイロ化を解消したセントラルレポジトリ

✓クロス分析

✓ローデータ

• あらゆるデータを蓄積、活用(プロセッシングと分析)

✓ローデータから目的毎のデータへ

• コスト

✓量も種類も増えるため

• スケーラビリティと応じたパフォーマンスの確保

“データレイク“のポイント

Page 5: 改めて理解する「データレイク」 その意味と役割、 …データレイクとは (出典:ITpro「今日のキーワード」(C)日経BP社): 米ゼネラル・エレクトリック(GE)などが提唱するビッグデータ処理のアーキテクチャー。非構造化データの管理・分析に適し、

Copyright (c)2017 ITOCHU Techno-Solutions Corporation

第3のプラットフォーム登場の背景

• ビジネスニーズが変わった

✓ 売上を倍にしたい、利益を30%増やしたい

✓ 品質チェックを機械化したい、歩留まりを上げたい

• データが変わった

– 従来型の売上データ(構造化データ)だけではダメだ!

– デジタルにはできないものは画像や音声も使う!

• システムが変わる– RDBでは、ビジネスニーズを満たすデータを処理できない– コストが合わない– スケールしない– 単なるストレージだとプロセッシングできない

Page 6: 改めて理解する「データレイク」 その意味と役割、 …データレイクとは (出典:ITpro「今日のキーワード」(C)日経BP社): 米ゼネラル・エレクトリック(GE)などが提唱するビッグデータ処理のアーキテクチャー。非構造化データの管理・分析に適し、

Copyright (c)2017 ITOCHU Techno-Solutions Corporation

データ量(増加し続ける)

データ件数

既存システムでは処理できないデータ

データの種類

コスト

ビッグデータの要素

Page 7: 改めて理解する「データレイク」 その意味と役割、 …データレイクとは (出典:ITpro「今日のキーワード」(C)日経BP社): 米ゼネラル・エレクトリック(GE)などが提唱するビッグデータ処理のアーキテクチャー。非構造化データの管理・分析に適し、

Copyright (c)2017 ITOCHU Techno-Solutions Corporation

データレイクに関するテクノロジーと特長

収集 蓄積プロセッシング

コストスケールモデル

アプライアンス型ストレージ

NFS等でバッチ的

に取り込み可能

不可(Hadoop連携)

高価 スケールアップ

ソフトウェアデファインド型

ストレージ同上 可能 同上 安価 スケールアウト

RDBMS(DWH)ストレージからロード

可能 可能 高価 スケールアップ

Hadoop(NoSQL)

NFSやMQで取込

(MapR-DBのみ)可能 可能 安価 スケールアウト

×

×

×

×

××

Page 8: 改めて理解する「データレイク」 その意味と役割、 …データレイクとは (出典:ITpro「今日のキーワード」(C)日経BP社): 米ゼネラル・エレクトリック(GE)などが提唱するビッグデータ処理のアーキテクチャー。非構造化データの管理・分析に適し、

Copyright (c)2017 ITOCHU Techno-Solutions Corporation

Hadoopとは(1)?

• ビッグデータ時代のデータストア

✓構造化、非構造化に関係なくあらゆるデータを蓄積可能

✓単に溜めるだけではなく、溜めたデータを加工するフレームワークや分析や検索するアプリが含まれる

✓並列分散処理、スケールアウト可能

✓複数のサーバを束ねて、1つのインスタンスとして提供

✓ノードの一部が故障しても、データ損失の回避可能

• オープンソースベース

• 高いコスト効率

N1 N3N2

スケールアウト&分散処理

Page 9: 改めて理解する「データレイク」 その意味と役割、 …データレイクとは (出典:ITpro「今日のキーワード」(C)日経BP社): 米ゼネラル・エレクトリック(GE)などが提唱するビッグデータ処理のアーキテクチャー。非構造化データの管理・分析に適し、

Copyright (c)2017 ITOCHU Techno-Solutions Corporation

分散ファイルシステムHDFS (Hadoop Distributed File System)

大規模分散処理フレームワークMapReduce

大きく2つのコンポーネントで構成:

データをブロックに分割して複数のサーバに分散配置/3つのレプリカを作成し、データの可用性を高め、かつ並列分散処理を可能とするMapRはこのFSを改変し、より使い易く高速に

Map/Reduceというシンプルな処理の組み合わせで、HDFS上にあるデータの分散処理を行う汎用的なフレームワーク、集計や検索、クレンジングが可能

データをためる データを加工する

データを移動しない:データ(保管)と処理能力(加工・分析)が同じところにある 設計当初から大規模、大容量、増加し続けるデータに対応(分散処理&スケールアウト)

Hadoopとは(2)?

Page 10: 改めて理解する「データレイク」 その意味と役割、 …データレイクとは (出典:ITpro「今日のキーワード」(C)日経BP社): 米ゼネラル・エレクトリック(GE)などが提唱するビッグデータ処理のアーキテクチャー。非構造化データの管理・分析に適し、

Copyright (c)2017 ITOCHU Techno-Solutions Corporation

某自動車部品製造業での活用法

工場A

工場D

工場C

工場B

製造データ(予実データ)

データレイク

• 工場毎にDBがあり、包括的にKPI分析できない• 各DBのテーブル設計が異なるため、集計等にも時間が掛かる• 集計等のオペレーションに必要なIT知識が十分ではない

• 各工場のデータをセンターで統合• スキーマの違いもMapR内で解決• GUIのETLツールを使うことで、専門知識無しで運用• コスト効果高く、今後のIoT化にも柔軟に対応可能

本社

IoT化によって、リアルタイムトレーサビリティへ

今後の展開

Page 11: 改めて理解する「データレイク」 その意味と役割、 …データレイクとは (出典:ITpro「今日のキーワード」(C)日経BP社): 米ゼネラル・エレクトリック(GE)などが提唱するビッグデータ処理のアーキテクチャー。非構造化データの管理・分析に適し、

Copyright (c)2017 ITOCHU Techno-Solutions Corporation

ソースシステム基幹系、業務系

ETL

DM

BI(ビジネス・インテリジェンス)DWH/DMのデータを分析ニーズに合った表、

グラフ、レポートとして表示通常Webベース(ブラウザ)

マイニング大量データから未来を予測

推測統計、パターン発見、検定などの数理を活用

ソースシステム基幹系、多数の業務系システム様々な見るべき情報を保有配置やデータ品質はバラバラ

(従来はこれを一つづつ見ていた)

ETL

ETL

DWH

Mining

ETL(データ統合)複数のソースシステムから、一箇所

(DWH)にデータを集める抽出、変換、クレンジングを行う

DMの切り出しにもETLを活用

DWH(データウェアハウス)各種データを一元的に格納

大量の明細や長期間の履歴を保有多数のソースデータを高速で格納し、

日々更新するために最適化

DM(データマート)特定のユーザーや特定用途のために抽出

した一部のデータ多数のユーザーが必要なデータを高速に

検索・分析するために最適化

データレイクバラバラだった大量データを1箇所に溜め、処理、分析が1カ所でできる新技術

BI

既存分析システム(DWH)と併用

Page 12: 改めて理解する「データレイク」 その意味と役割、 …データレイクとは (出典:ITpro「今日のキーワード」(C)日経BP社): 米ゼネラル・エレクトリック(GE)などが提唱するビッグデータ処理のアーキテクチャー。非構造化データの管理・分析に適し、

Copyright (c)2017 ITOCHU Techno-Solutions Corporation

MapR Converged Data Platform

HANA & HANA Vora on MapRの主なメリット:• MapRがSDSとしても稼働し、ビッグデータをコス

ト効率良く格納• MapRがHadoopとして稼働し、ビッグデータを

パフォーマンス効率良くクレンジング• 単一障害点もパフォーマンスボトルネックも無い

唯一の分散環境を提供• POSIXクライアントにより超高速データロード• Voraにより透過的に全データを検索(Sparkは

MapRが提供)

2017年1月31日:リファレンス・アーキテクチャ発表

DWHベンダーの動向:SAP HANAの例

Page 13: 改めて理解する「データレイク」 その意味と役割、 …データレイクとは (出典:ITpro「今日のキーワード」(C)日経BP社): 米ゼネラル・エレクトリック(GE)などが提唱するビッグデータ処理のアーキテクチャー。非構造化データの管理・分析に適し、

Copyright (c)2017 ITOCHU Techno-Solutions Corporation

NetApp NFS Connector for Hadoop~既存FASをデータレイク化~

NetApp NFS Connector for Hadoop

(既存データ用)

NetApp Big Data Solution for MapR(新たなIoTデータ)

既存FAS Storage Controller(ログや業務データ保管済)

IoTデバイス&データ

①既存環境&既存データ

③IoT用新規環境&新規データ

②追加分析用コンピューテ

ィング

Page 14: 改めて理解する「データレイク」 その意味と役割、 …データレイクとは (出典:ITpro「今日のキーワード」(C)日経BP社): 米ゼネラル・エレクトリック(GE)などが提唱するビッグデータ処理のアーキテクチャー。非構造化データの管理・分析に適し、

Copyright (c)2017 ITOCHU Techno-Solutions Corporation

エンタープライズでのビッグデータ活用へのフロー~データドリブンビジネスへのステップ~

あらゆるデータ

を収集・蓄積

データ活用

(BI的)

既存DWHと

併用

データ活用

(BA的)

リアルタイム

分析

1. ビッグデータ・ストレージとして活用• コスト削減• データのサイロ化を解消• データレイク準備

1. レポート/バッチ系の活用• トレーサビリティ• 検索、集計、レポート(バッチ高速化)• 既存BIツールからアクセス

2. 膨れあがったDWHからETL処理をオフロード• コスト削減• より多いデータの活用• 並列分散処理によるパフォーマンス向上

3. 本格的な分析での活用• 予兆分析、レコメンデーション• 機械学習/深層学習との連携• 画像、映像の活用

4. IoTデータの活用• ストリーミングデータ

• リアルタイム化• NoSQL活用

データレイクの位置づけ