データ・プレパレーション...
TRANSCRIPT
![Page 1: データ・プレパレーション が求められる理由とは?Pythonで予測モデル作成にトライ 企業全体でのデータ活用を目的に、 データレイクをはじめとしたデータ](https://reader034.vdocuments.net/reader034/viewer/2022052003/60165ac20ad8800ce8443b6c/html5/thumbnails/1.jpg)
データ・プレパレーション が求められる理由とは? セルフサービスでデータを価値に変えるアプローチ
株式会社アシスト 情報基盤技術統括部 山口晃司
©2019 K.K. Ashisuto 1
第105回スクエアfreeセミナー:[ 前処理、なめたらいかんぜよ ]
![Page 2: データ・プレパレーション が求められる理由とは?Pythonで予測モデル作成にトライ 企業全体でのデータ活用を目的に、 データレイクをはじめとしたデータ](https://reader034.vdocuments.net/reader034/viewer/2022052003/60165ac20ad8800ce8443b6c/html5/thumbnails/2.jpg)
アシストについて 設立 1972年3月
代表取締役会長 ビル・トッテン
代表取締役社長 大塚 辰男
資本金 6,000万円
売上高 317億円(2018年度)
社員数1,160名(2019年4月現在)
※グループ会社含む
事業内容
コンピュータ用パッケージ・ソフトウェアの販
売、技術サポート、教育およびコンサルティン
グ
本社所在地東京都千代田区九段北4-2-1
市ヶ谷東急ビル
オフィス所在地札幌、仙台、名古屋、金沢、大阪、広島、宇
部、福岡、沖縄
取引会社数 6,300社(2018年度)
主要取扱製品数 60製品(2019年4月現在)
グループ会社
株式会社アシスト本舗
株式会社アシスト北海道
株式会社のれん
金沢
仙台
福岡
広島
沖縄
大阪
※サポートセンターのみ
宇部
名古屋
サポート センター
東京本社 ※グループ会社:
㈱のれん 併設
札幌
※グループ会社:㈱アシスト北海道 併設
2
![Page 3: データ・プレパレーション が求められる理由とは?Pythonで予測モデル作成にトライ 企業全体でのデータ活用を目的に、 データレイクをはじめとしたデータ](https://reader034.vdocuments.net/reader034/viewer/2022052003/60165ac20ad8800ce8443b6c/html5/thumbnails/3.jpg)
企業における データ活用の変化
3
![Page 4: データ・プレパレーション が求められる理由とは?Pythonで予測モデル作成にトライ 企業全体でのデータ活用を目的に、 データレイクをはじめとしたデータ](https://reader034.vdocuments.net/reader034/viewer/2022052003/60165ac20ad8800ce8443b6c/html5/thumbnails/4.jpg)
いかす
エンタープライズ BI
セルフサービス BI
これまでのデータ・マネジメント
つなぐ
ETL/EAI
基盤システム
業務システム
SoR
データの源泉
構造化 データ
データウェア ハウス
ためる
4
![Page 5: データ・プレパレーション が求められる理由とは?Pythonで予測モデル作成にトライ 企業全体でのデータ活用を目的に、 データレイクをはじめとしたデータ](https://reader034.vdocuments.net/reader034/viewer/2022052003/60165ac20ad8800ce8443b6c/html5/thumbnails/5.jpg)
いかす
エンタープライズ BI
セルフサービスBI
BA(予測分析)
これからのデータ・マネジメント
つなぐ
ETL/EAI
基盤システム
業務システム
SoR
SaaS
IoT/M2M
ソーシャル
オープンデータ
SoE
データの源泉
構造化 データ
半構造化 データ
データウェア ハウス
ためる
ためる
じゅんびする
データ プレパレーション
AI・機械学習
5
![Page 6: データ・プレパレーション が求められる理由とは?Pythonで予測モデル作成にトライ 企業全体でのデータ活用を目的に、 データレイクをはじめとしたデータ](https://reader034.vdocuments.net/reader034/viewer/2022052003/60165ac20ad8800ce8443b6c/html5/thumbnails/6.jpg)
【出所】2017 Data Scientist Report[CrowdFlower]に基づいて作成
出典:総務省 ICTスキル総合習得プログラム 講座3-1(http://www.soumu.go.jp/ict_skill/pptx/ict_skill_3_1.pptx)を加工して作成
データ準備は楽しい?楽しくない?
48%
51%
60%
3%
3%
5%
14%
10%
0% 20% 40% 60% 80% 100%
データ収集
ラベル付け
データクレンジング
データのパターンの探索
データ分析のモデル構築
アルゴリズム(定式化)の洗練
トレーニングデータの構築
その他
データサイエンティストが最も楽しめない業務TOP3
データ活用において、
データ準備に 80% の労力が費やされている
6
![Page 7: データ・プレパレーション が求められる理由とは?Pythonで予測モデル作成にトライ 企業全体でのデータ活用を目的に、 データレイクをはじめとしたデータ](https://reader034.vdocuments.net/reader034/viewer/2022052003/60165ac20ad8800ce8443b6c/html5/thumbnails/7.jpg)
日米のICT人材の比較 日本と米国の情報処理・通信に携わるICT人材
日本のICT人材は
70%以上がベンダ企業に在籍
(出典)情報処理推進機構「IT人材白書2017」を基に作成
ICT人材育成・獲得の推進と並行し
ツールを活用した民主化が
はじまっている
7
![Page 8: データ・プレパレーション が求められる理由とは?Pythonで予測モデル作成にトライ 企業全体でのデータ活用を目的に、 データレイクをはじめとしたデータ](https://reader034.vdocuments.net/reader034/viewer/2022052003/60165ac20ad8800ce8443b6c/html5/thumbnails/8.jpg)
データ活用とその課題 セルフサービスBIの活用 AI/機械学習への挑戦
データ・ドリブンな業務推進を実現するためにセルフサービスBIの利用を促進
IoTやセンサーデータなどのデータを対象に、機械学習ツールやR、Pythonで予測モデル作成にトライ
企業全体でのデータ活用を目的に、データレイクをはじめとしたデータ蓄積と活用基盤を構築
インプットするデータの加工や整形作業に時間と手間が掛かる
データの加工作業に時間と手間が掛かるため予測モデルの精度が上がらない
蓄積されたデータの活用には、データ構造の理解やSQLなどの高度なスキルを要する
データ基盤の構築
共通して課題となるのは
データをいかに準備するか 8
![Page 9: データ・プレパレーション が求められる理由とは?Pythonで予測モデル作成にトライ 企業全体でのデータ活用を目的に、 データレイクをはじめとしたデータ](https://reader034.vdocuments.net/reader034/viewer/2022052003/60165ac20ad8800ce8443b6c/html5/thumbnails/9.jpg)
注目が高まる データ・プレパレーション
データ分析 可視化
クラウド データレイク
データベース データカタログ
AI/機械学習
ユーザー フレンドリー なデータ
自動で ドキュメント化
即時 フィードバック
エンタープライズ アプリケーション
データベース
SoR/SoE データ
クラウド
データレイク
探索 結合
クレンジング シェイプ
自動化 と共有
スマートな データ取込
1クリック プロファイリング
共有・共同作業 ガバナンス
スマートな データ加工提案
さまざまな形式のファイル
9
![Page 10: データ・プレパレーション が求められる理由とは?Pythonで予測モデル作成にトライ 企業全体でのデータ活用を目的に、 データレイクをはじめとしたデータ](https://reader034.vdocuments.net/reader034/viewer/2022052003/60165ac20ad8800ce8443b6c/html5/thumbnails/10.jpg)
ETLとデータ・プレパレーションツールの違い
Copyright© 2018 K.K. Ashisuto All Rights Reserved.
データを加工する、という目的では ETLツールとデータ・プレパレーションツールに大きな違いはない
利用するユーザ ETL:IT部門、システム担当者 データ・プレパレーション:ビジネスユーザー、データ分析者
利用するタイミング ETL:定常的なバッチ処理、システム間連携 データ・プレパレーション:半定形・非定形で不定期
ビジネスユーザが利用できるツールを
提供することでデータ活用の裾野を広げる 10
![Page 11: データ・プレパレーション が求められる理由とは?Pythonで予測モデル作成にトライ 企業全体でのデータ活用を目的に、 データレイクをはじめとしたデータ](https://reader034.vdocuments.net/reader034/viewer/2022052003/60165ac20ad8800ce8443b6c/html5/thumbnails/11.jpg)
データ・プレパレーションツールの市場について
11
![Page 12: データ・プレパレーション が求められる理由とは?Pythonで予測モデル作成にトライ 企業全体でのデータ活用を目的に、 データレイクをはじめとしたデータ](https://reader034.vdocuments.net/reader034/viewer/2022052003/60165ac20ad8800ce8443b6c/html5/thumbnails/12.jpg)
代表的なデータ・プレパレーション製品
Alteryx 2014年からクラスメソッド社が代理店として展開 2018年に日本法人設立
Trifacta 2019年に三井住友銀行で採用されたというプレスリリースあり
Tableau Prep 2017年にProject Maestroとしてベータ公開 2018年にTableau Prepとして正式リリース
Talend ETL製品とは別にTalend Data Preparationとして展開
Informatica Informatica Enterprise Data Lakeの機能として提供
日本にも複数の製品が進出しつつあり、
市場としても認識され始めてきている状況 12
![Page 13: データ・プレパレーション が求められる理由とは?Pythonで予測モデル作成にトライ 企業全体でのデータ活用を目的に、 データレイクをはじめとしたデータ](https://reader034.vdocuments.net/reader034/viewer/2022052003/60165ac20ad8800ce8443b6c/html5/thumbnails/13.jpg)
幅広い業種で100社以上の採用
Paxata(パクサタ)
13
2012年 米シリコンバレーで設立
2013年 製品版をリリース
2016年4月 アシストと総代理店契約を締結
2016年10月 日本語版をリリース
2017年7月 日本国内でSaaS型クラウドサービスをリリース
![Page 14: データ・プレパレーション が求められる理由とは?Pythonで予測モデル作成にトライ 企業全体でのデータ活用を目的に、 データレイクをはじめとしたデータ](https://reader034.vdocuments.net/reader034/viewer/2022052003/60165ac20ad8800ce8443b6c/html5/thumbnails/14.jpg)
デモンストレーション
14
![Page 15: データ・プレパレーション が求められる理由とは?Pythonで予測モデル作成にトライ 企業全体でのデータ活用を目的に、 データレイクをはじめとしたデータ](https://reader034.vdocuments.net/reader034/viewer/2022052003/60165ac20ad8800ce8443b6c/html5/thumbnails/15.jpg)
キャンペーン申込みデータ加工デモ
Webキャンペーンのログデータ
お客様向けのWebサイトで公開しているキャンペーンの利用実績や利用したユーザーの情報が日々格納されている。
Salesforceの顧客情報
社内の営業がお客様にアプローチした場合に登録される。営業が手入力で登録したデータであるため値に統一性がない。
加工する元データ 要件
・ユーザー自身でキャンペーンデータと顧客情報を
結合し、顧客へのアプローチ状況を確認したい
・Webキャンペーンの結果から、Salesforceのリードスコアの高いユーザーを抽出し、新たなキャンペーンの検討を実施したい
+
15
![Page 16: データ・プレパレーション が求められる理由とは?Pythonで予測モデル作成にトライ 企業全体でのデータ活用を目的に、 データレイクをはじめとしたデータ](https://reader034.vdocuments.net/reader034/viewer/2022052003/60165ac20ad8800ce8443b6c/html5/thumbnails/16.jpg)
データ・プレパレーション導入事例
16
![Page 17: データ・プレパレーション が求められる理由とは?Pythonで予測モデル作成にトライ 企業全体でのデータ活用を目的に、 データレイクをはじめとしたデータ](https://reader034.vdocuments.net/reader034/viewer/2022052003/60165ac20ad8800ce8443b6c/html5/thumbnails/17.jpg)
ユーザーの要求 に追いつけない
ビジネス領域 の知識不足
データの品質 に問題がある
AI/機械学習 に対する
過大な期待
<IT部門の方針>
ユーザー自身で可視化・分析できるプラットフォームを
構築し、データの民主化を進めることを決断
事例2:某大手製造業
17
![Page 18: データ・プレパレーション が求められる理由とは?Pythonで予測モデル作成にトライ 企業全体でのデータ活用を目的に、 データレイクをはじめとしたデータ](https://reader034.vdocuments.net/reader034/viewer/2022052003/60165ac20ad8800ce8443b6c/html5/thumbnails/18.jpg)
事例2:某大手製造業
基盤システム
業務システム
SoR
SaaS
IoT/M2M
ソーシャル
オープンデータ
SoE
データの源泉 つなぐ
ETL/EAI (データ収集と加工)
ためる いかす
エンタープライズBI
セルフサービスBI
じゅんびする
データ・プレパレーション
AI/機械学習
ためる
構造化 データ
非構造化 データ
データウェアハウス
データレイク
ビジネス部門が親しみやすいツール IT部門として必要なガバナンス
エンタープライズレベルの共有や再利用性 18
![Page 19: データ・プレパレーション が求められる理由とは?Pythonで予測モデル作成にトライ 企業全体でのデータ活用を目的に、 データレイクをはじめとしたデータ](https://reader034.vdocuments.net/reader034/viewer/2022052003/60165ac20ad8800ce8443b6c/html5/thumbnails/19.jpg)
事例に学ぶ:ツールによるデータ活用の民主化ステップ
STEP1:立ち上げ 社内の情報共有会で様々な部署のユーザーにツールともに事例を紹介
STEP2:社内案件の発掘 関心を持ったユーザー向けに実データを使った個別デモを実施
STEP3:効果の実証 • ユースケースに関する個別コンサルティング • ユーザーの質問に対する個別サポート(チャット等も活用) • 社内案件の管理と共有
STEP4:自律的な運用・風土の形成 • 動画やチャットボット等、セルフサービスヘルプツールを導入 • QA対応をコミュニティベースに移行 • 快適なシステム環境の維持と成功事例のさらなるチューニング • 口コミで新しいユーザー・案件を発掘
事例1
事例2
データの課題解決を支援する専門チームをIT・ユーザー合同で形成 19
![Page 20: データ・プレパレーション が求められる理由とは?Pythonで予測モデル作成にトライ 企業全体でのデータ活用を目的に、 データレイクをはじめとしたデータ](https://reader034.vdocuments.net/reader034/viewer/2022052003/60165ac20ad8800ce8443b6c/html5/thumbnails/20.jpg)
データ活用のスピード・精度を飛躍的に向上
収集 準 備 分析 予測
収集 準備 分析 予測
準備 分析 予測
準備 分析 予測
Excel Access
SQL
IT部門に 依頼
専門チームによる伴走サポート
20
![Page 21: データ・プレパレーション が求められる理由とは?Pythonで予測モデル作成にトライ 企業全体でのデータ活用を目的に、 データレイクをはじめとしたデータ](https://reader034.vdocuments.net/reader034/viewer/2022052003/60165ac20ad8800ce8443b6c/html5/thumbnails/21.jpg)
まとめ
21
![Page 22: データ・プレパレーション が求められる理由とは?Pythonで予測モデル作成にトライ 企業全体でのデータ活用を目的に、 データレイクをはじめとしたデータ](https://reader034.vdocuments.net/reader034/viewer/2022052003/60165ac20ad8800ce8443b6c/html5/thumbnails/22.jpg)
データ・プレパレーション が求められる理由とは?
利用できるデータや適用範囲の広がり - SoRだけでなく、SoEデータの活用 - SoR、SoE両方のデータを組み合わせた分析により、新たな知見を得る
データを活用するユーザの広がり - セルフサービスBIの浸透 - AI・機械学習を活用する市民データサイエンティストの登場 - ビジネス部門でのニーズの高まり、データ活用の民主化
データの分析や活用までにかかる時間の短縮化 - 定形的だがシステム化が難しいデータ加工業務の効率化 - 半定形・非定形で不定期なデータ加工処理の短時間化 - データ加工の時間を短縮化し、素早い意思決定の実現や分析時間を確保
22
![Page 23: データ・プレパレーション が求められる理由とは?Pythonで予測モデル作成にトライ 企業全体でのデータ活用を目的に、 データレイクをはじめとしたデータ](https://reader034.vdocuments.net/reader034/viewer/2022052003/60165ac20ad8800ce8443b6c/html5/thumbnails/23.jpg)
23
![Page 24: データ・プレパレーション が求められる理由とは?Pythonで予測モデル作成にトライ 企業全体でのデータ活用を目的に、 データレイクをはじめとしたデータ](https://reader034.vdocuments.net/reader034/viewer/2022052003/60165ac20ad8800ce8443b6c/html5/thumbnails/24.jpg)
東京 :8月8日AM/PM 8月21日AM/PM 名古屋 :8月6日 9月10日 大阪 :8月26日 9月30日 福岡 :8月21日
会場:株式会社アシスト
Paxataの体験セミナーを開催しています
24
![Page 25: データ・プレパレーション が求められる理由とは?Pythonで予測モデル作成にトライ 企業全体でのデータ活用を目的に、 データレイクをはじめとしたデータ](https://reader034.vdocuments.net/reader034/viewer/2022052003/60165ac20ad8800ce8443b6c/html5/thumbnails/25.jpg)
©2019 K.K. Ashisuto 25