hortonworksが提供する データ活用方法の紹介
TRANSCRIPT
1 ©HortonworksInc.2011– 2016.AllRightsReserved
Hortonworksが提供するデータ活⽤⽅法の紹介ビッグデータの収集、蓄積、分析プラットフォーム
ホートンワークスジャパン北瀬 公彦
2 ©HortonworksInc.2011– 2016.AllRightsReserved
北瀬 公彦KIMIHIKOKITAsE
http://blogs.itmedia.co.jp/kkitase@kkitase
2016年6⽉、ホートンワークスジャパンに⼊社。ビッグデータの収集、蓄積、分析基盤製品のマーケティングを担当。⼊社前、⽶Data Science Dojoが開催するデータサイエンティスト養成講座に参加するも、全く畑の違う分野で悪戦苦闘。開き直って、初⼼者に優しいデータの利活⽤術をお伝えしようと考えている。
facebook.com/kkitase
3 ©HortonworksInc.2011– 2016.AllRightsReserved
出所:第27回産業競争⼒会議 2016.5
政府は2016年5⽉19⽇、第27回産業競争⼒会議を開催し、名⽬国内総⽣産(GDP)600兆円に向けた成⻑戦略(「⽇本再興戦略2016」)の素案を公表しました。
新たな有望成⻑市場の創出では、IoT・ビッグデータ・AI・ロボットなどによる第4次産業⾰命の実現で2020年には30兆円の付加価値創出を⽬指しています。
⽇本再興戦略2016 〜第4次産業⾰命の実現〜
4 ©HortonworksInc.2011– 2016.AllRightsReserved
Hortonworks® の顧客は、新たなビジネス⽬標を達成する、コストを削減することのいずれかの理由で当社の技術を利⽤しています。Customer Journeyは、弊社が保持する多くのユースケースを案内する事によりお客様のニーズに応えます。
ソーシャルマッピング
リスク評価
テレマトリックス
ロスコントロー
ル
コール分析 センサーデータ 製品設計 M & A
デューデリジェンス
レコメンデーション
サイバーセキュリ
ティ
リスクモデリング
リスクアペタイト
ロスコントロール
Catモデル 調査計画
⽀払い請求深刻度
カスタマーサポート
センチメント分析
リスク分析
広告掲載 ⽀払い請求分析
セグメンテーション
クロスセル 顧客維持
代理店スコアカー
ド
不正調査
運⽤コスト削減
メインフレームのオフロード
履歴レコード
サービスとしてのデータ
パブリックデータ取得
不正予防
デバイスデータ
取り込み
⾼速レポーティング
デジタル保護
不正緩和
⽀払い能⼒分析
TheDataJourneytoSafeRoads
6 ©HortonworksInc.2011– 2016.AllRightsReserved
Case StudyProgressiveʼs JourneyProgressiveは、IoTデータを元に「使⽤ベース」保険商品のリスク予測を⾏いたい
à Progressive Snapshotは、⾞載センサーデバイスから運転データを送信し、使⽤ベースの保険を提供
à ドライバーから収集された最⼤6ヶ⽉分のデータは、規制の要件に従い、数年間アーカイブする必要がある
à Progressiveの既存のシステムでは、効率的にスケールすることができないà 5⽇から7⽇かけても、UBIデータの25%しか流し込むことができない
*UBI – User Based Insurance
7 ©HortonworksInc.2011– 2016.AllRightsReserved
Progressiveʼs Journey
安全なドライバへの優遇と交通安全の向上
à Snapshot plug-in デバイスは運転の詳細を収集
à Progressiveは、1000万マイル以上の運転データを保存 (約1600万Km)
à Webアプリ経由で、顧客は⾃⾝の運転詳細を⾒ることができ、安全向上に努めることが可能
à Snapshotとusage-based insurance は2014年には、Progressiveに2.6 億ドルの貢献(約273億円)
Innovate
Renovate
SafeRoads
ClaimsNotesMining
IndividualDrivingHistories
Usage-BasedInsurance(UBI)
WebLogAnalysis
OnlineAdPlacement
SensorDataIngest
8 ©HortonworksInc.2011– 2016.AllRightsReserved
TheDataJourneyforCyberSecurity
10 ©HortonworksInc.2011– 2016.AllRightsReserved
Symantec’sJourney
AnalyzingStreamingThreatDatatoIncreaseVelocityforTimetoProtection
à Symantec™ Global Intelligence Network は、157カ国で、5700万以上の攻撃を検知している
à 1億2000万以上のデバイス、7500万ユーザーからのデータストリーム
à 旧来のプラットフォームはデータ処理に3〜4時間かかっていた
11 ©HortonworksInc.2011– 2016.AllRightsReserved
Symantec’sJourney
DigitalSecurity
MetadataCapture
ThreatPredictions
AttackerDetection
UnifiedSecurity
SecurityLogAnalysis
ThreatArchive
DeviceDataIngest
ThreatDetection
GreenplumOffload
Innovate
Renovate
DataScienceSpeedsTimetoProtection
à 驚異検出時間が4時間から2秒にà 防御回数が5000倍にà 10ペタバイト以上のデータを
使って機械学習した結果、驚異予測が可能に
à AmbariとCloudbreakを使ってクラスターを管理
Hortonworks - 急速な成⻑拡⼤:顧客数およびパートナーHadoopを早くから導⼊されたお客様もHortonworksのディストリビューションを採⽤
1,600を超えるエコシステムパートナー
Hortonworks テクノロジーパートナー
Hortonworksについて• 100%オープンソース• 会社設⽴3年⽬で株式公開• 顧客数 800社以上(*2015年 Q4)
Connected Data Platforms のリーダ• Hortonworks Data Platform - HDP:さまざまなデータを保存する (data at rest)• Hortonworks DataFlow - HDF:リアルタイムのデータを扱う(data in motion)• Powering new modern data applications:モダンデータアプリケーションの活性
開発 & データツール
インフラストラクチャ
オペレーションツール
RDBMSEDWMPP
データシステム
分析ツール & アプリケーションBusinessObjects BI
Microsoft Analytics Platform System
13 ©HortonworksInc.2011– 2016.AllRightsReserved
Apache Communityへの貢献コミッターの多くがHortonworksの社員です。Apache Hadoop プロジェクトに関わるコミッターの約1/3はHortonworksの社員です。Apache NiFiの⼤半を始めとする多くの重要なプロジェクトに関わっています。
コミッターはコネクティッド・データプラットフォームを改良し、⾰新を続けています。Hadoopのロードマップに関わっています。コミュニティに対し、重要なリクワイアメントを⾔える⽴場にいます。
1,500を超えるエコシステムパートナーHortonworks テクノロジーパートナー
専⾨家集団: 開発に深く携わるコア・メンバーにより構成
Hortonworks はApache Communityに⾮常に深く関与しています。
14 ©HortonworksInc.2011– 2016.AllRightsReserved
Hortonworksが提供するソリューションConnectedDataPlatform
• HadoopはData at Rest(蓄積されたデータ)の基礎• IoTの登場により、Data in Motion(流れているデータ)の必要性• モダンデータアプリケーションはData in MotionとData at Restの両
⽅のデータを利⽤してお客様の価値を最⼤化
• 最適な保険料⾦の選定システム• 故障予測サービス• サイバーセキュリティ• その他のインダストリーアプリなど
15 ©HortonworksInc.2011– 2016.AllRightsReserved
データの蓄積、分析プラットフォームHortonworks Data Platform (HDP)
YARN: Data Operating System
クリックストリーム センサー ソーシャル モバイル 位置情報 サーバーログ
バッチ インタラクティブ サーチ ストリーミング マシンラーニング
既存データ
16 ©HortonworksInc.2011– 2016.AllRightsReserved runson
ETL
RDBMSImport/Export
DistributedStorage&ProcessingFramework
SecureNoSQL DB
SQLonHBase
NoSQL DB
WorkflowManagement
SQL
StreamingDataIngestion
ClusterSystemOperations
SecureGateway
DistributedRegistry
ETL
Search&Indexing
EvenFasterDataProcessing
DataManagement
MachineLearning
HadoopEcosystem
17 ©HortonworksInc.2011– 2016.AllRightsReserved
HortonworksDataPlatform
Page 18 © Hortonworks Inc. 2011 – 2015. All Rights Reserved
HORTONWORKS DATA PLATFORM
Hado
op&
YARN
Flum
e
Ooz
ie
HDP 2.3 is Apache Hadoop; not “based on” Hadoop
Pig
Hive
Tez
Sqoo
p
Clou
dbre
ak
Amba
ri
Slid
er
Kafk
a
Knox
Solr
Zook
eepe
r
Spar
k
Falc
on
Rang
er
HBas
e
Atla
s
Accu
mul
o
Stor
m
Phoe
nix
4.10.2
DATA MGMT DATA ACCESS GOVERNANCE & INTEGRATION OPERATIONS SECURITY
HDP 2.2Dec 2014
HDP 2.1April 2014
HDP 2.0Oct 2013
HDP 2.2Dec 2014
HDP 2.1April 2014
HDP 2.0Oct 2013 0.12.0 0.12.0
0.12.1 0.13.0 0.4.0
1.4.4 1.4.4 3.3.23.4.5
0.4.00.5.0
0.14.0 0.14.0 3.4.6 0.5.0 0.4.00.9.30.5.2
4.0.04.7.2
1.2.1 0.60.0 0.98.4 4.2.0 1.6.1 0.6.0 1.5.21.4.5 4.1.02.0.0
1.4.0 1.5.1 4.0.0
1.3.1
1.5.1 1.4.4 3.4.5
2.2.0
2.4.0
2.6.0
2.7.1 1.4.6 1.0.0 0.6.0 0.5.02.1.00.8.2 3.4.61.5.25.2.1 0.80.0 0.5.01.7.04.4.0 0.10.0 0.6.10.7.01.2.10.15.0HDP 2.3Oct 2015 4.2.0
0.96.1
0.98.0 0.9.1
0.8.1
1.4.1 1.1.2
2.7.3 1.4.6 1.3.0 0.9.0 0.6.02.4.00.10.0 3.4.61.5.25.5.1 0.91.0 0.7.01.7.04.7.0 1.0.1 0.10.00.7.01.2.1+2.1***0.16.0
HDP 2.5*2H2016
4.2.01.6.2+2.0** 1.1.2
2.7.1 1.4.6 1.2.0 0.6.0 0.5.02.2.10.9.0 3.4.61.5.25.2.1 0.80.0 0.5.01.7.04.4.0 0.10.0 0.6.10.7.01.2.10.15.0HDP 2.4Mar 2016 4.2.01.6.0 1.1.2
Zepp
elin
Ongoing Innovation in Apache
0.6.0
* HDP 2.5 – Shows current Apache branches being used. Final component version subject to change based on Apache release process.
** Spark 1.6.2+ Spark 2.0 – HDP 2.5 support installation of both Spark 1.6.2 and Spark 2.0. Spark 2.0 is Technical Preview within HDP 2.5.*** Hive 2.1 is Technical Preview within HDP 2.5.
19 ©HortonworksInc.2011– 2016.AllRightsReserved
Ambari(クラスタ管理)
20 ©HortonworksInc.2011– 2016.AllRightsReserved
Ambari(SQLクエリ)
21 ©HortonworksInc.2011– 2016.AllRightsReserved
Hive performance
http://hortonworks.com/blog/announcing-apache-hive-2-1-25x-faster-queries-much/LLAP: http://www.slideshare.net/techblogyahoo/hivellap
22 ©HortonworksInc.2011– 2016.AllRightsReserved
Apache Zeppelin (データサイエンティスト向けUI)
23 ©HortonworksInc.2011– 2016.AllRightsReserved
DemonstrationHortonworks Data Platform (HDP)
1. クラスタの管理 – Ambari (クラスタ管理), Hive(Hadoop SQLエンジン), Ranger (監査)
2. オーストラリア州の納税額を使ったデータ分析 – Zeppelin (データ分析ツール)
24 ©HortonworksInc.2011– 2016.AllRightsReserved
Hortonworks DataFlowとHortonworks Data Platformにより、ビックデータ基盤のエンド・ツー・エンドソリューションを提供します。
Hortonworks Data Platform
powered by Apache Hadoop
Hortonworks Data Platformpowered by Apache Hadoop
EnrichContex
t
Store Data and Metadata
Internetof Anything
Hortonworks DataFlow powered by Apache NiFi
動的・鮮度が重要な⾒識
静的・過去データによる⾒識
Connected Data Platform
データ収集プラットフォーム
25 ©HortonworksInc.2011– 2016.AllRightsReserved
Lambda (λ) Architecture
26 ©HortonworksInc.2011– 2016.AllRightsReserved
IngestionSimple Event Processing
EngineComplex Event
Processing
Destination
Data Bus
Build Predictive ModelFrom Historical
Data
DeployPredictive Model
For Rea-time Insights
Perishable Insights
Historical Insights
Lambda (λ) Architecture
27 ©HortonworksInc.2011– 2016.AllRightsReserved
Hortonworks DataFlow
28 ©HortonworksInc.2011– 2016.AllRightsReserved
過去8年間にNSAによって開発
「NSAのイノベーターは、考えられる中で最も困難な国家安全保障の問題の⼀部に取り組んだ」「商業エンタープライズは、これを利⽤して地理的に離れたサイトからの情報フローを迅速に制御、管理、分析し、総合的な状況認識を⽣み出すことができる」
-- NSAディレクターLinda L. Burger⽒
国家安全保障局が開発したNiFi
29 ©HortonworksInc.2011– 2016.AllRightsReserved
130以上のシステムとの連携が可能
HTTP
Syslog
HTML
Image
Hash Encrypt
Extract
TailMerge
Evaluate
Duplicate Execute
Scan
GeoEnrich
Replace
ConvertSplit
Translate
HL7
FTP
UDP
XML
SFTP
RouteContent
RouteContext
RouteText
ControlRate
DistributeLoadAMQP
30 ©HortonworksInc.2011– 2016.AllRightsReserved
DemonstrationHortonworks DataFlow (HDF)
1. Twitterのリアルタイム分析 - NiFi, Solar
31 ©HortonworksInc.2011– 2016.AllRightsReserved
クラウド環境での利⽤ - Azure編
32 ©HortonworksInc.2011– 2016.AllRightsReserved
クラウド環境での利⽤ - AWS編
http://hortonworks.com/blog/quickly-launch-hortonworks-data-platform-amazon-web-services/
33 ©HortonworksInc.2011– 2016.AllRightsReserved
クラウド環境での利⽤ - OpenStack編 (Rakspace)
34 ©HortonworksInc.2011– 2016.AllRightsReserved
Hortonworksが提供する付加価値
Hortonworks の専⾨知識と経験Apache Hadoop と Apache NiFiのオリジナルアーキテクトが在籍
Annual Subscriptions年間サブスクリプションの提供による、状況に柔軟な対応Apache Committersお客様からの要望を聞き、お客様が⽬的を達成するためのロードマップ作成の協⼒Expert Consulting & Trainingお客様⾃⾝が実現可能なインテリジェンスをできるだけ効率よく培うことの⼿助け
Hortonworks SmartSense™機械学習をベースとした提案型クラスター環境の⾃動アドバイスサービス
Integrated Customer Portal豊富なナレッジベースと、1000時間を超えるWEBベースのトレーニングコンテンツ
STO
RAG
E STOR
AGE
ARCHITECT&
DEVELOP
DEPLOY
OPERATE
Project 1
Project 5
Project 4
Project 3
Project 2
Project 6
EXPAND
プロアクティブなサポート
ナレッジベース
Integrated Customer Portal
オンデマンドトレーニング
Customer EnvironmentAny cloud • Hybrid Environment •
Multi-tenant
Hortonworks SmartSense
ライフサイクルのサポート
35 ©HortonworksInc.2011– 2016.AllRightsReserved
Hortonworksを始める為の5ステップ
1. Hortonworksサンドボックスを試すhortonworks.com/sandbox
2. チュートリアルを試すhortonworks.com/tutorials
3. Future of Data 勉強会に参加するfutureofdata.connpass.com
4. Hortonworks Community Connect (HCC)に参加するhortonworks.com/community
5. サポートサービスを検討するhttp://hortonworks.com/support
36 ©HortonworksInc.2011– 2016.AllRightsReserved
26-27 OCTOBERTOKYO, JAPAN
http://hadoopsummit.org/tokyo只今、早期割引チケット販売中
お問い合わせ: [email protected]