製品・サービスの高度化に向けた データ収集・分析...
TRANSCRIPT
製品・サービスの高度化に向けた
データ収集・分析基盤構築への取り組み
Copyright © 2016 IHI Corporation All Rights Reserved.
情報システム部
情報科学技術グループ
担当部長 河野 幸弘
2016年3月11日
データ・マネジメント2016
文書番号:ISTR-15-499-00
目次
1.IHIグループの経営環境
2.ICT活用の取り組み
3.データ分析基盤構築への取り組み
~Apache Sparkへの取り組み~
Copyright © 2016 IHI Corporation All Rights Reserved.
会社概要
Copyright © 2016 IHI Corporation All Rights Reserved. 4
創業 : 1853(嘉永6)年
資本金 : 1,071億円
従業員(連結対象人員) : 28,533名
国内関係会社 : 82社
海外関係会社 : 170社
売上高(連結ベース) : 1兆4558億円(2014年度)
0.0
1.0
2.0
3.0
4.0
5.0
6.0
11,000
11,500
12,000
12,500
13,000
13,500
14,000
14,500
15,000
2010年度 2011年度 2012年度 2013年度 2014年度
売上高 営業利益率
(億円) (%)
連結業績の推移
Copyright © 2016 IHI Corporation All Rights Reserved. 5
海外売上比率 : 52%
連単倍率
• 売上高 : 2.1倍
• 営業利益 : 5.6倍
IHIグループの特徴とICT運営上の課題
Copyright © 2016 IHI Corporation All Rights Reserved. 6
IHIグループの特徴 ICT運営上の課題
30を超えるSBU
関係会社250社以上
生産形態のバリエーション
防衛・宇宙・原子力産業
標準化(共通化) すべき部分の選別
事業部門・SBU
への対応
高いレベルでの
情報セキュリティ対策
「グループ経営方針」と「グループICT戦略」
Copyright © 2016 IHI Corporation All Rights Reserved. 10
グループ経営方針 2013
~成長~
グループICT戦略
2013
CEO
「グループ本社機能の戦略」
「事業戦略」
グループ経営方針の「サブ戦略」としてグループICT戦略を策定
新たな高度情報化
Copyright © 2016 IHI Corporation All Rights Reserved. 12
「新たな高度情報化」
各事業領域で,新しいICTを活用した価値創造
ビッグデータ M2M
クラウド
モバイル
IoT ソーシャル
メディア
「ライフサイクル全般にわたる製品・サービスの提供」 保守・サービスの強化
リモートメンテナンス共通プラットフォーム
Copyright © 2015 IHI Corporation All Rights Reserved. 13
ILIPS IHI group Lifecycle Partner System
ILIPS:「ツール」のプラットフォーム化
Copyright © 2016 IHI Corporation All Rights Reserved. 14
A製品
監視システム B製品
監視システム
C製品
監視システム
個々の事業部門が,それぞれ個別に
監視システムを構築
重複した設備投資
個別にシステム運用・管理要員を確保
【従来の考え方】
● ● ● ● ●
ILIPS:「ツール」のプラットフォーム化
Copyright © 2016 IHI Corporation All Rights Reserved. 15
通信サーバ DBサーバ
Webサーバ
解析サーバ
ILIPS
製品・機種ごとに特化されている制御部分は手を加えず,そのまま活用
通信・データ収集・解析等の機能を標準化し,共通プラットフォームとして構築
固有部分
共通部分
● ● ● ● ●
ICTの運営体制
Copyright © 2016 IHI Corporation All Rights Reserved. 16
情報システム部: IHIグループのICTにかかわる戦略の策定と施策の推進
データ分析技術の研究・実用化
高度情報マネジメント統括本部
事業部門
データ分析:「技術・ノウハウ」のプラットフォーム化
Copyright © 2016 IHI Corporation All Rights Reserved. 17
A事業部
B事業部
C事業部
D事業部
E事業部
・・・
習得・蓄積したデータ分析手法
ニーズに応じた適用ノウハウ
予測モデル構築技術
情報システム部
情報科学技術グループ データ活用に関する
様々な事業ニーズ
データ活用の
コンサルテーション
予測モデルの提供
データの蓄積からデータの分析・活用へ
Copyright © 2016 IHI Corporation All Rights Reserved. 19
ILIPSによりデータの収集・蓄積は進展
データの蓄積 ⇒ 大規模データの分析・活用
大規模データの分析・活用のための基盤が必要
Apache Sparkとの出会い
Copyright © 2016 IHI Corporation All Rights Reserved. 21
Spark Summit 2014に参加
当時、まだSparkの名前が世の中に 知られ始めた段階
Copyright © 2016 IHI Corporation All Rights Reserved.
Apache Sparkの採用
22
Spark環境@IHI
♪
・・・
インメモリ処理で高速
サーバを追加することで,処理可能なデータ量が増加
機械学習・ストリーム処理など,分析用の機能が豊富
リソースの管理が自動
Sparkを第一候補として2014年に採用
2014年Sparkの活用の取り組み開始
Copyright © 2016 IHI Corporation All Rights Reserved. 23
本プロジェクトのユースケースの
データサイズの処理で十分に効果が得られるか確認
プロトタイプを通じて最適な開発方法を模索
具体的なユースケースで効果を確認
現在、以下のような観点でデータ分析プロジェクトを進行中
NTTデータ様との連携
IHI
製品・サービスの設計・運用 ノウハウ
製品特性に 応じたデータ分析技術
NTTデータ
オープンソースソフトウェアの 専門性
システム
開発の実績
Copyright © 2016 IHI Corporation All Rights Reserved. 24
大規模データ分析を実現する基盤の構築を目指す。
Copyright © 2016 IHI Corporation All Rights Reserved.
IHIにおけるデータ収集・分析
25
主な利用目的 : メンテナンス (異常診断を含む) 製品設計へのフィードバック
製品のセンサデータ GISデータ
主な利用目的: 新サービス開発
ControlSystem
Mobile phone
Customer
IHI
PC
PC
PDA
User sideDevice side Common Platform
ServerDB
・Inter net・Private network
ControlSystem
Sensorunit
CU
DCU : Data Collection UnitCU : Communication Unit
DCU
CUDCU
CUDCU
共通PF
Copyright © 2016 IHI Corporation All Rights Reserved.
IHIにおけるデータ収集・分析
26
センサデータおよびGISデータ = 多変量時系列データ
GISデータ
移動体A
移動体B
移動体A
移動体B
• 経度 • 緯度 • 速度 …
センサデータ
製品A
製品B
製品A
製品B
• 圧力 • 温度 • 流量 …
時刻
Copyright © 2016 IHI Corporation All Rights Reserved.
IHIにおけるデータ収集・分析
27
Sparkを用いて時系列データを処理する際の特徴を確認する。 GISデータを用いて評価
(多変量)時系列データ Spark
...
データの並び順が非常に重要。
Sparkにおけるいくつかの処理は,データの並び順を保証しない。
並び順を担保するには,ソートなどのAPIが必要。
Copyright © 2016 IHI Corporation All Rights Reserved.
GISデータを用いたSparkの検証
28
GISデータの主な項目 : 動的な情報
データ受信時刻 座標(緯度・経度) 速度
静的な情報 移動体ID 移動体の大きさ・種別 目的地 到着予想時刻
港湾の混雑予測にGISデータを活用する。
問題設定
使用したGISデータ
Copyright © 2016 IHI Corporation All Rights Reserved.
GISデータを用いたSparkの検証
29
学習フェーズの処理内容
1. 移動体ごとにデータをソートする。 2. 時刻や座標の差分を計算する。 3. 累積和計算を用いて,目的地港
湾までの所要時間を算出する。
4. メッシュごとに所要時間を集計し,所要時間マップを作成する。
5. 港湾ごとに滞在時間を集計し,滞在時間分布を作成する。
目的地港湾
今回の発表では,「学習フェーズのステップ1-3」(移動体ごとの処理)に着目(データの並び順が重要な処理)
Copyright © 2016 IHI Corporation All Rights Reserved.
GISデータを用いたSparkの検証
30
vs. vs. vs.
移動体毎のレコード長の違いによる比較 レコード長:
150, 1,500, 15,000, 150,000
レコード長の偏りの違いによる比較 レコード長:
一定 (15,000)
ばらつきあり (10~30,000)
データ保持方式(RDDとDataFrame)の比較 データ保持方式:
RDD DataFrame
(一部RDD)
Point 1. Point 2. Point3.
RDD RDD RDD RDD RDD
検証項目 : 以下の3つの条件において,処理時間を評価
Data-Frame
Copyright © 2016 IHI Corporation All Rights Reserved.
検証結果 : 移動体毎のレコード長の違いの比較
31
45
372
3774
40980
0.06
0.65
6.57
65.8
0.01
0.10
1.00
10.00
100.00
1000.00
1
10
100
1000
10000
100000
150 1500 15000 150000
データサイズ
[GB
]
処理時間
[sec]
1航路あたりのレコード数
処理時間
x 8.3
x 10.1
x 10.9
: 処理時間 [sec]
: データ サイズ[GB]
データサイズが線形に増加した際に,計算時間はやや非線形に増加
処理時間
データサイズ
Copyright © 2016 IHI Corporation All Rights Reserved.
検証結果: レコード長の偏りの違いによる比較
32
今回のユースケースでは,レコード長の偏りの違いに関係なく, 処理時間はほぼ同じ
3774 3762
6.57 6.59
0
2
4
6
8
10
0
1000
2000
3000
4000
5000
15000 30000(with skew)
データサイズ
[GB
]
処理時間
[sec]
1航路あたりのレコード数
処理時間 : 処理時間[sec]
: データ サイズ[GB]
近しい値 処理時間 処理時間
データサイズ データサイズ
Copyright © 2016 IHI Corporation All Rights Reserved.
検証結果 : レコード長の偏りの違いによる比較
33
メッシュ毎の処理では,レコード長の偏りにより処理時間に大きな差異 ⇒ 処理内容によっては,データの与え方に工夫が必要(要注意)
全体の処理に大きく影響
Copyright © 2016 IHI Corporation All Rights Reserved.
検証結果 :データ保持方式の比較
34
DataFrameの利用で処理時間が短縮 (最新版利用のメリット) メモリのチューニングやバグ等で開発効率が悪化 (要注意)
処理時間
[sec]
処理時間
0
5
10
15
20
25
30
35
40
45
50
150
0
50
100
150
200
250
300
350
400
450
500
1500
0
500
1000
1500
2000
2500
3000
3500
4000
4500
5000
15000
1航路あたりのレコード数
-13%
-46% -39%
0
5000
10000
15000
20000
25000
30000
35000
40000
45000
50000
150000
: RDD
: DataFrame (一部RDD)
-16%
Strata + Hadoop World Singaporeで発表
Strata + Hadoop Worldとは? ビッグデータに関する世界的なカンファレンスのアジア開催。
Copyright © 2016 IHI Corporation All Rights Reserved. 35
ユースケースや知見をNTTデータと共同で発表
ICTによる新たな価値の提供
Copyright © 2016 IHI Corporation All Rights Reserved.
新たなICTによる価値 世界中に展開される
製品・サービスの価値
IHIグループならではの「価値」を世界に提供 36
今後は,データ分析基盤として Sparkの活用をさらに加速