investment in yahoo! japan's dataplatform and business growth by big data
TRANSCRIPT
自己紹介
杉山 朋広(すぎやま ともひろ)
2002年ヤフー株式会社中途入社
2002年ー2011年Yahoo!ウォレットの開発・運用Yahoo! JAPAN IDのログイン・登録・DBの運用
2012年ー現在Hadoopクラスタの構築・運用広告集計システムの開発広告システム向けのデータプラットフォームの構築
5
>3418万MAU
>>110000services
2.2億商品数82%of PC users
74%of smartphone users
100以上DUBNo.1
App publisher ※1
>9007万
※1 ゲームアプリケーションを除く
ヤフーとデータ基盤の紹介(2016年第一四半期ベース)
日本最大級のポータルサイト
>699億PV/月
8
ヤフーとデータ基盤の紹介:データ量とシステム規模
0
10
20
30
40
50
60
70
80
90
100
0
1,000
2,000
3,000
4,000
5,000
6,000
22000099 22001100 22001111 22001122 22001133 22001144 22001155 22001166
RRooww
HHDD
FFSS SS
ttoorraa
ggee ((ii
nn PPBB
)) →→
NNuumm
bbeerr oo
ff NNoodd
eess →→
Nodes HDFS
ビジネスの拡大と共にデータは増大
9
0
10
20
30
40
50
60
70
80
90
100
0
1,000
2,000
3,000
4,000
5,000
6,000
22000099 22001100 22001111 22001122 22001133 22001144 22001155 22001166
RRooww
HHDD
FFSS SS
ttoorraa
ggee ((ii
nn PPBB
)) →→
NNuumm
bbeerr oo
ff NNoodd
eess →→
Nodes HDFS
• PV集計• 検索リンク解析
• サービス最適化• 顧客行動分析
• タイムライン型広告
ヤフーとデータ基盤の紹介:データ量とシステム規模
黎明期 導入期 データ爆増期
ビジネスの拡大と共にデータは増大
• 広告リーチ予測• 広告ターゲティング
10
ヤフーとデータ基盤のご紹介 :データ基盤の概要
データ基盤は日本有数の規模
S3互換ストレージ
66000000nnooddeess
22000000nnooddeess
220000ddbbss
550000ddbbss
11..77PPBB
11550000nnooddeess
hot
warm
cold
12
ヤフーとデータ基盤の紹介D&S統括本部はデータ利活用の専門集団
データ&サイエンスソリューション統括本部
システム統括本部(データセンター・ネットワーク)
メディア
マ�ケティング
ソリュ�ション
ショッピング
オ�クション
パ�ソナル
サ�ビス
決済金融
データプラットフォーム本部
サイエンス本部
データサービス本部
Yahoo! JAPAN 研究所
データ&サイエンスソリューション統括本部
14
0
10
20
30
40
50
60
70
80
90
100
0
1,000
2,000
3,000
4,000
5,000
6,000
22000099 22001100 22001111 22001122 22001133 22001144 22001155 22001166
RRooww
HHDD
FFSS SS
ttoorraa
ggee ((ii
nn PPBB
)) →→
NNuumm
bbeerr oo
ff NNoodd
eess →→
Nodes HDFS
• PV集計• 検索リンク解析
• サービス最適化• 顧客行動分析
• タイムライン型広告
これまでのIT投資とビジネス成長:黎明期
黎明期 導入期 データ爆増期
Hadoop利用の初期段階
• 広告リーチ予測• 広告ターゲティング
15
これまでのIT投資とビジネス成長:黎明期:before
WebServer
WebServer
WebServer
DataPipeline
(Y!Incorigin)
Teradata
ORACLE
MySQL
NetworkStorage
BatchC++
Batchperl
Batchphp
• サービス追加・アクセス増加によるデータ量の増大• PV集計など基本的な処理が長時間化• 独自分散フレームワークの破綻
独自分散フレームワークの限界が課題
16
これまでのIT投資とビジネス成長:黎明期:投資ポイント
レガシーシステム Hadoop
最大並列性能 自社内利用で30ノードの実績のみ
他者で既に4,000ノードの実績あり
分散フレームワーク 内製で開発 hadoopがサポート開発リソース 内製 オープンソース
利用者の開発範囲 分散フレームワークとアプリケーション アプリケーションのみ
開発リソースをアプリケーションにフォーカス
高いスケーラビリティを実現し、アプリケーション開発に集中できるHadoopを採用
17
これまでのIT投資とビジネス成長:黎明期:after
• 必要な部門が必要な分だけのクラスタを入手• 課題を持っていた部門が予算を組む
Hadoop(x10〜x100)
WebServer
WebServer
WebServer
DataPipeline
(Y!Incorigin)
Teradata
ORACLE
MySQL
NetworkStorage
BatchC++
Batchperl
Batchphp
予算がある部門がデータ基盤をもった
18
これまでのIT投資とビジネス成長:黎明期:事例
350
400
450
500
550
600
650
700
2009Q1 2010Q1 2011Q1 2012Q1 2013Q1 2014Q1 2015Q1
億PV
月間PV数の遷移
黎明期の月間PVは既に450億を突破
19
0
10
20
30
40
50
60
70
80
90
100
0
1,000
2,000
3,000
4,000
5,000
6,000
22000099 22001100 22001111 22001122 22001133 22001144 22001155 22001166
RRooww
HHDD
FFSS SS
ttoorraa
ggee ((ii
nn PPBB
)) →→
NNuumm
bbeerr oo
ff NNoodd
eess →→
Nodes HDFS
• PV集計• 検索リンク解析
• サービス最適化• 顧客行動分析
• タイムライン型広告
これまでのIT投資とビジネス成長:導入期
黎明期 導入期 データ爆増
データ基盤の集約とマルチテナント化
• 広告リーチ予測• 広告ターゲティング
20
これまでのIT投資とビジネス成長:導入期:before
• 部門個別で用意できる予算に限界• 予算の限界からHadoopの規模も頭打ち
Hadoop(x10〜x100)
WebServer
WebServer
WebServer
DataPipeline
(Y!Incorigin)
Teradata
ORACLE
MySQL
NetworkStorage
BatchC++
Batchperl
Batchphp
部門個別最適の限界が課題
22
これまでのIT投資とビジネス成長:導入期:投資ポイント
Hadoop x 1000
Hadoopx100
Hadoopx50
事業部A
Hadoopx50 Hadoop
x30
事業部B
事業部Aリソース
35%
事業部Bリソース
25%
事業部Cリソース
20%
共通リソース
20%
全社基盤化し共同利用
全社共通予算で大規模クラスタに投資
23
これまでのIT投資とビジネス成長:導入期:after
• 従来の事業部予算の枠を超えた計算リソースを得ることができた• アドホックな処理が可能となりサイエンスを醸成する土壌となった
Hadoop(x1000)
Hadoop(x10〜x100)
WebServer
WebServer
WebServer
DataPipeline
(Y!Incorigin)
NetworkStorage
Teradata
ORACLE
MySQL
全体最適によるスケールメリットを享受
24
これまでのIT投資とビジネス成長:導入期:事例データ基盤の発達によりターゲティング広告を実現• 過去のユーザの行動を解析し最適な広告を配信する• プレミアム広告売上の3割以上を占める
AD
ページ閲覧履歴
検索キーワード広告クリック
ヤフーの利用 最適な広告を配信
データ基盤
25
これまでのIT投資とビジネス成長:導入期:データサイエンスのはじまり
• YDNの広告ターゲティングのためにデータサイエンスチームを発足• マッチングに機械学習などの手法を導入
データサイエンスが売上高アップに寄与
サイエンスチーム発足
26
0
10
20
30
40
50
60
70
80
90
100
0
1,000
2,000
3,000
4,000
5,000
6,000
22000099 22001100 22001111 22001122 22001133 22001144 22001155 22001166
RRooww
HHDD
FFSS SS
ttoorraa
ggee ((ii
nn PPBB
)) →→
NNuumm
bbeerr oo
ff NNoodd
eess →→
Nodes HDFS
• PV集計• 検索リンク解析
• サービス最適化• 顧客行動分析
• タイムライン型広告
これまでのIT投資とビジネス成長:データ爆増期
黎明期 導入期 データ爆増期
本格的なデータ利活用のはじまり
• 広告リーチ予測• 広告ターゲティング
27
これまでのIT投資とビジネス成長:データ爆増期:before
• いくつかの成功事例をもとにデータ利活用が促進• すべてが同じ環境を利用することで高SLAのサービスに影響
Hadoop(x1000)
WebServer
WebServer
WebServer
DataPipeline
(Y!Incorigin)
NetworkStorage
Teradata
ORACLE
MySQL
データ利活用の促進と性能の競争
29
これまでのIT投資とビジネス成長:データ爆増期:投資ポイント
Hadoop(x3000)
Hive/Tez(x700)
Hadoop(x1000)
アドホック 定常ジョブ 高SLA アドホック 定常ジョブ 高SLA
大規模データ基盤への全社投資
全社環境への投資、高SLAの専用環境など、全社判断で対応
30
これまでのIT投資とビジネス成長:データ爆増期:after
Hadoop(x3000)
ObjectStore(YJ origin)
cassandra
Hive/Tez
• 全社基盤の利用率アップにより全社のデータが集約される• データ利用方法の多様化
マルチビッグデータ基盤の醸成
WebServer
WebServer
WebServer
DataPipeline
(Y!Incorigin)
NetworkStorage
Teradata
ORACLE
MySQL
34
0
10
20
30
40
50
60
70
80
90
100
0
1,000
2,000
3,000
4,000
5,000
6,000
22000099 22001100 22001111 22001122 22001133 22001144 22001155 22001166
RRooww
HHDD
FFSS SS
ttoorraa
ggee ((ii
nn PPBB
)) →→
NNuumm
bbeerr oo
ff NNoodd
eess →→
Nodes HDFS
• PV集計• 検索リンク解析
• サービス最適化• 顧客行動分析
• タイムライン型広告
これからの成長に向けて
黎明期 導入期 データ爆増 これから
技術革新による更なる最適化への挑戦
• 広告リーチ予測• 広告ターゲティング
37
これからの成長に向けて:効率化
• 海外DC利用• 電力コスト圧縮
• 保守性重視から性能重視へ• OCP利用
• Hadoopの開発• Cassandraの開発
データセンター
ハードウェア
ソフトウェア
効率化
設備投資
進化
DC・HW・SWの相乗的な効率化
39
これからの成長に向けて:進化
効率化
設備投資
進化
国際学会への参加でサイエンス人材にもアピール
4 3
1511
2012 2013 2014 2015
Submission of papers inInternational Journals 3 papers were accepted in
WWW 2016
2 papers were accepted in
WSDM 2016
UIST, Ubicomp, KDD, and more
41
これからの成長に向けて:次世代基盤
NewData
Pipeline(Kafka cluster)
Hadoop
StreamPlatform
• kafkaの導入によりストレージ依存を脱却• ストリーム処理基盤の追加• KVS,RDBも適材適所で活用
Tezllap
データ基盤全体の最適化
WebServer
WebServer
WebServer
ObjectStore(YJ origin)
cassandra
Hive/Tez
Teradata
ORACLE
MySQL