investment in yahoo! japan's dataplatform and business growth by big data

43
2016年12月15日 ヤフー株式会社 データ&サイエンスソリューション統括本部 杉山 朋広 ヤフーのITインフラへの投資ポイントと ビッグデータ活用によるビジネス成長

Upload: hadoop-summit

Post on 07-Jan-2017

311 views

Category:

Technology


3 download

TRANSCRIPT

2016年12月15日

ヤフー株式会社 データ&サイエンスソリューション統括本部杉山 朋広

ヤフーのITインフラへの投資ポイントとビッグデータ活用によるビジネス成長

自己紹介

杉山 朋広(すぎやま ともひろ)

2002年ヤフー株式会社中途入社

2002年ー2011年Yahoo!ウォレットの開発・運用Yahoo! JAPAN IDのログイン・登録・DBの運用

2012年ー現在Hadoopクラスタの構築・運用広告集計システムの開発広告システム向けのデータプラットフォームの構築

ヤフーとデータ基盤の紹介

これまでのIT投資とビジネス成長

これからの成長に向けて

Agenda

ヤフーとデータ基盤の紹介

5

>3418万MAU

>>110000services

2.2億商品数82%of PC users

74%of smartphone users

100以上DUBNo.1

App publisher ※1

>9007万

※1 ゲームアプリケーションを除く

ヤフーとデータ基盤の紹介(2016年第一四半期ベース)

日本最大級のポータルサイト

>699億PV/月

6

ヤフーとデータ基盤の紹介ビジネスは常に拡大

7

ヤフーとデータ基盤の紹介ビジネスは常に拡大

8

ヤフーとデータ基盤の紹介:データ量とシステム規模

0

10

20

30

40

50

60

70

80

90

100

0

1,000

2,000

3,000

4,000

5,000

6,000

22000099 22001100 22001111 22001122 22001133 22001144 22001155 22001166

RRooww

HHDD

FFSS SS

ttoorraa

ggee ((ii

nn PPBB

)) →→

NNuumm

bbeerr oo

ff NNoodd

eess →→

Nodes HDFS

ビジネスの拡大と共にデータは増大

9

0

10

20

30

40

50

60

70

80

90

100

0

1,000

2,000

3,000

4,000

5,000

6,000

22000099 22001100 22001111 22001122 22001133 22001144 22001155 22001166

RRooww

HHDD

FFSS SS

ttoorraa

ggee ((ii

nn PPBB

)) →→

NNuumm

bbeerr oo

ff NNoodd

eess →→

Nodes HDFS

• PV集計• 検索リンク解析

• サービス最適化• 顧客行動分析

• タイムライン型広告

ヤフーとデータ基盤の紹介:データ量とシステム規模

黎明期 導入期 データ爆増期

ビジネスの拡大と共にデータは増大

• 広告リーチ予測• 広告ターゲティング

10

ヤフーとデータ基盤のご紹介 :データ基盤の概要

データ基盤は日本有数の規模

S3互換ストレージ

66000000nnooddeess

22000000nnooddeess

220000ddbbss

550000ddbbss

11..77PPBB

11550000nnooddeess

hot

warm

cold

11

ヤフーとデータ基盤の紹介D&S統括本部・システム統括本部が全社基盤を担う

12

ヤフーとデータ基盤の紹介D&S統括本部はデータ利活用の専門集団

データ&サイエンスソリューション統括本部

システム統括本部(データセンター・ネットワーク)

メディア

マ�ケティング

ソリュ�ション

ショッピング

オ�クション

パ�ソナル

サ�ビス

決済金融

データプラットフォーム本部

サイエンス本部

データサービス本部

Yahoo! JAPAN 研究所

データ&サイエンスソリューション統括本部

これまでのIT投資とビジネス成長

14

0

10

20

30

40

50

60

70

80

90

100

0

1,000

2,000

3,000

4,000

5,000

6,000

22000099 22001100 22001111 22001122 22001133 22001144 22001155 22001166

RRooww

HHDD

FFSS SS

ttoorraa

ggee ((ii

nn PPBB

)) →→

NNuumm

bbeerr oo

ff NNoodd

eess →→

Nodes HDFS

• PV集計• 検索リンク解析

• サービス最適化• 顧客行動分析

• タイムライン型広告

これまでのIT投資とビジネス成長:黎明期

黎明期 導入期 データ爆増期

Hadoop利用の初期段階

• 広告リーチ予測• 広告ターゲティング

15

これまでのIT投資とビジネス成長:黎明期:before

WebServer

WebServer

WebServer

DataPipeline

(Y!Incorigin)

Teradata

ORACLE

MySQL

NetworkStorage

BatchC++

Batchperl

Batchphp

• サービス追加・アクセス増加によるデータ量の増大• PV集計など基本的な処理が長時間化• 独自分散フレームワークの破綻

独自分散フレームワークの限界が課題

16

これまでのIT投資とビジネス成長:黎明期:投資ポイント

レガシーシステム Hadoop

最大並列性能 自社内利用で30ノードの実績のみ

他者で既に4,000ノードの実績あり

分散フレームワーク 内製で開発 hadoopがサポート開発リソース 内製 オープンソース

利用者の開発範囲 分散フレームワークとアプリケーション アプリケーションのみ

開発リソースをアプリケーションにフォーカス

高いスケーラビリティを実現し、アプリケーション開発に集中できるHadoopを採用

17

これまでのIT投資とビジネス成長:黎明期:after

• 必要な部門が必要な分だけのクラスタを入手• 課題を持っていた部門が予算を組む

Hadoop(x10〜x100)

WebServer

WebServer

WebServer

DataPipeline

(Y!Incorigin)

Teradata

ORACLE

MySQL

NetworkStorage

BatchC++

Batchperl

Batchphp

予算がある部門がデータ基盤をもった

18

これまでのIT投資とビジネス成長:黎明期:事例

350

400

450

500

550

600

650

700

2009Q1 2010Q1 2011Q1 2012Q1 2013Q1 2014Q1 2015Q1

億PV

月間PV数の遷移

黎明期の月間PVは既に450億を突破

19

0

10

20

30

40

50

60

70

80

90

100

0

1,000

2,000

3,000

4,000

5,000

6,000

22000099 22001100 22001111 22001122 22001133 22001144 22001155 22001166

RRooww

HHDD

FFSS SS

ttoorraa

ggee ((ii

nn PPBB

)) →→

NNuumm

bbeerr oo

ff NNoodd

eess →→

Nodes HDFS

• PV集計• 検索リンク解析

• サービス最適化• 顧客行動分析

• タイムライン型広告

これまでのIT投資とビジネス成長:導入期

黎明期 導入期 データ爆増

データ基盤の集約とマルチテナント化

• 広告リーチ予測• 広告ターゲティング

20

これまでのIT投資とビジネス成長:導入期:before

• 部門個別で用意できる予算に限界• 予算の限界からHadoopの規模も頭打ち

Hadoop(x10〜x100)

WebServer

WebServer

WebServer

DataPipeline

(Y!Incorigin)

Teradata

ORACLE

MySQL

NetworkStorage

BatchC++

Batchperl

Batchphp

部門個別最適の限界が課題

21

これまでのIT投資とビジネス成長:導入期:投資ポイント

Hadoopx100

Hadoopx50

事業部A

Hadoopx50 Hadoop

x30

事業部B

全社基盤化し共同利用

22

これまでのIT投資とビジネス成長:導入期:投資ポイント

Hadoop x 1000

Hadoopx100

Hadoopx50

事業部A

Hadoopx50 Hadoop

x30

事業部B

事業部Aリソース

35%

事業部Bリソース

25%

事業部Cリソース

20%

共通リソース

20%

全社基盤化し共同利用

全社共通予算で大規模クラスタに投資

23

これまでのIT投資とビジネス成長:導入期:after

• 従来の事業部予算の枠を超えた計算リソースを得ることができた• アドホックな処理が可能となりサイエンスを醸成する土壌となった

Hadoop(x1000)

Hadoop(x10〜x100)

WebServer

WebServer

WebServer

DataPipeline

(Y!Incorigin)

NetworkStorage

Teradata

ORACLE

MySQL

全体最適によるスケールメリットを享受

24

これまでのIT投資とビジネス成長:導入期:事例データ基盤の発達によりターゲティング広告を実現• 過去のユーザの行動を解析し最適な広告を配信する• プレミアム広告売上の3割以上を占める

AD

ページ閲覧履歴

検索キーワード広告クリック

ヤフーの利用 最適な広告を配信

データ基盤

25

これまでのIT投資とビジネス成長:導入期:データサイエンスのはじまり

• YDNの広告ターゲティングのためにデータサイエンスチームを発足• マッチングに機械学習などの手法を導入

データサイエンスが売上高アップに寄与

サイエンスチーム発足

26

0

10

20

30

40

50

60

70

80

90

100

0

1,000

2,000

3,000

4,000

5,000

6,000

22000099 22001100 22001111 22001122 22001133 22001144 22001155 22001166

RRooww

HHDD

FFSS SS

ttoorraa

ggee ((ii

nn PPBB

)) →→

NNuumm

bbeerr oo

ff NNoodd

eess →→

Nodes HDFS

• PV集計• 検索リンク解析

• サービス最適化• 顧客行動分析

• タイムライン型広告

これまでのIT投資とビジネス成長:データ爆増期

黎明期 導入期 データ爆増期

本格的なデータ利活用のはじまり

• 広告リーチ予測• 広告ターゲティング

27

これまでのIT投資とビジネス成長:データ爆増期:before

• いくつかの成功事例をもとにデータ利活用が促進• すべてが同じ環境を利用することで高SLAのサービスに影響

Hadoop(x1000)

WebServer

WebServer

WebServer

DataPipeline

(Y!Incorigin)

NetworkStorage

Teradata

ORACLE

MySQL

データ利活用の促進と性能の競争

28

これまでのIT投資とビジネス成長:データ爆増期:投資ポイント

Hadoop(x1000)

アドホック 定常ジョブ 高SLA

大規模データ基盤への全社投資

29

これまでのIT投資とビジネス成長:データ爆増期:投資ポイント

Hadoop(x3000)

Hive/Tez(x700)

Hadoop(x1000)

アドホック 定常ジョブ 高SLA アドホック 定常ジョブ 高SLA

大規模データ基盤への全社投資

全社環境への投資、高SLAの専用環境など、全社判断で対応

30

これまでのIT投資とビジネス成長:データ爆増期:after

Hadoop(x3000)

ObjectStore(YJ origin)

cassandra

Hive/Tez

• 全社基盤の利用率アップにより全社のデータが集約される• データ利用方法の多様化

マルチビッグデータ基盤の醸成

WebServer

WebServer

WebServer

DataPipeline

(Y!Incorigin)

NetworkStorage

Teradata

ORACLE

MySQL

31

これまでのIT投資とビジネス成長:データ爆増期:事例データの精細化によりサービス最適化

検索キーワード入力補助

レコメンデーション感情分析音声アシスト

32

これまでのIT投資とビジネス成長:データ爆増期:直近の成果

• タイムライン型の広告• 広告売上を大幅に拡大• データ量も増大

インフィード広告が広告売上を拡大

これからの成長に向けて

34

0

10

20

30

40

50

60

70

80

90

100

0

1,000

2,000

3,000

4,000

5,000

6,000

22000099 22001100 22001111 22001122 22001133 22001144 22001155 22001166

RRooww

HHDD

FFSS SS

ttoorraa

ggee ((ii

nn PPBB

)) →→

NNuumm

bbeerr oo

ff NNoodd

eess →→

Nodes HDFS

• PV集計• 検索リンク解析

• サービス最適化• 顧客行動分析

• タイムライン型広告

これからの成長に向けて

黎明期 導入期 データ爆増 これから

技術革新による更なる最適化への挑戦

• 広告リーチ予測• 広告ターゲティング

35

これからの成長に向けて

効率化

設備投資

進化

最適化の3要素

36

これからの成長に向けて:設備投資

効率化

設備投資

進化

設備投資額(億円)

1802012年度 2015年度

380

積極的な設備投資

37

これからの成長に向けて:効率化

• 海外DC利用• 電力コスト圧縮

• 保守性重視から性能重視へ• OCP利用

• Hadoopの開発• Cassandraの開発

データセンター

ハードウェア

ソフトウェア

効率化

設備投資

進化

DC・HW・SWの相乗的な効率化

38

これからの成長に向けて:進化

効率化

設備投資

進化

トップベンダーとの開発協力

HORTONWORKS

Teradata

DATASTAX

39

これからの成長に向けて:進化

効率化

設備投資

進化

国際学会への参加でサイエンス人材にもアピール

4 3

1511

2012 2013 2014 2015

Submission of papers inInternational Journals 3 papers were accepted in

WWW 2016

2 papers were accepted in

WSDM 2016

UIST, Ubicomp, KDD, and more

40

これからの成長に向けて:進化

効率化

設備投資

進化

シリコンバレー拠点の開設

41

これからの成長に向けて:次世代基盤

NewData

Pipeline(Kafka cluster)

Hadoop

StreamPlatform

• kafkaの導入によりストレージ依存を脱却• ストリーム処理基盤の追加• KVS,RDBも適材適所で活用

Tezllap

データ基盤全体の最適化

WebServer

WebServer

WebServer

ObjectStore(YJ origin)

cassandra

Hive/Tez

Teradata

ORACLE

MySQL

スケールアウト可能な技術を採用する

全社利用によりスケールメリットを生かす

専門部隊を置き全社利用を促進・サポートする

まとめ

43

ご清聴ありがとうございました