sano hmm 20150512

24
ネネネネネネネネネネ Hivemall ネネネネ 2015/05/12( ネ )19:00 Hivemall Meetup

Upload: masakazu-sano

Post on 25-Jul-2015

964 views

Category:

Data & Analytics


5 download

TRANSCRIPT

Page 1: Sano hmm 20150512

ネット広告で機械学習Hivemallの活用例

2015/05/12(火 )19:00第一回 Hivemall Meetup

Page 2: Sano hmm 20150512

アジェンダ

• 自己紹介• FreakOut• 分析チームの紹介• 機械学習 – Hivemall の活用例

Page 3: Sano hmm 20150512

自己紹介

• 佐野正和 ( さのまさかず , @Masa_S3)

• FreakOut のデータマイニングエンジニア

• 5年くらいネット広告分野で分析業務を担当

• バックグラウンドは素粒子物理学

Page 4: Sano hmm 20150512

• FreakOut

Page 5: Sano hmm 20150512

FreakOut

• ネット広告の会社です。

• 広告入札システムを提供しています。

Page 6: Sano hmm 20150512

ネット広告売買の世界: Real Time Bidding(RTB)• SSP(Supply-Side Platform)が impressionのオークションを仕切って、それに複数の DSP(Demand-Side Platform )がセリに参加するイメージ。

DSP1

DSP2

DSP3

SSP

いくらで配信するの?

¥10

¥30

¥20

DSP2を配信

ユーザ ID, 広告サイズ等を開示

6

Page 7: Sano hmm 20150512

DSP ( Demand-Side Platform)とは

7

これまで 現在

広告枠

広告主

広告枠

メディア

ユーザ

広告枠

?広告主のロジックでの買い付けが可能に

ネット広告のパラダイムシフト取引対象が、「広告枠」から「人」へ変化

手売りでの広告販売

RTB による自動買い付け

広告枠

Page 8: Sano hmm 20150512

50ms or die.フリークアウトの Tech チームが掲げるミッション。

月間 2200 億のリクエスト、

その 1 つ 1 つに対して 50ms でレスポンスを返さない

と、

事業そのものが成り立たない

Page 9: Sano hmm 20150512

50ms でやっていること

広告主側のロジックで、必要な枠、必要な人、必要な瞬間だけをリアルタイムに判定して入札↓入札ロジックの洗練が利益に直結

Page 10: Sano hmm 20150512

分析チームの紹介

Page 11: Sano hmm 20150512

分析チームの紹介

• 5 名 +3 名アルバイト ( 現時点 )

• FreakOut と M.T.Burn( スマホ向けアドネットワーク ) のプロダクト改善

• 広告配信アルゴリズム改善のための分析に関わること全般を担当

• メンバーは実装できることが必須。

Page 12: Sano hmm 20150512

分析チームの紹介

• 使用言語は自由:よく使われているのは Python, Perl, C++

• 集計には Hive を活用

• 機械学習などの論文を参考にモデルを実装

• 検証 ( オンライン・オフライン ) を繰り返す

• 必要に応じて集計ベースの仮説検証も実施

Page 13: Sano hmm 20150512

• 機械学習 – Hivemall の活用例

Page 14: Sano hmm 20150512

• FreakOut では常時複数のアルゴリズムが実行・検証されています

• 使用されているアルゴリズムの一例としてクリック予測モデルを例に Hivemall の活用例を紹介します

Page 15: Sano hmm 20150512

ロジックの一例:クリック予測モデル

Hivemall のロジスティック回帰を活用

• 操作がとても簡単。 jar を読み込んですぐ使える

• Hue からも使えるので、コーディングが得意ではない人も簡単に使える

• 大規模データに対して学習可能

• Hive で学習から検証まで実行することができるようになり作業効率が良い

Page 16: Sano hmm 20150512

• 学習用のログは直近数日分の impression & click log

• 学習時間は数時間程度

Page 17: Sano hmm 20150512

学習器

Impression log

click log

Hivemallで学習(ロジスティ回

帰 )

Clickする確率

ユーザ

入札価格の決定

Feature - weight

実配信

Hiveの操作

Page 18: Sano hmm 20150512

学習器

Impression log

click log

Hivemallで学習(ロジスティ回

帰 )

Clickする確率

検証

Hiveの操作

評価

Page 19: Sano hmm 20150512

ロジックの一例:クリック予測モデル工夫した点

• amplify を使うと処理の途中過程で学習データが 10 倍程度になる ( 設定による ) 。

• オンプレ環境ではデータ容量を大きくできない

• 使用容量が多いと特徴量の種類を増やすことも容易ではない

• 精度を落とさず容量を減らしたい

Page 20: Sano hmm 20150512

ロジックの一例:クリック予測モデル

Subsampling の導入Simple and scalable response prediction for display advertising[CHAPELLE, MANAVOGLU, ROSALES]

NegativeSamples

(impresion log)PositiveSamples(click log)

Page 21: Sano hmm 20150512

ロジックの一例:クリック予測モデル

Subsampling の導入Simple and scalable response prediction for display advertising[CHAPELLE, MANAVOGLU, ROSALES]

Negativesamples

Positivesamples

Subsampling rate r(<1)で negative sample からサンプリング。

subsampling

Page 22: Sano hmm 20150512

学習器

Impression log

click log

Hivemallで学習(ロジスティ回

帰 )

Clickする確率

ユーザ

入札価格の決定

Feature - weight

実配信

Hiveの操作

subsampling

Page 23: Sano hmm 20150512

ロジックの一例:クリック予測モデル

• 学習データを作る部分で Subsampling の導入

• Hive 内の処理で完結するので Hivemall と合わせて簡単に使うことができる

精度をほぼ変えずに消費リソースの削減を実現• r=0.2• 60-80% の消費リソース減少• 学習時間も半分以下に

Page 24: Sano hmm 20150512

まとめ

• Hivemall の利用は簡単

• 大規模データに対して機械学習が簡単にできます

• Hive query が使えれば複雑な実装をしなくてもよい