wsdm 2012 勉強会資料
DESCRIPTION
Finding the right consumer : Optimizing for conversion in display advertising campaignsTRANSCRIPT
坪坂正志
mail : m.tsubosaka(at)gmail(dot)com
紹介論文
Finding the right consumer : Optimizing for conversion in display advertising campaigns
Yandong Liu(Carnegie Mellon), Sandeep Pandey, Deepak Agarwal, Vanja Josifovski(Yahoo! Research)
ユーザの過去の行動履歴からコンバージョンを起こしそうなユーザを発見する
コンバージョンを起こしそうなユーザを発見することにより、適切なユーザに対して広告を届けることができる
コンバージョンとは
ECサイトで物を購入する、不動産サイトで資料請求を行うなどのウエブサイトで獲得できる最終的な成果
Web広告について
2011年で8000億ドルの売上見込み (論文より)
日本では約8062億円
○ http://www.dentsu.co.jp/news/release/2012/pdf/201
2017-0223.pdf
主にブランディング目的のものとダイレクトマーケティングの2つが存在する
ブランディング広告 多くのユーザに対して新商品やブランドを認知してもらうために行われる広告 ポータルトップなどで主に出稿される
従来のテレビCM的な使われ方をする
ダイレクトマーケティング
ユーザに対して、商品購入などの直接的な反応を獲得する CTR (クリック率), CVR (コンバージョン率)などが重視され、商品に対して興味を持っているユーザに対して配信を行う
商品に対して興味を持っているユーザを推定することが重要になる
興味ユーザに対しての配信 商品に興味を持つユーザに対して広告を配信するには2つの方法がある
その商品に対して興味を持っている人が行いそうな行動を現在起こしているユーザに配信する 例えばファッションの広告であれば
ファッション系のサイトを訪れているユーザに出稿する
ファッション関連の記事に対して広告を配信する(コンテンツ連動型広告)
ファッション関係の検索を行なっているユーザに対して配信する(検索連動型広告)
ユーザの過去行動をもとに広告を配信する 例えば過去にファッションサイトを訪れて、検索を行ったことのあるユーザに対してはニュースサイトでも広告を配信する(ターゲティング広告)
これら2つの方法は両方を合わせることもできる
ターゲティング広告
ユーザの過去行動をもとにその広告に興味を持つであろうユーザに対して広告を配信する
既存の手法としては“Finance, Investment”などのカテゴリベースでの興味を推定するもの
ex Large-scale behavioral targeting, KDD 2009
広告レベルで推定するものがある
ex How much can behavioral targeting help online
advertising, WWW 2009
従来研究
クリックを最大化するもの Large-scale behavioral targeting, KDD 2009
How much can behavioral targeting help online advertising,
WWW 2009
Learning relevance from a heterogeneous social network
and its application in online targeting, SIGIR 2011
コンバージョンを最大化するもの
Large-scale customized models for advertisers, ICDM
2010
Learning to Target: What Works for Behavioral Targeting,
CIKM 2011
従来研究の課題
従来の研究ではカテゴリごと、広告キャンペーンごとなど独立にモデルを作成していた
多くの場合はコンバージョンしたユーザとしなかったユーザの二値分類の問題に落とす
このため新規の広告キャンペーンに対してはモデルの作成ができないという欠点がある
本研究の成果
本研究では広告キャンペーンごとのlocal
modelに加えて、他のキャンペーンの情報も用いたglobal modelを用いることにより、コンバージョンの推定精度が向上した
Notation
𝑥𝑢 ∈ 𝑅𝑚 : ユーザ𝑢を表すベクトル
𝑧𝑐 ∈ 𝑅𝑛 : キャンペーン𝑐を表すベクトル
𝑓(𝑥𝑢, 𝑧𝑐 , 𝑐) : ユーザ𝑢がキャンペーン𝑐に関してコンバージョンする傾向
𝑓(𝑥𝑢, 𝑧𝑐 , 𝑐)を学習するのがこの論文での課題
User representation
クエリ、ページ閲覧、広告クリックなどをテキストに変換してBOW表現する。
ただし頻度情報は無視して0/1で表す
Campaign representation
広告キャンペーンは2つの要素から構成される
広告のランディングページ(メタデータ)
キャンペーンでコンバージョンしたユーザ群
Modeling approaches
𝑓 𝑥𝑢, 𝑧𝑐 , 𝑐 = 𝑔 𝑥𝑢, 𝑧𝑐 + 𝑓𝑐(𝑥𝑢)
と分解する
𝑔はキャンペーンのメタデータにしかよらない関数であり
𝑓はキャンペーン𝑐に固有の値である
𝑓の学習法としては以下の3つが考えられる
Linear SVM
Logistic regression
Naive Bayes
Local model using seed sets
𝑓 𝑥𝑢, 𝑧𝑐 , 𝑐 = 𝑓𝑐(𝑥𝑢)の場合を考える
これはキャンペーンのメタ情報を使わずに、キャンペーン𝑐に対してコンバージョンしたユーザとしなかったユーザを使って学習することに相当する
SVM, Logistic regressionの場合は
𝑓𝑐 𝑥𝑢 = 𝑥𝑢𝑇𝛽となり、この𝛽を学習する
Global model using the campaign metadata キャンペーンのランディングページなどのメタ情報を使って、最適化を行う
手法としては以下の2つを考える
Merge-based global model
Interaction-based global model
Merge-based global model
𝑓 𝑥𝑢, 𝑧𝑐 , 𝑐 = 𝑥𝑢′ 𝛽とモデル化する
キャンペーンごとの差異を無視して、一般的にコンバージョンしやすいユーザを選択することになる
Interaction-based global model 𝑓 𝑥𝑢, 𝑧𝑐 , 𝑐 = 𝑥𝑢
′𝐷𝑧𝑐 + 𝑥𝑢′ 𝛽とモデル化する
ここで行列𝐷は𝑚 × 𝑛行列でユーザ特徴量とキャンペーン特徴量間の重みを表す
このままでは𝑚が大きすぎるので変数選択する 𝑞𝑖𝑐を特徴量𝑖を持ったユーザがキャンペーン𝑐にコンバージョンする確率とする
𝑞𝑖.を特徴量𝑖を持ったユーザがコンバージョンする確率とする
KLダイバージェンス 𝑞𝑖𝑐𝑐 log𝑞𝑖𝑐
𝑞𝑖.の上位を選択する
Global + Local model
Interaction-based global modelとLocal modelを合わせる
学習法としては 𝜆𝑐 = 𝜆として同時学習を行う
初めにglobal modelを学習して、個別にlocal modelを学習する
の2つが考えられる
Experiments
2011年のAdnetworkからランダムに選んだ10個のキャンペーンを利用
コンバージョンの予測対象となったユーザは300,000以上
コンバージョンしなかったユーザはしたユーザに比べて非常に多いので、各キャンペーンにつきランダムに30000ユーザを選択して負例とする
キャンペーンのサイズ
キャンペーン中のコンバージョンの数は数十個から数千個とキャンペーンごとに大きく異なる
学習アルゴリズムによる違い Local modelに関して3つの学習アルゴリズムの比較を行った
SVMとLogisticはほぼ同じ性能、Naive-Bayesはあまりよくない この後の実験ではSVMを利用する
学習器のSensibility
SVM, Logisticは正則化定数によって精度が大きく変わる
Naive Bayesの方はそれに比べてRobust
データサイズと精度の関係
同一サイズのキャンペーンにおいてはデータを増やすほど精度が高くなる Smallキャンペーンの方がLargeキャンペーンより精度が高いのはSmallの方がコンバージョンの定義が商品を注文するなど厳格でありLargeに比べてノイズが少ないため
Global model
Medium, Largeサイズのキャンペーンにおいてはデータが少ないときにはmergeモデルの方が高い精度となった smallに関してはデータが少ない時もLocalの方が精度が高い
ただ既存のキャンペーンのコンバージョンデータをデータがないときに利用することによって初期のcold-start問題を防げる
Global model (Large)
Interaction-based global model
ユーザの特徴量は特徴選択により3000に絞った
キャンペーンの方はキャンペーンごとに50個しかないので特に特徴選択は行わなかった
いずれのサイズにおいてもInteraction-based modelの方が高い精度になった
Global + Local モデル
いずれのキャンペーンにおいてもGlobal +
Localモデルの方がGlobalモデルよりも高い精度となった
まとめ
本研究では広告キャンペーンのランディングページなどのメタ情報を使うことにより、広告キャンペーンのコンバージョンデータがないときにも有効なモデルを提案した
今回の研究は広告に注力したが、この手法はコンテント推薦、検索のパーソナライズなどに利用できると考えられる
その他広告に関する話題
Stanford大学においてYahoo! Researchの研究者がComputational advertisingの講義を行なっている
http://www.stanford.edu/class/msande239/
カンファレンスで言うと
WSDM, WWW, KDD, CIKM, SIGIR, ICDM
その他広告に関する話題 (検索連動型広告) 検索単語に対して、入札された広告を表示する
検索エンジン側の期待収益としては(期待CTR) * (bid価格)となる
収益を高めるためCTRの予測を高い精度で行う必要がある 広告の表示位置や同時に表示されている物同士の関係を考慮したクリックモデルの構築が必要
Relational click prediction for sponsored search, WSDM 2012
Web-scale bayesian click-through rate prediction for sponsored search, ICML 2011
その他広告に関する話題 (コンテンツ連動型広告) 広告が表示されている面と関連している広告を表示する
面と類似性が高い広告を高速かつ高い精度で取得できる必要がある Fast top-k retrieval for model based
recommendation, WSDM 2012
A hidden class page-ad probability model for contextual advertising, WWW 2008 (Workshop)
A semantic approach to contextual advertising, SIGIR 2007
その他広告に関する話題
ユーザに対して広告を配信する際に1impsにい
くらまで支払ってよいかを決定して、なるべく収益が多くなるようにする
Real-time bidding algorithms for performance-based
display ad allocation, KDD 2011
複数のアドネットワークおよび検索連動型広告などに対して広告を配信した時に、各媒体がコンバージョンにどの程度寄与したかをデータから分析する
Data-driven multi-touch attribution models, KDD 2011