coactive learning

Online Structured Prediction via Coactive Learning

by Pannaga Shivaswamy, Thorsten Joachims

紹介者:望月駿一2013/03/27

113年3月30日土曜日

概要

‣ユーザのフィードバックにより学習精度を向上していく枠組みを提唱

‣凸な誤差関数と線形の効用関数を用いて，O(1/√T)で誤差が減少することを示した

‣映画推薦と検索の2つのタスクでこの枠組みの有効性を確かめた


‣ユーザがクエリを投入し，システムが結果を返し，さらにユーザがクエリを投入するシステム• Web検索，商品推薦，機械翻訳

背景

クエリ

結果ユーザシステム(学習器)


背景

ユーザシステム(学習器)

‣まずユーザは検索文字列をクエリとして投入する


背景


‣評価関数の値が大きいオブジェクト（順位等）を返す


背景


‣表示後のユーザの選択からも再び情報を得られる


背景


‣正確ではないが，何らかのフィードバックが得られる

�713年3月30日土曜日

他の研究との関連‣フレームワークとして• Multiarmed bandit (Auer+,2002)• Learning with expert advice (Lugosi+,2006)• Dueling bandits setting (Yue+,2009)

‣最適化問題として• Online convex optimization (Zinkevich,2003)• Online convex optimization in the bandit setting (Flaxman+,2005)

‣ランキングとして• Ordinal regression (Crammer+,2001)• Learning with pairs of example


Coactive Learning Model‣　　　　をクエリ(文字列等)，　　　を返すオブジェクト(検索結果等)とする．‣ユーザは結果に対する何らかの反応として，オブジェクトを返す(順序変化，クリック等)‣ユーザが必ず正しい時，効用関数をUとすると

‣Uがどんな関数であるかは良く分からない


Coactive Learning Model‣Uを最大にする最適なオブジェクト（ユーザが選べるとは限らない）

‣目標•できるだけ早く最適なUの値に近いyを見つける

‣条件•合理的な検索をしてくれるユーザという設定•運用上　やUを知る必要はない y⇤


Coactive Learning Model‣ユーザが返す情報の質を定量化する•strictlyα-informative

•α-informative

•expected α-informative

‣ の確率でユーザがフィードバックを選ぶ‣たまに合理的でない挙動をするユーザも許容できるモデルになった

Pxt [yt|yt]


User Study‣本当にユーザのフィードバックが結果に改善をもたらすのか実験を行った‣16人の院生に対して，10の質問を検索させた‣ユーザがクエリごとにクリックしたHPを上位に追加した結果をとして返した‣効果の測定にはDCG@10を用いた

‣関連度r(x,・)は五人の評価者によって,0～5の値が手作業で付けられ，それを正規化した値を用いた

y


User Study‣改善前と後の差分で累積分布を調べた‣改善後の方が有意に良い結果を示した（p<0.0001）‣０付近が多いのは，88％のフィードバックがであったため‣初期の順位が与える影響を見るため，順位を入れ替えた

y = y


Coactive Learning Algorithms‣Preference Perceptron

‣条件•パラメタ•x,yは構造を持つオブジェクト(ランク,クエリ等)•Φは特徴空間への写像•ただし


Coactive Learning Algorithms‣更新ごとの誤差の上限を示す‣ユーザからの情報がα-informativeな場合

‣さらにstrictly α-informativeであれば，第一項が消えO(1/√T) の誤差に抑えることができる．


Coactive Learning Algorithms‣Algorithm1のUpdateとΦの条件より

‣再びAlgorithm1より


Coactive Learning Algorithms‣コーシー・シュワルツの不等式より

‣スラック変数を入れて,α-informativeの場合にも　拡張できる


Coactive Learning Algorithms‣Expected α-informativeの場合も誤差上限を考えることができる


Coactive Learning Algorithms‣α-informativeの時と同様に証明できる

‣イェンセンの不等式を√に対して使う


Experiments‣Yahoo!の検索データ(Chapelle+,2011)で実験‣ランキングを予測するため効用関数にDCG由来の関数を定義

:添字qのクエリに対する,i番目のURLの特徴量‣フィードバックが与えられる度に，この値を元にランキングをソートしなおす

x

qyi


Experiments‣情報の質の差が誤差の減少に与える影響について調べた‣システムよりURLのランキングが与えられるとする‣ユーザは上位5個のURLを知らされていて，それを用いて現在のパラメタw*に対してα-informativeになるようなフィードバックを返す‣クエリの順番はユーザによってランダムに与える

yt


Experiments‣予想どおりα=1の方が良い結果になる

‣しかし，定義では情報の質の格差は10倍のはずだが，結果にそこまでの差はない‣思った以上にstrictly α-informativeのフィードバックの条件が理想的すぎるのでは‣α=1だとフィードバックが最適解？


Experiments‣次はリストのうちシステムが返してくるTop10しか見ることが出来ないとする‣この中でユーザは上位５個のランクを並べて返す‣条件が先ほどと異なるためα-informativeな状態ではない‣Ranking SVMと比較‣最初50ペアのデータが集まるまでハイパーパラメタCを100で固定，その後5-foldCVを行なって決定する‣以降，更新後，毎回学習はさせず10％データが増えた時点でモデルの再学習を行う


Experiments‣ノイズが乗っているため誤差は収束しない‣ほとんどの回でPerceptronの方が良い結果‣Perceptronは一回の学習に30分かかるが，SVMは20時間かかっていた


参考文献•Auer, P., Cesa-Bianchi, N., and Fischer, P. Finite-time analysis of the multiarmed bandit problem. Machine Learning, 47(2-3):235‒256, 2002a.

•Cesa-Bianchi, N. and Lugosi, G. Prediction, learning, and games. Cambridge University Press, 2006.

•Chapelle, O. and Chang, Y. Yahoo! learning to rank challenge overview. JMLR - Proceedings Track, 14:1‒ 24, 2011.

•Freund, Y., Iyer, R. D., Schapire, R. E., and Singer, Y. An efficient boosting algorithm for combining preferences. Journal of Machine Learning Research, 4:933‒969, 2003.

•Joachims, T., Granka, L., Pan, Bing, Hembrooke, H., Radlinski, F., and Gay, G. Evaluating the accuracy of implicit feedback from clicks and query reformulations in web search. ACM Transactions on Information Systems (TOIS), 25(2), April 2007.

•Yue, Y. and Joachims, T. Interactively optimizing information retrieval systems as a dueling bandits problem. In ICML, 2009.


coactive learning

Documents