coactive learning
TRANSCRIPT
Online Structured Prediction via Coactive Learning
by Pannaga Shivaswamy, Thorsten Joachims
紹介者:望月駿一2013/03/27
113年3月30日土曜日
概要
‣ユーザのフィードバックにより学習精度を向上していく枠組みを提唱
‣凸な誤差関数と線形の効用関数を用いて,O(1/√T)で誤差が減少することを示した
‣映画推薦と検索の2つのタスクでこの枠組みの有効性を確かめた
213年3月30日土曜日
他の研究との関連‣フレームワークとして• Multiarmed bandit (Auer+,2002)• Learning with expert advice (Lugosi+,2006)• Dueling bandits setting (Yue+,2009)
‣最適化問題として• Online convex optimization (Zinkevich,2003)• Online convex optimization in the bandit setting (Flaxman+,2005)
‣ランキングとして• Ordinal regression (Crammer+,2001)• Learning with pairs of example
813年3月30日土曜日
Coactive Learning Model‣ をクエリ(文字列等), を返すオブジェクト(検索結果等)とする.‣ユーザは結果に対する何らかの反応として,オブジェクトを返す(順序変化,クリック等)‣ユーザが必ず正しい時,効用関数をUとすると
‣Uがどんな関数であるかは良く分からない
913年3月30日土曜日
Coactive Learning Model‣Uを最大にする最適なオブジェクト(ユーザが選べるとは限らない)
‣目標•できるだけ早く最適なUの値に近いyを見つける
‣条件•合理的な検索をしてくれるユーザという設定•運用上 やUを知る必要はない y⇤
1013年3月30日土曜日
Coactive Learning Model‣ユーザが返す情報の質を定量化する•strictlyα-informative
•α-informative
•expected α-informative
‣ の確率でユーザがフィードバックを選ぶ‣たまに合理的でない挙動をするユーザも許容できるモデルになった
Pxt [yt|yt]
1113年3月30日土曜日
User Study‣本当にユーザのフィードバックが結果に改善をもたらすのか実験を行った‣16人の院生に対して,10の質問を検索させた‣ユーザがクエリごとにクリックしたHPを上位に追加した結果を として返した‣効果の測定にはDCG@10を用いた
‣関連度r(x,・)は五人の評価者によって,0~5の値が手作業で付けられ,それを正規化した値を用いた
y
1213年3月30日土曜日
User Study‣改善前と後の差分で累積分布を調べた‣改善後の方が有意に良い結果を示した(p<0.0001)‣0付近が多いのは,88%のフィードバックが であったため‣初期の順位が与える影響を見るため,順位を入れ替えた
y = y
1313年3月30日土曜日
Coactive Learning Algorithms‣Preference Perceptron
‣条件•パラメタ•x,yは構造を持つオブジェクト(ランク,クエリ等)•Φは特徴空間への写像•ただし
1413年3月30日土曜日
Coactive Learning Algorithms‣更新ごとの誤差の上限を示す‣ユーザからの情報がα-informativeな場合
‣さらにstrictly α-informativeであれば,第一項が消えO(1/√T) の誤差に抑えることができる.
1513年3月30日土曜日
Experiments‣Yahoo!の検索データ(Chapelle+,2011)で実験‣ランキングを予測するため効用関数にDCG由来の関数を定義
:添字qのクエリに対する,i番目のURLの特徴量‣フィードバックが与えられる度に,この値を元にランキングをソートしなおす
x
qyi
2013年3月30日土曜日
Experiments‣情報の質の差が誤差の減少に与える影響について調べた‣システムよりURLのランキング が与えられるとする‣ユーザは上位5個のURLを知らされていて,それを用いて現在のパラメタw*に対してα-informativeになるようなフィードバックを返す‣クエリの順番はユーザによってランダムに与える
yt
2113年3月30日土曜日
Experiments‣予想どおりα=1の方が良い結果になる
‣しかし,定義では情報の質の格差は10倍のはずだが,結果にそこまでの差はない‣思った以上にstrictly α-informativeのフィードバックの条件が理想的すぎるのでは‣α=1だとフィードバックが最適解?
2213年3月30日土曜日
Experiments‣次はリストのうちシステムが返してくるTop10しか見ることが出来ないとする‣この中でユーザは上位5個のランクを並べて返す‣条件が先ほどと異なるためα-informativeな状態ではない‣Ranking SVMと比較‣最初50ペアのデータが集まるまでハイパーパラメタCを100で固定,その後5-foldCVを行なって決定する‣以降,更新後,毎回学習はさせず10%データが増えた時点でモデルの再学習を行う
2313年3月30日土曜日
Experiments‣ノイズが乗っているため誤差は収束しない‣ほとんどの回でPerceptronの方が良い結果‣Perceptronは一回の学習に30分かかるが,SVMは20時間かかっていた
2413年3月30日土曜日
参考文献•Auer, P., Cesa-Bianchi, N., and Fischer, P. Finite-time analysis of the multiarmed bandit problem. Machine Learning, 47(2-3):235‒256, 2002a.
•Cesa-Bianchi, N. and Lugosi, G. Prediction, learning, and games. Cambridge University Press, 2006.
•Chapelle, O. and Chang, Y. Yahoo! learning to rank challenge overview. JMLR - Proceedings Track, 14:1‒ 24, 2011.
•Freund, Y., Iyer, R. D., Schapire, R. E., and Singer, Y. An efficient boosting algorithm for combining preferences. Journal of Machine Learning Research, 4:933‒969, 2003.
•Joachims, T., Granka, L., Pan, Bing, Hembrooke, H., Radlinski, F., and Gay, G. Evaluating the accuracy of implicit feedback from clicks and query reformulations in web search. ACM Transactions on Information Systems (TOIS), 25(2), April 2007.
•Yue, Y. and Joachims, T. Interactively optimizing infor- mation retrieval systems as a dueling bandits problem. In ICML, 2009.
2513年3月30日土曜日