ranking svm
DESCRIPTION
这是本人SVM课程中的文献阅读部分做的演讲。TRANSCRIPT
. . . . . .
问题是什么?问题抽象
Ranking SVM实验结果
{Most amazing part}
.
.. ..
.
.
Optimizing Search Engines using ClickthroughData
Presented by: 孔庆超 1
Paper by: Thorsten Joachims2
1 中国科学院自动化所
2Department of Computer ScienceCornell University
2011 年 11 月 1 日
孔庆超 - ranking SVM Optimizing Search Engines using Clickthrough Data
. . . . . .
问题是什么?问题抽象
Ranking SVM实验结果
{Most amazing part}
.. 目录
.. .1 问题是什么?
.. .2 问题抽象
.. .3 Ranking SVM
.. .4 实验结果
.. .5 {Most amazing part}
孔庆超 - ranking SVM Optimizing Search Engines using Clickthrough Data
. . . . . .
问题是什么?问题抽象
Ranking SVM实验结果
{Most amazing part}
搜索结果排序优化排序算法
.. .1 问题是什么?搜索结果排序优化排序算法
.. .2 问题抽象
.. .3 Ranking SVM
.. .4 实验结果
.. .5 {Most amazing part}
孔庆超 - ranking SVM Optimizing Search Engines using Clickthrough Data
. . . . . .
问题是什么?问题抽象
Ranking SVM实验结果
{Most amazing part}
搜索结果排序优化排序算法
.. 搜索结果排序是个大问题
搜索引擎的核心竞争力InktomiGoogle百度
构建更好的搜索引擎收录网页数量:增加服务器速度:增加带宽搜索准确度:排序算法构成搜索引擎的主要差距
孔庆超 - ranking SVM Optimizing Search Engines using Clickthrough Data
. . . . . .
问题是什么?问题抽象
Ranking SVM实验结果
{Most amazing part}
搜索结果排序优化排序算法
.. 搜索结果排序是个大问题
搜索引擎的核心竞争力InktomiGoogle百度
构建更好的搜索引擎收录网页数量:增加服务器速度:增加带宽搜索准确度:排序算法构成搜索引擎的主要差距
孔庆超 - ranking SVM Optimizing Search Engines using Clickthrough Data
. . . . . .
问题是什么?问题抽象
Ranking SVM实验结果
{Most amazing part}
搜索结果排序优化排序算法
.. 如何优化排序算法?
依靠用户反馈是否可行?
潜在的“用户反馈“:用户行为
Clickthrough data(点击行为数据) 特点:易获取、数据量大
如何获取数据:代理
孔庆超 - ranking SVM Optimizing Search Engines using Clickthrough Data
. . . . . .
问题是什么?问题抽象
Ranking SVM实验结果
{Most amazing part}
搜索结果排序优化排序算法
.. 如何优化排序算法?
依靠用户反馈是否可行?
潜在的“用户反馈“:用户行为
Clickthrough data(点击行为数据) 特点:易获取、数据量大
如何获取数据:代理
孔庆超 - ranking SVM Optimizing Search Engines using Clickthrough Data
. . . . . .
问题是什么?问题抽象
Ranking SVM实验结果
{Most amazing part}
搜索结果排序优化排序算法
.. 如何优化排序算法?
依靠用户反馈是否可行?
潜在的“用户反馈“:用户行为
Clickthrough data(点击行为数据) 特点:易获取、数据量大
如何获取数据:代理
孔庆超 - ranking SVM Optimizing Search Engines using Clickthrough Data
. . . . . .
问题是什么?问题抽象
Ranking SVM实验结果
{Most amazing part}
搜索结果排序优化排序算法
.. 如何优化排序算法?
依靠用户反馈是否可行?
潜在的“用户反馈“:用户行为
Clickthrough data(点击行为数据) 特点:易获取、数据量大
如何获取数据:代理
孔庆超 - ranking SVM Optimizing Search Engines using Clickthrough Data
. . . . . .
问题是什么?问题抽象
Ranking SVM实验结果
{Most amazing part}
为 Clickthrough data 建模搜索结果排序没有看起来那么简单我们离最好的结果还差多远?问题还没有解决
.. .1 问题是什么?
.. .2 问题抽象为 Clickthrough data 建模搜索结果排序没有看起来那么简单我们离最好的结果还差多远?问题还没有解决
.. .3 Ranking SVM
.. .4 实验结果
.. .5 {Most amazing part}孔庆超 - ranking SVM Optimizing Search Engines using Clickthrough Data
. . . . . .
问题是什么?问题抽象
Ranking SVM实验结果
{Most amazing part}
为 Clickthrough data 建模搜索结果排序没有看起来那么简单我们离最好的结果还差多远?问题还没有解决
.. 为 Clickthrough data 建模
使用三元组 (q, r, c) 建模q 表示搜索关键词r 表示排序函数c 表示用户点击的链接的集合(不包含顺序信息)
搜索举例
孔庆超 - ranking SVM Optimizing Search Engines using Clickthrough Data
. . . . . .
问题是什么?问题抽象
Ranking SVM实验结果
{Most amazing part}
为 Clickthrough data 建模搜索结果排序没有看起来那么简单我们离最好的结果还差多远?问题还没有解决
.. 为 Clickthrough data 建模
使用三元组 (q, r, c) 建模q 表示搜索关键词r 表示排序函数c 表示用户点击的链接的集合(不包含顺序信息)
搜索举例
孔庆超 - ranking SVM Optimizing Search Engines using Clickthrough Data
. . . . . .
问题是什么?问题抽象
Ranking SVM实验结果
{Most amazing part}
为 Clickthrough data 建模搜索结果排序没有看起来那么简单我们离最好的结果还差多远?问题还没有解决
.. 搜索”support vector machine”
孔庆超 - ranking SVM Optimizing Search Engines using Clickthrough Data
. . . . . .
问题是什么?问题抽象
Ranking SVM实验结果
{Most amazing part}
为 Clickthrough data 建模搜索结果排序没有看起来那么简单我们离最好的结果还差多远?问题还没有解决
.. 排序的相对性
对于排序函数相差很大的搜索引擎,用户点击产生的“平均排序“值大致相同
排序结果的相对性
最优的排序结果 <r∗
link3 <r∗ link2link7 <r∗ link2, link7 <r∗ link4, link7 <r∗ link5,link7 <r∗ link6
孔庆超 - ranking SVM Optimizing Search Engines using Clickthrough Data
. . . . . .
问题是什么?问题抽象
Ranking SVM实验结果
{Most amazing part}
为 Clickthrough data 建模搜索结果排序没有看起来那么简单我们离最好的结果还差多远?问题还没有解决
.. 排序的相对性
对于排序函数相差很大的搜索引擎,用户点击产生的“平均排序“值大致相同
排序结果的相对性
最优的排序结果 <r∗
link3 <r∗ link2link7 <r∗ link2, link7 <r∗ link4, link7 <r∗ link5,link7 <r∗ link6
孔庆超 - ranking SVM Optimizing Search Engines using Clickthrough Data
. . . . . .
问题是什么?问题抽象
Ranking SVM实验结果
{Most amazing part}
为 Clickthrough data 建模搜索结果排序没有看起来那么简单我们离最好的结果还差多远?问题还没有解决
.. 排序的相对性
对于排序函数相差很大的搜索引擎,用户点击产生的“平均排序“值大致相同
排序结果的相对性
最优的排序结果 <r∗
link3 <r∗ link2link7 <r∗ link2, link7 <r∗ link4, link7 <r∗ link5,link7 <r∗ link6
孔庆超 - ranking SVM Optimizing Search Engines using Clickthrough Data
. . . . . .
问题是什么?问题抽象
Ranking SVM实验结果
{Most amazing part}
为 Clickthrough data 建模搜索结果排序没有看起来那么简单我们离最好的结果还差多远?问题还没有解决
.. 从点击数据中抽取偏好反馈
.Algorithm 1. Extracting preference feedback from clickthroughdata..
.. ..
.
.
For a ranking(link1, link2, link3, ...) and a set C containing theranks of the clicked-on links, extract a preference example
linki <r∗ linkj
for all pairs 1 ≤ j < i, with i ∈ C and j /∈ C.
孔庆超 - ranking SVM Optimizing Search Engines using Clickthrough Data
. . . . . .
问题是什么?问题抽象
Ranking SVM实验结果
{Most amazing part}
为 Clickthrough data 建模搜索结果排序没有看起来那么简单我们离最好的结果还差多远?问题还没有解决
.. 差距描述:Kendall’s τ
返回的网页集合 D = {d1, d2, ..., dm}
排序结果 r, 定义 r ⊂ D × D
如果 di <r dj,那么有序对 (di, dj) ∈ r,否则 (di, dj) /∈ r
孔庆超 - ranking SVM Optimizing Search Engines using Clickthrough Data
. . . . . .
问题是什么?问题抽象
Ranking SVM实验结果
{Most amazing part}
为 Clickthrough data 建模搜索结果排序没有看起来那么简单我们离最好的结果还差多远?问题还没有解决
.. 差距描述:Kendall’s τ
对于两个不同的排序结果 ra 和 rb,定义 P 为两个排序结果中排序一致的网页对数, Q 为两个排序结果中不一致的网页对数。
举例ra: d1 < d2 < d3 < d4 < d5
rb: d3 < d2 < d1 < d4 < d5
其中,不一致的排序对数 Q 为 3 {(d2, d3), (d1, d2), (d1, d3)},P 为 7.
τ(ra, rb) =P−QP+Q
τ 越大, ra 和 rb 两者之间的差距排序差距越小
孔庆超 - ranking SVM Optimizing Search Engines using Clickthrough Data
. . . . . .
问题是什么?问题抽象
Ranking SVM实验结果
{Most amazing part}
为 Clickthrough data 建模搜索结果排序没有看起来那么简单我们离最好的结果还差多远?问题还没有解决
.. 差距描述:Kendall’s τ
对于两个不同的排序结果 ra 和 rb,定义 P 为两个排序结果中排序一致的网页对数, Q 为两个排序结果中不一致的网页对数。
举例ra: d1 < d2 < d3 < d4 < d5
rb: d3 < d2 < d1 < d4 < d5
其中,不一致的排序对数 Q 为 3 {(d2, d3), (d1, d2), (d1, d3)},P 为 7.
τ(ra, rb) =P−QP+Q
τ 越大, ra 和 rb 两者之间的差距排序差距越小
孔庆超 - ranking SVM Optimizing Search Engines using Clickthrough Data
. . . . . .
问题是什么?问题抽象
Ranking SVM实验结果
{Most amazing part}
为 Clickthrough data 建模搜索结果排序没有看起来那么简单我们离最好的结果还差多远?问题还没有解决
.. 差距描述:Kendall’s τ
对于两个不同的排序结果 ra 和 rb,定义 P 为两个排序结果中排序一致的网页对数, Q 为两个排序结果中不一致的网页对数。
举例ra: d1 < d2 < d3 < d4 < d5
rb: d3 < d2 < d1 < d4 < d5
其中,不一致的排序对数 Q 为 3 {(d2, d3), (d1, d2), (d1, d3)},P 为 7.
τ(ra, rb) =P−QP+Q
τ 越大, ra 和 rb 两者之间的差距排序差距越小
孔庆超 - ranking SVM Optimizing Search Engines using Clickthrough Data
. . . . . .
问题是什么?问题抽象
Ranking SVM实验结果
{Most amazing part}
为 Clickthrough data 建模搜索结果排序没有看起来那么简单我们离最好的结果还差多远?问题还没有解决
.. 问题还没有解决
给定关键词 qi 和与之相对应的最优排序结果 r∗i;另外记对于排序函数 f(qi) 所产生的排序结果为 rf(qi)
我们只需要最大化
τS(f) =1
n
n∑i=1
τ(rf(qi), r∗i )
其中, S 为样品集合 {(q1, r∗1), (q2, r∗2), ..., (qn, r∗n)}, n 为样品中的样品数(也就是搜索关键词的数目),f 为排序函数。
孔庆超 - ranking SVM Optimizing Search Engines using Clickthrough Data
. . . . . .
问题是什么?问题抽象
Ranking SVM实验结果
{Most amazing part}
问题转化又见 SVM最优结果的模拟
.. .1 问题是什么?
.. .2 问题抽象
.. .3 Ranking SVM问题转化又见 SVM最优结果的模拟
.. .4 实验结果
.. .5 {Most amazing part}孔庆超 - ranking SVM Optimizing Search Engines using Clickthrough Data
. . . . . .
问题是什么?问题抽象
Ranking SVM实验结果
{Most amazing part}
问题转化又见 SVM最优结果的模拟
.. 问题转化
(di, dj) ∈ fw⃗(q) ⇔ w⃗ · Φ(q, di) > w⃗ · Φ(q, dj)
其中, w⃗ 为权向量, Φ(q, d) 将 (q, d) 映射成为一个属性(feature) 向量。
属性向量描述搜索关键词 q 和返回结果 d 之间的关联属性。例如,关键词和返回结果之间具有的相同的单词的个数等。
孔庆超 - ranking SVM Optimizing Search Engines using Clickthrough Data
. . . . . .
问题是什么?问题抽象
Ranking SVM实验结果
{Most amazing part}
问题转化又见 SVM最优结果的模拟
.. 又见 SVM
min V(w⃗, ξ⃗) = 1
2w⃗ · w⃗ + C
∑ξi,j,k
s.t.
∀(di, dj) ∈ r∗1 : w⃗ · Φ(q1, di) ≥ w⃗ · Φ(q1, dj) + 1− ξi,j,1
· · ·
∀(di, dj) ∈ r∗n : w⃗ · Φ(qn, di) ≥ w⃗ · Φ(qn, dj) + 1− ξi,j,n
∀i, ∀j, ∀k : ξi,j,k ≥ 0
孔庆超 - ranking SVM Optimizing Search Engines using Clickthrough Data
. . . . . .
问题是什么?问题抽象
Ranking SVM实验结果
{Most amazing part}
问题转化又见 SVM最优结果的模拟
.. 最优结果的模拟
min V(w⃗, ξ⃗) = 1
2w⃗ · w⃗ + C
∑ξi,j,k
s.t.
∀(di, dj) ∈ r′1 : w⃗ · Φ(q1, di) ≥ w⃗ · Φ(q1, dj) + 1− ξi,j,1
· · ·
∀(di, dj) ∈ r′n : w⃗ · Φ(qn, di) ≥ w⃗ · Φ(qn, dj) + 1− ξi,j,n
∀i, ∀j, ∀k : ξi,j,k ≥ 0
其中, r′ 为从系统日志中得到的“训练数据“。孔庆超 - ranking SVM Optimizing Search Engines using Clickthrough Data
. . . . . .
问题是什么?问题抽象
Ranking SVM实验结果
{Most amazing part}
.. .1 问题是什么?
.. .2 问题抽象
.. .3 Ranking SVM
.. .4 实验结果离线实验在线交互实验
.. .5 {Most amazing part}
孔庆超 - ranking SVM Optimizing Search Engines using Clickthrough Data
. . . . . .
问题是什么?问题抽象
Ranking SVM实验结果
{Most amazing part}
.. 最优化问题的求解哲学
假设存在最优解 s∗
设置求解变量 s
描述最优化目标:最小化 s 和 s∗ 之间的差距
采用可以获得的 s′ 模拟 s∗
构建最优化模型,使用最优化方法求解 s∗
孔庆超 - ranking SVM Optimizing Search Engines using Clickthrough Data
. . . . . .
问题是什么?问题抽象
Ranking SVM实验结果
{Most amazing part}
.. Q & A
Thank youand any questions?
孔庆超 - ranking SVM Optimizing Search Engines using Clickthrough Data