recommender systems in e-commerce v2.0

电子商务推荐系统入门出家如初 , 成佛有余

http://www.yeeach.com

2009 年 12月

目录

电子商务推荐系统简介电子商务推荐系统算法基础电子商务推荐系统算法介绍基于搜索引擎技术的推荐算法

2

23/4/10

推荐系统简介 - 背景分析随着电子商务的快速发展，电子商务系统中的信息“超载”现象越来越严重，面对商品信息的“海洋”，消费者很难快速有效地挑选出他所需要的商品。在准确识别客户消费偏好的基础上，电子商务推荐系统可以向客户提供商品信息和建议，模拟销售人员帮助客户完成购买过程，从而使客户避免信息“超载”所带来的麻烦。

3

电子商务推荐系统定义电子商务中的推荐系统（ Recommendation

Systems ）是利用统计学、人工智能数据挖掘等技术，分析访问者在电子商务网站的访问行为，产生能帮助访问顾客访问感兴趣的产品信息的推荐结果，引导顾客的购买行为，从而产生可观的利润。

推荐结果的准确性是决定推荐系统成败的关键因素，如果系统向客户推荐的商品是客户不需要的，那么客户就会对推荐系统失去信心，把推荐信息当作垃圾信息

4

23/4/10

电子商务推荐系统作用增加网站的访问量，提升销售额增加单个商品被访问的机会增加顾客在网店上的停留时间，浏览更多的商品

帮助顾客发现他真正感兴趣的商品，提升购物体验

将电子商务网站的浏览者转变为购买者提高电子商务网站的交叉销售能力提高客户对电子商务网站的忠诚度

5

成功的推荐系统应用标杆

领域推荐系统

电子商务 amazon.com ， ebay.com ，卓越（ amazon.cn ），当当（ dangdang.com ） , 淘宝（ taobao.com ），京东 (360buy.com) ，新蛋 (newegg.com.cn)

音乐社区潘多拉（ pandora.com ）， last.fm ，友播（ yobo.com ）， cdnow.com ，音乐八宝盒（ 8box.cn ）， slacker .com ， iLike .com ， Genius (iTunes)

图书 /图片社区

豆瓣（ douban.com ）， librarything.com ， flickr.com ，

社会化媒体 del.icio.us ，玩聚(ju690.com) ， techmeme.com ， stumbleupon.com ， reddit .com, dailyme.com

电影社区 tivo.com ， netflix.com ， flixster.com ， moviefinder.com ， movieLens ， reel.com

其他 strands .com ， likecube .com ， inSuggest .com ， collarity .com ， baynote com ， stylefeeder .com

6

电子商务推荐系统数据源Historical Data 、历史数据

Visitor Behavior访问者行为

Visitor’s Past Shopping Behavior访问者过去的购买行为

Clickstream点击流

Aggregated Past User’s Behavior访问者过去购买行为汇总

Searches搜索

Visitor’s Past Searches访问者过去的搜索

Duration of Page View页面浏览停留的时间

Geography区域

Order of Page Views页面浏览的顺序

Product Details产品细节

Session States停留状态

Products Viewed浏览的产品

Type of Web Page页面类型

Location of Product in Catalog产品在目录中的位置

Refer URLURL 指向

Brand品牌

Broadband Speed宽带速度

Manufacturer厂商

IP AddressIP 地址

Descriptions产品描述Ratings产品排行

7

电子商务推荐系统数据源

8

23/4/10

电子商务推荐系统输入数据 1 客户输入 (Targeted Customer Inputs)

– 隐式浏览输入 (Implicit navigation) ：客户的浏览行为作为推荐系统的输入，但客户并不知道这一点

– 显式浏览输入 (Explicit navigation) ：客户的浏览行为是有目的向推荐系统提供自己的喜好

– 关键词和项目属性输入 (Keywords and Item attributes) ：客户输入关键词或项目的有关属性以得到推荐系统有价值的推荐

– 用户购买历史 (Purchase history) ：用户过去的购买纪录

9

23/4/10

电子商务推荐系统输入 2

社区输入 (Community Inputs)– 项目属性 (Item Attribute) ：社团对商品风格和类别的集体评判

– 社团购买历史 (Community Purchase History) ：社团过去的购买纪录

– 文本评价 (Text Comments) ：其他客户对商品的文本评价，计算机并不知道评价是好是坏

– 评分 (Rating) ：其他客户对商品的评分，计算机可以对评分进行处理

10

23/4/10

电子商务推荐系统输出建议 (Suggestion)

– 单个建议 (Single Item)

– 未排序建议列表 (Unordered List)

– 排序建议列表 (Ordered List)预言 (Prediction) ：系统对给定项目的总体评分个体评分 (Individual Rating) ：输出其他客户对商品的个

体评分评论 (Review) ：输出其他客户对商品的文本评价

11

23/4/10

电子商务推荐系统业务表现形式 Average Rating ：推荐系统向客户提供其他客户对相应产品的等级评价

Top-N ：推荐系统根据客户的喜好向客户推荐最可能吸引客户的 N件产品

Ordered Search Results ：推荐系统列出所有的搜索结果，并将搜索结果按照客户的兴趣降序排列

12

23/4/10

电子商务推荐系统业务表现形式 Browsing ：客户提出对特定商品的查询要求，推荐系统根据查询要求返回高质量的推荐

Similar Item ：推荐系统根据客户购物篮中的商品和客户可能感兴趣的商品推荐类似的商品

Email ：推荐系统通过电子邮件的方式通知客户可能感兴趣的商品信息

Text Comments ：推荐系统向客户提供其他客户对相应产品的评论信息

13

14

目录


关联规则的基本概念关联规则的目的在于在一个数据集中找出项之间的关系，也称之为购物蓝分析 (market basket analysis)。例如，经典的“尿布和啤酒”故事。

关联规则的应用场合。– 在商业销售上，关联规则可用于交叉销售，以得到更大的收入；

– 在保险业务方面，如果出现了不常见的索赔要求组合，则可能为欺诈，需要作进一步的调查。

– 在医疗方面，可找出可能的治疗组合；– 在银行方面，对顾客进行分析，可以推荐感兴趣的服务等等。

15

关联规则的基本概念 - 支持度和置信度支持度和置信度总是伴随着关联规则存在的，它们是对关联规则的必要的补充。– 例：在销售手机的商店中， 70%的包含手机的交易中包含充电器；在所有交易中，有 56%同时包含这两种物品。于是规则表示为手机 =>充电器（ support=56%, confidence= 70%）

– 其中的 support=56%是说，在所有的销售中同时包含手机销售和充电器销售的概率。

– confidence=70%是说，所有销售中，在出现手机销售的情况下出现充电器销售的概率，即条件概率。

16

关联规则的基本概念 - 支持度

支持度公式：支持度揭示了 A 和 B 同时出现的频率，如果 A 和B 一起出现的频率非常小，那么就说明了 A 和 B之间的联系并不大；但若一起出现的频率非常频繁，那么 A 和 B 总是相关联。

support(A B)=P(A B)

17

关联规则的基本概念 - 置信度

置信度公式：置信度揭示了 A 出现时， B 是否一定会出现，如果出现则其大概有多大的可能出现。如果置信度为 100%,则说明了 A 出现时， B 一定出现。那么，对这种情况而言，假设 A 和 B 是市场上的两种商品，就没有理由不进行捆绑销售了。

如果置信度太低，那么说明 A 和 B 关系并不大 .

confidence(A B)=P(B|A)

18

相关分析的基本概念相关分析（ correlation analysis）是研究现象之间是否存在某种依存关系，并对具体有依存关系的现象探讨其相关方向以及相关程度，是研究随机变量之间的相关关系的一种统计方法。

线性相关分析：研究两个变量间线性关系的程度。用相关系数 r来描述。– 正相关：如果 x,y变化的方向一致， r>0。|r|>0.95 存在显著性相关； |r|≥0.8 高度相关； 0.5≤|r|<0.8 中度相关； 0.3≤|r|<0.5 低度相关 |r|<0.3 关系极弱，认为不相关

– 负相关：如果 x,y变化的方向相反，如吸烟与肺功能的关系， r<0；

– 无线性相关： r=0。

19

向量相似性算法余弦相似性（ cosine-based similarity）

相关相似性（ Pearson相关系数）

修正的余弦相似性（ adjusted-cosine similarity）

2 2

( )( )( , )

( ) ( )

uv

uv uv

ui i ui ii I

ui i vi ii I i I

R R R Rsim u v

R R R R

2 2

( )( )( , )

( ) ( )

uv

uv uv

ui u ui vi I

ui u vi vi I i I

R R R Rsim u v

R R R R

1

2 2

1 1

( , ) cos( , )

n

ui vii

n n

ui vii i

R Ru v

sim u v u vu v

R R

))))))))))))))))))))))))))))

20

23/4/10

电子商务推荐系统推荐技术分类基于内容过滤 (Content-Based filtering) 基于协同过滤 (Collaborative filtering) 关联规则 (Association Rules) 分类分析 (Classification)聚类分析 (Clustering) Bayesian网络 (Bayesian Network) Horting图 (Horting Graph) 其他数据挖掘方法

21

基于内容（ Content-Based ）过滤基于内容（ Content-Based ）过滤的推荐系统– 基于内容过滤的推荐系统通过比较项 ( 商品 ) 之间的相似性而不是用户之间的相似性实现推荐功能。其忽略用户的购买行为 , 它只考虑商品和商品之间的相似关系

– 优点：简单，有效 ; 建模和商品间的相似性度量可以脱机进行 , 因而推荐响应时间快

– 缺点：难以区分商品信息的品质和风格 , 而且不能为用户发现新的感兴趣的商品 , 只能发现和用户已有兴趣相似的商品

22

基于协同过滤（ Collaborative filtering ）协同过滤技术一般采用最近邻技术，利用客户的历史喜好信息计算客户之间的距离，目标客户对特定商品的喜好程度由其最近邻居对商品评价的加权平均值来计算

可以处理客户数据变化比较快的情况在大型数据库中搜索最近邻居非常耗时，实时性不好

分类：– Item-Based （ Item-to-Item Correlation ）– User-Based （ People-to-People Correlation ）

23

关联规则 (Association Rules)

关联规则技术根据关联规则发现算法和客户当前的购买行为向用户产生推荐

关联规则的发现也可以离线进行推荐精度比最近邻技术略差

24

分类分析（ Classification ）分类分析（ Classification ）其目的是建立一个分类函数或分类模型 ( 也称作分类器 ) ，该模型能把数据库的数据项映射到给定类别中的某一个。分类是有指导的学习。根据设定的分组，将不同的数据分配到不同的分组，然后研究每个组的特点。如客户跳槽分析。

25

23/4/10

聚类分析（ Clustering）聚类分析（ Clustering ）技术将具有相似爱好的客户分配到相同的族中，聚类产生之后，根据族中其他客户对某商品的评价就可以得到系统对该商品的评价

Clustering 是将数据分为几组，其目的是要将组与组之间的差异找出来，同时也要将一个组之中的成员的相似性找出来。

26

Clustering VS. Classification

聚类分析（ Clustering）与分类分析（ Classification）不同的是，你不晓得它会以何种方式或根据什么来分类。所以你必须要有一个分析师来解读这些分类的意义。聚类分析帮助我们决定将哪些组合更有意义。聚类是把一组个体按照相似性归成若干类别，即“物以类聚”。它的目的是使属于同一类别的个体之间的距离尽可能地小，而不同类别的个体间的距离尽可能地大。

27

23/4/10

贝叶斯网络 - Bayesian Network

Bayesian 网络技术利用训练集创建相应的模型，模型用决策树表示，节点和边表示客户信息

模型的建立可以离线进行，一般需要数小时或数天，得到的模型非常小，对模型的使用非常快

这种方法适合客户的兴趣爱好变化比较慢的场合推荐精度和最近邻技术差不多

28

Horting图技术 Horting图技术是一种基于图的方法，节点代表客户，边代表两个客户之间的相似度。在图中寻找近邻节点，然后综合近邻节点的观点形成最后的推荐

Horting图技术可以跳过中间节点寻找最近邻居，考虑了节点之间的传递相似关系

推荐精度优于最近邻技术

29

其他可用于推荐系统的数据挖掘技术决策树：

– 分析不同的影响因素对分析目标的影响，找到关键的影响因素。决策树法的优点是直观，但随着数据复杂性的提高，其分支树也会增多，管理困难。

遗传算法– 遗传算法是一种基于生物进化过程的组合优化方法。其基本思想是：随着时间的更替，只有适合的物种才得以进化。将这种思想用于数据挖掘就是根据遗传算法获得最适合的模型，并据此对数据模型进行优化。

神经网络– 神经网络从经验中学习，常用于发现一组输入数据和一个结果之间的未知联系。

30

31

目录


31

推荐系统一般框架

推荐系统一般框架

候选对象推荐方法推荐对象

32

23/4/10

基于关联规则的推荐算法常用关联规则算法

– Apriori ， AprioriTid ， DHP ， FP-tree 等基本算法：

– 使用关联规则发现算法找出所有满足最小支持度和最小置信度的关联规则 R

– 找出 R 中所有被客户支持的关联规则 R1 ，即关联规则左边的所有商品都被客户购买

– 找出被关联规则 R1 所预测并且没有被客户所购买的所有商品 P

– 根据 P 中商品在关联规则 R1 中的置信度排序，如果某商品被多个规则预测，则取置信度最大者作为排序依据，挑选前 N 个商品作为算法输出

33

基于关联规则的推荐算法算法分析：

– 第一步关联规则的发现最耗时，是算法的瓶颈，但可以离线进行

– 实时性比较好，因为后三步不会太耗时

34

协同过滤技术分类 User-Based（ People-to-People Correlation）：推荐系统根据客户与其他已经购买了商品的客户之间的相关性进行推荐

Item-Based（ Item-to-Item Correlation）：推荐系统根据客户感兴趣的产品推荐相关的产品

35

协同过滤主要步骤

输入用户评价矩阵计算最近邻居产生推荐

36

基于 User-Based的协同过滤基本思想：

– 使用统计技术寻找与目标客户有相同喜好的邻居；然后根据目标客户多个邻居的观点产生向目标客户的推荐

基本步骤：– 表示 (Representation)：对客户已经购买的商品进行建模

– 邻居形成 (Neighborhood Formation)：寻找目标客户所对应的邻居

– 推荐产生 (Recommendation Generation)：从目标客户的邻居中产生 N 项产品推荐

37

基于 User-Based的用户相似度算法余弦相似性

相关相似性（ Pearson相关系数）

修正的余弦相似性

2 2

( )( )( , )

( ) ( )

uv

uv uv

ui i ui ii I

ui i vi ii I i I

R R R Rsim u v

R R R R

2 2

( )( )( , )

( ) ( )

uv

uv uv

ui u ui vi I

ui u vi vi I i I

R R R Rsim u v

R R R R

1

2 2

1 1

( , ) cos( , )

n

ui vii

n n

ui vii i

R Ru v

sim u v u vu v

R R

))))))))))))))))))))))))))))

38

User-Based的相似性算法 - 余弦相似性 Similarity between items i & j is

computed by isolating the users who have rated them and then applying a similarity computation technique.

Cosine-based Similarity – items are vectors in the m dimensional user space (difference in rating scale between users is not taken into account).

39

User-Based的相似性算法 - 相关相似性 Correlation-based Similarity - using the

Pearson-r correlation (used only in cases where the uses rated both item I & item j).

R(u,i) = rating of user u on item i.

R(i) = average rating of the i-th item.

40

User-Based的相似性算法 - 修正的余弦相似性 Adjusted Cosine Similarity – each pair in

the co-rated set corresponds to a different user. (takes care of difference in rating scale).

R(u,i) = rating of user u on item i.

R(u) = average of the u-th user.

41

基于 User-Based的协同过滤 - 推荐算法由目标客户的邻居产生 N件商品推荐，可以采用如下两种不同方法产生推荐– 最频繁项目推荐 (Most-frequent Item Recommendation)

扫描目标客户每一个邻居的购买数据，对其购买的商品进行计数，选择出现频率最高且目标客户没有购买的前 N件商品最为推荐结果

– 基于关联的推荐 (Association Rule-based Recommendation) ：类似于基于关联规则的推荐算法，只是将目标客户的邻居作为算法的输入

42

基于 Item-based 协同过滤算法基本思路

– 基本假设：能够引起用户兴趣的项，必定与其之前评分高的相似

– 根据目标客户已经评价过的项目与目标项目的相似性，选择 k 个最相似的项目 {i1, i2, ……, ik} ，同时得到 k 个最相似的项目与目标项目的相似度，记为 {si1, si2, ……, sik} ，然后将目标客户对这 k 个最相似的项目的评分及这 k 个最相似的项目与目标项目的相似度的加权平均值作为对目标项目的评分

基本步骤– 1 ）得到 User-item的评分数据；– 2 ）针对项的最近邻搜索，即对项进行相似度计算；– 3 ）产生推荐。

43

23/4/10

基于 Item-based 协同过滤 - 相似性算法计算项目 i 和 j之间的相似性：

– 从所有的用户中分离出同时对项目 i 和项目 j 进行评价的用户

– 根据上面得到的数据计算项目 i 和项目 j 的相似性

44

协同过滤技术性能分析性能分析：

– User-based 算法在邻居生成阶段，由于需要对每个目标客户所对应的邻居计算相似性，随着用户数量的不断增多（例如上千万、上百万级）时候，在大数量级的用户范围内进行“最近邻搜索”会成为整个算法的瓶颈

– Item-based算法将邻居生成阶段和推荐产生阶段分离，使得邻居生成阶段可以离线进行，从而使得电子商务网站的实时推荐得以实现

45

Slope One-简单高效的推荐算法基本思路

– 平均值可以代替某两个未知个体之间的打分差异– 例如：事物 A 对事物 B 的平均差是： ((3 - 4) + (2 - 4)) / 2 = -1.5，也就是说人们对事物 B 的打分一般比事物 A 的打分要高 1.5，于是 Slope one算法就猜测 Z 对事物 B 的打分是 4 + 1.5 = 5.5

46

Slope One-简单高效的推荐算法加权算法

– 有 n 个人对事物 A 和事物 B 打分了， R(A->B)表示这 n 个人对 A 和对 B打分的平均差（ A-B） , 有 m 个人对事物 B 和事物 C 打分了， R（ C->B）表示这 m 个人对 C 和对 B 打分的平均差（ C-B），注意都是平均差而不是平方差，现在某个用户对 A 的打分是 ra，对 C 的打分是 rc，那么 A 对 B 的打分可能是：rb = (n * (ra - R(A->B)) + m * (rc - R(C->B)))/(m+n)

参考资料– http://en.wikipedia.org/wiki/Slope_One

47

48

协同过滤推荐系统常见问题 Cold Start: There needs to be enough other users already in the system to find a match.

Sparsity: If there are many items to be recommended, even if there are many users, the user/ratings matrix is sparse, and it is hard to find users that have rated the same items.

First Rater: Cannot recommend an item that has not been previously rated.– New items– Esoteric items

Popularity Bias: Cannot recommend items to someone with unique tastes. – Tends to recommend popular items.

48

49

目录


Vector space model

在向量空间模型中，文本泛指各种机器可读的记录。用 D（ Document）表示，特征项（ Term，用 t 表示）是指出现在文档 D 中且能够代表该文档内容的基本语言单位，主要是由词或者短语构成，文本可以用特征项集表示为D(T1， T2，…， Tn)，其中 Tk是特征项， 1<=k<=N。

例如一篇文档中有 a 、 b 、 c 、 d 四个特征项，那么这篇文档就可以表示为 D(a， b ， c ， d)。对含有 n 个特征项的文本而言，通常会给每个特征项赋予一定的权重表示其重要程度。即 D ＝ D(T1， W1； T2， W2；…， Tn， Wn)，简记为 D ＝ D(W1， W2，…， Wn)，我们把它叫做文本 D 的向量表示。其中 Wk是 Tk的权重， 1<=k<=N。

50

Inverted Files

51

Inverted Files

52

Word-Level Inverted File

53

TF/IDF(逆文本频率指数 )

TF/IDF： Term Frequency/Inverse Document Frequency

TF(t,d)：表示单词 t 在文档 d 中的出现次数，以它作为一个度量相关度的标准。

简单起见，定义 IDF(t) = log(N / DF(t))，这里的 DF(t)是指单词 t 在多少篇文档中出现过(Document Frequency)， N 是指总的文档数。容易发现，如果单词越普遍，它的 IDF越小，极端情况是 DF(t)=N时， IDF(t)=0，从下面的式子能看出，这实际上就起到了 stop list的效果。

54

TF/IDF(逆文本频率指数 )

把这两项结合起来，对单词 t 和文档 d ，定义TF-IDF(t,d) = TF(t,d) * IDF(t)。

结论：某一特定文件内的高词语频率，以及该词语在整个文件集合中的低文件频率，可以产生出高权重的 TF-IDF。因此， TF-IDF倾向於过滤掉常见的词语，保留重要的词语。

对于搜索引擎我们就有了一个简单的打分方法：一篇文档和一条 Query的相关度为 Query中所有单词在这篇文档中的 TF-IDF值之和。

55

Lucene 的 TF/IDF相似度算法

参考http://lucene.apache.org/java/2_2_0/api/org/apache/lucene/search/Similarity.html

56

http://lucene.apache.org/java/2_2_0/api/org/apache/lucene/search/Similarity.html

http://lucene.apache.org/java/2_2_0/api/org/apache/lucene/search/Similarity.html

Content-Based推荐算法 TF/IDF实现在 Content-Based中，对于一个商品要达到向用户推荐的目的，首先要能够提取出能够表征商品特征的数据，这样才能够根据用户的喜好（实际上用户喜好也需要转化为特征值来进行度量）进行相对应的推荐。

Content-Based的 Content 特征值标识法– 分类法（ Category）– 社会化标签（ Tag） / 关键字（ Keywords）– 关键内容搜索引擎分词法

Content-Based 推荐算法– 关键内容分词相关度– 基于 Tag的相关度

57

基于标签 Tag的社会化媒体 TF/IDF算法

58

基于 TF/IDF算法的商品相关度实现商品关键内容分词相关度利用搜索引擎分词法对商品关键内容建立索引，然后利用类似 Lucene这样的 TF/IDF相似度算法来完成相似商品的推荐

商品 Tag的相关度利用 Tag能够用于对商品特征值进行标识的特点，通过TF/IDF相似度算法来完成相似商品的推荐

59

参考资料Wiki：

– http://en.wikipedia.org/wiki/Collaborative_filtering

– http://en.wikipedia.org/wiki/Web_analytics– http://en.wikipedia.org/wiki/Recommendation_system

图书– Programming Collective Intelligence: Building Smart Web

2.0 Applications– Web Analytics: An Hour a Day– Data Mining： Concepts and Techniques– Mining the Web:Transforming Customer Data into Cutomer

Value– Data Mining Techniques: For Marketing, Sales, and

Customer Relationship Management60

http://en.wikipedia.org/wiki/Collaborative_filtering

http://en.wikipedia.org/wiki/Collaborative_filtering

http://en.wikipedia.org/wiki/Web_analytics

http://en.wikipedia.org/wiki/Recommendation_system

http://en.wikipedia.org/wiki/Recommendation_system

http://www.amazon.com/Programming-Collective-Intelligence-Building-Applications/dp/0596529325/186-5657952-8117436?SubscriptionId=1100889MK2XY9PSTV5G2

http://www.amazon.com/Programming-Collective-Intelligence-Building-Applications/dp/0596529325/186-5657952-8117436?SubscriptionId=1100889MK2XY9PSTV5G2

参考资料开源项目

– Open Source Collaborative Filtering Written in Java

– Carrot2 Clustering Engine– Weka 3: Data Mining Software in Java– Taste

61

参考资料 Blog

– http://glinden.blogspot.com/– http://www.kaushik.net/avinash– http://guwendong.cn/– http://www.weigend.com/– http://www.chinawebanalytics.cn/– 数学之美系列– Mining Social Data for Fun and Insight

62

recommender systems in e-commerce v2.0

Documents