中文网页自动分类技术研究及其在搜索引擎中的应用

1

中文网页自动分类技术研究中文网页自动分类技术研究及其在搜索引擎中的应用及其在搜索引擎中的应用冯是聪

北京大学网络与分布式实验室2003 年 4 月 19 日

2

提纲提纲研究背景与意义影响分类器性能的关键因素分析通过清除噪音改进分类质量一种从搜索引擎日志中学习新词的方法中文网页自动分类技术在搜索引擎中的应用总结与展望

3

研究背景与意义研究背景与意义 Web 网页量的迅猛增长

Google: 超过 30 亿 “ 天网”：超过 1 亿

Web 信息的特性海量动态不规则

应用实例面向主题的搜索引擎与个性化搜索引擎信息过滤和主动推送服务

基本内容如何实现中文网页的自动分类如何应用中文网页自动分类技术实现搜索引擎目录导航服务

4

提纲提纲问题的提出影响分类器性能的关键因素分析通过清除噪音改进分类质量一种从搜索引擎日志中学习新词的方法中文网页自动分类技术在搜索引擎中的应用总结与展望

5

影响分类器性能的关键因素分析影响分类器性能的关键因素分析引言文档自动分类算法的类型实现中文网页自动分类的一般过程影响分类器性能的关键因素的定量分析

实验设置训练样本特征选取分类算法截尾算法一个中文网页分类器的设计方案

文档自动分类算法

词匹配法知识工程法统计学习法

M-aryI ndependency Bi nary

WORDLLSFDTree NB NNet KNNNN Rocchi o SVM

6

实现中文网页自动分类的一般过程实现中文网页自动分类的一般过程训练过程 : 可以看作在已知文档类别的情况下，统计不同类别内的词的分布分类过程 : 可以看作在已知一篇文档内所包含词的分布的情况下，来预测该文档的类别

训练集预处理分类算法

参数调整

测试特征选取分类结果截尾算法

Binary 分类 M-ary 分类

7

中文网页分类器的工作原理中文网页分类器的工作原理

待分类中文网页向量表示预处理

训练集实例预处理

特征选取算法

分类算法

校验集测试

每个类的阈值

训练结果类别表

阈值策略

候选类列表

特征项向量表示

训练过程分类过程

8

实验设置实验设置预处理：无特征选取 : 无分类算法： kNN, k=20, 取最大的一个类别截尾算法：无评价指标： Macro-F1 和 Micro-F1

9

评价指标评价指标应该返回不该返回

实际返回 a b

实际未返回 c d

baap

caar

rpprF

2

1

mrp

rp

m

ii

m

ii

m

i

m

iii

FMacro)*(

**2

111

1 1

m

iiFm

FMacro1

111

10

样本集中类别及实例数量的分布情况样本集中类别及实例数量的分布情况类别编号类别名称类别数训练样本数测试样本数

1 人文与艺术 24 419 110

2 新闻与媒体 7 125 19

3 商业与经济 48 839 214

4 娱乐与休闲 88 1510 374

5 计算机与因特网 58 925 238

6 教育 18 286 85

7 区域 53 891 235

8 自然科学 113 1892 514

9 政府与政治 18 288 84

10 社会科学 104 1765 479

11 医疗与健康 136 2295 616

12 社会与文化 66 1101 301

共计 733 12336 3269

11

一个中文网页分类体系一个中文网页分类体系

非学术性

学术性

人文与艺术

新闻与媒体

商业与经济

社会与文化

区域

娱乐与休闲

政府与政治

教育

自然科学

社会科学

计算机与因特网

医疗与健康

视觉艺术摄影

三层

... ...

... ...

... ...

12

训练样本数对分类器质量的影响训练样本数对分类器质量的影响

13

特征选取算法特征选取算法 DF: Document Frequency IG: Information GainG(t) =

MI: Mutual Information

CHI

m

i irir cPcP1

)(log)(

m

i irir tcPtcP1r )|(log)|((t)p

m

i irirr tcPtcPtP1

)|(log)|()(

)()(log),(

BACANActI

)()()()()(2 2

),( DCBADBCACBADNct

14

特征选取算法对分类质量的影响特征选取算法对分类质量的影响

15

分类算法分类算法 kNN

NB: Naïve Bayes

jjikNNd

ij bcdydsimcyi

),(),(),(

)()(*)|()|(

BPAPABPBAP

)()(*)|()...|(*)|(

)()(*)|(

)|( 21

dPcPcaPcaPcaP

dPcPcdP

dcP n

16

分类算法对分类性能的影响分类算法对分类性能的影响

质量效率（秒）Micro-F1 Macro-F1 训练时间测试时间

kNN 0.8266 0.7560 0 2426

NB 0.1934 0.1612 251 2129

17

kNNkNN 算法中算法中 kk 的取值的取值

18

文档之间的相似度文档之间的相似度欧式 (Euclid) 距离

兰氏 (Lance) 距离

||||,

dxdxdxCos

i

ii yxyxD 2/12 )||(),(

19

文档之间的相似度文档之间的相似度 -- 实验结果实验结果质量效率（秒）Micro-F1 Macro-F1 测试时间

欧式距离 0.2419 0.1715 4790兰式距离 0.8266 0.7600 2426

20

类别之间的层次关系类别之间的层次关系训练过程测试过程

1第层

3第层3第层3第层 3第层

2第层2第层

…

. . .

. . .

1第层

3第层3第层3第层 3第层

2第层2第层

…

. . .

. . .

21

类别之间的层次关系类别之间的层次关系 -- 实验结果实验结果

质量效率（秒）Micro-F1 Macro-F1 测试时间

基于层次的 kNN

0.7288 0.6296 677

基本 kNN 0.8266 0.7600 1734

22

截尾算法截尾算法位置截尾法 (RCut) ：从m 的候选类列表中取前 k 项比例截尾法 (PCut) ：分类结果中，某个类的文档比例同训练集中属于类 i 的文档所占的比例一致。最优截尾法（ SCut）：对于候选类列表里的每一个类，如果这篇文档和这个类的相似度大于这个类的最优截尾相似度，那么这篇文档就属于这个类。最优截尾相似度的获得：将训练集分成两部分，其中一部分仍然作为训练集，另一部分作为测试集，对每一个类，评价分类系统在这个测试集下对于这个类的分类性能，调整截尾相似度，使得系统的性能达到最优，此时截尾相似度的值就是这个类的最优截尾相似度

23

截尾算法截尾算法 -- 实验结果实验结果质量效率（秒）Micro-F1 Macro-F1 测试时间

RCut 0.8266 0.7600 4324Scut 0.8401 0.7849 5368

基本 kNN 0.8266 0.7600 2426

24

一个中文网页分类器的设计方案一个中文网页分类器的设计方案关键因素方案训练样本数 15

特征选取方法 CHI

分类算法

kNN & NB kNN

k 15

相似度兰式距离层次关系层次关系

截尾算法 SCut

25

实验结果实验结果质量效率（秒）Micro-F1 Macro-F1 测试时间

新方案 0.7173 0.6229 397

基本 kNN 0.8266 0.7600 1734

26


27

中文网页的特性中文网页的特性中文网页的内容使用中文书写，不像英文单词之间存在自然的形态间隔，中文需要分词处理。而且分词的效果能够显著地影响分类效果网页使用超文本设计。它包含大量的 HTML 标签和超链接。我们有可能利用这些信息来改进分类的质量网页通常包含大量的“噪音”。同普通文本相比，网页的设计比较随意，通常包含各类广告，设计人员的注释以及版权申明等无关信息。有时同一个网页甚至会包含多个不同的主题。在进行分类之前，需要自动清除这些“噪音”，否则这些“噪音”会降低分类质量

28

典型网页举例典型网页举例

29

清除噪音算法清除噪音算法流程：源文件标签树内容识别正文，相关连接，噪音删除噪音

<<html>html><head><head><title> </title><title> </title></head></head><body><body><table><table> <tr><tr> </tr></tr> ...... <table><table> <tr><tr> </tr></tr></table> </table> </body></body></html></html>

html

head body

table

tr

td

a

tr

td

a

table

tr

tr

td

a

tr

td

a

table

tr

相关子树不相关子树

30

噪音识别方法噪音识别方法网页结构信息

标签信息： table, tr,td, div, p 大小，位置超链数，文字数正文

网页内容信息分类

31

实验结果实验结果 - - 分类结果分类结果质量效率（秒）

Micro-F1 Macro-F1 测试时间没有取噪音 0.8266 0.7600 1734

去噪音 0.8293 0.7746 2359

32


33

一种从搜索引擎日志中学习新词的方法一种从搜索引擎日志中学习新词的方法引言基本思想用户查询词的分布特性分析组合模式的提取候选词的筛选算法分析实验结果及其分析

34

引言引言相关研究

人名地名机构名共同点：应用面向领域的语料库

从搜索引擎日志中学习新词的优点学习新词的效率、准确率高能够及时地学习到最近出现的新词，而且这些新词不受领域的局限客观性

35

基本思想基本思想基本思想

用户查询词的分布特性已有分词系统

从搜索引擎日志中学习新词的一般步骤

预处理查询词分布特性, 分词

组合搜索引擎日志候选新词

模式模式筛选新词

1 23

36

用户查询词的分布特性用户查询词的分布特性分别以“天网” 搜索引擎收集的三批日志文件数据为分析对象集合：• 第一批是从 2000 年 11 月 20 日至 2001 年 9月 4 日期间的日志数据（共 9,256,772条记录）• 第二批是从 2001 年 12 月 20 日至 2002 年 2月 3 日期间的日志数据（共 9,394,200条记录）• 第三批是从 2002 年 7 月 1 日至 2002 年 8月 14 日期间的日志数据（共 6,391,282条记录）

37

用户查询词的长度分布特性用户查询词的长度分布特性用户的查询词通常都是非常简短的，用户的查询词通常都是非常简短的，92%92% 以上的用户查询词的长度不超以上的用户查询词的长度不超过过 88 个汉字个汉字 65%65% 以上的查询词的长度不超过以上的查询词的长度不超过 44个汉字。在所有查询词中，个汉字。在所有查询词中， 44 个汉个汉字长的查询词最多，占字长的查询词最多，占 28%28% 以上。以上。22 个汉字长的查询词次之，占个汉字长的查询词次之，占 2222%%以上以上

38

用户查询词的频度分布特性用户查询词的频度分布特性搜索引擎日志中用户查询词在频度分布上是高度集中的前 5%的高频词占据了 64%以上的总查询次数前 20%的查询词占据了 83%以上的总查询次数以第三批数据为例，在 639.1万次的用户查询中，共有 447,1万次中文查询，而这些查询词中仅包含了 43.4万不同的查询词，频率大于等于 5 次的仅有 11.9万个

39

组合模式的提取两个规则组合模式的提取两个规则直接删除已经被分词系统作为单个词条的已知组合模式，并且在模式提取的过程中不破坏已有的基本词条如果查询词的长度 n≤4 个汉字字符长，在日志中出现的频率比较高，而且被分词系统分割成单个汉字的组合，那么由这些单个汉字一起组成的词就作为一个侯选新词，而其它的组合则被视为无效

40

汉字组合模式的提取算法汉字组合模式的提取算法输入：经过预处理后保留下来的所有用户查询词输出：候选新词集 ω算法： 1. count←经过预处理后保留下来的所有用户查询词的个数 .2. while (count>0)

3. 取一个查询词 S， n←S 的长度， m←S 分词后得到的词条数， mi←第 i 个词条4. if (NOT m = 1)5. if ( n = 2 OR n= 3) S ω∈6. else if (n = 4)7. if (m= 2 OR m = 4 ) S ω∈8. else if ( m = 3) S ω OR (m∈ 1 m∪ 2) ω OR (m∈ 2 m∪ 3) ω∈9. else if (n>4)10. 按正向增字的方法， S←取 4 个字符， GOTO 3.11. count←count –1

41

汉字组合模式提取算法复杂度分析汉字组合模式提取算法复杂度分析所有汉字组合模式的穷举法

6763 个一、二级汉字， k 个汉字可能产生的组合模式有当 k=4 时，共有 2.1×1015重组合模式

本文的方法 O（ S）=

当 i=2或 i =3 时，需要匹配的次数为常数 1 当 i=4 时，根据分词结果，需要匹配的最大次数为常数 3 当 4＜ i≤8 时，根据“正向增字匹配”，可以分别拆分成

i≤4 时的情况。最后求得 O（ S ≈） 3.4 次

k

i

i

2

6763

8

2

)()(i

iii SOSP

42

候选词的筛选候选词的筛选 “伪词条”的筛选

所谓“伪词条”就是不能形成真实词条的候选词通过限制最小频率就可以过滤“伪词条”，但是也会过滤掉一些频率比较低的正确词条

“伪组合词”的筛选 “伪组合词”就是不能构成真实组合词的两个词放在一起作为一个组合词的候选词 S = S1 U S2

规则： Diff =

如果 freq（ S1）＞＞ freq（ S2），那么 S1 最可能是基本词条 ≥ 2 如果 freq（ S1）＜＜ freq（ S2），那么 S2 最可能是基本词条 ≤ -2 如果 freq（ S1 ≈） freq（ S2），那么S最可能是基本词条（– 2 ，2 ）

)()()( 21

SfreqSfreqSfreq

43

新词学习方法质量的测试 – 定义新词学习方法质量的测试 – 定义定义 1

a = 学习得到的新词中包含的正确词条数 b = 学习得到的新词中包含的错误词条数 c = 日志中包含而没有被学习出来的新词数

定义 2 “ 学准率” p = ，即学习得到的新词中包含的正确词条数与学习得到的新词总数的比值定义 3 “ 学全率” r = ，即学习得到的新词中包含的正确词条数与日志中包含的所有新词数的比值

baa

caa

44

新词学习方法质量的测试 – 实验方法新词学习方法质量的测试 – 实验方法随机地从预处理后保留的用户查询词中选择 3000 个不同的查询词进行人工地分词，删除分词系统已经作为一个独立词条的词后，得到 743个新词将自动学习得到的 821 个新词按频率从高到低排列，并分成 8 个等份，并分别统计前

k（ 1≤k≤8 ）个等份的 a、 b、 c 值之和，然后根据定义 2 和定义 3 ，分别求前 k 个等份对应的“学准率” p和 “学全率” r 值

45

新词学习方法质量的测试 – 实验结果新词学习方法质量的测试 – 实验结果

46

实验结果举例实验结果举例正确学习的：

新潮词：下载，考研，手机，课件，网站，美眉，短信 … 人名：刘德华，江泽民，周星驰 … 地名：北京，上海，美国，日本，中关村 … 娱乐焦点：寻秦记，璩美凤，大史记，天龙八部 … 敏感话题：乱伦，三级片 …

错误学习的：用户不能确定：到底是“璩美凤”还是“虞美凤”？一些不能作为新词的娱乐作品名：“我猜”

漏学的：频率比较低，而确实是新词的，玄奘 …

47

新词学习方法效率的测试新词学习方法效率的测试

48


49

引言引言 Spider 式搜索引擎的特点

索引的网页数多，信息量大更新频率高查准率相对较低

目录式搜索引擎的特点查准率相对较高规模较小维护代价高

相关研究 Google Yahoo!

50

““ 天网”目录导航服务的体系结构天网”目录导航服务的体系结构浏览器 “ ”天网搜索引擎

被分类的网页

用户

分类器

查询词

检索结果

Web网页

网页抓取器网页

类别

+查询词类别

抓取

类别匹配在线

离线

51

““ 天网”目录的运行实例天网”目录的运行实例

http://162.105.80.84/cgi-bin/getdirectory?ccode=0&first=1

52


53

总结总结影响分类器性能的关键因素分析通过清除噪音改进分类质量一种从搜索引擎日志中学习新词的方法中文网页自动分类技术在搜索引擎中的应用

54

将来的工作将来的工作中文网页分类器的应用

中文网页分类器的实用化和产品化应用中文网页自动分类技术，实现可配置的主题搜索服务应用中文网页自动分类技术，实现搜索引擎个性化服务其他应用

中文网页自动分类技术研究的深化中文网页标准语料库的建设分类器的增量学习分类效率，文档模型，分类算法

55

谢谢！谢谢！

中文网页自动分类技术研究 及其在搜索引擎中的应用

Documents

中文网页自动分类技术研究及其在搜索引擎中的应用