trec 简介及 英语词性标注对信息检索系统性能的影响

29
TREC TREC 简简简 简简简 简简简简简简简简简简简简 简简简简简 简简简简简简简简简简简简 简简简简简 2004-12-14 2004-12-14

Upload: dacia

Post on 12-Jan-2016

184 views

Category:

Documents


0 download

DESCRIPTION

TREC 简介及 英语词性标注对信息检索系统性能的影响. 2004-12-14. 研究背景 TREC 基础知识 VSM 英文词性标注 实验 经验. 研究背景. TREC2004 ROBUST 任务 信息检索的义项矩阵模型研究. TREC. The Text REtrieval Conference the National Institute of Standards and Technology (NIST) and U.S. Department of Defense TRACKS DATA SET 评测 SMART11. TRACKS. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: TREC 简介及 英语词性标注对信息检索系统性能的影响

TRECTREC 简介及简介及英语词性标注对信息检索英语词性标注对信息检索

系统性能的影响系统性能的影响

2004-12-142004-12-14

Page 2: TREC 简介及 英语词性标注对信息检索系统性能的影响

研究背景研究背景 TRECTREC 基础知识基础知识

VSMVSM 英文词性标注英文词性标注

实验实验 经验经验

Page 3: TREC 简介及 英语词性标注对信息检索系统性能的影响

研究背景研究背景 TREC2004TREC2004 ROBUSTROBUST 任务任务 信息检索的义项矩阵模型研究信息检索的义项矩阵模型研究

Page 4: TREC 简介及 英语词性标注对信息检索系统性能的影响

TRECTREC

The Text REtrieval ConferenceThe Text REtrieval Conference the National Institute of Standards and Tethe National Institute of Standards and Te

chnology (NIST) and U.S. Department of Dchnology (NIST) and U.S. Department of Defense efense

TRACKSTRACKS DATA SETDATA SET 评测评测 SMART11SMART11

Page 5: TREC 简介及 英语词性标注对信息检索系统性能的影响

TRACKSTRACKS Cross-Language TrackCross-Language Track Filtering TrackFiltering Track Genomics TrackGenomics Track HARD TrackHARD Track Interactive TrackInteractive Track Novelty TrackNovelty Track Question Answering TrackQuestion Answering Track Robust Retrieval TrackRobust Retrieval Track Terabyte TrackTerabyte Track Video TrackVideo Track Web TrackWeb Track

Page 6: TREC 简介及 英语词性标注对信息检索系统性能的影响

DATA SETDATA SET 由TRACKS决定由TRACKS决定 DocumentDocument TOPICTOPIC

TitleTitle DesriptionDesription NarrativeNarrative

Page 7: TREC 简介及 英语词性标注对信息检索系统性能的影响

TRECTREC 评测评测 PoolingPooling AP RPAP RP P-R graph P-R graph Trec_evalTrec_eval

Page 8: TREC 简介及 英语词性标注对信息检索系统性能的影响

SMARTSMART (( 11 )首先对文档集中的每个文档依据设定的加)首先对文档集中的每个文档依据设定的加

权方式表示成向量,并存入文档向量文件;权方式表示成向量,并存入文档向量文件; (( 22 )根据向量文件建立倒排索引文件;)根据向量文件建立倒排索引文件; (( 33 )对)对 TopicTopic 集中每个集中每个 TopicTopic 依据设定的加权依据设定的加权

方式表示成向量形式,并存入方式表示成向量形式,并存入 TopicTopic 向量文件;向量文件; (( 44 )对特定)对特定 TopicTopic 计算其与每个文档的相关度,计算其与每个文档的相关度,

提交与该提交与该 TopicTopic 最相关的前最相关的前 10001000 篇文档。 篇文档。

Page 9: TREC 简介及 英语词性标注对信息检索系统性能的影响

VSMVSM

文档的表示:将文档的表示:将 DiDi 表示为由表示为由 tt 维索引项组维索引项组成的向量,其中成的向量,其中 dijdij 表示第表示第 jj 个索引项在文个索引项在文档档 DiDi 中的权重,中的权重, tt 由整个文档集决定由整个文档集决定

Di=(dDi=(di1i1,d,di2i2,…d,…ditit)) 索引项的选取索引项的选取 索引项权重计算 索引项权重计算 向量之间的相似度向量之间的相似度

1 2, ,...i i i itD d d d

1 2, ,...i i i itD d d d

1 2, ,...i i i itD d d d

1 2, ,...i i i itD d d d

1 2, ,...i i i itD d d d

1 2, ,...i i i itD d d d

Page 10: TREC 简介及 英语词性标注对信息检索系统性能的影响

VSMVSM (续一)(续一) SMARTSMART 检索系统检索系统 索引项索引项 权重计算 权重计算 tftf idfidf 文档长度归一因子文档长度归一因子 VSMVSM 的缺陷的缺陷 引入引入 NLPNLP 技术技术

Page 11: TREC 简介及 英语词性标注对信息检索系统性能的影响

VSMVSM (续二)(续二) l ; lntf +1.0 l ; lntf +1.0 t : ln(N/n) t : ln(N/n)

NN 是是 collectioncollection 中的中的 documentdocument 总数 总数 nn 是包含给定是包含给定 termterm 的的 docdoc 数 数

aa == 0.5 + 0.5*tf / maxtf 0.5 + 0.5*tf / maxtf

iiw

c2

1

Page 12: TREC 简介及 英语词性标注对信息检索系统性能的影响

词性标注技术 词性标注技术 词性标注是词性标注是 NLPNLP 中重要而成熟的技术中重要而成熟的技术 实现部分词义消歧 实现部分词义消歧 I can do itI can do it can of sodacan of soda 不同词性的词在索引中有不同作用不同词性的词在索引中有不同作用

词性标注具有改进检索性能的潜力 词性标注具有改进检索性能的潜力

Page 13: TREC 简介及 英语词性标注对信息检索系统性能的影响

英文词性标注集 英文词性标注集 宾州树库标注集宾州树库标注集 基于基于 BrownBrown 语料库(语料库( 8787 个标记)的标个标记)的标

注集注集 含含 3636 个词性标记和个词性标记和 1212 个其它标记个其它标记 为了句法分析的目的而构建 为了句法分析的目的而构建 精简的词性标注集精简的词性标注集 将相同语义不同句法形式的词类进行合并将相同语义不同句法形式的词类进行合并 排除功能词,如排除功能词,如 CCCC 、、 DTDT 等等

Page 14: TREC 简介及 英语词性标注对信息检索系统性能的影响

JJJJ JJ JJR JJS JJ JJR JJS

NNNN NN NNS FW NNP NNPS NN NNS FW NNP NNPS

PRP PRP PRP PRP$ PRP PRP$

RB RB Rb RBR RBS Rb RBR RBS

RP RP

VB VB VB VBD VBG VBN VBP VBZ VB VBD VBG VBN VBP VBZ

PU PU # $ . , : ( ) " ` " ' " # $ . , : ( ) " ` " ' "

Page 15: TREC 简介及 英语词性标注对信息检索系统性能的影响

实验方案实验方案 索引方案索引方案 painpain pos-48pos-48 pos-7pos-7 pos-v-npos-v-n pos-v-n-jpos-v-n-j 索引项权重表示索引项权重表示 nnn-nnn atc-atc lnc-ltc nnn-nnn atc-atc lnc-ltc

Page 16: TREC 简介及 英语词性标注对信息检索系统性能的影响

实验设置实验设置 数据集数据集

TREC-7TREC-7 和和 TREC-8 ad hocTREC-8 ad hoc 任务的数据集。任务的数据集。 100100 个个 TopicTopic 。文档集规模约为。文档集规模约为 1,904MB1,904MB ,,

包含文档数约包含文档数约 528,000528,000 篇篇 SMARTSMART 检索系统 检索系统 BrillBrill 的词性标注器及数据预处理的词性标注器及数据预处理

Page 17: TREC 简介及 英语词性标注对信息检索系统性能的影响

词性标注 词性标注 BrillBrill 词性标注系统 词性标注系统 基于转换的错误驱动的学习 基于转换的错误驱动的学习 正确率正确率 97.2% 97.2% (( WSJWSJ 语料库) 语料库) 问题——断句问题——断句

根据句尾标志断句,如“ 根据句尾标志断句,如“ . : ; ! ?” . : ; ! ?” 断句准确优先 断句准确优先 对“对“ .”.” 的处理 的处理 特殊词处理特殊词处理

Page 18: TREC 简介及 英语词性标注对信息检索系统性能的影响

实验结果-nnn 实验结果-nnn

Page 19: TREC 简介及 英语词性标注对信息检索系统性能的影响

aa tc-atctc-atc

Page 20: TREC 简介及 英语词性标注对信息检索系统性能的影响

Lnc-ltcLnc-ltc

Page 21: TREC 简介及 英语词性标注对信息检索系统性能的影响

发现规律:发现规律: 不同的词性标注集在不同的词性标注集在 TREC-7TREC-7 和和 TREC-8TREC-8

数据集上的检索性能有相似的总体规律;数据集上的检索性能有相似的总体规律; 在在 nnn-nnnnnn-nnn 权重下,标注越细,检索效果权重下,标注越细,检索效果

越好(越好( pos-48pos-48 最好,最好, plainplain 最差);最差); 在在 atc-atcatc-atc 和和 lnc-ltclnc-ltc 权重下,标注越细,权重下,标注越细,

检索效果越差(检索效果越差( pos-48pos-48 最差,最差, plainplain 最最好);好);

Page 22: TREC 简介及 英语词性标注对信息检索系统性能的影响

100100 个个 TopicTopic 采用不同索引方案时的采用不同索引方案时的 APAP

其它略其它略

Page 23: TREC 简介及 英语词性标注对信息检索系统性能的影响

Topic429Topic429

<title><title>Legionnairesn/NNP disease/NN Legionnairesn/NNP disease/NN <desc><desc>Identify/VB Identify/VB outbreaks/NNSoutbreaks/NNS of/IN Legionnairesd/NNP of/IN Legionnairesd/NNP

disease/NN ./. disease/NN ./. <narr><narr>To/TO be/VB relevant/JJ ,/, a/DT document/NN must/To/TO be/VB relevant/JJ ,/, a/DT document/NN must/

MD discuss/VB a/DT specific/JJ MD discuss/VB a/DT specific/JJ outbreak/NNoutbreak/NN of/IN of/IN Legionnaires/NNP disease/NN ./. Legionnaires/NNP disease/NN ./.

Documents/NNS that/WDT address/VBP prevention/NDocuments/NNS that/WDT address/VBP prevention/NN of/IN or/CC cures/NNS for/IN the/DT disease/NN N of/IN or/CC cures/NNS for/IN the/DT disease/NN without/IN citing/VBG a/DT specific/JJ case/NN are/without/IN citing/VBG a/DT specific/JJ case/NN are/VBP not/RB relevant/JJ ./.VBP not/RB relevant/JJ ./.

Page 24: TREC 简介及 英语词性标注对信息检索系统性能的影响

索引项权重的差异索引项权重的差异

检索系统的性能不仅跟检索系统的性能不仅跟 TopicTopic 相关,很大相关,很大程度上与整个文档集相关。 程度上与整个文档集相关。

Page 25: TREC 简介及 英语词性标注对信息检索系统性能的影响

Topic447 Topic447

engineengine engineering; engineer; engineeredengineering; engineer; engineered enginengin engine/NNengine/NN

engineering/NN; engineering/VBG; engineered/VBDengineering/NN; engineering/VBG; engineered/VBD

Page 26: TREC 简介及 英语词性标注对信息检索系统性能的影响

实验结果分析实验结果分析 对单一词性对单一词性 \\ 同一词形,词性标注不会造成影响同一词形,词性标注不会造成影响 对同一词形、不同词性的词,通过词性标注能够对同一词形、不同词性的词,通过词性标注能够

对它们进行区分,减少了噪音信息匹配的可能性,对它们进行区分,减少了噪音信息匹配的可能性,使检索系统性能得到提高。使检索系统性能得到提高。

词语之间的同源性,导致词汇语义层面相关。词词语之间的同源性,导致词汇语义层面相关。词性标注的加入将它们分离为不同的索引项分量,性标注的加入将它们分离为不同的索引项分量,成为了成为了 TopicTopic 向量或向量或 DocumentDocument 向量中独立的向量中独立的维。这样就降低了维。这样就降低了 TopicTopic 向量与向量与 DocumentDocument 向向量中相关词匹配的可能性,也会导致检索系统性量中相关词匹配的可能性,也会导致检索系统性能的下降。 能的下降。

Page 27: TREC 简介及 英语词性标注对信息检索系统性能的影响

结语结语 在信息检索中引入词性标注信息会对特定在信息检索中引入词性标注信息会对特定 TT

opicopic 及文档集下的检索效果有所改进,但及文档集下的检索效果有所改进,但是改进的效果不明显。 是改进的效果不明显。

词性标注对于信息检索系统效果的影响明词性标注对于信息检索系统效果的影响明显弱于选择不同的索引项权重对其产生的显弱于选择不同的索引项权重对其产生的影响。 影响。

将语义信息加入信息检索 将语义信息加入信息检索

Page 28: TREC 简介及 英语词性标注对信息检索系统性能的影响

经验教训经验教训

Page 29: TREC 简介及 英语词性标注对信息检索系统性能的影响

敬请指正!敬请指正!