中文事件报道结果模式库的建立

22
中中中中中中中中中中中中中中 中中中中中中中中中中中中中中 中中 中中 中中 中中中

Upload: callie-reynolds

Post on 30-Dec-2015

34 views

Category:

Documents


2 download

DESCRIPTION

中文事件报道结果模式库的建立. 导师:李芳 学生:蒋德良. 2. 系统简介. 1. 问题综述. 3 . 系统模块介绍. 4 . 实验结果及系统存在问题. 内容. 问题综述. 实例文档 - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: 中文事件报道结果模式库的建立

中文事件报道结果模式库的建立中文事件报道结果模式库的建立

导师:李芳 学生:蒋德良

Page 2: 中文事件报道结果模式库的建立

内容内容

2. 2. 系统简介系统简介

4. 4. 实验结果及系统存在问题实验结果及系统存在问题

1. 1. 问题综述问题综述

3. 3. 系统模块介绍系统模块介绍

Page 3: 中文事件报道结果模式库的建立

问题综述问题综述实例文档

“…… 印尼国家减灾协调局当天说,又有 10具尸体在努沙登加省中被找到,该省已确定的死亡人数上升到 160 人,加上在其他地区死亡的 25人,此次地震的死亡总人数达 185 人,另有近 170 人受伤,其中 93人受重伤。…… 今年 2 月6 日,最东部的巴布亚省地区发生了一次里氏 6.9级的强烈地震,造成纳比雷地区 56人死亡,亚普拉地区 34人死亡, 20人重伤。”

“……失踪 3780人,经济损失 1000多亿美元。……”

问题一 . 如何得到每个句子中所有表示结果的精确信息

问题二 . 如何找到每个句子中结果信息的包含关系

问题三 . 如何合并每个句子中的结果信息得到句子最终结果信息

Page 4: 中文事件报道结果模式库的建立

系统简介系统简介

系统任务系统任务任务一任务一

结合正则表达式对自然灾害事件、人为事件、疾病爆发事件建立结果结合正则表达式对自然灾害事件、人为事件、疾病爆发事件建立结果模式库模式库 ,, 使用模式匹配的方法使用模式匹配的方法解决解决问题一问题一

任务二任务二 在在任务一任务一的基础上结合一些包含词的基础上结合一些包含词 (( 其中,累计其中,累计………… )) 与结果结点的与结果结点的

位置关系位置关系解决解决问题二问题二

任务三任务三 在在任务二任务二的基础上对属性相同的结果信息进行相加的基础上对属性相同的结果信息进行相加解决解决问题三问题三

Page 5: 中文事件报道结果模式库的建立

系统简介系统简介

系统框架图系统框架图

文档预处理

模式匹配

原始文档

Rules1.txtRules2.txtRules3.txt

结点信息规范化

规则集合

结果句子规范化

模式序列化

结果输出

Page 6: 中文事件报道结果模式库的建立

系统模块介绍系统模块介绍

文档预处理文档预处理对输入文档格式上的预处理对输入文档格式上的预处理

空格,换行符替换;全角半角转换空格,换行符替换;全角半角转换

对输入文档语义上的预处理对输入文档语义上的预处理 符合某些句式的句子做一些修改,以便提高系统精度。符合某些句式的句子做一些修改,以便提高系统精度。 句式一:“在句式一:“在…………中”替换为中”替换为”…… ”…… ,其中”,其中” 句式二:“与句式二:“与…………相比” 替换为空字符相比” 替换为空字符 句式三:“句式三:“ (( 一旦一旦 || 假如假如 )……)…… ,”替换为空字符,”替换为空字符

Page 7: 中文事件报道结果模式库的建立

系统模块介绍系统模块介绍

模式匹配模式匹配 使用模式库中的模式使用模式库中的模式逐条地逐条地对文档中的对文档中的每一句句子每一句句子进行模式匹配,进行模式匹配,

把抽取到的信息放在数据结构中以供后续模块使用。 把抽取到的信息放在数据结构中以供后续模块使用。 PropertyNodePropertyNode: : 记录存放单个属性结点的各种信息记录存放单个属性结点的各种信息

ResultSentenceResultSentence: : 记录一个句子的各个属性结点 记录一个句子的各个属性结点

Page 8: 中文事件报道结果模式库的建立

系统模块介绍系统模块介绍 PropertyNodePropertyNode

Page 9: 中文事件报道结果模式库的建立

系统模块介绍系统模块介绍ResultSentenceResultSentence

Page 10: 中文事件报道结果模式库的建立

系统模块介绍系统模块介绍Resultsentence1Resultsentence1

Resultsentence2Resultsentence2

死亡 :10 具尸体

死亡 :25 人死亡人数 :160 人 死亡总人数 :185 人 受伤 : 近 170 人 重伤 :93 人

ProNodeList2 = null

ResultNodeList = null

Text = ”印尼国家减灾协调局当天说,又有 10 具尸体在努沙登加省中被找到,该省已确定的死亡人数上升到 160 人,加上在其他地区死亡的 25 人,此次地震的死亡总人数达 185 人,另有近 170 人受伤,其中 93 人受重伤。 ”ProNodeList1:

死亡 :56 人 死亡 :34 人 重伤 :20 人

ProNodeList2 = null

ResultNodeList = null

Text = ”今年 2 月 6 日,最东部的巴布亚省地区发生了一次里氏 6.9级的强烈地震,造成纳比雷地区 56人死亡,亚普拉地区 34人死亡, 20人重伤。”

ProNodeList1:

Page 11: 中文事件报道结果模式库的建立

系统模块介绍系统模块介绍

结点信息规范化结点信息规范化

基本信息规范化基本信息规范化

数字字符串转换数字字符串转换

增减信息处理增减信息处理

重复结点删除重复结点删除

Page 12: 中文事件报道结果模式库的建立

系统模块介绍系统模块介绍Resultsentence1Resultsentence1

Resultsentence2Resultsentence2

死亡 : 增加 10人

死亡 :25 人死亡 :160 人 死亡 :185 人 受伤 : 近 170 人 受伤 :93 人

ProNodeList2 = null

ResultNodeList = null

Text = ”印尼国家减灾协调局当天说,又有 10 具尸体在努沙登加省中被找到,该省已确定的死亡人数上升到 160 人,加上在其他地区死亡的 25 人,此次地震的死亡总人数达 185 人,另有近 170 人受伤,其中 93 人受重伤。 ”ProNodeList1:

死亡 :56 人 死亡 :34 人 受伤 :20 人

ProNodeList2 = null

ResultNodeList = null

Text = ”今年 2 月 6 日,最东部的巴布亚省地区发生了一次里氏 6.9级的强烈地震,造成纳比雷地区 56人死亡,亚普拉地区 34人死亡, 20人重伤。”

ProNodeList1:

Page 13: 中文事件报道结果模式库的建立

系统模块介绍系统模块介绍结果句子规范化结果句子规范化属性包含处理 属性包含处理 找子结点找子结点

““又有 10具尸体在努沙登加省中被找到,该省已确定的死亡人数上升到 160 人,加上在其他地区死亡的 25人,此次地震的死亡总人数达 185 人,另有近 170 人受伤,其中 93人受重

伤。““

“ “ 马拉维卫生副部长查尔斯马拉维卫生副部长查尔斯 ··姆乔沙说,姆乔沙说, 22 月底全国共有月底全国共有 22652265 人人感染感染霍乱霍乱, , 55 月底月底感感

染染霍乱的群体为霍乱的群体为 41574157 人人,,其中其中 1616 人人死亡死亡。。””

子结点 1包含词 2: 累计 , 增加到……

父结点 2 父结点 1( 子结点2)

包含词 1: 其中 , 其余…… 子结点 1

父结点 1

包含词 2: 累计 , 增加到……

条件一 : 有且仅有一个包含词

条件二 : 没有其他属性关系上可以包含的结点

Page 14: 中文事件报道结果模式库的建立

系统模块介绍系统模块介绍

结果句子规范化结果句子规范化 ProNodeList2ProNodeList2

Page 15: 中文事件报道结果模式库的建立

系统模块介绍系统模块介绍Resultsentence1Resultsentence1

死亡 : 增加 10人

死亡 :25 人死亡 :160 人 死亡 :185 人 受伤 : 近 170 人 受伤 :93 人

ProNodeList2:

ResultNodeList = null

Text = ”印尼国家减灾协调局当天说,又有 10具尸体在努沙登加省中被找到,该省已确定的死亡人数上升到 160 人,加上在其他地区死亡的 25人,此次地震的死亡总人数达 185 人,另有近170 人受伤,其中 93人受重伤。 ”

ProNodeList1:

死亡 :185 人

死亡 :25 人死亡 :160 人

死亡 : 增加 10人

受伤 : 近 170 人

受伤 :93 人

Page 16: 中文事件报道结果模式库的建立

系统模块介绍系统模块介绍

Resultsentence2Resultsentence2

死亡 :56人

死亡 :34 人 受伤 :20 人

ProNodeList2:

ResultNodeList = null

Text = ”今年 2 月 6 日,最东部的巴布亚省地区发生了一次里氏 6.9级的强烈地震,造成纳比雷地区 56人死亡,亚普拉地区 34人死亡, 20人重伤。”

ProNodeList1:

死亡 :56人

死亡 :34 人 受伤 :20 人

Page 17: 中文事件报道结果模式库的建立

系统模块介绍系统模块介绍结果句子规范化结果句子规范化信息合并信息合并

HashMap:HashMap: keykey 值是属性值值是属性值 , value, value 值是相同属性结点的链表值是相同属性结点的链表

ResultNodeList: 最终结果链表

死亡 :

受伤 :

失踪 :

1 人 4 人 6 人

3 人

2 人 5 人

死亡 :1+4+6 人 受伤 :3 人 失踪 :2+5 人

按照 ProNodeList2 中父结点的属性值加入对应位置中

Page 18: 中文事件报道结果模式库的建立

系统模块介绍系统模块介绍Resultsentence1Resultsentence1

死亡 : 增加 10人

死亡 :25 人死亡 :160 人 死亡 :185 人 受伤 : 近 170 人 受伤 :93 人

ProNodeList2:

ResultNodeList:

Text = ”印尼国家减灾协调局当天说,又有 10具尸体在努沙登加省中被找到,该省已确定的死亡人数上升到 160 人,加上在其他地区死亡的 25人,此次地震的死亡总人数达 185 人,另有近170 人受伤,其中 93人受重伤。 ”

ProNodeList1:

死亡 :185 人

死亡 :25 人死亡 :160 人

死亡 : 增加 10人

受伤 : 近 170 人

受伤 :93 人

HashMap: 185 人

近 170 人

死亡

受伤死亡 :185 人 受伤 : 近 170

Page 19: 中文事件报道结果模式库的建立

系统模块介绍系统模块介绍

Resultsentence2Resultsentence2

死亡 :56人

死亡 :34 人 受伤 :20 人

ProNodeList2:

ResultNodeList:

Text = ”今年 2 月 6 日,最东部的巴布亚省地区发生了一次里氏 6.9级的强烈地震,造成纳比雷地区 56人死亡,亚普拉地区 34人死亡, 20人重伤。”

ProNodeList1:

死亡 :56人

死亡 :34 人 受伤 :20 人

HashMap:56 人

20人

死亡受伤

34 人 受伤 :20 人死亡 :90人

Page 20: 中文事件报道结果模式库的建立

实验结果及系统存在问题实验结果及系统存在问题

实验结果实验结果

Page 21: 中文事件报道结果模式库的建立

实验结果及系统存在问题实验结果及系统存在问题

问题说明问题说明1.1. 一个句子中涉及到多个事件一个句子中涉及到多个事件

“ 今年1 月份,印尼有 15778人感染登革热,而在 2006年同期,感染人数为 18547人。”; 运行结果 : 感染 34325 人

2. 句子的语义上有歧义“6 人死亡1 人失踪 30人受伤” 运行结果 : 死亡 6 人、失踪 31 人、受伤 30 人

3.3. 句子中有一些表示主观意愿的词句子中有一些表示主观意愿的词“据悉,联合国有关机构在本次会议上承诺将在 10年内为这一运动提供 3000万美元资助,同时还

将提供各种必要的技术援助。 ” 运行结果 : 经济救助 3000 万美元

Page 22: 中文事件报道结果模式库的建立

谢谢 !