中文事件报道结果模式库的建立
DESCRIPTION
中文事件报道结果模式库的建立. 导师:李芳 学生:蒋德良. 2. 系统简介. 1. 问题综述. 3 . 系统模块介绍. 4 . 实验结果及系统存在问题. 内容. 问题综述. 实例文档 - PowerPoint PPT PresentationTRANSCRIPT
中文事件报道结果模式库的建立中文事件报道结果模式库的建立
导师:李芳 学生:蒋德良
内容内容
2. 2. 系统简介系统简介
4. 4. 实验结果及系统存在问题实验结果及系统存在问题
1. 1. 问题综述问题综述
3. 3. 系统模块介绍系统模块介绍
问题综述问题综述实例文档
“…… 印尼国家减灾协调局当天说,又有 10具尸体在努沙登加省中被找到,该省已确定的死亡人数上升到 160 人,加上在其他地区死亡的 25人,此次地震的死亡总人数达 185 人,另有近 170 人受伤,其中 93人受重伤。…… 今年 2 月6 日,最东部的巴布亚省地区发生了一次里氏 6.9级的强烈地震,造成纳比雷地区 56人死亡,亚普拉地区 34人死亡, 20人重伤。”
“……失踪 3780人,经济损失 1000多亿美元。……”
问题一 . 如何得到每个句子中所有表示结果的精确信息
问题二 . 如何找到每个句子中结果信息的包含关系
问题三 . 如何合并每个句子中的结果信息得到句子最终结果信息
系统简介系统简介
系统任务系统任务任务一任务一
结合正则表达式对自然灾害事件、人为事件、疾病爆发事件建立结果结合正则表达式对自然灾害事件、人为事件、疾病爆发事件建立结果模式库模式库 ,, 使用模式匹配的方法使用模式匹配的方法解决解决问题一问题一
任务二任务二 在在任务一任务一的基础上结合一些包含词的基础上结合一些包含词 (( 其中,累计其中,累计………… )) 与结果结点的与结果结点的
位置关系位置关系解决解决问题二问题二
任务三任务三 在在任务二任务二的基础上对属性相同的结果信息进行相加的基础上对属性相同的结果信息进行相加解决解决问题三问题三
系统简介系统简介
系统框架图系统框架图
文档预处理
模式匹配
原始文档
Rules1.txtRules2.txtRules3.txt
结点信息规范化
规则集合
结果句子规范化
模式序列化
结果输出
系统模块介绍系统模块介绍
文档预处理文档预处理对输入文档格式上的预处理对输入文档格式上的预处理
空格,换行符替换;全角半角转换空格,换行符替换;全角半角转换
对输入文档语义上的预处理对输入文档语义上的预处理 符合某些句式的句子做一些修改,以便提高系统精度。符合某些句式的句子做一些修改,以便提高系统精度。 句式一:“在句式一:“在…………中”替换为中”替换为”…… ”…… ,其中”,其中” 句式二:“与句式二:“与…………相比” 替换为空字符相比” 替换为空字符 句式三:“句式三:“ (( 一旦一旦 || 假如假如 )……)…… ,”替换为空字符,”替换为空字符
系统模块介绍系统模块介绍
模式匹配模式匹配 使用模式库中的模式使用模式库中的模式逐条地逐条地对文档中的对文档中的每一句句子每一句句子进行模式匹配,进行模式匹配,
把抽取到的信息放在数据结构中以供后续模块使用。 把抽取到的信息放在数据结构中以供后续模块使用。 PropertyNodePropertyNode: : 记录存放单个属性结点的各种信息记录存放单个属性结点的各种信息
ResultSentenceResultSentence: : 记录一个句子的各个属性结点 记录一个句子的各个属性结点
系统模块介绍系统模块介绍 PropertyNodePropertyNode
系统模块介绍系统模块介绍ResultSentenceResultSentence
系统模块介绍系统模块介绍Resultsentence1Resultsentence1
Resultsentence2Resultsentence2
死亡 :10 具尸体
死亡 :25 人死亡人数 :160 人 死亡总人数 :185 人 受伤 : 近 170 人 重伤 :93 人
ProNodeList2 = null
ResultNodeList = null
Text = ”印尼国家减灾协调局当天说,又有 10 具尸体在努沙登加省中被找到,该省已确定的死亡人数上升到 160 人,加上在其他地区死亡的 25 人,此次地震的死亡总人数达 185 人,另有近 170 人受伤,其中 93 人受重伤。 ”ProNodeList1:
死亡 :56 人 死亡 :34 人 重伤 :20 人
ProNodeList2 = null
ResultNodeList = null
Text = ”今年 2 月 6 日,最东部的巴布亚省地区发生了一次里氏 6.9级的强烈地震,造成纳比雷地区 56人死亡,亚普拉地区 34人死亡, 20人重伤。”
ProNodeList1:
系统模块介绍系统模块介绍
结点信息规范化结点信息规范化
基本信息规范化基本信息规范化
数字字符串转换数字字符串转换
增减信息处理增减信息处理
重复结点删除重复结点删除
系统模块介绍系统模块介绍Resultsentence1Resultsentence1
Resultsentence2Resultsentence2
死亡 : 增加 10人
死亡 :25 人死亡 :160 人 死亡 :185 人 受伤 : 近 170 人 受伤 :93 人
ProNodeList2 = null
ResultNodeList = null
Text = ”印尼国家减灾协调局当天说,又有 10 具尸体在努沙登加省中被找到,该省已确定的死亡人数上升到 160 人,加上在其他地区死亡的 25 人,此次地震的死亡总人数达 185 人,另有近 170 人受伤,其中 93 人受重伤。 ”ProNodeList1:
死亡 :56 人 死亡 :34 人 受伤 :20 人
ProNodeList2 = null
ResultNodeList = null
Text = ”今年 2 月 6 日,最东部的巴布亚省地区发生了一次里氏 6.9级的强烈地震,造成纳比雷地区 56人死亡,亚普拉地区 34人死亡, 20人重伤。”
ProNodeList1:
系统模块介绍系统模块介绍结果句子规范化结果句子规范化属性包含处理 属性包含处理 找子结点找子结点
““又有 10具尸体在努沙登加省中被找到,该省已确定的死亡人数上升到 160 人,加上在其他地区死亡的 25人,此次地震的死亡总人数达 185 人,另有近 170 人受伤,其中 93人受重
伤。““
“ “ 马拉维卫生副部长查尔斯马拉维卫生副部长查尔斯 ··姆乔沙说,姆乔沙说, 22 月底全国共有月底全国共有 22652265 人人感染感染霍乱霍乱, , 55 月底月底感感
染染霍乱的群体为霍乱的群体为 41574157 人人,,其中其中 1616 人人死亡死亡。。””
子结点 1包含词 2: 累计 , 增加到……
父结点 2 父结点 1( 子结点2)
包含词 1: 其中 , 其余…… 子结点 1
父结点 1
包含词 2: 累计 , 增加到……
条件一 : 有且仅有一个包含词
条件二 : 没有其他属性关系上可以包含的结点
系统模块介绍系统模块介绍
结果句子规范化结果句子规范化 ProNodeList2ProNodeList2
系统模块介绍系统模块介绍Resultsentence1Resultsentence1
死亡 : 增加 10人
死亡 :25 人死亡 :160 人 死亡 :185 人 受伤 : 近 170 人 受伤 :93 人
ProNodeList2:
ResultNodeList = null
Text = ”印尼国家减灾协调局当天说,又有 10具尸体在努沙登加省中被找到,该省已确定的死亡人数上升到 160 人,加上在其他地区死亡的 25人,此次地震的死亡总人数达 185 人,另有近170 人受伤,其中 93人受重伤。 ”
ProNodeList1:
死亡 :185 人
死亡 :25 人死亡 :160 人
死亡 : 增加 10人
受伤 : 近 170 人
受伤 :93 人
系统模块介绍系统模块介绍
Resultsentence2Resultsentence2
死亡 :56人
死亡 :34 人 受伤 :20 人
ProNodeList2:
ResultNodeList = null
Text = ”今年 2 月 6 日,最东部的巴布亚省地区发生了一次里氏 6.9级的强烈地震,造成纳比雷地区 56人死亡,亚普拉地区 34人死亡, 20人重伤。”
ProNodeList1:
死亡 :56人
死亡 :34 人 受伤 :20 人
系统模块介绍系统模块介绍结果句子规范化结果句子规范化信息合并信息合并
HashMap:HashMap: keykey 值是属性值值是属性值 , value, value 值是相同属性结点的链表值是相同属性结点的链表
ResultNodeList: 最终结果链表
死亡 :
受伤 :
失踪 :
1 人 4 人 6 人
3 人
2 人 5 人
死亡 :1+4+6 人 受伤 :3 人 失踪 :2+5 人
按照 ProNodeList2 中父结点的属性值加入对应位置中
系统模块介绍系统模块介绍Resultsentence1Resultsentence1
死亡 : 增加 10人
死亡 :25 人死亡 :160 人 死亡 :185 人 受伤 : 近 170 人 受伤 :93 人
ProNodeList2:
ResultNodeList:
Text = ”印尼国家减灾协调局当天说,又有 10具尸体在努沙登加省中被找到,该省已确定的死亡人数上升到 160 人,加上在其他地区死亡的 25人,此次地震的死亡总人数达 185 人,另有近170 人受伤,其中 93人受重伤。 ”
ProNodeList1:
死亡 :185 人
死亡 :25 人死亡 :160 人
死亡 : 增加 10人
受伤 : 近 170 人
受伤 :93 人
HashMap: 185 人
近 170 人
死亡
受伤死亡 :185 人 受伤 : 近 170
人
系统模块介绍系统模块介绍
Resultsentence2Resultsentence2
死亡 :56人
死亡 :34 人 受伤 :20 人
ProNodeList2:
ResultNodeList:
Text = ”今年 2 月 6 日,最东部的巴布亚省地区发生了一次里氏 6.9级的强烈地震,造成纳比雷地区 56人死亡,亚普拉地区 34人死亡, 20人重伤。”
ProNodeList1:
死亡 :56人
死亡 :34 人 受伤 :20 人
HashMap:56 人
20人
死亡受伤
34 人 受伤 :20 人死亡 :90人
实验结果及系统存在问题实验结果及系统存在问题
实验结果实验结果
实验结果及系统存在问题实验结果及系统存在问题
问题说明问题说明1.1. 一个句子中涉及到多个事件一个句子中涉及到多个事件
“ 今年1 月份,印尼有 15778人感染登革热,而在 2006年同期,感染人数为 18547人。”; 运行结果 : 感染 34325 人
2. 句子的语义上有歧义“6 人死亡1 人失踪 30人受伤” 运行结果 : 死亡 6 人、失踪 31 人、受伤 30 人
3.3. 句子中有一些表示主观意愿的词句子中有一些表示主观意愿的词“据悉,联合国有关机构在本次会议上承诺将在 10年内为这一运动提供 3000万美元资助,同时还
将提供各种必要的技术援助。 ” 运行结果 : 经济救助 3000 万美元
谢谢 !