藏文信息处理研究刍议:...
TRANSCRIPT
![Page 2: 藏文信息处理研究刍议: 下一步做什么及怎么做?nlp.csai.tsinghua.edu.cn/site2/images/download/20140816-sms.pdf · 藏文信息处理研究刍议: 下一步做什么及怎么做?](https://reader030.vdocuments.net/reader030/viewer/2022033121/5e1d51e7121d0c1da24c34d8/html5/thumbnails/2.jpg)
2
• 制定广为接受的藏文相关加工标准规范
+ 文法研究历史悠长、基础深厚:文法根本三十颂、字性组织法。《实用藏文文法教程》
+ 已有不少相关工作积累
+ 容易取得共识
• 开放藏文词法分析相关加工语料库
+ 以开放促高质量资源建设
• 组织藏文词法分析相关公开评测
+ 以评测促高性能分析算法研究
• 开放(开源)藏文词法分析软件
一、巩固、光大藏文词法分析成果
![Page 3: 藏文信息处理研究刍议: 下一步做什么及怎么做?nlp.csai.tsinghua.edu.cn/site2/images/download/20140816-sms.pdf · 藏文信息处理研究刍议: 下一步做什么及怎么做?](https://reader030.vdocuments.net/reader030/viewer/2022033121/5e1d51e7121d0c1da24c34d8/html5/thumbnails/3.jpg)
3
• 多方面的需求
+ 信息处理
+ 社会文化交流
+ 基础教育
+ 语言学和认知相关研究
• 中小学藏文课本与网络文本相结合,
语料库统计为主与专家感性判断为辅相结合
+ 藏文分级词汇表
• 进一步地,研制藏汉常用词对照表
二、研制藏文常用词频率词典
![Page 4: 藏文信息处理研究刍议: 下一步做什么及怎么做?nlp.csai.tsinghua.edu.cn/site2/images/download/20140816-sms.pdf · 藏文信息处理研究刍议: 下一步做什么及怎么做?](https://reader030.vdocuments.net/reader030/viewer/2022033121/5e1d51e7121d0c1da24c34d8/html5/thumbnails/4.jpg)
4
• 正当其时
+ 藏文词法分析基本成熟
+ 藏文网络资源规模尚不大:藏文网站180余个,除境外网站和访问不顺畅的网站外,约104个(国家社科
基金项目《中国少数民族互联网发展状况研究》报告)
三、研发藏文搜索引擎
![Page 5: 藏文信息处理研究刍议: 下一步做什么及怎么做?nlp.csai.tsinghua.edu.cn/site2/images/download/20140816-sms.pdf · 藏文信息处理研究刍议: 下一步做什么及怎么做?](https://reader030.vdocuments.net/reader030/viewer/2022033121/5e1d51e7121d0c1da24c34d8/html5/thumbnails/5.jpg)
5
• 藏文网站类型
三、研发藏文搜索引擎
![Page 6: 藏文信息处理研究刍议: 下一步做什么及怎么做?nlp.csai.tsinghua.edu.cn/site2/images/download/20140816-sms.pdf · 藏文信息处理研究刍议: 下一步做什么及怎么做?](https://reader030.vdocuments.net/reader030/viewer/2022033121/5e1d51e7121d0c1da24c34d8/html5/thumbnails/6.jpg)
6
• 有了词法分析扎实的基础,相关技术水到渠成
• 藏文关键词抽取
+ 关键词云图
• 藏文文本分类
+ 80%以上的分类准确率应无问题
四、研发藏文关键词抽取及文本分类技术
![Page 7: 藏文信息处理研究刍议: 下一步做什么及怎么做?nlp.csai.tsinghua.edu.cn/site2/images/download/20140816-sms.pdf · 藏文信息处理研究刍议: 下一步做什么及怎么做?](https://reader030.vdocuments.net/reader030/viewer/2022033121/5e1d51e7121d0c1da24c34d8/html5/thumbnails/7.jpg)
7
• 藏文网站语种情况
五、研发藏文跨语言检索系统
![Page 8: 藏文信息处理研究刍议: 下一步做什么及怎么做?nlp.csai.tsinghua.edu.cn/site2/images/download/20140816-sms.pdf · 藏文信息处理研究刍议: 下一步做什么及怎么做?](https://reader030.vdocuments.net/reader030/viewer/2022033121/5e1d51e7121d0c1da24c34d8/html5/thumbnails/8.jpg)
8
• 新词语自动识别
• 热点词语自动识别
• 动态隐含话题模型
• 基于话题链的事件
序列分析
• 信息可视化
• 情感计算
六、研制藏文舆情分析系统
![Page 9: 藏文信息处理研究刍议: 下一步做什么及怎么做?nlp.csai.tsinghua.edu.cn/site2/images/download/20140816-sms.pdf · 藏文信息处理研究刍议: 下一步做什么及怎么做?](https://reader030.vdocuments.net/reader030/viewer/2022033121/5e1d51e7121d0c1da24c34d8/html5/thumbnails/9.jpg)
9
• 如何快速建立藏文大规模词语关联(本体库)?
• 途径之一: Word2Vec
For the Web, From the Web ……
Word2Vec
七、构造大规模藏文词语关联(本体库)
![Page 10: 藏文信息处理研究刍议: 下一步做什么及怎么做?nlp.csai.tsinghua.edu.cn/site2/images/download/20140816-sms.pdf · 藏文信息处理研究刍议: 下一步做什么及怎么做?](https://reader030.vdocuments.net/reader030/viewer/2022033121/5e1d51e7121d0c1da24c34d8/html5/thumbnails/10.jpg)
10
七、构造大规模藏文词语关联(本体库)
![Page 11: 藏文信息处理研究刍议: 下一步做什么及怎么做?nlp.csai.tsinghua.edu.cn/site2/images/download/20140816-sms.pdf · 藏文信息处理研究刍议: 下一步做什么及怎么做?](https://reader030.vdocuments.net/reader030/viewer/2022033121/5e1d51e7121d0c1da24c34d8/html5/thumbnails/11.jpg)
11
七、构造大规模藏文词语关联(本体库)
![Page 12: 藏文信息处理研究刍议: 下一步做什么及怎么做?nlp.csai.tsinghua.edu.cn/site2/images/download/20140816-sms.pdf · 藏文信息处理研究刍议: 下一步做什么及怎么做?](https://reader030.vdocuments.net/reader030/viewer/2022033121/5e1d51e7121d0c1da24c34d8/html5/thumbnails/12.jpg)
七、构造大规模藏文词语关联(本体库)
最短路径: 冈仁波齐峰 -> 西藏地理->冈底斯山脉
• 途径之二: 维基百科
![Page 13: 藏文信息处理研究刍议: 下一步做什么及怎么做?nlp.csai.tsinghua.edu.cn/site2/images/download/20140816-sms.pdf · 藏文信息处理研究刍议: 下一步做什么及怎么做?](https://reader030.vdocuments.net/reader030/viewer/2022033121/5e1d51e7121d0c1da24c34d8/html5/thumbnails/13.jpg)
七、构造大规模藏文词语关联(本体库)
分类: 冈仁波齐峰: [佛教圣地, 西藏山峰, 西藏地理] 扎什伦布寺: [佛教圣地, 格鲁派, 国家4A级旅游景区, 藏传佛教寺院] 最短路径: 冈仁波齐峰 -> 佛教圣地 -> 扎什伦布寺
![Page 14: 藏文信息处理研究刍议: 下一步做什么及怎么做?nlp.csai.tsinghua.edu.cn/site2/images/download/20140816-sms.pdf · 藏文信息处理研究刍议: 下一步做什么及怎么做?](https://reader030.vdocuments.net/reader030/viewer/2022033121/5e1d51e7121d0c1da24c34d8/html5/thumbnails/14.jpg)
七、构造大规模藏文词语关联(本体库)
分类: 松赞干布: [唐朝郡王, 唐朝驸马, 藏传佛教, 吐蕃赞普, 西藏历史, 人物神] 冈仁波齐峰: [佛教圣地, 西藏山峰, 西藏地理] 最短路径: 松赞干布 -> 藏传佛教 -> 藏区 -> 西藏 -> 西藏地理 -> 冈仁波齐峰 松赞干布 -> 藏传佛教 -> 藏区 -> 藏区地理 -> 西藏地理 -> 冈仁波齐峰 松赞干布 -> 藏传佛教 -> 西藏宗教 -> 西藏 -> 西藏地理 -> 冈仁波齐峰
![Page 15: 藏文信息处理研究刍议: 下一步做什么及怎么做?nlp.csai.tsinghua.edu.cn/site2/images/download/20140816-sms.pdf · 藏文信息处理研究刍议: 下一步做什么及怎么做?](https://reader030.vdocuments.net/reader030/viewer/2022033121/5e1d51e7121d0c1da24c34d8/html5/thumbnails/15.jpg)
八、藏文分析从词法层走向句法语义层
15
V + 𝑁 → 𝑁𝑃 V + 𝑁 → 𝑉𝑃
V + 𝑁 → 𝑉𝑃 572棵句法树!
美女学者朱怀真研究西维因残留提取方法。
![Page 16: 藏文信息处理研究刍议: 下一步做什么及怎么做?nlp.csai.tsinghua.edu.cn/site2/images/download/20140816-sms.pdf · 藏文信息处理研究刍议: 下一步做什么及怎么做?](https://reader030.vdocuments.net/reader030/viewer/2022033121/5e1d51e7121d0c1da24c34d8/html5/thumbnails/16.jpg)
八、藏文分析从词法层走向句法语义层
![Page 17: 藏文信息处理研究刍议: 下一步做什么及怎么做?nlp.csai.tsinghua.edu.cn/site2/images/download/20140816-sms.pdf · 藏文信息处理研究刍议: 下一步做什么及怎么做?](https://reader030.vdocuments.net/reader030/viewer/2022033121/5e1d51e7121d0c1da24c34d8/html5/thumbnails/17.jpg)
17
我们要研究学习的方法。 今天我们研究这类问题的另一种解决方法…。 近闻美国和日本正在研究用Na2SO3吸收法作为治理SO2污染的一种新方法。 ……… 教育研究领域积累了种种研究方法,诸如调查法、观察研究、访谈法、…… 调查研究的方法 研究性学习方法
争取突破高水平论文(ACL)!
八、藏文分析从词法层走向句法语义层
![Page 18: 藏文信息处理研究刍议: 下一步做什么及怎么做?nlp.csai.tsinghua.edu.cn/site2/images/download/20140816-sms.pdf · 藏文信息处理研究刍议: 下一步做什么及怎么做?](https://reader030.vdocuments.net/reader030/viewer/2022033121/5e1d51e7121d0c1da24c34d8/html5/thumbnails/18.jpg)
18
八、藏文分析从词法层走向句法语义层
![Page 19: 藏文信息处理研究刍议: 下一步做什么及怎么做?nlp.csai.tsinghua.edu.cn/site2/images/download/20140816-sms.pdf · 藏文信息处理研究刍议: 下一步做什么及怎么做?](https://reader030.vdocuments.net/reader030/viewer/2022033121/5e1d51e7121d0c1da24c34d8/html5/thumbnails/19.jpg)
顺便提及……
19
“第十 三届全国计算语言学会议(CCL 2014)及第二届
基于自然标注大数据的自然语言处理国际学术研讨会(NLP-NABD 2014) “Knowledge Graph Workshop” * 分词国际标准简介
![Page 20: 藏文信息处理研究刍议: 下一步做什么及怎么做?nlp.csai.tsinghua.edu.cn/site2/images/download/20140816-sms.pdf · 藏文信息处理研究刍议: 下一步做什么及怎么做?](https://reader030.vdocuments.net/reader030/viewer/2022033121/5e1d51e7121d0c1da24c34d8/html5/thumbnails/20.jpg)
20
谢谢!
扎西德勒!