可视分析 文本可视分析

37
可可可可 文文文文文文 可可 [email protected] http://www.cad.zju.edu.cn/home/chenwei/visc lass

Upload: jeroen

Post on 24-Feb-2016

192 views

Category:

Documents


1 download

DESCRIPTION

可视分析 文本可视分析. 陈为 [email protected] http://www.cad.zju.edu.cn/home/chenwei/visclass. 文本随处可见. • 在我们的日常生活中,文档已成为一种主要的信息载体 • 近年,随着网络的不断发展我们所接触的文档 以 惊人的速度在增长  WWW  Digital libraries  . 一个巨大的问题. 文本可视分析 能为用户提供什么样 的帮助呢 ? 辅助用户理解和挖掘文本蕴含的信息 丰富的图元表达文本的信息 譬如,语义、关键词等 人机友好的 交互 技术 - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: 可视分析 文本可视分析

可视分析文本可视分析陈为

[email protected]://www.cad.zju.edu.cn/home/chenwei/visclass

Page 2: 可视分析 文本可视分析

文本随处可见• 在我们的日常生活中,文档已成为一种主要的信息载体• 近年,随着网络的不断发展我们所接触的文档以惊人的速度在增长 WWW Digital libraries ...

Page 3: 可视分析 文本可视分析

一个巨大的问题 文本可视分析能为用户提供什么样的帮助呢?

辅助用户理解和挖掘文本蕴含的信息 丰富的图元表达文本的信息

譬如,语义、关键词等 人机友好的交互技术

辅助用户从可视结果中挖掘信息

Page 4: 可视分析 文本可视分析

示例:任务和目标• 哪个文档包含关于话题 XYZ 的文本?• 哪些文档是我感兴趣的?• 有无其它与当前文档比较相似的文档?• 在文档或文档集合中单词的使用有何不同?• 文档或文档集合的主题及大意?• 哪个文档具有愤怒的语气?• 特定的单词或主题在文档里的分布情况是怎样的呢?• 识别文档中的一些隐含信息或故事。• 快速获取对文档或文档集合的理解。• 寻找文档之间的联系。

Page 5: 可视分析 文本可视分析

改善文本搜索• 对搜索操作的结果进行可视化是文本可视分析领域内一重大课题

Page 6: 可视分析 文本可视分析

搜索可视化: Sparkler• 对结果文档进行概括• 显示查询“距离”以便用户更好的感觉匹配的质量 • 通过显示文档对多查询进行响应

S. Havre, E. Hetzler, K. Perrine, E. Jurrus, and N. Miller. Interactivevisualization of multiple query qesults. In Proceedings of the IEEE Symposium on Information Visualization, pages 105–112, 2001.

Page 7: 可视分析 文本可视分析

可视化一个查询• 三角形 – 查询• 正方形 – 文档• 查询和文档之间的距离表示他们之间的相关性

Page 8: 可视分析 文本可视分析

可视化多查询

六个查询Bullseye 技术允许观察者选择好的结果

Page 9: 可视分析 文本可视分析

测试例子• Text Retrieval conference (TREC-3) test documentcollection

• AP news stories from June 24–30, 1990• TREC topic: JapanProtectionist

Measures• Sparkler found 16 of 17 relevant documents

Page 10: 可视分析 文本可视分析

另一个想法使用它去表达不同搜索引擎的搜索结果

Page 11: 可视分析 文本可视分析

跳出搜索和 IR• 依然是搜索,但 表示更多的文档上下文 表示更多关于文档的信息 显示文档之间的联系 对文档内容进行概括

Page 12: 可视分析 文本可视分析

不同文档的度量• 文字分析的不同变量 平均单词长度 平均每个单词的音节 平局句子长度 名词、动词、形容词的百分比 特定单词的频率

Hapax Legomena – 只出现一次的单词

Keim & Oelke VAST „07

Page 13: 可视分析 文本可视分析

可视化每个块表示一个连续的单词块(例如, 1 万个单词)为了光顺显示,在块之间做部分重叠

Page 14: 可视分析 文本可视分析

Transition 3• OK, 让我们上升到一个更高的层面,文本主题和语义的理解

Page 15: 可视分析 文本可视分析

问题和挑战• 怎样表示文档的内容、语义、主题等以便用户不需花太多的时间去阅读全部文档

• Who cares? Researchers, news people, CIA,

InfoViscontest judges ….

Page 16: 可视分析 文本可视分析

文本主题和语义的理解 基于文本内容的可视化分析 基于文本关系的可视化分析 基于多信息层面的可视化分析

Page 17: 可视分析 文本可视分析

1. 基于文本内容的可视化分析 标签云( TagCloud) Document Card TopicIslands ThemeRiver TIARA …

Page 18: 可视分析 文本可视分析

Tag/Word Clouds• 目前在研究领域内比较热• 已经证明在 web 上十分流行• 主要思想是通过可视化方法展示单词或概念的重要性

Tags: 关于某些事情由用户指定的元数据 (描述符 ) 通常用来展示单词的频率

Page 19: 可视分析 文本可视分析

Flickr Tag Cloud

Page 20: 可视分析 文本可视分析

Wordle• 高度紧凑的单词,通常会沿着画布螺旋线布局• 单词的大小尺寸与频率是线性相关的 (typically square root in cloud)• 多个调色板 • Fernanda B. Viégas, Martin Wattenberg, and Jonathan Feinberg. Participatory Visualization with Wordle. IEEE TRANSACTIONS ON VISUALIZATION AND COMPUTER GRAPHICS, VOL. 15, NO. 6, NOVEMBER/DECEMBER 2009.

Page 21: 可视分析 文本可视分析

Wordle

Page 22: 可视分析 文本可视分析

ThemeRiver

Page 23: 可视分析 文本可视分析

Document Card

Hendrik Strobelt, Daniela Oelke, Christian Rohrdantz, Andreas Stoffel, Daniel A. Keim, and Oliver Deussen. Document Cards: A Top Trumps Visualization for Documents. IEEE TRANSACTIONS ON VISUALIZATION AND COMPUTER GRAPHICS, VOL. 15, NO. 6, NOVEMBER/DECEMBER 2009

Demo

Page 24: 可视分析 文本可视分析

2. 基于文本关系的可视化分析 可视化文档之间外在及内在的联系

外在联系指文档间的引用、网页间的超链接等; 内在联系指在更深层次上关注文档在内容上的关联,譬如内容相似性等。

现有研究成果: Word Tree PhraseNet Galaxy View …

Page 25: 可视分析 文本可视分析

Word Tree• 显示单词的上下文

Follow word with all the phrases that follow it• 字体大小揭示了单词的出现频率• 连续括号,直到一个单短语• 通过单击可 focus 到短语上• 可根据字母表、词频、首次出现位置排序

Page 26: 可视分析 文本可视分析

WordTree 马汀路德金的演讲:

Page 27: 可视分析 文本可视分析

Phrase Nets• 检测非结构文本文档• 将术语中出现的成对的名称表达出来

as X and Y X’s Y X at Y X (is|are|was|were) Y• 使用一种可进行简化和压缩的图布局方法

van Ham et al. TVCG,09

Page 28: 可视分析 文本可视分析

示例

Page 29: 可视分析 文本可视分析

Galaxies Presentation of documents wheresimilar ones cluster together

Page 30: 可视分析 文本可视分析

Themescape

Page 31: 可视分析 文本可视分析

3. 基于多信息层面的可视化分析 深层次结合信息的多个方面,帮助用户更好地理解文本数据。 现有研究成果:

Jigsaw FacetAtlas ContourText Parallel Tag Cloud …

Page 32: 可视分析 文本可视分析

Jigsaw• Targeting sense-making scenarios• 各种各样的可视化方法包括:word-specific,

entity connections, document clusters• 主要关注 entity-document 和 entity-entity 联系 • 搜索能力与交互式探索相结合

Stasko, Görg, & LiuInformation Visualization „08Demo

Page 33: 可视分析 文本可视分析

Views

Page 34: 可视分析 文本可视分析

Document View

Page 35: 可视分析 文本可视分析

FacetAtlas

Nan Cao, Jimeng Sun, Yu-Ru Lin, David Gotz, Shixia Liu and Huamin Qu. FacetAtlas: Multifaceted Visualization for Rich Text Corpora . Infovis 2010.

• Entity• Facet

• Relation

Data model Visual Encoding

Page 36: 可视分析 文本可视分析

FacetAtlas

Page 37: 可视分析 文本可视分析

文本可视分析的挑战 无缝融合信息可视化和文本分析技术 海量文本信息处理