可视分析 文本可视分析

Post on 24-Feb-2016

192 Views

Category:

Documents

1 Downloads

Preview:

Click to see full reader

DESCRIPTION

可视分析 文本可视分析. 陈为 chenwei@cad.zju.edu.cn http://www.cad.zju.edu.cn/home/chenwei/visclass. 文本随处可见. • 在我们的日常生活中,文档已成为一种主要的信息载体 • 近年,随着网络的不断发展我们所接触的文档 以 惊人的速度在增长  WWW  Digital libraries  . 一个巨大的问题. 文本可视分析 能为用户提供什么样 的帮助呢 ? 辅助用户理解和挖掘文本蕴含的信息 丰富的图元表达文本的信息 譬如,语义、关键词等 人机友好的 交互 技术 - PowerPoint PPT Presentation

TRANSCRIPT

可视分析文本可视分析陈为

chenwei@cad.zju.edu.cnhttp://www.cad.zju.edu.cn/home/chenwei/visclass

文本随处可见• 在我们的日常生活中,文档已成为一种主要的信息载体• 近年,随着网络的不断发展我们所接触的文档以惊人的速度在增长 WWW Digital libraries ...

一个巨大的问题 文本可视分析能为用户提供什么样的帮助呢?

辅助用户理解和挖掘文本蕴含的信息 丰富的图元表达文本的信息

譬如,语义、关键词等 人机友好的交互技术

辅助用户从可视结果中挖掘信息

示例:任务和目标• 哪个文档包含关于话题 XYZ 的文本?• 哪些文档是我感兴趣的?• 有无其它与当前文档比较相似的文档?• 在文档或文档集合中单词的使用有何不同?• 文档或文档集合的主题及大意?• 哪个文档具有愤怒的语气?• 特定的单词或主题在文档里的分布情况是怎样的呢?• 识别文档中的一些隐含信息或故事。• 快速获取对文档或文档集合的理解。• 寻找文档之间的联系。

改善文本搜索• 对搜索操作的结果进行可视化是文本可视分析领域内一重大课题

搜索可视化: Sparkler• 对结果文档进行概括• 显示查询“距离”以便用户更好的感觉匹配的质量 • 通过显示文档对多查询进行响应

S. Havre, E. Hetzler, K. Perrine, E. Jurrus, and N. Miller. Interactivevisualization of multiple query qesults. In Proceedings of the IEEE Symposium on Information Visualization, pages 105–112, 2001.

可视化一个查询• 三角形 – 查询• 正方形 – 文档• 查询和文档之间的距离表示他们之间的相关性

可视化多查询

六个查询Bullseye 技术允许观察者选择好的结果

测试例子• Text Retrieval conference (TREC-3) test documentcollection

• AP news stories from June 24–30, 1990• TREC topic: JapanProtectionist

Measures• Sparkler found 16 of 17 relevant documents

另一个想法使用它去表达不同搜索引擎的搜索结果

跳出搜索和 IR• 依然是搜索,但 表示更多的文档上下文 表示更多关于文档的信息 显示文档之间的联系 对文档内容进行概括

不同文档的度量• 文字分析的不同变量 平均单词长度 平均每个单词的音节 平局句子长度 名词、动词、形容词的百分比 特定单词的频率

Hapax Legomena – 只出现一次的单词

Keim & Oelke VAST „07

可视化每个块表示一个连续的单词块(例如, 1 万个单词)为了光顺显示,在块之间做部分重叠

Transition 3• OK, 让我们上升到一个更高的层面,文本主题和语义的理解

问题和挑战• 怎样表示文档的内容、语义、主题等以便用户不需花太多的时间去阅读全部文档

• Who cares? Researchers, news people, CIA,

InfoViscontest judges ….

文本主题和语义的理解 基于文本内容的可视化分析 基于文本关系的可视化分析 基于多信息层面的可视化分析

1. 基于文本内容的可视化分析 标签云( TagCloud) Document Card TopicIslands ThemeRiver TIARA …

Tag/Word Clouds• 目前在研究领域内比较热• 已经证明在 web 上十分流行• 主要思想是通过可视化方法展示单词或概念的重要性

Tags: 关于某些事情由用户指定的元数据 (描述符 ) 通常用来展示单词的频率

Flickr Tag Cloud

Wordle• 高度紧凑的单词,通常会沿着画布螺旋线布局• 单词的大小尺寸与频率是线性相关的 (typically square root in cloud)• 多个调色板 • Fernanda B. Viégas, Martin Wattenberg, and Jonathan Feinberg. Participatory Visualization with Wordle. IEEE TRANSACTIONS ON VISUALIZATION AND COMPUTER GRAPHICS, VOL. 15, NO. 6, NOVEMBER/DECEMBER 2009.

Wordle

ThemeRiver

Document Card

Hendrik Strobelt, Daniela Oelke, Christian Rohrdantz, Andreas Stoffel, Daniel A. Keim, and Oliver Deussen. Document Cards: A Top Trumps Visualization for Documents. IEEE TRANSACTIONS ON VISUALIZATION AND COMPUTER GRAPHICS, VOL. 15, NO. 6, NOVEMBER/DECEMBER 2009

Demo

2. 基于文本关系的可视化分析 可视化文档之间外在及内在的联系

外在联系指文档间的引用、网页间的超链接等; 内在联系指在更深层次上关注文档在内容上的关联,譬如内容相似性等。

现有研究成果: Word Tree PhraseNet Galaxy View …

Word Tree• 显示单词的上下文

Follow word with all the phrases that follow it• 字体大小揭示了单词的出现频率• 连续括号,直到一个单短语• 通过单击可 focus 到短语上• 可根据字母表、词频、首次出现位置排序

WordTree 马汀路德金的演讲:

Phrase Nets• 检测非结构文本文档• 将术语中出现的成对的名称表达出来

as X and Y X’s Y X at Y X (is|are|was|were) Y• 使用一种可进行简化和压缩的图布局方法

van Ham et al. TVCG,09

示例

Galaxies Presentation of documents wheresimilar ones cluster together

Themescape

3. 基于多信息层面的可视化分析 深层次结合信息的多个方面,帮助用户更好地理解文本数据。 现有研究成果:

Jigsaw FacetAtlas ContourText Parallel Tag Cloud …

Jigsaw• Targeting sense-making scenarios• 各种各样的可视化方法包括:word-specific,

entity connections, document clusters• 主要关注 entity-document 和 entity-entity 联系 • 搜索能力与交互式探索相结合

Stasko, Görg, & LiuInformation Visualization „08Demo

Views

Document View

FacetAtlas

Nan Cao, Jimeng Sun, Yu-Ru Lin, David Gotz, Shixia Liu and Huamin Qu. FacetAtlas: Multifaceted Visualization for Rich Text Corpora . Infovis 2010.

• Entity• Facet

• Relation

Data model Visual Encoding

FacetAtlas

文本可视分析的挑战 无缝融合信息可视化和文本分析技术 海量文本信息处理

top related