Системы аннотирования и реферирования

22
Системы аннотирования и реферирования А.В. Луканин Автоматическая обработка естественного языка. Лекция 5

Upload: artem-lukanin

Post on 10-Jun-2015

642 views

Category:

Education


8 download

TRANSCRIPT

Page 1: Системы аннотирования и реферирования

Системы аннотирования и реферирования

А.В. Луканин

Автоматическая обработка естественного языка. Лекция 5

Page 2: Системы аннотирования и реферирования

Свёртывание информации

• Задачи– Индексирование– Аннотирование– Реферирование– Конспектирование– Фрагментирование

• Это сжатие, или компрессия, текста первичного документа при его переработке в текст вторичного документа

Page 3: Системы аннотирования и реферирования

Типы свертывания информации

• Аннотация– 150-200 знаков

– указательный реферат(indicative abstract)

• Реферат– 1500-2000 знаков

– информативный реферат(informative abstract)

Связный текст, который кратко выражает центральную тему или предмет какого-то документа

Связный текст, который кроме этого кратко выражает цель, применяемые методы и основные результаты описанного исследования или разработки

Page 4: Системы аннотирования и реферирования

Типология• выдержки vs резюме

– фрагменты документа– заново переписанный текст

• общий vs основан на запросе vs ориентирован на пользователя– в одинаковой мере раскрыты все основные темы– основан на запросе “what are the causes of the

war?”– пользователь интересуется химией

• для новичка vs для эксперта– включение предпосылок– только новая информация

Page 5: Системы аннотирования и реферирования

Типология• однодокументный vs многодокументный

– научная статья– сборник докладов конференции

• текстовая форма vs перечисление vs таблица vs структурированная информация– абзац– список основных положений, тезисов– числовая информация в таблице– с заголовками

• на языке документа vs на другом языке– одноязычное реферирование– перевод реферата

Page 6: Системы аннотирования и реферирования

Исследователи

• Г.П.Лун• Г.Эдмундсон• В.Е.Берзон• И.П.Севбо• Э.Ф.Скороходько• Д.Г.Лахути• В.П.Леонов• Р.Г.Пиотровский

Page 7: Системы аннотирования и реферирования

Направления

• Квазиреферирование– экстракция из первичных документов

наиболее информативных фрагментов и их склейка

• Собственно автоматическое реферирование– выделение существенной информации и

порождение новых текстов

Page 8: Системы аннотирования и реферирования

Направления

• Квазиреферирование– анализ поверхностно-синтаксических

отношений в тексте

• Собственно автоматическое реферирование– обращение к глубинно-семантическим

процессам – экспериментальные исследования, до

широкой реализации еще не дошло

Page 9: Системы аннотирования и реферирования

Экстрактивные методы

• Акцент на выделение характерных фрагментов – предложений

• С помощью фразовых шаблонов• И статистики• В большинстве методов применяется

модель линейных весовых коэффициентов – каждому блоку текста назначаются веса

• Самые «тяжёлые» блоки склеиваются

Page 10: Системы аннотирования и реферирования

Расчёт веса блока текста

• Weight(U):= Location(U) + CuePhrase(U) + StatTerm(U) + AddTerm(U)

• Location: в начале, в середине или в конце; в вводной части или в заключении

• CuePhrase: «в заключение», «в данной статье», «согласно результатам анализа» и т.д.

Page 11: Системы аннотирования и реферирования

Расчёт веса блока текста

• Weight(U):= Location(U) + CuePhrase(U) + StatTerm(U) + AddTerm(U)

• StatTerm: статистическая важностьавтоматическая индексация (например, метрика tf.idf)

• AddTerm: есть ли в блоке текста также термины из – заголовка, – колонтитула, – 1-го параграфа, – пользовательского запроса

Page 12: Системы аннотирования и реферирования

Обобщенная архитектура реферирования без опоры на

знания

Билл Диксон поступил на работу в Procter & Gamble в 1994 году. В 1996 году он стал ее вице-президентом

Исходный текст

Измерениястатистической

важности

Сопоставление шаблонов

Расчёт частоты

Расчёт частоты

Выделе-ние

Выбор

Анализ Синтез

Page 13: Системы аннотирования и реферирования

Статистические методы

Метод Луна (Luhn, 1958)

1. часто встречающиеся в тексте слова являются наиболее значимыми

2. чем больше часто встречающихся слов оказывается рядом, тем более существенную информацию содержит предложение

– Игнорируются смысловые связи между словами

+ простота анализа, однородность получаемых результатов

Page 14: Системы аннотирования и реферирования

Метод ACSI-Matic (Assistant Chief of Staff for Intelligence)

• Метод Луна незначительно модифицирован

– N R NN R NNN R NN– 1 + 1/4 + 1 + 1/8 + 1= 3 + 3/8

• R – слова, частота встречаемости которых превосходит среднюю частоту слов в документе

• 10% предложений (<=20) – размер реферата

Page 15: Системы аннотирования и реферирования

Метод ACSI-Matic (Assistant Chief of Staff for Intelligence)

• Предложения с большими весами подлежали включению в реферат

• Со средним — помечались как «резервные»• Если число встретившихся в двух

предложениях синонимов и близких по значению слов > 25% от общего количества слов в предложении, то такие предложения считались избыточными и вычеркивались

• В этом случае для реферата выбирались предложения из резерва

• Этот процесс длился до тех пор, пока не устранялись избыточные или не заканчивались «резервные» предложения

Page 16: Системы аннотирования и реферирования

Метод Освальда

• Использовался инструмент, применяемый при индексировании:

• Предложения анализируемого текста сопоставлялись с заданными перечнями слов, объединёнными по смыслу

• Отбирались предложения с наибольшим количеством совпавших с перечнем слов

• Отобранные предложения далее обрабатывались по методу Г. Луна

Page 17: Системы аннотирования и реферирования

Метод Освальда

• выявление слов, отражающих содержание документа;

• выявление «мультитермов», т.е. устойчивых словосочетаний, при условии, что они встречаются в тексте чаще одного раза;

• выявление предложений с двумя и более мультитермами;

• расположение мультитермов в порядке частоты встречаемости;

• отбор предложений с наибольшим количеством основных слов и мультитермов

Page 18: Системы аннотирования и реферирования

Методы статистических ассоциаций

• Л. Дойл и М. Квиллиан• применили для отражения содержания

документов ассоциативные методы создания семантически связанных групп (пучков) терминов (word clusters)

• совместная встречаемость терминов в предложениях

• В реферат включаются не только основные термины, но и другие элементы текста

Page 19: Системы аннотирования и реферирования

Ассоциативные карты Л. Дойла

• Сначала создаётся исходная матрица (ключевые слова текста) и матрица взаимосвязанных элементов.

• Использовав коэффициент корреляции Пирсона, Л. Дойл вычислил коэффициенты подобия между терминами отдельных документов

• Реферат представлял собой реферат телеграфного стиля (короткие назывные предложения или набор ключевых слов (дескрипторов)

Page 20: Системы аннотирования и реферирования

Семантические картыМ. Квиллиана

• М. Квиллиан предложил использовать не ассоциативные карты, составленные на основе статистических показателей, а семантические карты.

• При этом учитывались взаимосвязи не между отдельными словами, а между информативными концептами

Page 21: Системы аннотирования и реферирования

Экстрактивные методы

• Дистрибутивный метод Эрла (Earl)

• Метод автоматического реферирования документов (Automatic Document Abstracting Method — ADAM)

• Дж. Раш, Р. Сальвадор и А. Замора «Метод отказа от предложений» (method for rejecting sentenses)

• Метод текстовых связей

Page 22: Системы аннотирования и реферирования

Методы с опорой на знания

Два основных подхода метода формирования краткого изложения