Системы аннотирования и реферирования

Post on 10-Jun-2015

642 Views

Category:

Education

8 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Системы аннотирования и реферирования

А.В. Луканин

Автоматическая обработка естественного языка. Лекция 5

Свёртывание информации

• Задачи– Индексирование– Аннотирование– Реферирование– Конспектирование– Фрагментирование

• Это сжатие, или компрессия, текста первичного документа при его переработке в текст вторичного документа

Типы свертывания информации

• Аннотация– 150-200 знаков

– указательный реферат(indicative abstract)

• Реферат– 1500-2000 знаков

– информативный реферат(informative abstract)

Связный текст, который кратко выражает центральную тему или предмет какого-то документа

Связный текст, который кроме этого кратко выражает цель, применяемые методы и основные результаты описанного исследования или разработки

Типология• выдержки vs резюме

– фрагменты документа– заново переписанный текст

• общий vs основан на запросе vs ориентирован на пользователя– в одинаковой мере раскрыты все основные темы– основан на запросе “what are the causes of the

war?”– пользователь интересуется химией

• для новичка vs для эксперта– включение предпосылок– только новая информация

Типология• однодокументный vs многодокументный

– научная статья– сборник докладов конференции

• текстовая форма vs перечисление vs таблица vs структурированная информация– абзац– список основных положений, тезисов– числовая информация в таблице– с заголовками

• на языке документа vs на другом языке– одноязычное реферирование– перевод реферата

Исследователи

• Г.П.Лун• Г.Эдмундсон• В.Е.Берзон• И.П.Севбо• Э.Ф.Скороходько• Д.Г.Лахути• В.П.Леонов• Р.Г.Пиотровский

Направления

• Квазиреферирование– экстракция из первичных документов

наиболее информативных фрагментов и их склейка

• Собственно автоматическое реферирование– выделение существенной информации и

порождение новых текстов

Направления

• Квазиреферирование– анализ поверхностно-синтаксических

отношений в тексте

• Собственно автоматическое реферирование– обращение к глубинно-семантическим

процессам – экспериментальные исследования, до

широкой реализации еще не дошло

Экстрактивные методы

• Акцент на выделение характерных фрагментов – предложений

• С помощью фразовых шаблонов• И статистики• В большинстве методов применяется

модель линейных весовых коэффициентов – каждому блоку текста назначаются веса

• Самые «тяжёлые» блоки склеиваются

Расчёт веса блока текста

• Weight(U):= Location(U) + CuePhrase(U) + StatTerm(U) + AddTerm(U)

• Location: в начале, в середине или в конце; в вводной части или в заключении

• CuePhrase: «в заключение», «в данной статье», «согласно результатам анализа» и т.д.

Расчёт веса блока текста

• Weight(U):= Location(U) + CuePhrase(U) + StatTerm(U) + AddTerm(U)

• StatTerm: статистическая важностьавтоматическая индексация (например, метрика tf.idf)

• AddTerm: есть ли в блоке текста также термины из – заголовка, – колонтитула, – 1-го параграфа, – пользовательского запроса

Обобщенная архитектура реферирования без опоры на

знания

Билл Диксон поступил на работу в Procter & Gamble в 1994 году. В 1996 году он стал ее вице-президентом

Исходный текст

Измерениястатистической

важности

Сопоставление шаблонов

Расчёт частоты

Расчёт частоты

Выделе-ние

Выбор

Анализ Синтез

Статистические методы

Метод Луна (Luhn, 1958)

1. часто встречающиеся в тексте слова являются наиболее значимыми

2. чем больше часто встречающихся слов оказывается рядом, тем более существенную информацию содержит предложение

– Игнорируются смысловые связи между словами

+ простота анализа, однородность получаемых результатов

Метод ACSI-Matic (Assistant Chief of Staff for Intelligence)

• Метод Луна незначительно модифицирован

– N R NN R NNN R NN– 1 + 1/4 + 1 + 1/8 + 1= 3 + 3/8

• R – слова, частота встречаемости которых превосходит среднюю частоту слов в документе

• 10% предложений (<=20) – размер реферата

Метод ACSI-Matic (Assistant Chief of Staff for Intelligence)

• Предложения с большими весами подлежали включению в реферат

• Со средним — помечались как «резервные»• Если число встретившихся в двух

предложениях синонимов и близких по значению слов > 25% от общего количества слов в предложении, то такие предложения считались избыточными и вычеркивались

• В этом случае для реферата выбирались предложения из резерва

• Этот процесс длился до тех пор, пока не устранялись избыточные или не заканчивались «резервные» предложения

Метод Освальда

• Использовался инструмент, применяемый при индексировании:

• Предложения анализируемого текста сопоставлялись с заданными перечнями слов, объединёнными по смыслу

• Отбирались предложения с наибольшим количеством совпавших с перечнем слов

• Отобранные предложения далее обрабатывались по методу Г. Луна

Метод Освальда

• выявление слов, отражающих содержание документа;

• выявление «мультитермов», т.е. устойчивых словосочетаний, при условии, что они встречаются в тексте чаще одного раза;

• выявление предложений с двумя и более мультитермами;

• расположение мультитермов в порядке частоты встречаемости;

• отбор предложений с наибольшим количеством основных слов и мультитермов

Методы статистических ассоциаций

• Л. Дойл и М. Квиллиан• применили для отражения содержания

документов ассоциативные методы создания семантически связанных групп (пучков) терминов (word clusters)

• совместная встречаемость терминов в предложениях

• В реферат включаются не только основные термины, но и другие элементы текста

Ассоциативные карты Л. Дойла

• Сначала создаётся исходная матрица (ключевые слова текста) и матрица взаимосвязанных элементов.

• Использовав коэффициент корреляции Пирсона, Л. Дойл вычислил коэффициенты подобия между терминами отдельных документов

• Реферат представлял собой реферат телеграфного стиля (короткие назывные предложения или набор ключевых слов (дескрипторов)

Семантические картыМ. Квиллиана

• М. Квиллиан предложил использовать не ассоциативные карты, составленные на основе статистических показателей, а семантические карты.

• При этом учитывались взаимосвязи не между отдельными словами, а между информативными концептами

Экстрактивные методы

• Дистрибутивный метод Эрла (Earl)

• Метод автоматического реферирования документов (Automatic Document Abstracting Method — ADAM)

• Дж. Раш, Р. Сальвадор и А. Замора «Метод отказа от предложений» (method for rejecting sentenses)

• Метод текстовых связей

Методы с опорой на знания

Два основных подхода метода формирования краткого изложения

top related