model builder (russian language)

25
Анализ текста с помощью MODEL BUILDER Инвентарь словосочетаний и повторяющиеся речевые события

Upload: lutic

Post on 26-Jun-2015

828 views

Category:

Documents


6 download

DESCRIPTION

Программное обеспечение, разработанное для анализа построения текстов, позволяющее найти уникальные и повторяющиеся речевые события на разных уровнях (слово, словосочетние, фунцкия, конструкция). Fugue Icons copyright © 2010 Yusuke Kamiyamane (http://p.yusukekamiyamane.com/)

TRANSCRIPT

Page 1: Model Builder (Russian Language)

Анализ текста с помощью MODEL BUILDER

Инвентарь словосочетаний и повторяющиеся речевые события

Page 3: Model Builder (Russian Language)

Андрей Щёкин [email protected]

Page 4: Model Builder (Russian Language)

Model Builder

Программное обеспечение, разработанное для анализа построения текстов, позволяющее найти уникальные и повторяющиеся речевые события на разных уровнях (слово, словосочетние, фунцкия, конструкция).

http://labs.ashmind.com/imb

Page 5: Model Builder (Russian Language)

Задачи

1. Поиск уникальных и повторяющихся речевых событий

2. Их количественная обработка

3. Аннотация словоформ*

4. Поиск уникальных и повторяющихся речевых конструктов на базе аннотации*

5. Генерация моделей на базе найденных конструкций*

6. Экспорт результатов

* дополнительные задачи

Page 6: Model Builder (Russian Language)

РЕЧЕВЫЕ СОБЫТИЯ

Page 7: Model Builder (Russian Language)

Речевые события

• Однословные• Неоднословные

• Уникальные• Повторяющиеся

• Воспроизводимые• Типичные• ...

Page 8: Model Builder (Russian Language)

Единицы речи

• Только воспроизводимые

Главная проблема, с которой сталкивается лингвистический анализ, – это определение границ и статуса лингвистических единиц, начиная с морфемы и заканчивая предложением и текстом.

Page 9: Model Builder (Russian Language)

Текст

• Вербальная сторона коммуникации• Пример использования разных речевых

единиц для разных задач• Источник знаний о том, как строится

речь 

Page 10: Model Builder (Russian Language)

АНАЛИЗ ТЕКСТА С ПОМОЩЬЮ MODEL BUILDER

Page 11: Model Builder (Russian Language)

Технические требования

Windows XP, Vista or 7.NET Framework 3.5 SP1*

* может быть установлен по ссылке

Page 12: Model Builder (Russian Language)

Файлы проекта

<имя_файла>.txt*<имя_файла>.txt.annotated<имя_файла>.txt.anproject

* файл должен быть сохранен в кодировке UTF-8

Page 13: Model Builder (Russian Language)

Опции поиска

• Step—шаг, в рамках которого программа ищет в тексте последовательности.

• Length—максимальное количество слов в последовательности:

– если используется опция Exact, Model Builder ищет только последовательности с заданным значением Length;

– если опция Exact не используется, Model Builder ищет последовательности длиной от 1 до заданного значения.

Page 14: Model Builder (Russian Language)

Основные сценарии

1. Поиск однословных речевых событий (token)

2. Поиск многословных последовательностей (n-gram)

3. Поиск конструкций на базе разметки4. Объединение конструкций в модели

Page 15: Model Builder (Russian Language)

Сценарий 1. Поиск однословных речевых событий (token)

Результатом такого поиска является конкорданс, который составляют слова и словоформы.

Page 16: Model Builder (Russian Language)

Calculate – запускает поиск, а также пересчитывает результаты после настройки опций.

Page 17: Model Builder (Russian Language)

Столбик рядом с тектом показывет все употребления слова, выделенного на панели справа. По щелчку левой клавиши мыши можно перейти к любому месту в тексте.

Page 18: Model Builder (Russian Language)

Сценарий 2. Поиск многословных последовательностей (n-gram)

Все последовательности, удовлетворяющие заданным условиям, представлены на панели результатов и отсортированы по частотности (Count).

 

Page 19: Model Builder (Russian Language)

MODEL BUILDER всегда сравнивает результаты последнего поиска с предыдущим. Плюсами отмечены новые последовательности.

Page 20: Model Builder (Russian Language)

Сценарий 3. Поиск конструкций

В средней панели для каждой словоформы можно указать ее функцию или класс, к которому она принадлежит.

Page 21: Model Builder (Russian Language)

Использование аннотации

При поиске последовательностей Model Builder может заменять слово на его функцию и показывать конструкции, состоящие из слов и функций или только функций,например: S(субъект) P(предикат) O(объект) вместо Николай любит фрукты.

Page 22: Model Builder (Russian Language)
Page 23: Model Builder (Russian Language)

Сценарий 4. Объединение конструкций в модели

Для последнего сценария используется текст, в котором дополнительно отмечены границы «непредложенческих» высказываний, а также предикативных и номинативных основ с зависимыми словами.

Перед тем, как построить модели, нужно найти конструкции без использования функции Exact.

Page 24: Model Builder (Russian Language)
Page 25: Model Builder (Russian Language)

Спасибо за внимание!