model builder (russian language)
DESCRIPTION
Программное обеспечение, разработанное для анализа построения текстов, позволяющее найти уникальные и повторяющиеся речевые события на разных уровнях (слово, словосочетние, фунцкия, конструкция). Fugue Icons copyright © 2010 Yusuke Kamiyamane (http://p.yusukekamiyamane.com/)TRANSCRIPT
Анализ текста с помощью MODEL BUILDER
Инвентарь словосочетаний и повторяющиеся речевые события
Андрей Щёкин [email protected]
Model Builder
Программное обеспечение, разработанное для анализа построения текстов, позволяющее найти уникальные и повторяющиеся речевые события на разных уровнях (слово, словосочетние, фунцкия, конструкция).
http://labs.ashmind.com/imb
Задачи
1. Поиск уникальных и повторяющихся речевых событий
2. Их количественная обработка
3. Аннотация словоформ*
4. Поиск уникальных и повторяющихся речевых конструктов на базе аннотации*
5. Генерация моделей на базе найденных конструкций*
6. Экспорт результатов
* дополнительные задачи
РЕЧЕВЫЕ СОБЫТИЯ
Речевые события
• Однословные• Неоднословные
• Уникальные• Повторяющиеся
• Воспроизводимые• Типичные• ...
Единицы речи
• Только воспроизводимые
Главная проблема, с которой сталкивается лингвистический анализ, – это определение границ и статуса лингвистических единиц, начиная с морфемы и заканчивая предложением и текстом.
Текст
• Вербальная сторона коммуникации• Пример использования разных речевых
единиц для разных задач• Источник знаний о том, как строится
речь
АНАЛИЗ ТЕКСТА С ПОМОЩЬЮ MODEL BUILDER
Технические требования
Windows XP, Vista or 7.NET Framework 3.5 SP1*
* может быть установлен по ссылке
Файлы проекта
<имя_файла>.txt*<имя_файла>.txt.annotated<имя_файла>.txt.anproject
* файл должен быть сохранен в кодировке UTF-8
Опции поиска
• Step—шаг, в рамках которого программа ищет в тексте последовательности.
• Length—максимальное количество слов в последовательности:
– если используется опция Exact, Model Builder ищет только последовательности с заданным значением Length;
– если опция Exact не используется, Model Builder ищет последовательности длиной от 1 до заданного значения.
Основные сценарии
1. Поиск однословных речевых событий (token)
2. Поиск многословных последовательностей (n-gram)
3. Поиск конструкций на базе разметки4. Объединение конструкций в модели
Сценарий 1. Поиск однословных речевых событий (token)
Результатом такого поиска является конкорданс, который составляют слова и словоформы.
Calculate – запускает поиск, а также пересчитывает результаты после настройки опций.
Столбик рядом с тектом показывет все употребления слова, выделенного на панели справа. По щелчку левой клавиши мыши можно перейти к любому месту в тексте.
Сценарий 2. Поиск многословных последовательностей (n-gram)
Все последовательности, удовлетворяющие заданным условиям, представлены на панели результатов и отсортированы по частотности (Count).
MODEL BUILDER всегда сравнивает результаты последнего поиска с предыдущим. Плюсами отмечены новые последовательности.
Сценарий 3. Поиск конструкций
В средней панели для каждой словоформы можно указать ее функцию или класс, к которому она принадлежит.
Использование аннотации
При поиске последовательностей Model Builder может заменять слово на его функцию и показывать конструкции, состоящие из слов и функций или только функций,например: S(субъект) P(предикат) O(объект) вместо Николай любит фрукты.
Сценарий 4. Объединение конструкций в модели
Для последнего сценария используется текст, в котором дополнительно отмечены границы «непредложенческих» высказываний, а также предикативных и номинативных основ с зависимыми словами.
Перед тем, как построить модели, нужно найти конструкции без использования функции Exact.
Спасибо за внимание!