Компьютерный анализ естественно - языкового текста

21
Компьютерный анализ естественно-языкового текста Кафедра информационных систем в искусстве и гуманитарных науках

Upload: marilu

Post on 17-Jan-2016

72 views

Category:

Documents


0 download

DESCRIPTION

Компьютерный анализ естественно - языкового текста. Кафедра информационных систем в искусстве и гуманитарных науках. Компьютерный анализ естественно - языкового текста СТРУКТУРА КУРСА. Введение в дисциплину Автоматический анализ текста на морфологическом уровне - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Компьютерный анализ естественно - языкового текста

Компьютерный анализ естественно-языкового текста

Кафедра информационных систем в искусстве и гуманитарных науках

Page 2: Компьютерный анализ естественно - языкового текста

Компьютерный анализ естественно-языкового текста

СТРУКТУРА КУРСА

1. Введение в дисциплину

2. Автоматический анализ текста на морфологическом уровне

3. Автоматический анализ текста на синтаксическом уровне

4. Семантический компонент в системах автоматического анализа текста

Page 3: Компьютерный анализ естественно - языкового текста

Компьютерный анализ естественно-языкового текста

СТРУКТУРА КУРСА

2. Автоматический анализ текста на морфологическом уровне

1. Морфологический уровень в ЛИТ2. Основные понятия морфологии в компьютерной

морфологии

3. Основные процедуры компьютерной морфологии

4. Компьютерная морфология русского языка

5. Технологии морфологического анализа

6. «Предсказание» (типизация)

7. Вопросы, смежные с синтаксисом

Page 4: Компьютерный анализ естественно - языкового текста

ПЛАН ЛЕКЦИЙ 9-11

1. Xerox Tools:• альтернативные инструменты• операции высокого уровня• дополнительные функциональные возможности

2. Резюме по морфологии• специальные функции: технология ISpell• «предсказание» в АОТ

3. Частеречная разметка• типы омонимии• данные о русских омоформах• разметка в Национальном корпусе• методы снятия грамматической неоднозначности

Page 5: Компьютерный анализ естественно - языкового текста

ДРУГИЕ ИНСТРУМЕНТЫ ДЛЯ РАБОТЫ С КОНЕЧНЫМИ ПРЕОБРАЗОВАТЕЛЯМИ

• FSA Utilities (Gertjaan van NOORD, State University of Groningen) http://www.let.rug.nl/~vannoord/Fsa/

• Intex (Max Silberztein, Laboratoire d'Automatique Documentaire et Linguistique, Université Paris 7, сейчас - Université de Franche-Comté) http://intex.univ-fcomte.fr/

• Unitex - версия Intex на условиях GPL: (Institut d'électronique et d'informatique Gaspard-Monge, Université Paris-est Marne la vallée) http://www-igm.univ-mlv.fr/~unitex/

• FSM tools (Mehryar MOHRI, AT&T) http://www.research.att.com/~fsmtools/fsm/

Page 6: Компьютерный анализ естественно - языкового текста

ДОПОЛНИТЕЛЬНЫЕ ВОЗМОЖНОСТИXEROX TOOLS

Помимо моделирования порядка следования конструктивных компонентов и соотнесения ПВ с ПС:

• Моделирование формальных модификаций (например, чередований)– собственный компилятор для

двухуровневых правил (twolc)– операции высоких уровней над

регулярными выражениями

Page 7: Компьютерный анализ естественно - языкового текста

ДВУХУРОВНЕВЫЕ ПРАВИЛА (КРАТКИЕ СВЕДЕНИЯ)

• 1983: работа Киммо Коскенниеми Two-level morphology

• Основная идея: параллельное действие правил, работа которых не столько преобразует цепочки символов, сколько соотносит их между собой

• Четыре типа правил– a : b c_d a всегда реализуется как b в контексте c_d;– a : b c_d a реализуется как b только в контексте c_d;– a : b c_d a реализуется как b только в контексте c_d и

ни в каком другом контексте;– a : b / c_d a никогда не реализуется как b в контексте

c_d

Page 8: Компьютерный анализ естественно - языкового текста

ОПЕРАЦИИ ВЫСОКОГО УРОВНЯ В XEROX TOOLS (1)

Предварительно вводятся:

• символ ‘?’ любой символ из используемого алфавита

• оператор ‘$’ включение:

$A =def [?* A ?*]

Page 9: Компьютерный анализ естественно - языкового текста

ОПЕРАЦИИ ВЫСОКОГО УРОВНЯ В XEROX TOOLS (2)

• оператор замены

A -> B =def [ [ ~$[A – 0] [A .x. B]]* ~$[A – 0]]

«Все, что не содержит непустых цепочек языка A, сцепляется с преобразователем A .x. B с возможной итерацией всего этого (или, вообще, с заменой пустой цепочкой), после чего следует все, что не содержит непустых цепочек языка A»

Page 10: Компьютерный анализ естественно - языкового текста

ОПЕРАЦИИ ВЫСОКОГО УРОВНЯ В XEROX TOOLS (3)

• Пример использования оператора замены:

Чередования в 1 л. ед. ч. русских глаголов 2 спряжения:

ходить – хожу, но ходят, ходит

любить – люблю, но любят, любит

без чередования

говорить – говорю, но говорят, говорит

Page 11: Компьютерный анализ естественно - языкового текста

ОПЕРАЦИИ ВЫСОКОГО УРОВНЯ В XEROX TOOLS (4)

Лексикон Verb2

LEXICON Rootljub Ending1 ;khod Ending1 ;sid Ending1 ;govor: Ending1 ;

LEXICON Ending1+1pSg:+1pSgju # ;+2pSg:ish’ # ;+3pSg:it # ;+1pPl:im # ;+2pPl:ite # ;+3pPl:jat # ;в

соотносит, например:

ljub+1pSgljub+1pSgju

но

ljub+3pPlljubjat

Page 12: Компьютерный анализ естественно - языкового текста

ОПЕРАЦИИ ВЫСОКОГО УРОВНЯ В XEROX TOOLS (5)

В командной строке xfst• read regex [[b +1pSg j u -> b l j u] & [d +1pSg j u -> z h

u]]• read Verb2.txt• compose

дает отношение, в котором соотносятся • ljub+1pSg

(ljub+1pSgju – промежуточныйи уровень, отсутствует после

композиции) • ljublju

Page 13: Компьютерный анализ естественно - языкового текста

ОПЕРАЦИИ ВЫСОКОГО УРОВНЯ В XEROX TOOLS (6)

• оператор разметки

A -> B ... C

Всякая цепочка A в выражениях на верхней ленте преобразователя должна соответствовать на нижней ленте такой же цепочке, но только в окружении B и С

Page 14: Компьютерный анализ естественно - языкового текста

ОПЕРАЦИИ ВЫСОКОГО УРОВНЯ В XEROX TOOLS (7)

Пример использования оператора разметки

• регулярное выражение

a | e | i | o | u -> “[” ... “]”

• позволяет выделить все гласные квадратными скобками, т.е., например, соотнести:

engineer:[e]ng[i]n[e][e]r

Page 15: Компьютерный анализ естественно - языкового текста

ШИРОКИЙ НАБОР ВОЗМОЖНОСТЕЙ XEROX TOOLS

• моделирование структуры составных единиц по конструктивному принципу («что за чем идет», на уровне морфологии – морфотактика)

• соотнесение разных уровней представления языковых единиц (более формальных – поверхностных и более содержательных – глубинных, «лексических»)

• моделирование формальных модификаций соединяемых элементов (на уровне морфологии - морфонология)

Page 16: Компьютерный анализ естественно - языкового текста

КОНЕЧНЫЕ ПРЕОБРАЗОВАТЕЛИ - ЗАДАЧИ НА СТЫКЕ МОРФОЛОГИИ И СИНТАКСИСА

• - локальный синтаксический анализ: снятие неоднозначностей (после морфологического анализа перед синтаксическим)

• - сегментация текста

• - поверхностный синтаксический анализ: маркировка и фильтрация синтаксических составляющих

Page 17: Компьютерный анализ естественно - языкового текста

ТЕХНОЛОГИЯ ISPELL

Ispell

• интерактивная программа проверки орфографии в среде Unix

• единый алгоритм и единая архитектура позволяют применять ко многим языкам, заменяя лишь базу данных

Page 18: Компьютерный анализ естественно - языкового текста

БАЗА ДАННЫХ ISPELL

Хранит данные о наборе словоформ, правильно построенных в данном языке.

Включает:

• Словарь (обязательный компонент)

• Файл аффиксов

Page 19: Компьютерный анализ естественно - языкового текста

ISPELL: СООТНОШЕНИЕ ДАННЫХ В СЛОВАРЕ И ФАЙЛЕ АФФИКСОВ

В словаре записи двух типов:• словоформы без «флагов» (нет потребности

в файле аффиксов)бугрится

бугров

бугром

• словоформы с «флагами» (отсылками к словарю аффиксов)бугрившийся/A

бугристость/F

бугристый/AS

Page 20: Компьютерный анализ естественно - языкового текста

ISPELL: СТРУКТУРА «ФЛАГА» В ФАЙЛЕ АФФИКСОВ

flag *A:## прилагательные и причастия## прилагательные/причастия на -ый (м.р. в ед. и мн.ч.) [^Ц] Ы Й > -ЫЙ,ОГО # белый > белого (р.п.) Ц Ы Й > -ЫЙ,ЕГО # куцый > куцего (р.п.) [^Ц] Ы Й > -ЫЙ,ОМУ # белый > белому (д.п.) Ц Ы Й > -ЫЙ,ЕМУ # куцый > куцему (д.п.) Ы Й > -Й,М # белый > белым (т.п.) [^Ц] Ы Й > -ЫЙ,ОМ # белый > белом (п.п.) Ц Ы Й > -ЫЙ,ЕМ # куцый > куцем (п.п.) Ы Й > -Й,Е # белый > белые (мн,и.п.) Ы Й > -Й,Х # белый > белых (мн,р.п.) Ы Й > -Й,МИ # белый > белыми (мн,т.п.)# ж. и ср. род Ы Й > -ЫЙ,АЯ # белый > белая (ж,и.п.) [^Ц] Ы Й > -ЫЙ,ОЙ # белый > белой (ж,р.п.)