Вычислительная лингвистика
DESCRIPTION
Вычислительная лингвистика. Фёдор Царёв [email protected] 0 2 ноября 2005 года. Язык – исторически сложившаяся система звуковых, словарных и грамматических средств, объективирующая работу мышления и являющаяся орудием общения, обмена мыслями и взаимного понимания людей в обществе - PowerPoint PPT PresentationTRANSCRIPT
![Page 2: Вычислительная лингвистика](https://reader035.vdocuments.net/reader035/viewer/2022062521/56814d31550346895dba5ff4/html5/thumbnails/2.jpg)
Язык – исторически сложившаяся система звуковых, словарных и грамматических средств, объективирующая работу мышления и являющаяся орудием общения, обмена мыслями и взаимного понимания людей в обществе
Толковый словарь русского языка
![Page 3: Вычислительная лингвистика](https://reader035.vdocuments.net/reader035/viewer/2022062521/56814d31550346895dba5ff4/html5/thumbnails/3.jpg)
Цель
• Дать общее представление о моделях и методах вычислительной лингвистики, не вдаваясь особо в подробности
![Page 4: Вычислительная лингвистика](https://reader035.vdocuments.net/reader035/viewer/2022062521/56814d31550346895dba5ff4/html5/thumbnails/4.jpg)
План доклада
1. Что это такое? 2. История3. Основные методы4. Конкретный пример5. Открытые вопросы и перспективы
![Page 5: Вычислительная лингвистика](https://reader035.vdocuments.net/reader035/viewer/2022062521/56814d31550346895dba5ff4/html5/thumbnails/5.jpg)
План доклада
1. Что это такое? 2. История3. Основные методы4. Конкретный пример5. Открытые вопросы и перспективы
![Page 6: Вычислительная лингвистика](https://reader035.vdocuments.net/reader035/viewer/2022062521/56814d31550346895dba5ff4/html5/thumbnails/6.jpg)
Что это такое?
• Это наука, рассматривающая методы создания приложений, использующих знания о языке
![Page 7: Вычислительная лингвистика](https://reader035.vdocuments.net/reader035/viewer/2022062521/56814d31550346895dba5ff4/html5/thumbnails/7.jpg)
Зачем это нужно?
• Огромное количество информации доступно в форме текстов
• Создание новых типов интерфейсов• Проверка правописания• Автоматический перевод• Информационный поиск• Системы автоматического ответа на
вопросы
![Page 8: Вычислительная лингвистика](https://reader035.vdocuments.net/reader035/viewer/2022062521/56814d31550346895dba5ff4/html5/thumbnails/8.jpg)
Простой пример
• Программа wc в UNIX’е– Когда считает байты и строки – просто
программа– Когда считает слова – использует знания о
языке
![Page 9: Вычислительная лингвистика](https://reader035.vdocuments.net/reader035/viewer/2022062521/56814d31550346895dba5ff4/html5/thumbnails/9.jpg)
6 разделов языкознания
• Фонетика• Морфология• Синтаксис• Семантика• Pragmatics – использование языка для
достижения неких целей• Discourse – изучение лингвистических
категорий, более широких, чем предложение
![Page 10: Вычислительная лингвистика](https://reader035.vdocuments.net/reader035/viewer/2022062521/56814d31550346895dba5ff4/html5/thumbnails/10.jpg)
Основная проблема - неоднозначность
• Вход называется неоднозначным, если существует несколько различных лингвистических структур для него
• Пример: I made her duck
![Page 11: Вычислительная лингвистика](https://reader035.vdocuments.net/reader035/viewer/2022062521/56814d31550346895dba5ff4/html5/thumbnails/11.jpg)
План доклада
1. Что это такое? 2. История3. Основные методы4. Конкретный пример5. Открытые вопросы и перспективы
![Page 12: Вычислительная лингвистика](https://reader035.vdocuments.net/reader035/viewer/2022062521/56814d31550346895dba5ff4/html5/thumbnails/12.jpg)
1940-1957
• Два подхода:– Автоматный (Kleene, Chomsky, Backus,
Naur)– Теоретико-информационный, или
вероятностный (Shannon)• Из возможных вариантов выбрать
наиболее вероятный• 1952 год – статистическая система
распознавания цифр на слух
![Page 13: Вычислительная лингвистика](https://reader035.vdocuments.net/reader035/viewer/2022062521/56814d31550346895dba5ff4/html5/thumbnails/13.jpg)
Тест Тьюринга• Предложен Аланом
Тьюрингом (Alan Turing) в 1950 году
• Игра для трех игроков
• Цель компьютера – обмануть людей
• Цель человека – помочь обнаружить компьютер
Человек
Игрок 1 Игрок 2
![Page 14: Вычислительная лингвистика](https://reader035.vdocuments.net/reader035/viewer/2022062521/56814d31550346895dba5ff4/html5/thumbnails/14.jpg)
1957-1970
• Два подхода:– Символический (symbolic)– Стохастический (stochastic)
![Page 15: Вычислительная лингвистика](https://reader035.vdocuments.net/reader035/viewer/2022062521/56814d31550346895dba5ff4/html5/thumbnails/15.jpg)
1970-1983
• Четыре парадигмы:– Stochastic– Logic-based– Natural language understanding– Discourse modeling
![Page 16: Вычислительная лингвистика](https://reader035.vdocuments.net/reader035/viewer/2022062521/56814d31550346895dba5ff4/html5/thumbnails/16.jpg)
1983-1993
• Finite-state phonology • Finite-state morphology• Использование эмпирических моделей
![Page 17: Вычислительная лингвистика](https://reader035.vdocuments.net/reader035/viewer/2022062521/56814d31550346895dba5ff4/html5/thumbnails/17.jpg)
1994-…
• Использование всего, что использовалось когда-либо…
![Page 18: Вычислительная лингвистика](https://reader035.vdocuments.net/reader035/viewer/2022062521/56814d31550346895dba5ff4/html5/thumbnails/18.jpg)
План доклада
1. Что это такое? 2. История3. Основные методы4. Конкретный пример5. Открытые вопросы и перспективы
![Page 19: Вычислительная лингвистика](https://reader035.vdocuments.net/reader035/viewer/2022062521/56814d31550346895dba5ff4/html5/thumbnails/19.jpg)
Разрешение неоднозначности
• Многие алгоритмы разрешают неоднозначность на том или ином уровне– Лексическая неоднозначность– Синтаксическая неоднозначность– и т.д.
![Page 20: Вычислительная лингвистика](https://reader035.vdocuments.net/reader035/viewer/2022062521/56814d31550346895dba5ff4/html5/thumbnails/20.jpg)
Алгоритмы и модели - процедурные модели
• Детерминированные конечные автоматы
• Недетерминированные конечные автоматы
• Finite-state transcuders (могут записывать в выходной поток)
• Взвешенные автоматы
![Page 21: Вычислительная лингвистика](https://reader035.vdocuments.net/reader035/viewer/2022062521/56814d31550346895dba5ff4/html5/thumbnails/21.jpg)
Алгоритмы и модели – описательные модели
• Регулярные выражения• Контекстно-свободные грамматики• Их вероятностные варианты
![Page 22: Вычислительная лингвистика](https://reader035.vdocuments.net/reader035/viewer/2022062521/56814d31550346895dba5ff4/html5/thumbnails/22.jpg)
Пример
• Грамматика для простых предложений английского языка<предложение> ::= <вопросительное предложение> | <повествовательное предложение>
![Page 23: Вычислительная лингвистика](https://reader035.vdocuments.net/reader035/viewer/2022062521/56814d31550346895dba5ff4/html5/thumbnails/23.jpg)
Пример (продолжение)
<вопросительное предложение> ::= <вопросительное слово> <вспомогательный глагол> <подлежащее> <основной глагол> <второстепенные члены предложения>
<повествовательное предложение> ::= <подлежащее> <сказуемое> <второстепенные члены предложения>
![Page 24: Вычислительная лингвистика](https://reader035.vdocuments.net/reader035/viewer/2022062521/56814d31550346895dba5ff4/html5/thumbnails/24.jpg)
Алгоритмы и модели – алгоритмы
• Поиск по некоторому множеству гипотез:– Поиск в глубину– Динамическое программирование– Различные вероятностные варианты
![Page 25: Вычислительная лингвистика](https://reader035.vdocuments.net/reader035/viewer/2022062521/56814d31550346895dba5ff4/html5/thumbnails/25.jpg)
Алгоритмы и модели – другие
• Машинное обучение• Использование логики первого порядка• Языки типа PROLOG’а• Нейронные сети
Эти подходы сегодня рассматриваться не будут
![Page 26: Вычислительная лингвистика](https://reader035.vdocuments.net/reader035/viewer/2022062521/56814d31550346895dba5ff4/html5/thumbnails/26.jpg)
План доклада
1. Что это такое? 2. История3. Основные методы4. Конкретный пример5. Открытые вопросы и перспективы
![Page 27: Вычислительная лингвистика](https://reader035.vdocuments.net/reader035/viewer/2022062521/56814d31550346895dba5ff4/html5/thumbnails/27.jpg)
Алгоритм Витерби
• Применяется для распознавания речи• Пусть уже входной звук разбит на
последовательность известных нам звуков
• Осталось выяснить, что конкретно было сказано
![Page 28: Вычислительная лингвистика](https://reader035.vdocuments.net/reader035/viewer/2022062521/56814d31550346895dba5ff4/html5/thumbnails/28.jpg)
Постановка задачи – 1
• Дан ориентированный граф G=<V,E>• Дано множество звуков Σ• Каждой дуге uv сопоставлены:
– Звук σ(uv)– Вероятность p(uv) издать этот звук
• Заданы:– Начальная вершина v0
– Последовательность звуков w1…wn
![Page 29: Вычислительная лингвистика](https://reader035.vdocuments.net/reader035/viewer/2022062521/56814d31550346895dba5ff4/html5/thumbnails/29.jpg)
Постановка задачи – 2
• Сумма вероятностей на дугах, исходящих из некой вершины, равна единице
• Произнесения последовательных звуков независимы
• Найти наиболее вероятный путь в графе
![Page 30: Вычислительная лингвистика](https://reader035.vdocuments.net/reader035/viewer/2022062521/56814d31550346895dba5ff4/html5/thumbnails/30.jpg)
Решение – динамическое программирование
• Пусть a(i, j) – максимальная вероятность «попасть» в вершину i после произнесения последовательности звуков w1w2…wj
![Page 31: Вычислительная лингвистика](https://reader035.vdocuments.net/reader035/viewer/2022062521/56814d31550346895dba5ff4/html5/thumbnails/31.jpg)
Решение – инициализация и рекуррентное соотношение
• Инициализация: a(v0,0) = 1 • Рекуррентное соотношение:
p(uv))a(u,ka(v,k)kwσ(uv)
Euv
1max
Как теперь получить ответ?
![Page 32: Вычислительная лингвистика](https://reader035.vdocuments.net/reader035/viewer/2022062521/56814d31550346895dba5ff4/html5/thumbnails/32.jpg)
План доклада
1. Что это такое? 2. История3. Основные методы4. Конкретный пример5. Открытые вопросы и перспективы
![Page 33: Вычислительная лингвистика](https://reader035.vdocuments.net/reader035/viewer/2022062521/56814d31550346895dba5ff4/html5/thumbnails/33.jpg)
Перспективы
• Создание интерфейса с пользователем, использующего естественный язык
• Создание систем, способных анализировать тексты
![Page 34: Вычислительная лингвистика](https://reader035.vdocuments.net/reader035/viewer/2022062521/56814d31550346895dba5ff4/html5/thumbnails/34.jpg)
Заключительный слайдЕсли не запомнили ничего другого:
Вопросы?
• Приложения, использующие знание языка – очень перспективная область• Основная проблема – неоднозначность • В вычислительной лингвистике широко используются методы теории алгоритмов
![Page 35: Вычислительная лингвистика](https://reader035.vdocuments.net/reader035/viewer/2022062521/56814d31550346895dba5ff4/html5/thumbnails/35.jpg)
Источники
• http://www.cs.colorado.edu/~martin/slp.html• Кормен, Лейзерон, Ривест «Алгоритмы.
Построение и анализ»