introduction to machine translation 1

37
СПбГУ, ПМ-ПУ, ТП, 2009 Введение в машинный перевод (продолжение) Лектор: Кан Дмитрий Александрович III курс аспирантуры, СПбГУ, ПМ-ПУ, ТП

Upload: dmitry-kan

Post on 14-Jun-2015

667 views

Category:

Technology


8 download

TRANSCRIPT

Page 1: Introduction To Machine Translation 1

СПбГУ, ПМ-ПУ, ТП, 2009

Введение в машинныйперевод (продолжение)

Лектор: Кан Дмитрий АлександровичIII курс аспирантуры, СПбГУ, ПМ-ПУ, ТП

Page 2: Introduction To Machine Translation 1

СПбГУ, ПМ-ПУ, ТП, 2009

Темы

Оценки человекомАвтоматические оценкиГибридные системы

Page 3: Introduction To Machine Translation 1

СПбГУ, ПМ-ПУ, ТП, 2009

Оценки человеком

Семантическая инвариантностьПрагматическая инвариантностьЛексическая инвариантностьСтруктурная инвариантностьПространственная инвариантностьБеглостьТочность”Do you get it?”

Page 4: Introduction To Machine Translation 1

СПбГУ, ПМ-ПУ, ТП, 2009

Автоматические оценки

BLEU = Bilingual Evaluation UnderstudyMETEOR = Metric for Evaluation of Translation with Explicit ORderingNIST (metric)Round-trip перевод

Page 5: Introduction To Machine Translation 1

СПбГУ, ПМ-ПУ, ТП, 2009

BLEU

Требует существования переводов, сделанных человеком (Reference)Оценивает близость численно (worderror rate)N-грамм-сравнение между переводом-кандидатом и 1 или более переводомиз Reference

Page 6: Introduction To Machine Translation 1

СПбГУ, ПМ-ПУ, ТП, 2009

BLEU

Главная идея: ”the closer a machinetranslation is to a professional humantranslation, the better it is”Взвешенное среднее числасовпадений N-грамм кандидата спереводом человекаИнвариант порядка N-грамм, главноеналичие совпадений

Page 7: Introduction To Machine Translation 1

СПбГУ, ПМ-ПУ, ТП, 2009

Характеристики

БыстрыйДешёвыйЯзыко-независимыйВысокая корреляция с оценкойчеловекаЗатраты только при старте: корпуспереводов человеком

Page 8: Introduction To Machine Translation 1

СПбГУ, ПМ-ПУ, ТП, 2009

Страшная формула

Модифицированная точная оценка

c – длина перевода-кандидата

r – длина Referenceкорпуса

База: N=4, wn=1/N

Page 9: Introduction To Machine Translation 1

СПбГУ, ПМ-ПУ, ТП, 2009

Другие метрики

METEOR адресует слабости BLEU, такие, как полнота (компенсируетсяBP), уровень оценки (предложениевместо всей системы), порядок словNIST метрика базируется на BLEU, нос варьируемыми весами: чем реже N-грамм-совпадение, тем выше его вес

Page 10: Introduction To Machine Translation 1

СПбГУ, ПМ-ПУ, ТП, 2009

Доступная всем метрика: рекомендую

Round-trip метрика: перевод сначала водну, а затем в другую сторонуПроверить морфологию, синтаксис исемантикуОдну и ту же мысль можно выразитьразными словами, но разные словамогут исказить мысль

Page 11: Introduction To Machine Translation 1

СПбГУ, ПМ-ПУ, ТП, 2009

Гибридные системы МП

Архитектура

Page 12: Introduction To Machine Translation 1

СПбГУ, ПМ-ПУ, ТП, 2009

Темы

ReorderingСемантическая теорияПрагматика, анализ контекстаМашинный перевод на основеСемантической Теории

Page 13: Introduction To Machine Translation 1

СПбГУ, ПМ-ПУ, ТП, 2009

Reordering

В SMT: чаще на стороне декодера, иногда на стороне шифратораНеобходимость для пар из разныхязыковых групп, таких как английскийи японский:Английский: субъект – глагол – объектЯпонский: субъект – объект – глагол

Page 14: Introduction To Machine Translation 1

СПбГУ, ПМ-ПУ, ТП, 2009

Английский vs Японский

EN: IBM купила Lotus.JP: IBM Lotus купила.

EN: Репортёры сообщили, что IBM купила Lotus.JP: Репортёры IBM Lotus купиласообщили.

Page 15: Introduction To Machine Translation 1

СПбГУ, ПМ-ПУ, ТП, 2009

Методы word reordering

Алгебраический: по контекстнымграмматикам (порождение, NLG)Статистический: по стат. МоделямСинтаксическийИерархический: мереология; Мельчук+ эксперименты

Page 16: Introduction To Machine Translation 1

СПбГУ, ПМ-ПУ, ТП, 2009

Алгебраический метод reordering

Грамматика Бэкуса-НаураКак аукнется, так и откликнется; Что посеешь, то и пожнёшь; Коголюблю, того казнюПравила:<пословица> ::= <голова>, <хвост><голова> ::= <h1> <h2><хвост> ::= <t1> <t2>

Page 17: Introduction To Machine Translation 1

СПбГУ, ПМ-ПУ, ТП, 2009

Алгебраический метод reordering

Вывод (синтез) пословицы Кого люблю, того казню.<пословица><голова>, <хвост><h1> <h2>, <хвост>Кого <h2>, <хвост>Кого люблю, <хвост>Кого люблю, <t1> <t2>Кого люблю, того <t2>Кого люблю, того казню

Page 18: Introduction To Machine Translation 1

СПбГУ, ПМ-ПУ, ТП, 2009

Статистические подходы

SRILM для построения языковоймодели (Language Model, LM)Статистическая модель предложенияПермутацииПоиск N-грамм-совпадений в двухязыковых моделяхОптимизация

Page 19: Introduction To Machine Translation 1

СПбГУ, ПМ-ПУ, ТП, 2009

Архитектура системы

Page 20: Introduction To Machine Translation 1

СПбГУ, ПМ-ПУ, ТП, 2009

Детали

A = [w[0],w[1],…,w[n-1],w[n]], N слов

Матрица из нулей иединиц:

If w[i][j] belongs to SLM

P[i,j]=1

Else

P[i,j]=0

Page 21: Introduction To Machine Translation 1

СПбГУ, ПМ-ПУ, ТП, 2009

Детали #1

Существует ребро между соседними уровнями (i,j) if P(i,j) = 1

Page 22: Introduction To Machine Translation 1

СПбГУ, ПМ-ПУ, ТП, 2009

Синтаксический reordering

PSMT = Phrase-based SMTПеревод последовательностей словвместо отдельных словВозможность локальных перестановоксловТренировка системы нараспознавание синтаксическихструктур

Page 23: Introduction To Machine Translation 1

СПбГУ, ПМ-ПУ, ТП, 2009

Иерархический reordering: мереология

Мереология – теория отношенийчастей:Частей к целомуЧасти внутри частей к целому

Линеаризация – превращениеиерархического представления влинейное

Page 24: Introduction To Machine Translation 1

СПбГУ, ПМ-ПУ, ТП, 2009

Постулаты Мельчука

Предложения с сильной связью: словаопределяют порядок слов, следующихза ними (винительный падеж)Предложения со словами, присоединяющими другие слова(причастные обороты)Слабые связи: слова не влияют навзаимный порядок

Page 25: Introduction To Machine Translation 1

СПбГУ, ПМ-ПУ, ТП, 2009

Следствия

Необходима иерархическая модельпредложенияНеобходим алгоритм иерархическоймодификации дерева предложенияНеобходим алгоритм порожденияпредложения по его(модифицированной) древеснойструктуре

Page 26: Introduction To Machine Translation 1

СПбГУ, ПМ-ПУ, ТП, 2009

Компьютерная семантикарусского языка

ГлаголыПредлогиБазисные функцииМорфологический, синтаксический исемантический анализВектор-функцииПредложение = суперпозиция

Page 27: Introduction To Machine Translation 1

СПбГУ, ПМ-ПУ, ТП, 2009

Роли предлогов

Пространственное взаимоположениеобъектов (стул за столом)Временное отношение объектов ипроцессов (думая во время пробежки)Казуальность (выходной из-запереработки)Логическое противопоставление(плавание против бега)

Page 28: Introduction To Machine Translation 1

СПбГУ, ПМ-ПУ, ТП, 2009

Примеры вывода семантическогоанализатора

любит<X007.004>(@Вин Сашу<X003.002><+СущСущ3+>

(@Вин Умного<X001.001><+Какой:ПрилСущ7+>,@Вин красивого<X002.001><+Однородный:ОднорПрил6+>),

@Им Маша<X006.003><+СущГлаг3+>(@Им интересная<X004.001><+КАКОЙ:ПрилСущ7+>,@Имзамечательная<X005.001><+Однородный:ОднорПрил6+>)

).

Page 29: Introduction To Machine Translation 1

СПбГУ, ПМ-ПУ, ТП, 2009

Визуальное представление

Page 30: Introduction To Machine Translation 1

СПбГУ, ПМ-ПУ, ТП, 2009

Tree in C++ STL style

Page 31: Introduction To Machine Translation 1

СПбГУ, ПМ-ПУ, ТП, 2009

Правила линеаризации (русскийязык)

Узлы подлежат обмену только на одномуровне в семантическом деревеПри синтезе уточняющие прилагательныепредшествуют существительнымПритяжательные местоимения такжепредшетсвуют существительнымПредлоги предшествуют своимподдеревьям в синтезируемомпредложении

Page 32: Introduction To Machine Translation 1

СПбГУ, ПМ-ПУ, ТП, 2009

Псевдо-код

Page 33: Introduction To Machine Translation 1

СПбГУ, ПМ-ПУ, ТП, 2009

Псевдо-код #1

Page 34: Introduction To Machine Translation 1

СПбГУ, ПМ-ПУ, ТП, 2009

Псевдо-код #3

Page 35: Introduction To Machine Translation 1

СПбГУ, ПМ-ПУ, ТП, 2009

Прагматика

Мария любит Джорджа.Он передал коллеге карту.У кошки родилось двое котят – одинбелый и один афроамериканец.Сарай горит.

Page 36: Introduction To Machine Translation 1

СПбГУ, ПМ-ПУ, ТП, 2009

Анализ контекста

Сродни анализу слов в предложенииГипотеза: корень – времяПортрет объектовНа данный момент завершены толькодва этапа анализа текста: анализслова и анализ предложения

Page 37: Introduction To Machine Translation 1

СПбГУ, ПМ-ПУ, ТП, 2009

Библиография

[1] http://en.wikipedia.org/wiki/Category:Evaluation_of_machine_translation[2] K. Papineni, S. Roukos, T. Ward, W.-J. Zhu: Bleu: a Method for AutomaticEvaluation of Machine Translation. IBM Research Division[3] S. Banerjee, A. Lavie: METEOR: An Automatic Metric for MT Evaluation withImproved Correlation with Human Judgments, Language Technologies Institute[4] Y. Chen, A. Eisele, C. Federmann, E. Hasler, M. Jellinghaus, S. Theison: Multi-Engine Machine Translation with an Open-Source Decoder for StatisticalMachine Translation[5] И. Плашенкова: Гомоморфизм алгебр-моделей контекстно-свободныхподмножеств естественных языков, 2003[6] T. Athanaselis, S. Bakamidis, I. Dologlou: Words Reordering based on Statistical Language Model, 2006[7] J. Elming: Syntactic Reordering Integrated with Phrase-based SMT[8] C. Gerstenberger : Why mereology for the linearization task in NLG?