introduction to machine translation 1
TRANSCRIPT
СПбГУ, ПМ-ПУ, ТП, 2009
Введение в машинныйперевод (продолжение)
Лектор: Кан Дмитрий АлександровичIII курс аспирантуры, СПбГУ, ПМ-ПУ, ТП
СПбГУ, ПМ-ПУ, ТП, 2009
Темы
Оценки человекомАвтоматические оценкиГибридные системы
СПбГУ, ПМ-ПУ, ТП, 2009
Оценки человеком
Семантическая инвариантностьПрагматическая инвариантностьЛексическая инвариантностьСтруктурная инвариантностьПространственная инвариантностьБеглостьТочность”Do you get it?”
СПбГУ, ПМ-ПУ, ТП, 2009
Автоматические оценки
BLEU = Bilingual Evaluation UnderstudyMETEOR = Metric for Evaluation of Translation with Explicit ORderingNIST (metric)Round-trip перевод
СПбГУ, ПМ-ПУ, ТП, 2009
BLEU
Требует существования переводов, сделанных человеком (Reference)Оценивает близость численно (worderror rate)N-грамм-сравнение между переводом-кандидатом и 1 или более переводомиз Reference
СПбГУ, ПМ-ПУ, ТП, 2009
BLEU
Главная идея: ”the closer a machinetranslation is to a professional humantranslation, the better it is”Взвешенное среднее числасовпадений N-грамм кандидата спереводом человекаИнвариант порядка N-грамм, главноеналичие совпадений
СПбГУ, ПМ-ПУ, ТП, 2009
Характеристики
БыстрыйДешёвыйЯзыко-независимыйВысокая корреляция с оценкойчеловекаЗатраты только при старте: корпуспереводов человеком
СПбГУ, ПМ-ПУ, ТП, 2009
Страшная формула
Модифицированная точная оценка
c – длина перевода-кандидата
r – длина Referenceкорпуса
База: N=4, wn=1/N
СПбГУ, ПМ-ПУ, ТП, 2009
Другие метрики
METEOR адресует слабости BLEU, такие, как полнота (компенсируетсяBP), уровень оценки (предложениевместо всей системы), порядок словNIST метрика базируется на BLEU, нос варьируемыми весами: чем реже N-грамм-совпадение, тем выше его вес
СПбГУ, ПМ-ПУ, ТП, 2009
Доступная всем метрика: рекомендую
Round-trip метрика: перевод сначала водну, а затем в другую сторонуПроверить морфологию, синтаксис исемантикуОдну и ту же мысль можно выразитьразными словами, но разные словамогут исказить мысль
СПбГУ, ПМ-ПУ, ТП, 2009
Гибридные системы МП
Архитектура
СПбГУ, ПМ-ПУ, ТП, 2009
Темы
ReorderingСемантическая теорияПрагматика, анализ контекстаМашинный перевод на основеСемантической Теории
СПбГУ, ПМ-ПУ, ТП, 2009
Reordering
В SMT: чаще на стороне декодера, иногда на стороне шифратораНеобходимость для пар из разныхязыковых групп, таких как английскийи японский:Английский: субъект – глагол – объектЯпонский: субъект – объект – глагол
СПбГУ, ПМ-ПУ, ТП, 2009
Английский vs Японский
EN: IBM купила Lotus.JP: IBM Lotus купила.
EN: Репортёры сообщили, что IBM купила Lotus.JP: Репортёры IBM Lotus купиласообщили.
СПбГУ, ПМ-ПУ, ТП, 2009
Методы word reordering
Алгебраический: по контекстнымграмматикам (порождение, NLG)Статистический: по стат. МоделямСинтаксическийИерархический: мереология; Мельчук+ эксперименты
СПбГУ, ПМ-ПУ, ТП, 2009
Алгебраический метод reordering
Грамматика Бэкуса-НаураКак аукнется, так и откликнется; Что посеешь, то и пожнёшь; Коголюблю, того казнюПравила:<пословица> ::= <голова>, <хвост><голова> ::= <h1> <h2><хвост> ::= <t1> <t2>
СПбГУ, ПМ-ПУ, ТП, 2009
Алгебраический метод reordering
Вывод (синтез) пословицы Кого люблю, того казню.<пословица><голова>, <хвост><h1> <h2>, <хвост>Кого <h2>, <хвост>Кого люблю, <хвост>Кого люблю, <t1> <t2>Кого люблю, того <t2>Кого люблю, того казню
СПбГУ, ПМ-ПУ, ТП, 2009
Статистические подходы
SRILM для построения языковоймодели (Language Model, LM)Статистическая модель предложенияПермутацииПоиск N-грамм-совпадений в двухязыковых моделяхОптимизация
СПбГУ, ПМ-ПУ, ТП, 2009
Архитектура системы
СПбГУ, ПМ-ПУ, ТП, 2009
Детали
A = [w[0],w[1],…,w[n-1],w[n]], N слов
Матрица из нулей иединиц:
If w[i][j] belongs to SLM
P[i,j]=1
Else
P[i,j]=0
СПбГУ, ПМ-ПУ, ТП, 2009
Детали #1
Существует ребро между соседними уровнями (i,j) if P(i,j) = 1
СПбГУ, ПМ-ПУ, ТП, 2009
Синтаксический reordering
PSMT = Phrase-based SMTПеревод последовательностей словвместо отдельных словВозможность локальных перестановоксловТренировка системы нараспознавание синтаксическихструктур
СПбГУ, ПМ-ПУ, ТП, 2009
Иерархический reordering: мереология
Мереология – теория отношенийчастей:Частей к целомуЧасти внутри частей к целому
Линеаризация – превращениеиерархического представления влинейное
СПбГУ, ПМ-ПУ, ТП, 2009
Постулаты Мельчука
Предложения с сильной связью: словаопределяют порядок слов, следующихза ними (винительный падеж)Предложения со словами, присоединяющими другие слова(причастные обороты)Слабые связи: слова не влияют навзаимный порядок
СПбГУ, ПМ-ПУ, ТП, 2009
Следствия
Необходима иерархическая модельпредложенияНеобходим алгоритм иерархическоймодификации дерева предложенияНеобходим алгоритм порожденияпредложения по его(модифицированной) древеснойструктуре
СПбГУ, ПМ-ПУ, ТП, 2009
Компьютерная семантикарусского языка
ГлаголыПредлогиБазисные функцииМорфологический, синтаксический исемантический анализВектор-функцииПредложение = суперпозиция
СПбГУ, ПМ-ПУ, ТП, 2009
Роли предлогов
Пространственное взаимоположениеобъектов (стул за столом)Временное отношение объектов ипроцессов (думая во время пробежки)Казуальность (выходной из-запереработки)Логическое противопоставление(плавание против бега)
СПбГУ, ПМ-ПУ, ТП, 2009
Примеры вывода семантическогоанализатора
любит<X007.004>(@Вин Сашу<X003.002><+СущСущ3+>
(@Вин Умного<X001.001><+Какой:ПрилСущ7+>,@Вин красивого<X002.001><+Однородный:ОднорПрил6+>),
@Им Маша<X006.003><+СущГлаг3+>(@Им интересная<X004.001><+КАКОЙ:ПрилСущ7+>,@Имзамечательная<X005.001><+Однородный:ОднорПрил6+>)
).
СПбГУ, ПМ-ПУ, ТП, 2009
Визуальное представление
СПбГУ, ПМ-ПУ, ТП, 2009
Tree in C++ STL style
СПбГУ, ПМ-ПУ, ТП, 2009
Правила линеаризации (русскийязык)
Узлы подлежат обмену только на одномуровне в семантическом деревеПри синтезе уточняющие прилагательныепредшествуют существительнымПритяжательные местоимения такжепредшетсвуют существительнымПредлоги предшествуют своимподдеревьям в синтезируемомпредложении
СПбГУ, ПМ-ПУ, ТП, 2009
Псевдо-код
СПбГУ, ПМ-ПУ, ТП, 2009
Псевдо-код #1
СПбГУ, ПМ-ПУ, ТП, 2009
Псевдо-код #3
СПбГУ, ПМ-ПУ, ТП, 2009
Прагматика
Мария любит Джорджа.Он передал коллеге карту.У кошки родилось двое котят – одинбелый и один афроамериканец.Сарай горит.
СПбГУ, ПМ-ПУ, ТП, 2009
Анализ контекста
Сродни анализу слов в предложенииГипотеза: корень – времяПортрет объектовНа данный момент завершены толькодва этапа анализа текста: анализслова и анализ предложения
СПбГУ, ПМ-ПУ, ТП, 2009
Библиография
[1] http://en.wikipedia.org/wiki/Category:Evaluation_of_machine_translation[2] K. Papineni, S. Roukos, T. Ward, W.-J. Zhu: Bleu: a Method for AutomaticEvaluation of Machine Translation. IBM Research Division[3] S. Banerjee, A. Lavie: METEOR: An Automatic Metric for MT Evaluation withImproved Correlation with Human Judgments, Language Technologies Institute[4] Y. Chen, A. Eisele, C. Federmann, E. Hasler, M. Jellinghaus, S. Theison: Multi-Engine Machine Translation with an Open-Source Decoder for StatisticalMachine Translation[5] И. Плашенкова: Гомоморфизм алгебр-моделей контекстно-свободныхподмножеств естественных языков, 2003[6] T. Athanaselis, S. Bakamidis, I. Dologlou: Words Reordering based on Statistical Language Model, 2006[7] J. Elming: Syntactic Reordering Integrated with Phrase-based SMT[8] C. Gerstenberger : Why mereology for the linearization task in NLG?