mtengine: semantic-level crowdsourced machine translation

45
MTEngine Дмитрий Кан [email protected] Машинный Перевод с Применением Компьютерной Семантики Силами Комьюнити NLP Seminar, 29 марта 2013 Яндекс, Санкт-Петербург

Upload: dmitry-kan

Post on 28-May-2015

1.944 views

Category:

Documents


4 download

DESCRIPTION

Видео к презентации: http://vk.com/mtengine В докладе представлен краудсорсинг проект, ориентированный на построение и улучшение системы машинного перевода. Отличительной чертой является применение компьютерной семантики русского языка. Также рассматривается статистический метод автоматической генерации переводных словарей.

TRANSCRIPT

Page 1: MTEngine: Semantic-level Crowdsourced Machine Translation

MTEngineДмитрий Кан[email protected]

Машинный Перевод с Применением Компьютерной Семантики Силами Комьюнити

NLP Seminar, 29 марта 2013Яндекс, Санкт-Петербург

Page 2: MTEngine: Semantic-level Crowdsourced Machine Translation

DEMO

Пишу письмо другу.

Page 3: MTEngine: Semantic-level Crowdsourced Machine Translation

О себе

Ведущий инженер AlphaSense IncУчастник SemanticAnalyzer Group

Кандидат физ.-мат. наукДиссертация о машинном переводе

Интересы в NLP: МП, семантический анализ, анализ тональности

Page 4: MTEngine: Semantic-level Crowdsourced Machine Translation

О чём поговорим?

● МП: история

● Основные подходы

● MTEval @ ROMIP

● Статистический МП

● Метод порождения словаря

● Лингвистический проект за 6 часов

● Выводы

Page 5: MTEngine: Semantic-level Crowdsourced Machine Translation

Немного истории МП

Одновременное независимое патентование МП (1933):

● Пётр Смирнов-Троянский [1]

● Georde Artsrouni (отец МП) [2]

Page 6: MTEngine: Semantic-level Crowdsourced Machine Translation

Ещё немного истории МП

Вторая мировая война:

● Электронный компьютер (обсчёт баллистических выстрелов в США, взлом кодов)

● Алан Тьюринг: нечисловые программы (напр., машинный перевод)

● Weaver (1949): МП как взлом кодов

Page 7: MTEngine: Semantic-level Crowdsourced Machine Translation

Ещё немного истории МП 2

Weaver своими (неверными) идеями стимулировал исследования в МП

● 1952: первая конференция по МП (MIT)● 1954: демо первой системы МП

(русский<->английский)● 1960: МП стимулирован Холодной войной

США, Великобритания, Франция, Япония и СССР

Page 8: MTEngine: Semantic-level Crowdsourced Machine Translation

Доклад ALPAC

Page 9: MTEngine: Semantic-level Crowdsourced Machine Translation

Основные подходы

Page 10: MTEngine: Semantic-level Crowdsourced Machine Translation

Interlingua vs Transfer

Page 11: MTEngine: Semantic-level Crowdsourced Machine Translation

Треугольник Машинного Перевода

Page 12: MTEngine: Semantic-level Crowdsourced Machine Translation

Треугольник МП в деталях

Page 13: MTEngine: Semantic-level Crowdsourced Machine Translation

Треугольник Машинного Перевода для MTEngine

Page 14: MTEngine: Semantic-level Crowdsourced Machine Translation

Оценка: BLEU

Page 15: MTEngine: Semantic-level Crowdsourced Machine Translation

MTEval and Shared Task @ ROMIP

● Org: ROMIP in cooperation with TAUS● 8 систем МП● 1 crowdsourced переводчик: http:

//translatedby.com/● test set: ~1000 предложений, 100 на

оценку● 11 ассессоров● небольшое перекрытие между ними● 28 пакетов по 36 задач

Page 16: MTEngine: Semantic-level Crowdsourced Machine Translation

MTEval and Shared Task @ ROMIP

Problem: to translate or not to translate?

SYSTEM 1: NO

В пятницу Warner Music Group, объявил, что он был вызван в управление Нью-Йорке генеральный Прокурор Элиот Спитцер, чтобы предоставить информацию о цифровой музыке скачать ценообразования.

Page 17: MTEngine: Semantic-level Crowdsourced Machine Translation

MTEval and Shared Task @ ROMIP

Problem: to translate or not to translate?

SYSTEM 2: YES

В пятницу Музыкальная Группа Уорнера объявила, что она была вызвана в суд управлением Нью-ЙоркаГенеральный Атторней Элиот Спицер предоставить информацию о ценообразовании загрузки цифровоймузыки.

Page 18: MTEngine: Semantic-level Crowdsourced Machine Translation

MTEval and Shared Task @ ROMIPProblem: to translate or not to translate?

HUMAN: NO

В пятницу фирма Warner Music Group заявила, что ее представители были вызваны на допрос к генеральному прокурору Нью-Йорка Элиоту Спитцеру (Elliot Spitzer), чтобы дать показания о политикеценообразования в сфере онлайн-продаж музыкальной продукции.

Page 19: MTEngine: Semantic-level Crowdsourced Machine Translation

MTEval and Shared Task @ ROMIP

Problem: to reorder or not to reorder?

SYSTEM 1: NO

Местные жители заметили также текущих SWAT учений с участием многочисленных государственных органов в области, в том числе национальной Безопасности, HPD и Калифорнийский Департамент Полиции.

Page 20: MTEngine: Semantic-level Crowdsourced Machine Translation

MTEval and Shared Task @ ROMIP

Problem: to reorder or not to reorder?

SYSTEM 2: YES

Местные жители также заметили настоящие учения SWAT, вовлекающие многочисленные правительственные агентства в области, включающие Безопасность Родины, HPD и Пасаденское Полицейское Управление.

Page 21: MTEngine: Semantic-level Crowdsourced Machine Translation

MTEval and Shared Task @ ROMIP

Problem: to reorder or not to reorder?

HUMAN: YES

Местные жители также заметили продолжающиеся тренировки спецназа в местных государственных учреждениях,

включая Министерство внутренней безопасности США, Полицейские управления

городов Хьюстон и Пасадена.

Page 22: MTEngine: Semantic-level Crowdsourced Machine Translation

MTEval and Shared Task @ ROMIP

Problem: Does reordering even matter?

System 1 (no reordering)

Однако, Совет не будет применять каких-либо дальнейших действий, пока не ЭльБарадей делает его полный отчет о 6 марта.

Page 23: MTEngine: Semantic-level Crowdsourced Machine Translation

MTEval and Shared Task @ ROMIP

Problem: Does reordering even matter?

System 2 (with reordering)

Однако, совет не будет выполнять никакого дальнейшего действия, пока ЭлБэрейдей не сделает свой полный доклад 6 марта.

Page 24: MTEngine: Semantic-level Crowdsourced Machine Translation

MTEval and Shared Task @ ROMIP

Problem: Does reordering even matter?

HUMAN (with reordering)

Однако, совет не будет предпринимать дальнейших действий, пока ЭльБарадей (ElBaradei) не предоставит свой полный отчет 6 марта.

Page 25: MTEngine: Semantic-level Crowdsourced Machine Translation

MTEval and Shared Task @ ROMIPProblem: Semantic mapping between two languages

System 1

Гарантии были даны, что грузовик, сцена, музыка и выступления - не говоря уже о барабанах, танцы и протест - не будет предотвращено от идти вперед, как планировалось на площади прямо напротив таможни в Circular Quay, веб-сайт сказал.

Page 26: MTEngine: Semantic-level Crowdsourced Machine Translation

MTEval and Shared Task @ ROMIPProblem: Semantic mapping between two languages

System 2

Гарантиям дали тот грузовик, стадию, музыку и речи - чтобы не упомянуть, что барабанили, танцуя, и протесту - не будут препятствовать идти вперед как запланировано в квадрате непосредственно вне Таможни в Круглом Причале, веб-сайт сказал.

Page 27: MTEngine: Semantic-level Crowdsourced Machine Translation

MTEval and Shared Task @ ROMIP

Problem: Semantic mapping betw. two languages

Original sentence:

"Assurances have been given that truck, stage, music and speeches - not to mention drumming,dancing and protest - will not be prevented from going ahead as planned in the square directly outside Customs House at Circular Quay," the website said.

Page 28: MTEngine: Semantic-level Crowdsourced Machine Translation

Проблемы crowdsourcing и MT [8]

● Низкое качество (смысл задачи, copy-pasting, misspelling)

● Turking machines

● Output space problems (все переводы верны)

Page 29: MTEngine: Semantic-level Crowdsourced Machine Translation

MTEngine

● Crowdsourced machine translation system● Словарные единицы семантического уровня● нет Turking machine problem● Перевод либо верен, либо почти верен, либо

неверен● Проблема низкого качества решается кросс-

проверками

Page 30: MTEngine: Semantic-level Crowdsourced Machine Translation

История проекта

● Август-сентябрь 2011: первая версия● Сентябрь - октябрь 2011: работа над оценкой

качества● Октябрь: выложены || корпуса● 2012: первые волонтёры (по подписке)● Январь 2013: новый UI● Март 2013: новые фичи каждую неделю● Регистрация на сайте

Page 31: MTEngine: Semantic-level Crowdsourced Machine Translation

Статистический МП

● Сказав что-то однажды, человек повторит это вновь (с некот. вероятностью)

● || корпус -- основа для фразовой таблицы● P(e|f), E - English, F - French● Теорема Байеса:

Page 32: MTEngine: Semantic-level Crowdsourced Machine Translation

Модель языка vs Модель перевода

Page 33: MTEngine: Semantic-level Crowdsourced Machine Translation

Исходный язык Целевой язык

Переводной контекстный семантический словарь

● Параллельный корпус UMC (~90 тыс. пар предложений)

● Максимизация апостериорной вероятности, совместная встречаемость

● Семантический анализ

Page 34: MTEngine: Semantic-level Crowdsourced Machine Translation

GIZA++ ищет P(f|e)

● Модуль выравнивания слов● Входит в состав пакета Moses

(статистический МП)● 86000 предложений -> 1,3млн пар слов в

выходных данных● Задача разрешения полисемии● Высокий уровень избыточности данных в

словаре● 18,000+ на выходе

Page 35: MTEngine: Semantic-level Crowdsourced Machine Translation

Пример выравнивания# Sentence pair (1) source length 4 target length 7 alignment score : 2.25315e-10

there is a book on the table NULL ({ }) на ({ }) столе ({ 5 6 7 }) лежит ({ 1 2 }) книга ({ 3 4 })

"столе" --> "on the table""лежит" --> "there is""книга" --> "a book"

Page 36: MTEngine: Semantic-level Crowdsourced Machine Translation

Схема генерации словаря

Page 37: MTEngine: Semantic-level Crowdsourced Machine Translation

СловарьВY1>HabU(Y1:,ПРЕД:Z1) \\<149>--->withinВY1>Loc(Y1:,ВНУТРИ$12/313/05(ПРЕД:Z1)) \\<146>--->atВY1>Loc(Y1:,Oper01(#,ПРЕД:Z1)) \\<208>--->inВY1>Loc(Y1:,ПРЕД:Z1) \\<224>--->ThroughoutМАРШАЛЛS1>Hab(S1:ЧЕЛОВЕК$1241,S0:ФАМИЛИЯ$1241/11) \\<2>--->marshallНАY1>Direkt(Y1:,ВЕРХ$12/141/05(ВИН:Z1)) \\<67>--->atНАY1>Direkt(Y1:,РОД:Z1) \\<100>--->onНАY1>Direkt(Y1:,РОД:Z1) \\<69>--->forНАY1>Direkt(Y1:,РОД:Z1) \\<74>--->for theОБРАЗ(РОД:Z1) \\<2>--->a wayОБЩЕМИРОВОЙA1>Rel(A1:НЕЧТО$1,ПОЛНЫЙ$12/207/05(МИР$1227))\\<1>--->global

Page 38: MTEngine: Semantic-level Crowdsourced Machine Translation

Порождение предлогов

СГТ● @Род - ofАвтомобиль Ивана. Car of Ivan.

● @Тв - byПишу рукой. Writing by hand.

● @Дат - toПишу другу. Writing to (a) friend.

Page 39: MTEngine: Semantic-level Crowdsourced Machine Translation

Выводы

● recognition в массы (stats page, юзерпик, wall of fame)

● Минимум рутины!● Переводить предложения с нуля -- очень

затратно● MTEngine: помоги системе перевести

лучше и получи зачёт и уточни познания английского языка

● Фокус на изучении, а не || корпусе

Page 40: MTEngine: Semantic-level Crowdsourced Machine Translation

Выводы

● UI -- формат общения● Максимум продуманности!● Максимум автоматизации● Минимум багов :)● MTEngine: Twitter bootstrap + jQuery + PHP

+ Perl + MySQL● Быстрая реакция на запросы

пользователей

Page 41: MTEngine: Semantic-level Crowdsourced Machine Translation

Библиография

[1] Mona Baker, Routlege Encyclopedia of Translation Studies, 2001, ISBN 0-203-35979-8.

[2] Р. Г. Пиотровский: Автоматизация обработки текста, ВИНИТИ, ИНФОРМ. ПРОЦЕССЫ И СИСТЕМЫ, 1998, №5.

[3] http://www.hutchinsweb.me.uk/MTJ-2000.pdf

[4] http://www.hutchinsweb.me.uk/IJT-2004.pdf

[5] ALPAC report http://www.nap.edu/openbook.php?record_id=9547&page=R1

Page 42: MTEngine: Semantic-level Crowdsourced Machine Translation

[6] Chris Callison-Burch, Philipp Koehn: Introduction to Statistical Machine Translation, ESSLLI 2005.

[7] www.romip.ru (http://romip.ru/mteval/index.html)

[8] Ambati V. Active Learning and Crowdsourcing for Machine Translation in Low Resource Scenarios. Carnegie Mellon University, 2011.

[9] http://www.slideshare.net/dmitrykan/introduction-to-machine-translation-2911038

Библиография

Page 43: MTEngine: Semantic-level Crowdsourced Machine Translation

[10] http://www.slideshare.net/dmitrykan/introduction-to-machine-translation-1

[11] Estellés-Arolas, E., González Ladrón-de-Guevara, F. 2012. Towards an integrated crowdsourcing definition. Journal of Information Science (in press).

[12] Callison-Burch C. 2009. Fast, Cheap, and Creative: Evaluating Translation Quality Using Amazon’s Mechanical Turk. Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing: Vol. 1, pp. 286-295.

Библиография

Page 44: MTEngine: Semantic-level Crowdsourced Machine Translation

[13] Kan D. 2011. Method for an Automatic Generation of a Semantic-level Contextual Translational Dictionary. Proceedings of the 6th International Conference on Software and Data Technologies, Vol. 2, pp. 415-418.

[14] http://dmitrykan.blogspot.ru/2010/02/giza-under-windows.html

[15] http://dmitrykan.blogspot.ru/2010/03/giza-under-windows-episode-2.html

Библиография

Page 45: MTEngine: Semantic-level Crowdsourced Machine Translation

[16] Кан Д.А. Применение теории компьютерной семантики и статистических методов к построению системы машинного перевода. Дисс. канд. физ. мат. наук, СПбГУ, 2011.

Библиография