mt engine on nlp semniar
Post on 16-Jun-2015
267 Views
Preview:
TRANSCRIPT
MTEngineДмитрий Канdmitry.kan@gmail.com
Машинный Перевод с Применением Компьютерной Семантики Силами Комьюнити
NLP Seminar, 29 марта 2013Яндекс, Санкт-Петербург
DEMO
Пишу письмо другу.
О себе
Ведущий инженер AlphaSense IncУчастник SemanticAnalyzer Group
Кандидат физ.-мат. наукДиссертация о машинном переводе
Интересы в NLP: МП, семантический анализ, анализ тональности
О чём поговорим?
● МП: история
● Основные подходы
● MTEval @ ROMIP
● Статистический МП
● Метод порождения словаря
● Лингвистический проект за 6 часов
● Выводы
Немного истории МП
Одновременное независимое патентование МП (1933):
● Пётр Смирнов-Троянский [1]
● Georde Artsrouni (отец МП) [2]
Ещё немного истории МП
Вторая мировая война:
● Электронный компьютер (обсчёт баллистических выстрелов в США, взлом кодов)
● Алан Тьюринг: нечисловые программы (напр., машинный перевод)
● Weaver (1949): МП как взлом кодов
Ещё немного истории МП 2
Weaver своими (неверными) идеями стимулировал исследования в МП
● 1952: первая конференция по МП (MIT)● 1954: демо первой системы МП
(русский<->английский)● 1960: МП стимулирован Холодной войной
США, Великобритания, Франция, Япония и СССР
Доклад ALPAC
Основные подходы
Interlingua vs Transfer
Треугольник Машинного Перевода
Треугольник МП в деталях
Треугольник Машинного Перевода для MTEngine
Оценка: BLEU
MTEval and Shared Task @ ROMIP
● Org: ROMIP in cooperation with TAUS● 8 систем МП● 1 crowdsourced переводчик: http:
//translatedby.com/● test set: ~1000 предложений, 100 на
оценку● 11 ассессоров● небольшое перекрытие между ними● 28 пакетов по 36 задач
MTEval and Shared Task @ ROMIP
Problem: to translate or not to translate?
SYSTEM 1: NO
В пятницу Warner Music Group, объявил, что он был вызван в управление Нью-Йорке генеральный Прокурор Элиот Спитцер, чтобы предоставить информацию о цифровой музыке скачать ценообразования.
MTEval and Shared Task @ ROMIP
Problem: to translate or not to translate?
SYSTEM 2: YES
В пятницу Музыкальная Группа Уорнера объявила, что она была вызвана в суд управлением Нью-ЙоркаГенеральный Атторней Элиот Спицер предоставить информацию о ценообразовании загрузки цифровоймузыки.
MTEval and Shared Task @ ROMIPProblem: to translate or not to translate?
HUMAN: NO
В пятницу фирма Warner Music Group заявила, что ее представители были вызваны на допрос к генеральному прокурору Нью-Йорка Элиоту Спитцеру (Elliot Spitzer), чтобы дать показания о политикеценообразования в сфере онлайн-продаж музыкальной продукции.
MTEval and Shared Task @ ROMIP
Problem: to reorder or not to reorder?
SYSTEM 1: NO
Местные жители заметили также текущих SWAT учений с участием многочисленных государственных органов в области, в том числе национальной Безопасности, HPD и Калифорнийский Департамент Полиции.
MTEval and Shared Task @ ROMIP
Problem: to reorder or not to reorder?
SYSTEM 2: YES
Местные жители также заметили настоящие учения SWAT, вовлекающие многочисленные правительственные агентства в области, включающие Безопасность Родины, HPD и Пасаденское Полицейское Управление.
MTEval and Shared Task @ ROMIP
Problem: to reorder or not to reorder?
HUMAN: YES
Местные жители также заметили продолжающиеся тренировки спецназа в местных государственных учреждениях,
включая Министерство внутренней безопасности США, Полицейские управления
городов Хьюстон и Пасадена.
MTEval and Shared Task @ ROMIP
Problem: Does reordering even matter?
System 1 (no reordering)
Однако, Совет не будет применять каких-либо дальнейших действий, пока не ЭльБарадей делает его полный отчет о 6 марта.
MTEval and Shared Task @ ROMIP
Problem: Does reordering even matter?
System 2 (with reordering)
Однако, совет не будет выполнять никакого дальнейшего действия, пока ЭлБэрейдей не сделает свой полный доклад 6 марта.
MTEval and Shared Task @ ROMIP
Problem: Does reordering even matter?
HUMAN (with reordering)
Однако, совет не будет предпринимать дальнейших действий, пока ЭльБарадей (ElBaradei) не предоставит свой полный отчет 6 марта.
MTEval and Shared Task @ ROMIPProblem: Semantic mapping between two languages
System 1
Гарантии были даны, что грузовик, сцена, музыка и выступления - не говоря уже о барабанах, танцы и протест - не будет предотвращено от идти вперед, как планировалось на площади прямо напротив таможни в Circular Quay, веб-сайт сказал.
MTEval and Shared Task @ ROMIPProblem: Semantic mapping between two languages
System 2
Гарантиям дали тот грузовик, стадию, музыку и речи - чтобы не упомянуть, что барабанили, танцуя, и протесту - не будут препятствовать идти вперед как запланировано в квадрате непосредственно вне Таможни в Круглом Причале, веб-сайт сказал.
MTEval and Shared Task @ ROMIP
Problem: Semantic mapping betw. two languages
Original sentence:
"Assurances have been given that truck, stage, music and speeches - not to mention drumming,dancing and protest - will not be prevented from going ahead as planned in the square directly outside Customs House at Circular Quay," the website said.
Проблемы crowdsourcing и MT [8]
● Низкое качество (смысл задачи, copy-pasting, misspelling)
● Turking machines
● Output space problems (все переводы верны)
MTEngine
● Crowdsourced machine translation system● Словарные единицы семантического уровня● нет Turking machine problem● Перевод либо верен, либо почти верен, либо
неверен● Проблема низкого качества решается кросс-
проверками
История проекта
● Август-сентябрь 2011: первая версия● Сентябрь - октябрь 2011: работа над оценкой
качества● Октябрь: выложены || корпуса● 2012: первые волонтёры (по подписке)● Январь 2013: новый UI● Март 2013: новые фичи каждую неделю● Регистрация на сайте
Статистический МП
● Сказав что-то однажды, человек повторит это вновь (с некот. вероятностью)
● || корпус -- основа для фразовой таблицы● P(e|f), E - English, F - French● Теорема Байеса:
Модель языка vs Модель перевода
Исходный язык Целевой язык
Переводной контекстный семантический словарь
● Параллельный корпус UMC (~90 тыс. пар предложений)
● Максимизация апостериорной вероятности, совместная встречаемость
● Семантический анализ
GIZA++ ищет P(f|e)
● Модуль выравнивания слов● Входит в состав пакета Moses
(статистический МП)● 86000 предложений -> 1,3млн пар слов в
выходных данных● Задача разрешения полисемии● Высокий уровень избыточности данных в
словаре● 18,000+ на выходе
Пример выравнивания# Sentence pair (1) source length 4 target length 7 alignment score : 2.25315e-10
there is a book on the table NULL ({ }) на ({ }) столе ({ 5 6 7 }) лежит ({ 1 2 }) книга ({ 3 4 })
"столе" --> "on the table""лежит" --> "there is""книга" --> "a book"
Схема генерации словаря
СловарьВY1>HabU(Y1:,ПРЕД:Z1) \\<149>--->withinВY1>Loc(Y1:,ВНУТРИ$12/313/05(ПРЕД:Z1)) \\<146>--->atВY1>Loc(Y1:,Oper01(#,ПРЕД:Z1)) \\<208>--->inВY1>Loc(Y1:,ПРЕД:Z1) \\<224>--->ThroughoutМАРШАЛЛS1>Hab(S1:ЧЕЛОВЕК$1241,S0:ФАМИЛИЯ$1241/11) \\<2>--->marshallНАY1>Direkt(Y1:,ВЕРХ$12/141/05(ВИН:Z1)) \\<67>--->atНАY1>Direkt(Y1:,РОД:Z1) \\<100>--->onНАY1>Direkt(Y1:,РОД:Z1) \\<69>--->forНАY1>Direkt(Y1:,РОД:Z1) \\<74>--->for theОБРАЗ(РОД:Z1) \\<2>--->a wayОБЩЕМИРОВОЙA1>Rel(A1:НЕЧТО$1,ПОЛНЫЙ$12/207/05(МИР$1227))\\<1>--->global
Порождение предлогов
СГТ● @Род - ofАвтомобиль Ивана. Car of Ivan.
● @Тв - byПишу рукой. Writing by hand.
● @Дат - toПишу другу. Writing to (a) friend.
Выводы
● recognition в массы (stats page, юзерпик, wall of fame)
● Минимум рутины!● Переводить предложения с нуля -- очень
затратно● MTEngine: помоги системе перевести
лучше и получи зачёт и уточни познания английского языка
● Фокус на изучении, а не || корпусе
Выводы
● UI -- формат общения● Максимум продуманности!● Максимум автоматизации● Минимум багов :)● MTEngine: Twitter bootstrap + jQuery + PHP
+ Perl + MySQL● Быстрая реакция на запросы
пользователей
Библиография
[1] Mona Baker, Routlege Encyclopedia of Translation Studies, 2001, ISBN 0-203-35979-8.
[2] Р. Г. Пиотровский: Автоматизация обработки текста, ВИНИТИ, ИНФОРМ. ПРОЦЕССЫ И СИСТЕМЫ, 1998, №5.
[3] http://www.hutchinsweb.me.uk/MTJ-2000.pdf
[4] http://www.hutchinsweb.me.uk/IJT-2004.pdf
[5] ALPAC report http://www.nap.edu/openbook.php?record_id=9547&page=R1
[6] Chris Callison-Burch, Philipp Koehn: Introduction to Statistical Machine Translation, ESSLLI 2005.
[7] www.romip.ru (http://romip.ru/mteval/index.html)
[8] Ambati V. Active Learning and Crowdsourcing for Machine Translation in Low Resource Scenarios. Carnegie Mellon University, 2011.
[9] http://www.slideshare.net/dmitrykan/introduction-to-machine-translation-2911038
Библиография
[10] http://www.slideshare.net/dmitrykan/introduction-to-machine-translation-1
[11] Estellés-Arolas, E., González Ladrón-de-Guevara, F. 2012. Towards an integrated crowdsourcing definition. Journal of Information Science (in press).
[12] Callison-Burch C. 2009. Fast, Cheap, and Creative: Evaluating Translation Quality Using Amazon’s Mechanical Turk. Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing: Vol. 1, pp. 286-295.
Библиография
[13] Kan D. 2011. Method for an Automatic Generation of a Semantic-level Contextual Translational Dictionary. Proceedings of the 6th International Conference on Software and Data Technologies, Vol. 2, pp. 415-418.
[14] http://dmitrykan.blogspot.ru/2010/02/giza-under-windows.html
[15] http://dmitrykan.blogspot.ru/2010/03/giza-under-windows-episode-2.html
Библиография
[16] Кан Д.А. Применение теории компьютерной семантики и статистических методов к построению системы машинного перевода. Дисс. канд. физ. мат. наук, СПбГУ, 2011.
Библиография
top related