06 автоматические ответы на вопросы

24
Автоматические Автоматические ответы на ответы на вопросы вопросы Лидия Михайловна Лидия Михайловна Пивоварова Пивоварова Системы понимания текста Системы понимания текста

Upload: lidia-pivovarova

Post on 10-May-2015

3.028 views

Category:

Documents


6 download

DESCRIPTION

Презентация к курсу "С

TRANSCRIPT

Page 1: 06 автоматические ответы на вопросы

Автоматические Автоматические ответы на ответы на вопросывопросы

Лидия Михайловна Лидия Михайловна ПивовароваПивоварова

Системы понимания Системы понимания текстатекста

Page 2: 06 автоматические ответы на вопросы

ВведениеВведение Система автоматического ответа на вопросы – Система автоматического ответа на вопросы –

система, которая принимает на вход вопрос, система, которая принимает на вход вопрос, сформулированный на естественном языке и сформулированный на естественном языке и находит в коллекции текстов точный ответ на находит в коллекции текстов точный ответ на этот вопрос.этот вопрос.

ВОПРОС

Анализ вопросаПоиск

релевантных

документов (отрывков)Извлечен

ие ответа

ОТВЕТ

Page 3: 06 автоматические ответы на вопросы

СодержаниеСодержание

1.1. Анализ вопросаАнализ вопроса

2.2. Поиск релевантных фрагментов Поиск релевантных фрагментов текстатекста

3.3. Извлечение ответаИзвлечение ответа

4.4. Оценка Оценка

Page 4: 06 автоматические ответы на вопросы

Анализ вопросаАнализ вопроса

Цель этого этапа: вычленить из Цель этого этапа: вычленить из вопроса информацию, которая вопроса информацию, которая будет использоваться следующими будет использоваться следующими модулямимодулями

Две задачи:Две задачи: Классифицировать вопросКлассифицировать вопрос Генерация запроса, по которым Генерация запроса, по которым

осуществляется поиск релевантных осуществляется поиск релевантных фрагментов текстафрагментов текста

Page 5: 06 автоматические ответы на вопросы

Типы вопросовТипы вопросов ФактоидыФактоиды::

Who is Tom Cruise married to?Who is Tom Cruise married to? Списковые вопросы (Списковые вопросы (list questions)list questions)::

What countries have atomic bombs?What countries have atomic bombs? Вопросы, требующие развернутого ответаВопросы, требующие развернутого ответа

Who is Aaron Copland?” or “What is aspirin?Who is Aaron Copland?” or “What is aspirin? может пониматься как разновидность может пониматься как разновидность

Information Extraction: Information Extraction: хорошая биография хорошая биография содержит даты рождения, профессию, и.т.д. - содержит даты рождения, профессию, и.т.д. - вопрос как шаблон, который для заполнениявопрос как шаблон, который для заполнения

Вопросы без правильного ответаВопросы без правильного ответа Как правильно целоваться?Как правильно целоваться? Очень часты в ИПС Интернета, но не Очень часты в ИПС Интернета, но не

встречаются на соревнованиях по оценкевстречаются на соревнованиях по оценке

Page 6: 06 автоматические ответы на вопросы

Классификация Классификация вопросоввопросов

Классификация вопроса Классификация вопроса определяет тип ответа:определяет тип ответа: Когда в Ирландии выбрали первую Когда в Ирландии выбрали первую

женщину-президента? женщину-президента? – ответ: дата– ответ: дата Как далеко от Москвы до Ярославля? Как далеко от Москвы до Ярославля?

– ответ: расстояние– ответ: расстояние Сколько ехать от Токио до Сколько ехать от Токио до

Ниагаты?Ниагаты? – ответ: время или – ответ: время или расстояние (неоднозначность)расстояние (неоднозначность)

Page 7: 06 автоматические ответы на вопросы

Классификация, Классификация, основанная на правилахоснованная на правилах

Правила, написанные людьми, Правила, написанные людьми, легко понимаются и легко понимаются и интерпретируютсяинтерпретируются

Образцы:Образцы: Где Где – ответ: географическтй пункт, – ответ: географическтй пункт,

местоместо Кто Кто – ответ: человек, организация– ответ: человек, организация

Типы вопросов организованы Типы вопросов организованы иерархически, в виде таксономиииерархически, в виде таксономии

Page 8: 06 автоматические ответы на вопросы
Page 9: 06 автоматические ответы на вопросы
Page 10: 06 автоматические ответы на вопросы

Классификация на основе Классификация на основе машинного обучениямашинного обучения

Классическая задача классификации Классическая задача классификации – можно использовать готовые пакеты– можно использовать готовые пакеты

Не так затратно по времени, как Не так затратно по времени, как построение таксономиипостроение таксономии

Требуется обучающее множествоТребуется обучающее множество Выбор параметров для обучения: Выбор параметров для обучения:

слова, словосочетания, части речи, слова, словосочетания, части речи, именованные сущности, начальные именованные сущности, начальные цепочки слов, синтаксическая цепочки слов, синтаксическая информация…информация…

Page 11: 06 автоматические ответы на вопросы

Генерация запросаГенерация запроса Два подхода:Два подхода:

Извлечение (из вопроса) ключевых слов Извлечение (из вопроса) ключевых слов – – What country What country borders Spainborders Spain to the to the northnorth?? Построение шаблона ответаПостроение шаблона ответа – – X borders Spain to the north X borders Spain to the north –– X is the country that shares its northern border X is the country that shares its northern border

with Spain with Spain –– The northern border of Spain is XThe northern border of Spain is X–– большая правильность в генерации текста не большая правильность в генерации текста не

нужна, поскольку поисковые алгоритмы, как нужна, поскольку поисковые алгоритмы, как правило, используют очень простые модели (правило, используют очень простые модели (bag bag of words)of words)

Очень распространен гибридный подходОчень распространен гибридный подход

Page 12: 06 автоматические ответы на вопросы

СодержаниеСодержание

1.1. Анализ вопросаАнализ вопроса

2.2. Поиск релевантных фрагментов Поиск релевантных фрагментов текстатекста

3.3. Извлечение ответаИзвлечение ответа

4.4. Оценка Оценка

Page 13: 06 автоматические ответы на вопросы

Поиск фрагментов Поиск фрагментов текстатекста

Информационный поиск на основе Информационный поиск на основе сформулированных ранее запросовсформулированных ранее запросов

Ранжирование (применительно к Ранжирование (применительно к задаче):задаче): количество именованных сущностей, количество именованных сущностей,

соответствующих типу запросасоответствующих типу запроса количество ключевых слов из вопросаколичество ключевых слов из вопроса длинна максимальной цепочки слов, длинна максимальной цепочки слов,

совпадающей в вопросе и документесовпадающей в вопросе и документе ранг документаранг документа

Page 14: 06 автоматические ответы на вопросы

СодержаниеСодержание

1.1. Анализ вопросаАнализ вопроса

2.2. Поиск релевантных фрагментов Поиск релевантных фрагментов текстатекста

3.3. Извлечение ответаИзвлечение ответа

4.4. Оценка Оценка

Page 15: 06 автоматические ответы на вопросы

Извлечение ответовИзвлечение ответов На этом этапе уже имеется набор На этом этапе уже имеется набор

релевантных текстоврелевантных текстов Из текстов извлекаются ответы-Из текстов извлекаются ответы-

кандидаты (например, с помощью кандидаты (например, с помощью технологии технологии Named entity Recognition)Named entity Recognition)

Затем ответы-кандидаты Затем ответы-кандидаты ранжируются:ранжируются: по близости кандидата к вопросупо близости кандидата к вопросу по частоте кандидата в релевантных по частоте кандидата в релевантных

текстахтекстах по соответствию шаблонупо соответствию шаблону

Page 16: 06 автоматические ответы на вопросы

Близость кандидата к Близость кандидата к вопросувопросу

Самый простой метод: число общих словСамый простой метод: число общих слов Привлечение дополнительных ресурсов Привлечение дополнительных ресурсов

(например, (например, WordNetWordNet): число ): число синонимичных словсинонимичных слов

Следующий шаг усложнения: Следующий шаг усложнения: привлечение специальных модулей привлечение специальных модулей обработки перифраза обработки перифраза

Привлечение синтаксической и Привлечение синтаксической и семантической информации – вплоть до семантической информации – вплоть до построения логических формул вопроса и построения логических формул вопроса и ответаответа

Page 17: 06 автоматические ответы на вопросы

Частота кандидатаЧастота кандидата

Простая гипотеза: чем чаще ответ-Простая гипотеза: чем чаще ответ-кандидат встречается в корпусе, кандидат встречается в корпусе, тем он более правильныйтем он более правильный

Развивая эту идею, можно Развивая эту идею, можно использовать разные источники использовать разные источники для более развернутого ответадля более развернутого ответа

Page 18: 06 автоматические ответы на вопросы

Соответствие шаблонуСоответствие шаблону На этапе анализа На этапе анализа

вопроса выбирается вопроса выбирается нужный шаблоннужный шаблон

Шаблонов может Шаблонов может быть несколько, они быть несколько, они могут иметь разный могут иметь разный весвес

Шаблоны могут Шаблоны могут строится вручную строится вручную или с или с использованием использованием машинного обучениямашинного обучения

Вопрос:When was <NAME> born?

Шаблоны для ответа:1.0 <NAME>( <ANSWER> - )0.85 <NAME> was born on

<ANSWER>,0.6 <NAME> was born in

<ANSWER>0.59 <NAME> was born

<ANSWER>0.53 <ANSWER> <NAME> was

born0.50 – <NAME> ( <ANSWER>0.36 <NAME> ( <ANSWER>

Примеры: Mozart (1756 – 1791)Gandi was born in 1869

Page 19: 06 автоматические ответы на вопросы

СодержаниеСодержание

1.1. Анализ вопросаАнализ вопроса

2.2. Поиск релевантных фрагментов Поиск релевантных фрагментов текстатекста

3.3. Извлечение ответаИзвлечение ответа

4.4. ОценкаОценка

Page 20: 06 автоматические ответы на вопросы

TRECTREC Дорожка состоит из 500 вопросов-Дорожка состоит из 500 вопросов-фактоидовфактоидов::

Who is the author of the book, "The Iron Lady: A Biography ofWho is the author of the book, "The Iron Lady: A Biography of Margaret Thatcher"?Margaret Thatcher"?

What was the monetary value of the Nobel Peace Prize in 1989?What was the monetary value of the Nobel Peace Prize in 1989? What does the Peugeot company manufacture?What does the Peugeot company manufacture? How much did Mercury spend on advertising in 1993?How much did Mercury spend on advertising in 1993? What is the name of the rare neurological disease with symptomsWhat is the name of the rare neurological disease with symptoms

such as:such as: involuntary movements (tics), swearing, and incoherent involuntary movements (tics), swearing, and incoherent vocalizations (grunts, shouts, etc.)?vocalizations (grunts, shouts, etc.)?

Первые 3 года системы выдавали 5 Первые 3 года системы выдавали 5 ранжированных фрагментов текста, ранжированных фрагментов текста, содержащих ответ содержащих ответ

С 2002 года требовался уже точный ответ (с С 2002 года требовался уже точный ответ (с мерой надежности)мерой надежности)

Коллекция: Коллекция: ~ 1 ~ 1 млн. документов, 3Гб текстов; млн. документов, 3Гб текстов; некоторые системы дополнительно некоторые системы дополнительно используют Интернет или другие базы знаний используют Интернет или другие базы знаний

Page 21: 06 автоматические ответы на вопросы

РОМИПРОМИП Коллекция BY.WEBКоллекция BY.WEB 10K запросов‐вопросов из лога поисковой 10K запросов‐вопросов из лога поисковой

машинымашины– – gta san andreas как сделать машину призрак?gta san andreas как сделать машину призрак?– – монгольские полевки как ухаживать?монгольские полевки как ухаживать?– – берут ли с экземой в армию?берут ли с экземой в армию?– – перелёт до екатеринбурга от москвы сколько по перелёт до екатеринбурга от москвы сколько по

времени?времени?– – через сколько дней появляются корни у отростка через сколько дней появляются корни у отростка

традесканции?традесканции?– – всем ли девушкам важны деньги?всем ли девушкам важны деньги?– – как заполучить парня своей мечты?как заполучить парня своей мечты?– – где пройдет финал кубка уефа 2009?где пройдет финал кубка уефа 2009?

До 5 ответов системы: docID, краткий До 5 ответов системы: docID, краткий ответ, фрагмент (до 300 символов)ответ, фрагмент (до 300 символов)

http://romip.ru/ru/2010/tracks/qa.htmlhttp://romip.ru/ru/2010/tracks/qa.html

Page 22: 06 автоматические ответы на вопросы

Mean reciprocal rank Mean reciprocal rank (MRR)(MRR)

в тех случаях, когда возможно в тех случаях, когда возможно несколько ранжированных ответов, несколько ранжированных ответов, каждый вопрос оценивается каждый вопрос оценивается обратно позиции на которой обратно позиции на которой встретился первый правильный встретился первый правильный ответ; значение меры усредняется ответ; значение меры усредняется по вопросампо вопросам

NN – – число вопросовчисло вопросов, , rankrankii – – позиция, позиция, на которой встретился первый на которой встретился первый правильный ответ на вопрос правильный ответ на вопрос ii

Page 23: 06 автоматические ответы на вопросы

Confident-weighted scoreConfident-weighted score

Возможен один правильный ответВозможен один правильный ответ используется мера надежности используется мера надежности

(уверенность системы)(уверенность системы) Q -Q - вопросы упорядоченные по вопросы упорядоченные по

уверенности системы, общая уверенности системы, общая оценка:оценка:

Page 24: 06 автоматические ответы на вопросы

ИсточникиИсточники D. Molla-Aliod, J.-L. Vicedo Question Answering// D. Molla-Aliod, J.-L. Vicedo Question Answering//

Handbook of natural language processing, Second Handbook of natural language processing, Second Edition Editor(s): Nitin Indurkhya; Fred J. Damerau, Edition Editor(s): Nitin Indurkhya; Fred J. Damerau, Goshen, Connecticut, USA – 2010 – pp.485 - 510Goshen, Connecticut, USA – 2010 – pp.485 - 510

D. Jurafsky, J. H. Martin Speech and Language D. Jurafsky, J. H. Martin Speech and Language Processing – 2009 – Chapter 23Processing – 2009 – Chapter 23

Павел Браславский Вопросно-ответный поиск в Павел Браславский Вопросно-ответный поиск в Интернете - Интернете - httphttp://://mathlingvo.rumathlingvo.ru//nlpseminarnlpseminar//archivearchive/s_42/s_42

Dan Jurafsky From Languages to Information. Lecture 12: Question Answering - http://www.stanford.edu/class/cs124/

Horacio Saggion Hands-on Natural Language Horacio Saggion Hands-on Natural Language Processing for Information Access Applications Processing for Information Access Applications (NLPIAA) - (NLPIAA) - http://romip.ru/russir2008/program.htmlhttp://romip.ru/russir2008/program.html