dump-2015: «Искусственный искусственный интеллект»...

43
«Искусственный искусственный интеллект» Дмитрий Усталов, ИММ УрО РАН

Upload: it-people

Post on 15-Jul-2015

401 views

Category:

Internet


1 download

TRANSCRIPT

Page 1: DUMP-2015: «Искусственный искусственный интеллект» Дмитрий Усталов, ИММ УрО РАН

«Искусственныйискусственный

интеллект»

Дмитрий Усталов, ИММ УрО РАН

Page 2: DUMP-2015: «Искусственный искусственный интеллект» Дмитрий Усталов, ИММ УрО РАН

2

Что?!

Page 3: DUMP-2015: «Искусственный искусственный интеллект» Дмитрий Усталов, ИММ УрО РАН

3

● Введение.● Процесс краудсорсинга.● Генерация заданий и пример OpenCorpora.● Работа участников и пример Yet Another RussNet.● Обработка ответов и пример NLPub.● Заключение.

План доклада

Page 4: DUMP-2015: «Искусственный искусственный интеллект» Дмитрий Усталов, ИММ УрО РАН

4

Введение

● Краудсорсинг — способ получения услуг, идей и информации путём соучастия большого количества людей в Интернете.– Впервые термин употреблён в 2006 году.

– Определений очень много.

● Признаки: толпа, заказчик, задача, платформа(Hosseini et al., 2014).

● Ранние примеры:– iStockphoto (2000), Wikipedia (2001), Amazon Mechanical Turk (2005).

Page 5: DUMP-2015: «Искусственный искусственный интеллект» Дмитрий Усталов, ИММ УрО РАН

5

Асессоры «Яндекса»

Отличное качество кадра.

Page 6: DUMP-2015: «Искусственный искусственный интеллект» Дмитрий Усталов, ИММ УрО РАН

6

Жанры и приложения

● Жанры краудсорсинга (Wang et al., 2013):– «Игры с целью» — работа в игровой форме.

– «Механизированный труд» — простые задания за микроплатежи.

– «Мудрость толпы» — коллективное создание ресурса.

● Коммерческий краудсорсинг:– «Витология», Wikivote!, Amazon, etc.

Page 7: DUMP-2015: «Искусственный искусственный интеллект» Дмитрий Усталов, ИММ УрО РАН

7

«Игры с целью»

Page 8: DUMP-2015: «Искусственный искусственный интеллект» Дмитрий Усталов, ИММ УрО РАН

8

«Игры с целью»

Page 9: DUMP-2015: «Искусственный искусственный интеллект» Дмитрий Усталов, ИММ УрО РАН

9

«Игры с целью»

Page 10: DUMP-2015: «Искусственный искусственный интеллект» Дмитрий Усталов, ИММ УрО РАН

10

«Механизированный труд»

Page 11: DUMP-2015: «Искусственный искусственный интеллект» Дмитрий Усталов, ИММ УрО РАН

11

«Мудрость толпы»

Page 12: DUMP-2015: «Искусственный искусственный интеллект» Дмитрий Усталов, ИММ УрО РАН

12

● Введение.● Процесс краудсорсинга.● Генерация заданий и пример OpenCorpora.● Работа участников и пример Yet Another RussNet.● Обработка ответов и пример NLPub.● Заключение.

План доклада

Page 13: DUMP-2015: «Искусственный искусственный интеллект» Дмитрий Усталов, ИММ УрО РАН

13

Процесс краудсорсинга

Page 14: DUMP-2015: «Искусственный искусственный интеллект» Дмитрий Усталов, ИММ УрО РАН

14

Плюсы и минусы

● Дешевле, чем нанимать специалистов.– $368 vs. $2190 (Heer & Bostock, 2010).

● Не все задачи хорошо формализуются.– “Keep it simple, stupid.”

● Необходимость агрегации результата.● Требования к инфраструктуре.● Закон Мёрфи.

Page 15: DUMP-2015: «Искусственный искусственный интеллект» Дмитрий Усталов, ИММ УрО РАН

15

● Введение.● Процесс краудсорсинга.● Генерация заданий и пример OpenCorpora.● Работа участников и пример Yet Another RussNet.● Обработка ответов и пример NLPub.● Заключение.

План доклада

Page 16: DUMP-2015: «Искусственный искусственный интеллект» Дмитрий Усталов, ИММ УрО РАН

16

Генерация заданий

● Задания — в виде закрытых или открытых вопросов.● Лучше выдавать несколько раз.● Много стратегий назначения:

– случаное назначение,

– назначение с учётом сложности заданий,

– назначение с учётом профилей пользователей.

● Делайте задания максимально понятными.

Page 17: DUMP-2015: «Искусственный искусственный интеллект» Дмитрий Усталов, ИММ УрО РАН

17

● Введение.● Процесс краудсорсинга.● Генерация заданий и пример OpenCorpora.● Работа участников и пример Yet Another RussNet.● Обработка ответов и пример NLPub.● Заключение.

План доклада

Page 18: DUMP-2015: «Искусственный искусственный интеллект» Дмитрий Усталов, ИММ УрО РАН

18

Пример: OpenCorpora

● OpenCorpora — корпус русского языка, создаваемый при помощи краудсорсинга.– Жанр: механизированный труд.

– http://opencorpora.org/

● Разметка: морфология, именованные сущности.● Любой желающий может прийти и помочь.● Задания группируются в пулы.

Page 19: DUMP-2015: «Искусственный искусственный интеллект» Дмитрий Усталов, ИММ УрО РАН

19

Пример: OpenCorpora

(Bocharov et al., 2013)

Page 20: DUMP-2015: «Искусственный искусственный интеллект» Дмитрий Усталов, ИММ УрО РАН

20

Пример: OpenCorpora

● Каждое предложение размечается несколькими участниками.● Пул закрывается, когда каждое предложение размечено

нужное количество раз.● Результат вычитывается модератором.● Насколько это хорошо?

Page 21: DUMP-2015: «Искусственный искусственный интеллект» Дмитрий Усталов, ИММ УрО РАН

21

Пример: OpenCorpora

● Хорошо, раз проект продолжает жить.● Теперь представим, что пул содержит 300 предложений, а

после работы участников осталась пара неразмеченных.– Выходит тупик.

● Как выйти из положения?

Page 22: DUMP-2015: «Искусственный искусственный интеллект» Дмитрий Усталов, ИММ УрО РАН

22

Пример: OpenCorpora

● Во-первых, фокусировать внимание пользователей при помощи интерфейса.– «Не заставляйте меня думать.»

● Во-вторых, использовать рекомендательные системы для заданий.– Вместо рекомендации товаров — задания

(Yuen et al., 2014).

Page 23: DUMP-2015: «Искусственный искусственный интеллект» Дмитрий Усталов, ИММ УрО РАН

23

● Введение.● Процесс краудсорсинга.● Генерация заданий и пример OpenCorpora.● Работа участников и пример Yet Another RussNet.● Обработка ответов и пример NLPub.● Заключение.

План доклада

Page 24: DUMP-2015: «Искусственный искусственный интеллект» Дмитрий Усталов, ИММ УрО РАН

24

Работа участников

● Краудсорсинг — это бизнес.● Бизнес — это деньги.● Деньги привлекают разных людей.

– В том числе плохих людей.

● Мошенники и спамеры — плохие люди.– Надо их искать (и наказывать).

Page 25: DUMP-2015: «Искусственный искусственный интеллект» Дмитрий Усталов, ИММ УрО РАН

25

Работа участников

● Спам в краудсорсинге — это случайные ответы на оплачиваемые задания. Это не единственная проблема.

● Распределение участников MTurk:– добросовестные участники: 55 %,

– случайные спамеры: 21 %,

– почти случайные спамеры: 9 %,

– однородные спамеры: 9 %,

– неаккуратные участники: 6 %.

Page 26: DUMP-2015: «Искусственный искусственный интеллект» Дмитрий Усталов, ИММ УрО РАН

26

● Введение.● Процесс краудсорсинга.● Генерация заданий и пример OpenCorpora.● Работа участников и пример Yet Another RussNet.● Обработка ответов и пример NLPub.● Заключение.

План доклада

Page 27: DUMP-2015: «Искусственный искусственный интеллект» Дмитрий Усталов, ИММ УрО РАН

27

Пример: Yet Another RussNet

● Yet Another RussNet — тезаурус русского языка, создаваемый при помощи краудсорсинга.– Жанр: мудрость толпы.

– http://russianword.net/

● Разметка: сборка синсетов из слов.● Веб-интерфейс для людей с некоторым языковым кругозором.

Page 28: DUMP-2015: «Искусственный искусственный интеллект» Дмитрий Усталов, ИММ УрО РАН

28

Пример: Yet Another RussNet

(Braslavski et al., 2014)

Page 29: DUMP-2015: «Искусственный искусственный интеллект» Дмитрий Усталов, ИММ УрО РАН

29

Пример: Yet Another RussNet

● Немотивированные студенты создавали синсеты для понятий, которые уже есть.

● Это плохо.

Page 30: DUMP-2015: «Искусственный искусственный интеллект» Дмитрий Усталов, ИММ УрО РАН

30

Пример: Yet Another RussNet

● Вспомним про закон Мёрфи.● Единственное, что можно сделать — отказаться от текущего

жанра и упростить процесс.● Теперь данный интерфейс ориентирован на редакторов.● Обычные участники получат простой и «однокнопочный»

интерфейс.

Page 31: DUMP-2015: «Искусственный искусственный интеллект» Дмитрий Усталов, ИММ УрО РАН

31

● Введение.● Процесс краудсорсинга.● Генерация заданий и пример OpenCorpora.● Работа участников и пример Yet Another RussNet.● Обработка ответов и пример NLPub.● Заключение.

План доклада

Page 32: DUMP-2015: «Искусственный искусственный интеллект» Дмитрий Усталов, ИММ УрО РАН

32

Обработка ответов

● Цените время участников, и они будут рады помочь.● Допустим, получено много ответов на выполненные задания.● Как агрегировать эти данные?● Как оценить согласованность ответов?

Page 33: DUMP-2015: «Искусственный искусственный интеллект» Дмитрий Усталов, ИММ УрО РАН

33

Обработка ответов

● Выбор ответов: голос большинства.– Это же очевидно!

– ...но на небольшом количестве ответов сложные модели бесполезны (Karger et al., 2014).

● Согласованность ответов:– каппа Флейсса (нет пропусков, шкала наименований),

– альфа Криппендорфа (с пропусками, любая шкала).

● Любите язык программирования R!

Page 34: DUMP-2015: «Искусственный искусственный интеллект» Дмитрий Усталов, ИММ УрО РАН

34

● Введение.● Процесс краудсорсинга.● Генерация заданий и пример OpenCorpora.● Работа участников и пример Yet Another RussNet.● Обработка ответов и пример NLPub.● Заключение.

План доклада

Page 35: DUMP-2015: «Искусственный искусственный интеллект» Дмитрий Усталов, ИММ УрО РАН

35

Пример: NLPub (RUSSE)

● RUSSE — первое соревнование русскоязычных систем оценки семантической близости слов.

● Один из наборов данных — краудсорсинг.– Жанр: механизированный труд.

– http://russe.nlpub.ru/

● Разметка: семантическая близость пар слов.– 398 пар слов, получено 4200 ответов.

Page 36: DUMP-2015: «Искусственный искусственный интеллект» Дмитрий Усталов, ИММ УрО РАН

36

Пример: NLPub (RUSSE)

(Panchenko et al., TBA)

Page 37: DUMP-2015: «Искусственный искусственный интеллект» Дмитрий Усталов, ИММ УрО РАН

37

Пример: NLPub (RUSSE)

● Участник получал 15 пар в «случайном» порядке.– Сначала сортировались с учётом количества ответов.

Затем — с учётом стандартного отклонения.

● Для некоторых пар стандартное отклонение не убывало с течением времени.

Page 38: DUMP-2015: «Искусственный искусственный интеллект» Дмитрий Усталов, ИММ УрО РАН

38

Пример: NLPub (RUSSE)

Что из этого — задание здорового человека,а что — задание курильщика?

Page 39: DUMP-2015: «Искусственный искусственный интеллект» Дмитрий Усталов, ИММ УрО РАН

39

Пример: NLPub (RUSSE)

● Значение = 0,49α (хорошая согласованность).● На данных краудсорсинга выиграл word2vec.

– Лучший результат: 0,76 (средняя точность).

– На других наборах данных — около 0,98.

● Постоянно следите за ответами участников.● Помните про согласованность и однозначность ответов!

Page 40: DUMP-2015: «Искусственный искусственный интеллект» Дмитрий Усталов, ИММ УрО РАН

40

● Введение.● Процесс краудсорсинга.● Генерация заданий и пример OpenCorpora.● Работа участников и пример Yet Another RussNet.● Обработка ответов и пример NLPub.● Заключение.

План доклада

Page 41: DUMP-2015: «Искусственный искусственный интеллект» Дмитрий Усталов, ИММ УрО РАН

41

Открытые проблемы

● Динамическое управление процессом.● Анализ экономической эффективности.● Оценка квалификации участников.● Оценка сложности заданий.● Обнаружение спама.

Page 42: DUMP-2015: «Искусственный искусственный интеллект» Дмитрий Усталов, ИММ УрО РАН

42

Заключение

● Краудсорсинг является недорогим и эффективнымспособом сбора данных.– Серебряной пули не существует.

● Не заставляйте людей думать и уважайте их время!– Помните про закон Мёрфи.

● Участвуйте в краудсорсинге и сами!

Page 43: DUMP-2015: «Искусственный искусственный интеллект» Дмитрий Усталов, ИММ УрО РАН

43

Спасибо за внимание!

● Дмитрий Усталов, ИММ УрО РАН. – https://ustalov.name/

[email protected]

Автор благодарит Фонд Михаила Прохорова,Российский гуманитарный научный фонд,а также Microsoft Research.