Хакатон по открытым данным: анализ паспортов ВАК и...

17
Хакатон исследование использования ОД в науке на примере Анализ паспортов специальностей ВАКа и объектов защиты в диссертациях Сергей Салтыков к.т.н., с.н.с. ИПУ РАН и ИПРАН РАН, экс-доцент НИУ ВШЭ

Upload: sergey-saltykov

Post on 16-Apr-2017

51 views

Category:

Science


2 download

TRANSCRIPT

Page 1: Хакатон по открытым данным: анализ паспортов ВАК и диссертаций средствами поисковиков

Хакатон исследование использования ОД

в науке на примере

Анализ паспортов специальностей ВАКа и объектов

защиты в диссертациях

Сергей Салтыковк.т.н., с.н.с. ИПУ РАН и ИПРАН РАН,

экс-доцент НИУ ВШЭ

Page 2: Хакатон по открытым данным: анализ паспортов ВАК и диссертаций средствами поисковиков

Цели исследования по ОД • Проанализировать, насколько

немашиночитаемые текстовые индексируемые ОД по науке полезны и интерпретируемы

• Продемонстрировать, что полезным переходным шагом к машиночитаемым ОД от плохоиндексируемых (.doc, .pdf) являются индексируемые (.html) ОД.

• Показать, что в структуре гражданского общества, работающего с ОД, минимум два этажа: владеющие программированием и использующие поисковики.

Page 3: Хакатон по открытым данным: анализ паспортов ВАК и диссертаций средствами поисковиков

Для кого результаты исследования

• РАН• МинОбр• ФАНО• Гражданское общество

Page 4: Хакатон по открытым данным: анализ паспортов ВАК и диссертаций средствами поисковиков

Конечный продукт исследования

• Выложенные индексируемые ОД по науке для использования гражданским обществом

• Единая открытая информационная система с распределенным хранилищем, создаваемая РАН, МинОбром, ФАНО.

Page 5: Хакатон по открытым данным: анализ паспортов ВАК и диссертаций средствами поисковиков

Типология открытых данных • Открытые данные с .doc и .pdf• Открытые данные, хорошо

индексируемые поисковиками («Гуглочитаемые» данные)

• Машиночитаемые открытые данные

Page 6: Хакатон по открытым данным: анализ паспортов ВАК и диссертаций средствами поисковиков

Участие общества в работе с ОД

• Работа с машиночитаемыми ОД ИТ-специалистами

• Работа с ОД, индексируемыми поисковиками, без участия ИТ-специалистов

Page 7: Хакатон по открытым данным: анализ паспортов ВАК и диссертаций средствами поисковиков

Преимущества «гуглочитаемого подхода» к Открытым данным

• Не нужны навыки программирования – сможет любой член гражданского общества

• Решает часть проблем компьютерной лингвистики – формы слова, разные части речи, близость ключевых слов друг к другу и, соответственно, ранжирование по этим признакам.

• Соответственно, такой гибкий подход годится и для случаев, когда ключевое слово одна на сотни тысяч страниц, и когда у нас десятки тысяч различных вхождений.

• Позволяет с минимальными затратами создать прототип ИС управления наукой.

Page 8: Хакатон по открытым данным: анализ паспортов ВАК и диссертаций средствами поисковиков

Как ловить псевдонауку в паспортах ВАКа. В стыковке с Википедией

ru.wikipedia.org/wiki/псевдонаука

Inurl:teacode.ru/online/vak

Page 9: Хакатон по открытым данным: анализ паспортов ВАК и диссертаций средствами поисковиков

Как ловить псевдонауку в паспортах ВАКа. В стыковке с Википедией

Page 10: Хакатон по открытым данным: анализ паспортов ВАК и диссертаций средствами поисковиков

Как ловить псевдонауку в паспортах ВАКа

Page 11: Хакатон по открытым данным: анализ паспортов ВАК и диссертаций средствами поисковиков

Как ловить псевдонауку в паспортах ВАКа.

Page 12: Хакатон по открытым данным: анализ паспортов ВАК и диссертаций средствами поисковиков

Как ловить псевдонауку в диссертациях

Page 13: Хакатон по открытым данным: анализ паспортов ВАК и диссертаций средствами поисковиков

Что такое синергетика?

Page 14: Хакатон по открытым данным: анализ паспортов ВАК и диссертаций средствами поисковиков

Что такое кибернетика?

Page 15: Хакатон по открытым данным: анализ паспортов ВАК и диссертаций средствами поисковиков

Дальнейшие горизонты развития ИС

• Если есть «лаборатория синергетики» и/или «лаборатория кибернетики» – это сигнальчик.

• Если в целом институте слишком много «лабораторий синергетики» – это сигнальчик.

• Если НЕ проводятся конференции по синергетике / кибернетике / исследованию операций и т.д. – это тоже сигнальчик. Значит «взаимоопыления» будет мало.

Page 16: Хакатон по открытым данным: анализ паспортов ВАК и диссертаций средствами поисковиков

Выводы• Экспликация видов ОД полезна.• «Гуглочитаемые» данные – это важно. Надо

продумать, какие данные выкладывать текстом, что использовать большие возможности поисковиков. Чтобы информационные системы не дублировали уже имеющийся функционал поисковиков.

• Надо по широковещательным каналам рассказывать о том, как важно обществу без навыков программирования даже наблюдать за ОД и делать выводы.

• Нужна ИС анализа индексируемых ОД по науке, не дублирующая функции поисковиков