Хакатон по открытым данным: анализ паспортов ВАК и...
TRANSCRIPT
Хакатон исследование использования ОД
в науке на примере
Анализ паспортов специальностей ВАКа и объектов
защиты в диссертациях
Сергей Салтыковк.т.н., с.н.с. ИПУ РАН и ИПРАН РАН,
экс-доцент НИУ ВШЭ
Цели исследования по ОД • Проанализировать, насколько
немашиночитаемые текстовые индексируемые ОД по науке полезны и интерпретируемы
• Продемонстрировать, что полезным переходным шагом к машиночитаемым ОД от плохоиндексируемых (.doc, .pdf) являются индексируемые (.html) ОД.
• Показать, что в структуре гражданского общества, работающего с ОД, минимум два этажа: владеющие программированием и использующие поисковики.
Для кого результаты исследования
• РАН• МинОбр• ФАНО• Гражданское общество
Конечный продукт исследования
• Выложенные индексируемые ОД по науке для использования гражданским обществом
• Единая открытая информационная система с распределенным хранилищем, создаваемая РАН, МинОбром, ФАНО.
Типология открытых данных • Открытые данные с .doc и .pdf• Открытые данные, хорошо
индексируемые поисковиками («Гуглочитаемые» данные)
• Машиночитаемые открытые данные
Участие общества в работе с ОД
• Работа с машиночитаемыми ОД ИТ-специалистами
• Работа с ОД, индексируемыми поисковиками, без участия ИТ-специалистов
Преимущества «гуглочитаемого подхода» к Открытым данным
• Не нужны навыки программирования – сможет любой член гражданского общества
• Решает часть проблем компьютерной лингвистики – формы слова, разные части речи, близость ключевых слов друг к другу и, соответственно, ранжирование по этим признакам.
• Соответственно, такой гибкий подход годится и для случаев, когда ключевое слово одна на сотни тысяч страниц, и когда у нас десятки тысяч различных вхождений.
• Позволяет с минимальными затратами создать прототип ИС управления наукой.
Как ловить псевдонауку в паспортах ВАКа. В стыковке с Википедией
ru.wikipedia.org/wiki/псевдонаука
Inurl:teacode.ru/online/vak
Как ловить псевдонауку в паспортах ВАКа. В стыковке с Википедией
Как ловить псевдонауку в паспортах ВАКа
Как ловить псевдонауку в паспортах ВАКа.
Как ловить псевдонауку в диссертациях
Что такое синергетика?
Что такое кибернетика?
Дальнейшие горизонты развития ИС
• Если есть «лаборатория синергетики» и/или «лаборатория кибернетики» – это сигнальчик.
• Если в целом институте слишком много «лабораторий синергетики» – это сигнальчик.
• Если НЕ проводятся конференции по синергетике / кибернетике / исследованию операций и т.д. – это тоже сигнальчик. Значит «взаимоопыления» будет мало.
Выводы• Экспликация видов ОД полезна.• «Гуглочитаемые» данные – это важно. Надо
продумать, какие данные выкладывать текстом, что использовать большие возможности поисковиков. Чтобы информационные системы не дублировали уже имеющийся функционал поисковиков.
• Надо по широковещательным каналам рассказывать о том, как важно обществу без навыков программирования даже наблюдать за ОД и делать выводы.
• Нужна ИС анализа индексируемых ОД по науке, не дублирующая функции поисковиков
[email protected]/sergiustoday