opendata practice for global editors hackathon
DESCRIPTION
Open Data practice in RussiaTRANSCRIPT
Открытые и большие данные на практике
Иван Бегтин Директор НП “Информационная культура”
Типовые ситуации в data-‐журналистике
Есть данные -‐ нет идеи
Есть идея – нет данных
Нет ни данных, ни идеи, но сделать надо завтра!
Идеальная ситуация
Это когда есть: ü Идея ü Данные ü Время ü + Технологии
Что делать?
Готовимся заранее: Данные
• Большие данные: знаем где искать, знаем что делать
• Ключевые онлайн API и наборы данных • Screen Scraping • Основные инструменты очистки данных
Как быстро найти данные?
• Спросить: • Quora.com • StackOverclow -‐ http://opendata.stackexchange.com/ • Рассылки OKF, группы в Facebook и тд.
• Каталоги • The Data hub – http://thedatahub.org • Хаб открытых данных – http://hubofdata.ru • Data Catalogs – http://datacatalogs.org/
Wikipedia
Wikipedia
• Wikipedia: • API -‐ http://en.wikipedia.org/w/api.php • Дампы – http://download.wikimedia.org • DBPedia – http://dbpedia.org • Wikidata – http://wikidata.org • FreeBase -‐ http://www.freebase.com/
Основные базы данных онлайн
• Международные: • The Data Hub – http://thedatahub.org • Всемирный банк – http://data.worldbank.org • ООН – http://data.un.org
• Национальные • Хаб открытых данных – http://hubofdata.ru • США – http://data.gov • UK – http://data.gov.uk
Основные способы работы с большими данными • Выкачивать целиком под задачу • Найти и использовать чужое API • Сделать своё API
Web / Screen scraping
Что такое Web/Screen/Data Scraping?
• не ждем данных – собираем их сами • извлекаем их из веб-‐страниц, файлов и печатных документов • переводим неструктуриованное в базы данных
Инструменты
• Программирование • Python + lxml or BeautifulSoup + база данных • Или …любой другой язык программирования
• Платформы: • ScraperWiki.com – тоже Python, но проще
• Abbyy PDFTransformer + Finereader
Технологии
Технологии
• Открытый код • Инструменты визуализации • Обработка данных
Government.github.com
Selection.datavizualisation.ch
Developers.google.com
Tech.yandex.ru
Пример: Российская общественная
инициатива
Сайт РОИ
Как действовать
• Собрать идеи • Написать scraper и посмотреть данные • Посмотреть что сделали другие: • WeThePeople – http://petitions.whitehouse.gov • E-‐Petitions http://petitions.direct.gov.uk
Что есть?
• Анализ данных РОИ и аналогичных проектов – http://habrahabr.ru/company/infoculture/
• Код на Python -‐ https://github.com/ivbeg/apiroi • Дамп базы -‐ http://hubofdata.ru/dataset/roi-‐dump
Вопросы?
Иван Бегтин Email: [email protected] Сайт: http://ivan.begtin.name Facebook: facebook.com/ibegtin twitter.: ibegtin