Использование программ import io и openrefine
TRANSCRIPT
OPEN DATA WORKSHOPСкрепинг данных с сайтов гос. органов с помощью import.io и обработка в Open Refine для активистов и журналистов
Виталий ВласовОльга Пархимович
ПРОБЛЕМЫ ПРИ РАБОТЕ С ДАННЫМИ
• Не в машиночитаемом формате (html, doc, pdf)
• «Грязные» данные: не нормализированные данные (одни и те же данные записаны в разной форме) и пр.
• Отсутствие геокоординат (или разные системы) в датасетах с адресами
• Отсутствие технической поддержки
• Несвоевременное обновление данных
• Недостаточный уровень детализации данных
• Отсутствие актуальных наборов данных
• Использование латиницы вместо кириллицы
IMPORT.IO
• http://import.io - сервис для скрепинга данных
• http://zakupki.okmot.kg/pub/PublicOrder.action
ФУНКЦИИ OPEN REFINE- Преобразование данных к нужному формату- Предварительная обработка. Нахождение ошибок и опечаток- Получение представления о массиве данных
Установка:
1. Скачать OpenRefine: http://openrefine.org/2. Запустить установщик3. Открыть браузер и перейти по ссылке: http://127.0.0.1:3333
ЗАГРУЗКА МАССИВА ДАННЫХ
Создаем новый проект
Загрузка исходного массива
Настройка импорта файла. Выбор типа файла
Изменение имени проекта
Настройка кодировки
Настройка кодировки
Настройка дополнительных параметров
ПРЕДВАРИТЕЛЬНАЯ ОЧИСТКА ДАННЫХ
количество строк в файле
количество отображаемых строк
название столбца
Основные элементы страницы
Изменение наименований столбцов
- закупающая организация
- наименование закупки
- планируемая сумма- количество лотов- метод закупки- дата публикации- срок подачи заявок- статус
Удаление столбцов
Преобразование в числовой формат
Удаление пробелов: value.replace(" ", "")
Разделение колонок на две
Преобразование в формат дат
Фасеты
ИЗУЧЕНИЕ ДАННЫХ
Использование фасетов для изучения встречающихся значений
Текстовые фасеты
Использование фасетов для изучения встречающихся значений
Временные фасеты
Использование фасетов для изучения встречающихся значений
Числовые фасеты
Использование кластеризации