Воспроизводимая наука о данных. Инструменты...
TRANSCRIPT
1
Андрей Устюжанин, Никита Казеев, 16.04.2016
ХРАНЕНИЕ ДАНЫХВОСПРОИЗВОДИМОГО
ЭКСПЕРИМЕНТА[email protected]
2 . 1
1 ПРО СЛОЖНОСТЬ НАУКИ(ДРУГОЙ ВЗГЛЯД)
Сложность растёт. В XIX учёный знал всё, сейчас этоневозможно.Потребность в неквалифицированном труде падает.Междисциплинарная коллаборация.А для коллаборации необходима воспроизводимость.
3 . 14 . 1
3 ВВЕДЕНИЕБез данных исследование не может быть(вос)произведено.Изменяемые (mutable) данные качественно затрудняютвоспроизведение
5 . 1
4 ДАННЫЕ ПОМЕЩАЮТСЯВ RAM
Не проблемаФайл на облачном диске, web-сервере, и т.д.Версионирование?
5 . 2
4.1 ФОРМАТ.csv.gz, .json.gz: кросс-платформенные, гибкие,интерпретируемые, медленныеHDF5, ROOT: бинарные, кросс-платформенныеФормат Вашего инструмента. Если Вы уверенны, чтосможете прочесть его в будущих версиях - особенноактуально для закрытых (proprietary) форматов.
5 . 3
4.2 GIT LARGE FILE STORAGEВерсионирование больших файловПрозрачная интеграция с git без существенногоувеличения размера репозиторияКод клиента и сервера
в репозитории курсаоткрыт
Пример
6 . 1
5 ДАННЫЕ НЕПОМЕЩАЮТСЯ В RAM
"Big Data", "NoSQL"Распределённые системыГоризонтальная масштабируемостьУстойчивость к отказу оборудованияВыбор зависит от задачи
6 . 2
5.1 HADOOPМасштабируемСтар и отлаженУстойчив к сбоямOpen SourceЗаточен под парадигму MapReduce
6 . 3
5.2 OTHER NOSQLВыбор зависит от задачи. Предмет для отдельного курса.Общий принцип - чем проще операции, тем быстрее инадёжнее системаRedis, HBase, Cassandra, Elastic, …
6 . 4
5.3 CERN GRID30 Пб в год170 дата-центров, 42 страны
6 . 5
5.4 УРОКИ ИЗ ЦЕРНАДанные можно фильтровать. ЦЕРН выбрасывает 99.99%.Обработка должна быть возможно более параллельной. ВЦЕРНе алгоритмы применяются к большому количествунезависимых объектов одной природы. В результатевозможно географическая распределённость.Локальность. Стоит обрабатывать данные там же, где онихранятся.
7 . 1
6 ДОЛГОВРЕМЕННОЕХРАНЕНИЕ
Магнитные лентыНе обязательно у себя - Amazon Glacier
8 . 1
7 ПУБЛИКАЦИЯ ДАННЫХНеобходима, чтобы другие могли ими воспользоваться.Будут ли они доступны через 30 лет?Будет ли их просто найти?Будет ли у пользователей простой способ сослаться наисточник?
8 . 2
7.1 МНОГО АНАЛОГИЧНЫХПОРТАЛОВ
https://data.mendeley.com/https://www.dataone.org/http://www.openml.org/https://zenodo.org/
8 . 3
7.2 ПОРТАЛЫ С ОТКРЫТЫМИДАННЫМИ
- мощный API, идеально дляmeta learning
- спутниковые фотографии - сообщество, реальные задачи с
решениями - физика частиц
http://www.openml.org/
https://scihub.copernicus.eu/https://kaggle.com/
http://opendata.cern.ch/Их много
9 . 1
8 BACKUP
9 . 2
8.1 ЛИЦЕНЗИИ ДЛЯ ПУБЛИКАЦИИДАННЫХ
Если хочется усложнить жизнь пользователям - делайтесвою.Public domain - отказ от всех ограничений, есть не во всехстранах.Creative commons. Можно использовать, надо сослатьсяна источник. Есть варианты. Допустимо ли коммерческоеиспользование? Разрешены ли производныепроизведения, должны ли они распространяться под тойже лицензией?