Воспроизводимая наука о данных. Инструменты...

Post on 12-Apr-2017

288 Views

Category:

Documents

1 Downloads

Preview:

Click to see full reader

TRANSCRIPT

1

Андрей Устюжанин, Никита Казеев, 16.04.2016

ХРАНЕНИЕ ДАНЫХВОСПРОИЗВОДИМОГО

ЭКСПЕРИМЕНТАkazeevn@yandex-team.ru

2 . 1

1 ПРО СЛОЖНОСТЬ НАУКИ(ДРУГОЙ ВЗГЛЯД)

Сложность растёт. В XIX учёный знал всё, сейчас этоневозможно.Потребность в неквалифицированном труде падает.Междисциплинарная коллаборация.А для коллаборации необходима воспроизводимость.

3 . 1

4 . 1

3 ВВЕДЕНИЕБез данных исследование не может быть(вос)произведено.Изменяемые (mutable) данные качественно затрудняютвоспроизведение

5 . 1

4 ДАННЫЕ ПОМЕЩАЮТСЯВ RAM

Не проблемаФайл на облачном диске, web-сервере, и т.д.Версионирование?

5 . 2

4.1 ФОРМАТ.csv.gz, .json.gz: кросс-платформенные, гибкие,интерпретируемые, медленныеHDF5, ROOT: бинарные, кросс-платформенныеФормат Вашего инструмента. Если Вы уверенны, чтосможете прочесть его в будущих версиях - особенноактуально для закрытых (proprietary) форматов.

5 . 3

4.2 GIT LARGE FILE STORAGEВерсионирование больших файловПрозрачная интеграция с git без существенногоувеличения размера репозиторияКод клиента и сервера

в репозитории курсаоткрыт

Пример

6 . 1

5 ДАННЫЕ НЕПОМЕЩАЮТСЯ В RAM

"Big Data", "NoSQL"Распределённые системыГоризонтальная масштабируемостьУстойчивость к отказу оборудованияВыбор зависит от задачи

6 . 2

5.1 HADOOPМасштабируемСтар и отлаженУстойчив к сбоямOpen SourceЗаточен под парадигму MapReduce

6 . 3

5.2 OTHER NOSQLВыбор зависит от задачи. Предмет для отдельного курса.Общий принцип - чем проще операции, тем быстрее инадёжнее системаRedis, HBase, Cassandra, Elastic, …

6 . 4

5.3 CERN GRID30 Пб в год170 дата-центров, 42 страны

6 . 5

5.4 УРОКИ ИЗ ЦЕРНАДанные можно фильтровать. ЦЕРН выбрасывает 99.99%.Обработка должна быть возможно более параллельной. ВЦЕРНе алгоритмы применяются к большому количествунезависимых объектов одной природы. В результатевозможно географическая распределённость.Локальность. Стоит обрабатывать данные там же, где онихранятся.

7 . 1

6 ДОЛГОВРЕМЕННОЕХРАНЕНИЕ

Магнитные лентыНе обязательно у себя - Amazon Glacier

8 . 1

7 ПУБЛИКАЦИЯ ДАННЫХНеобходима, чтобы другие могли ими воспользоваться.Будут ли они доступны через 30 лет?Будет ли их просто найти?Будет ли у пользователей простой способ сослаться наисточник?

8 . 2

7.1 МНОГО АНАЛОГИЧНЫХПОРТАЛОВ

https://data.mendeley.com/https://www.dataone.org/http://www.openml.org/https://zenodo.org/

8 . 3

7.2 ПОРТАЛЫ С ОТКРЫТЫМИДАННЫМИ

- мощный API, идеально дляmeta learning

- спутниковые фотографии - сообщество, реальные задачи с

решениями - физика частиц

http://www.openml.org/

https://scihub.copernicus.eu/https://kaggle.com/

http://opendata.cern.ch/Их много

9 . 1

8 BACKUP

9 . 2

8.1 ЛИЦЕНЗИИ ДЛЯ ПУБЛИКАЦИИДАННЫХ

Если хочется усложнить жизнь пользователям - делайтесвою.Public domain - отказ от всех ограничений, есть не во всехстранах.Creative commons. Можно использовать, надо сослатьсяна источник. Есть варианты. Допустимо ли коммерческоеиспользование? Разрешены ли производныепроизведения, должны ли они распространяться под тойже лицензией?

top related