Воспроизводимая наука о данных. Инструменты...

17
1

Upload: cs-center

Post on 14-Apr-2017

180 views

Category:

Documents


3 download

TRANSCRIPT

Page 1: Воспроизводимая наука о данных. Инструменты воспроизводимых исследований, весна 2016: Введение. Из чего

1

Андрей Устюжанин, Никита Казеев, 16.04.2016

ХРАНЕНИЕ ДАНЫХВОСПРОИЗВОДИМОГО

ЭКСПЕРИМЕНТА[email protected]

Page 2: Воспроизводимая наука о данных. Инструменты воспроизводимых исследований, весна 2016: Введение. Из чего

2 . 1

1 ПРО СЛОЖНОСТЬ НАУКИ(ДРУГОЙ ВЗГЛЯД)

Сложность растёт. В XIX учёный знал всё, сейчас этоневозможно.Потребность в неквалифицированном труде падает.Междисциплинарная коллаборация.А для коллаборации необходима воспроизводимость.

Page 3: Воспроизводимая наука о данных. Инструменты воспроизводимых исследований, весна 2016: Введение. Из чего

3 . 14 . 1

3 ВВЕДЕНИЕБез данных исследование не может быть(вос)произведено.Изменяемые (mutable) данные качественно затрудняютвоспроизведение

Page 4: Воспроизводимая наука о данных. Инструменты воспроизводимых исследований, весна 2016: Введение. Из чего

5 . 1

4 ДАННЫЕ ПОМЕЩАЮТСЯВ RAM

Не проблемаФайл на облачном диске, web-сервере, и т.д.Версионирование?

Page 5: Воспроизводимая наука о данных. Инструменты воспроизводимых исследований, весна 2016: Введение. Из чего

5 . 2

4.1 ФОРМАТ.csv.gz, .json.gz: кросс-платформенные, гибкие,интерпретируемые, медленныеHDF5, ROOT: бинарные, кросс-платформенныеФормат Вашего инструмента. Если Вы уверенны, чтосможете прочесть его в будущих версиях - особенноактуально для закрытых (proprietary) форматов.

Page 6: Воспроизводимая наука о данных. Инструменты воспроизводимых исследований, весна 2016: Введение. Из чего

5 . 3

4.2 GIT LARGE FILE STORAGEВерсионирование больших файловПрозрачная интеграция с git без существенногоувеличения размера репозиторияКод клиента и сервера

в репозитории курсаоткрыт

Пример

Page 7: Воспроизводимая наука о данных. Инструменты воспроизводимых исследований, весна 2016: Введение. Из чего

6 . 1

5 ДАННЫЕ НЕПОМЕЩАЮТСЯ В RAM

"Big Data", "NoSQL"Распределённые системыГоризонтальная масштабируемостьУстойчивость к отказу оборудованияВыбор зависит от задачи

Page 8: Воспроизводимая наука о данных. Инструменты воспроизводимых исследований, весна 2016: Введение. Из чего

6 . 2

5.1 HADOOPМасштабируемСтар и отлаженУстойчив к сбоямOpen SourceЗаточен под парадигму MapReduce

Page 9: Воспроизводимая наука о данных. Инструменты воспроизводимых исследований, весна 2016: Введение. Из чего

6 . 3

5.2 OTHER NOSQLВыбор зависит от задачи. Предмет для отдельного курса.Общий принцип - чем проще операции, тем быстрее инадёжнее системаRedis, HBase, Cassandra, Elastic, …

Page 10: Воспроизводимая наука о данных. Инструменты воспроизводимых исследований, весна 2016: Введение. Из чего

6 . 4

5.3 CERN GRID30 Пб в год170 дата-центров, 42 страны

Page 11: Воспроизводимая наука о данных. Инструменты воспроизводимых исследований, весна 2016: Введение. Из чего

6 . 5

5.4 УРОКИ ИЗ ЦЕРНАДанные можно фильтровать. ЦЕРН выбрасывает 99.99%.Обработка должна быть возможно более параллельной. ВЦЕРНе алгоритмы применяются к большому количествунезависимых объектов одной природы. В результатевозможно географическая распределённость.Локальность. Стоит обрабатывать данные там же, где онихранятся.

Page 12: Воспроизводимая наука о данных. Инструменты воспроизводимых исследований, весна 2016: Введение. Из чего

7 . 1

6 ДОЛГОВРЕМЕННОЕХРАНЕНИЕ

Магнитные лентыНе обязательно у себя - Amazon Glacier

Page 13: Воспроизводимая наука о данных. Инструменты воспроизводимых исследований, весна 2016: Введение. Из чего

8 . 1

7 ПУБЛИКАЦИЯ ДАННЫХНеобходима, чтобы другие могли ими воспользоваться.Будут ли они доступны через 30 лет?Будет ли их просто найти?Будет ли у пользователей простой способ сослаться наисточник?

Page 14: Воспроизводимая наука о данных. Инструменты воспроизводимых исследований, весна 2016: Введение. Из чего

8 . 2

7.1 МНОГО АНАЛОГИЧНЫХПОРТАЛОВ

https://data.mendeley.com/https://www.dataone.org/http://www.openml.org/https://zenodo.org/

Page 15: Воспроизводимая наука о данных. Инструменты воспроизводимых исследований, весна 2016: Введение. Из чего

8 . 3

7.2 ПОРТАЛЫ С ОТКРЫТЫМИДАННЫМИ

- мощный API, идеально дляmeta learning

- спутниковые фотографии - сообщество, реальные задачи с

решениями - физика частиц

http://www.openml.org/

https://scihub.copernicus.eu/https://kaggle.com/

http://opendata.cern.ch/Их много

Page 16: Воспроизводимая наука о данных. Инструменты воспроизводимых исследований, весна 2016: Введение. Из чего

9 . 1

8 BACKUP

Page 17: Воспроизводимая наука о данных. Инструменты воспроизводимых исследований, весна 2016: Введение. Из чего

9 . 2

8.1 ЛИЦЕНЗИИ ДЛЯ ПУБЛИКАЦИИДАННЫХ

Если хочется усложнить жизнь пользователям - делайтесвою.Public domain - отказ от всех ограничений, есть не во всехстранах.Creative commons. Можно использовать, надо сослатьсяна источник. Есть варианты. Допустимо ли коммерческоеиспользование? Разрешены ли производныепроизведения, должны ли они распространяться под тойже лицензией?