Transcript
Page 1: Воспроизводимая наука о данных. Инструменты воспроизводимых исследований, весна 2016: Введение. Из чего

1

Андрей Устюжанин, Никита Казеев, 16.04.2016

ХРАНЕНИЕ ДАНЫХВОСПРОИЗВОДИМОГО

ЭКСПЕРИМЕНТА[email protected]

Page 2: Воспроизводимая наука о данных. Инструменты воспроизводимых исследований, весна 2016: Введение. Из чего

2 . 1

1 ПРО СЛОЖНОСТЬ НАУКИ(ДРУГОЙ ВЗГЛЯД)

Сложность растёт. В XIX учёный знал всё, сейчас этоневозможно.Потребность в неквалифицированном труде падает.Междисциплинарная коллаборация.А для коллаборации необходима воспроизводимость.

Page 3: Воспроизводимая наука о данных. Инструменты воспроизводимых исследований, весна 2016: Введение. Из чего

3 . 1

Page 4: Воспроизводимая наука о данных. Инструменты воспроизводимых исследований, весна 2016: Введение. Из чего

4 . 1

3 ВВЕДЕНИЕБез данных исследование не может быть(вос)произведено.Изменяемые (mutable) данные качественно затрудняютвоспроизведение

Page 5: Воспроизводимая наука о данных. Инструменты воспроизводимых исследований, весна 2016: Введение. Из чего

5 . 1

4 ДАННЫЕ ПОМЕЩАЮТСЯВ RAM

Не проблемаФайл на облачном диске, web-сервере, и т.д.Версионирование?

Page 6: Воспроизводимая наука о данных. Инструменты воспроизводимых исследований, весна 2016: Введение. Из чего

5 . 2

4.1 ФОРМАТ.csv.gz, .json.gz: кросс-платформенные, гибкие,интерпретируемые, медленныеHDF5, ROOT: бинарные, кросс-платформенныеФормат Вашего инструмента. Если Вы уверенны, чтосможете прочесть его в будущих версиях - особенноактуально для закрытых (proprietary) форматов.

Page 7: Воспроизводимая наука о данных. Инструменты воспроизводимых исследований, весна 2016: Введение. Из чего

5 . 3

4.2 GIT LARGE FILE STORAGEВерсионирование больших файловПрозрачная интеграция с git без существенногоувеличения размера репозиторияКод клиента и сервера

в репозитории курсаоткрыт

Пример

Page 8: Воспроизводимая наука о данных. Инструменты воспроизводимых исследований, весна 2016: Введение. Из чего

6 . 1

5 ДАННЫЕ НЕПОМЕЩАЮТСЯ В RAM

"Big Data", "NoSQL"Распределённые системыГоризонтальная масштабируемостьУстойчивость к отказу оборудованияВыбор зависит от задачи

Page 9: Воспроизводимая наука о данных. Инструменты воспроизводимых исследований, весна 2016: Введение. Из чего

6 . 2

5.1 HADOOPМасштабируемСтар и отлаженУстойчив к сбоямOpen SourceЗаточен под парадигму MapReduce

Page 10: Воспроизводимая наука о данных. Инструменты воспроизводимых исследований, весна 2016: Введение. Из чего

6 . 3

5.2 OTHER NOSQLВыбор зависит от задачи. Предмет для отдельного курса.Общий принцип - чем проще операции, тем быстрее инадёжнее системаRedis, HBase, Cassandra, Elastic, …

Page 11: Воспроизводимая наука о данных. Инструменты воспроизводимых исследований, весна 2016: Введение. Из чего

6 . 4

5.3 CERN GRID30 Пб в год170 дата-центров, 42 страны

Page 12: Воспроизводимая наука о данных. Инструменты воспроизводимых исследований, весна 2016: Введение. Из чего

6 . 5

5.4 УРОКИ ИЗ ЦЕРНАДанные можно фильтровать. ЦЕРН выбрасывает 99.99%.Обработка должна быть возможно более параллельной. ВЦЕРНе алгоритмы применяются к большому количествунезависимых объектов одной природы. В результатевозможно географическая распределённость.Локальность. Стоит обрабатывать данные там же, где онихранятся.

Page 13: Воспроизводимая наука о данных. Инструменты воспроизводимых исследований, весна 2016: Введение. Из чего

7 . 1

6 ДОЛГОВРЕМЕННОЕХРАНЕНИЕ

Магнитные лентыНе обязательно у себя - Amazon Glacier

Page 14: Воспроизводимая наука о данных. Инструменты воспроизводимых исследований, весна 2016: Введение. Из чего

8 . 1

7 ПУБЛИКАЦИЯ ДАННЫХНеобходима, чтобы другие могли ими воспользоваться.Будут ли они доступны через 30 лет?Будет ли их просто найти?Будет ли у пользователей простой способ сослаться наисточник?

Page 15: Воспроизводимая наука о данных. Инструменты воспроизводимых исследований, весна 2016: Введение. Из чего

8 . 2

7.1 МНОГО АНАЛОГИЧНЫХПОРТАЛОВ

https://data.mendeley.com/https://www.dataone.org/http://www.openml.org/https://zenodo.org/

Page 16: Воспроизводимая наука о данных. Инструменты воспроизводимых исследований, весна 2016: Введение. Из чего

8 . 3

7.2 ПОРТАЛЫ С ОТКРЫТЫМИДАННЫМИ

- мощный API, идеально дляmeta learning

- спутниковые фотографии - сообщество, реальные задачи с

решениями - физика частиц

http://www.openml.org/

https://scihub.copernicus.eu/https://kaggle.com/

http://opendata.cern.ch/Их много

Page 17: Воспроизводимая наука о данных. Инструменты воспроизводимых исследований, весна 2016: Введение. Из чего

9 . 1

8 BACKUP

Page 18: Воспроизводимая наука о данных. Инструменты воспроизводимых исследований, весна 2016: Введение. Из чего

9 . 2

8.1 ЛИЦЕНЗИИ ДЛЯ ПУБЛИКАЦИИДАННЫХ

Если хочется усложнить жизнь пользователям - делайтесвою.Public domain - отказ от всех ограничений, есть не во всехстранах.Creative commons. Можно использовать, надо сослатьсяна источник. Есть варианты. Допустимо ли коммерческоеиспользование? Разрешены ли производныепроизведения, должны ли они распространяться под тойже лицензией?


Top Related