marek melichar - zkušenosti se systémem archivematica

37
Zkušenosti se systémem Archivematica Možnosti a omezení systému Marek Melichar UVT UK Projekt LTP PILOT Masarykova univerzita V Praze dne 1.12.2015

Upload: ltp-portal-cz

Post on 24-Jan-2017

893 views

Category:

Software


2 download

TRANSCRIPT

Zkušenosti se

systémem

Archivematica Možnosti a omezení systému

Marek Melichar UVT UK

Projekt LTP PILOT

Masarykova univerzita

V Praze dne 1.12.2015

Obsah

●Obecně o dlouhodobé archivaci

●Pragmatický přístup

●Co je a co není Archivematica

●Jak jsme Archivematiku testovali

Obecně o dlouhodobé

archivaci

Aktivistické tenisky

Photo: West Papua independence leader Benny Wenda,

presenting campaign gifts to Mr. Ondrej Liska, Czech

Minister of Education

Co je dlouhodobá archivace

„uchování obsahu pro budoucí použití a

zpřístupnění“ (loc.gov)

Systematická, plánovaná, dokumentovaná činnost, která má

přímé a nepřímé dopady (budování sbírek, legitimizace existence institucí,

smysl instituce, ochrana investic, zákonné požadavky, zvyšování

důvěryhodnosti instituce atd.)

Pro budoucí „uživatele“ (archivář/knihovník/kurátor vs data science expert)

Jak se mluví o dlouhodobé archivaci

Teoretický, terminologický diskurs

Výzkum v oblasti LTP

Archivace v IT kontextu

Praxe a potřeby paměťových institucích

Mýty o dlouhodobé archivaci

•Je to jen konceptuální nebo výzkumná disciplína

•Vyžaduje vysoce odborné a technické znalosti, na to nemáte

staff

•Vyžaduje obrovský rozpočet

•Měly by to řešit národní instituce nebo centrální instituce

•Tohle můžeme odložit, až se bude vědět jak na to, zatím není

řešení

•Stačí to uložit na nějaké trvalé médium (PIQL, UDO disk,

mikrofilm)

•Stačí více kopií na více místech a více technologiích

•Musíme počkat, na velký projekt

•Nejsou zatím dokonalá řešení, nemá smysl se do toho pouštět

Pragmatický přístup

•začni hned, start simple, postupuj po krocích

•začni s tím, co máš, nečekej na velké finance, na

dokonalé řešení…

•koukni se kolem, co je k dispozici

•využij jednoduché nástroje

•rozděl složité úkoly na jednodušší kroky

•uvědom si, že plánování a financování jsou stejně

důležité jako technologie

•hledej partnery, sleduje co se děje v komunitě

•definuj krátkodobé cíle pro dlouhodobou archivaci

Pragmatický přístup Oblasti a úrovně Úroveň nultá

(ukaž data)

Úroveň první

(ochraň data)

Úroveň druhá

(poznej data)

Úroveň třetí (monitoruj data) Úroveň čtvrtá

(oprav data)

Datové úložiště a jeho geografické

umístění

Data jsou někde uložena na nějakých

médiích.

Existují dvě úplné kopie dat, které

nejsou umístěné na stejném místě.

Data z heterogenních nosičů (optické

disky, přenosné harddisky, apod.) je

nutné přenést do datového úložiště.

Ukládají se tři úplné kopie dat.

Alespoň jedna kopie v jiné lokalitě.

Jsou dokumentovány systémy

úložiště dat a úložná média včetně

informací o všem, co je třeba k jejich

použití.

Ukládají se nejméně tři úplné kopie

dat.

Alespoň dvě kopie dat se nacházejí v

lokalitách, které nesdílejí shodný druh

ohrožení (např. přírodních katastrof,

ale znamená to i různý hardware a

filesystém).

Existuje proces sledování zastarávání

úložných systémů a médií.

Ukládají se nejméně tři úplné kopie

dat.

Tři kopie dat se nacházejí každá v

jiné lokalitě, žádné dvě z těchto lokalit

nesdílejí shodný druh ohrožení.

Je vypracován podrobný plán, který

zajistí, že soubory i metadata jsou

uloženy na dostupných médiích nebo

systémech.

Integrita dat a neměnnost souborů Není známa / nelze zkontrolovat. Kontrola integrity souborů probíhá při

převzetí dat, pokud byla data dodána

s kontrolním součtem.

Pokud nejsou kontrolní součty

součástí dodávky dat, jsou při

převzetí dat vytvářeny.

Kontrola integrity u všech přebíraných

dat.

Originální média se blokují proti

zápisu.

Vysoce rizikový obsah prochází

antivirovou kontrolou.

Integrita dat je kontrolována v

pravidelných intervalech.

Udržují se záznamy (logy) o stavu

integrity dat, na požádání lze dodat

audit těchto informací.

Lze detekovat poškozená data.

Všechen obsah prochází antivirovou

kontrolou.

Kontroluje se integrita všech dat v

návaznosti na konkrétní události nebo

aktivity.

Zajistit, že žádná osoba nemá právo

zápisu ke všem kopiím dat.

Informační bezpečnost Není známa. Ví se, kdo má práva čtení,

přesouvání a mazání souborů.

Omezit tato přístupová oprávnění k

jednotlivým souborům.

Přístupová oprávnění k obsahu jsou

zdokumentována.

Jsou uchovávány záznamy (logy)

toho, kdo prováděl jaké akce s jakými

soubory, včetně mazání a akcí

digitální ochrany.

Jsou prováděny audity těchto

záznamů.

Metadata Nějaká metadata lze odvodit z názvů

souborů, jejich atributů a adresářové

struktury.

Existuje přehled obsahu repozitáře a

jeho konkrétního umístění na úložišti.

Je zajištěno zálohování tohoto

seznamu a jeho záloha v jiné lokalitě.

Je zaveden lokální jednoznačný

identifikáto.r

Jsou ukládány administrativní

metadata.

Ukládají se metadata o

transformacích a záznamy událostí.

Ukládají se standardní technická a

popisná metadata.

Ukládají se standardní ochranná

metadata.

Je zaveden globálně jednoznačný

identifikátor.

Formáty souborů Dají se odvodit z přípony souborů. Pokud je to možné ovlivnit,

podporujte používání malé skupiny

dobře známých a otevřených formátů

souborů a kodeků.

Existuje seznam formátů, které jsou

používány.

Monitorují se hrozby zastarávání

formátů.

Provádí se formátové migrace,

emulace a podobné aktivity podle

potřeby.

Práva Je akceptován fakt, že je nutné mít

ujasněny zodpovědnosti za ochranu a

právní vztahy k digitálním objektům,

které mají být předmětem ochrany.

Odpovědnost za ochranu je

vyjasněná - máme právo daná data

trvale uchovávat.

Je známo, co je možné s předmětem

ochrany dělat z hlediska použití a

zpřístupnění.

Existuje oprávnění provádět akce

digitální ochrany (např. migraci do

nových formátů).

Existuje oprávnění vytvářet a

zpřístupňovat odvozené dokumenty

pro definovanou komunitu.

Právo přenést zodpovědnost za

ochranu a práva k obsahu na někoho

jiného.

Pragmatický přístup – OS

•Bit level preservation tools (fixity and hash libraries, monitoring tools,

backup tools, etc)

•Format related tools (Jhove, Droid, Fido, Fits, Jpylyzer, Tikka, etc.)

•Data creation and harvest tools (scanning tools, harvesters, etc.)

•Metadata open standards (Mets, Mods, Premis, Mix, TextMD other) and

tools (parsers etc.)

•Open and community developed standards and best practices (global

or local)

•Community maintained information (formats related information

infrastructure, etc.)

•Community financed research (result in usable tools or standards E-

ARK, Scape, and many other)

Co je a co není

Archivematica

Co je a co není Archivematica

Peter Van Garderen

2001: Artefactual inc.

2005: blog pod archivemati.ca

2007: ICA ATOM

2008: vývoj Archivematicy – vytvoření

požadavků na základě OAIS

Co je a co není Archivematica

Archivematica není repozitář

DCC definice:

Digital Repositories offer a convenient infrastructure through which to store,

manage, re-use and curate digital materials …..overall commitment to the

stewardship of digital materials; this requires not just software and hardware, but

also policies, processes, services, and people, as well as content and metadata

Co je a co není Archivematica

Archivematica nenaplňuje kompletně všechny

funkční entity OAIS….nebo ano?

Co je a co není Archivematica

Archivematica je systém pro:

1. Vytvoření a uložení AIP

2. Vyhledání a získání AIP

3. Jednorázové vytvoření DIPu a

odeslání DIPu

4. Normalizaci souborových

formátů (převod do

preferovaných formátů)

• Má GUI

•Je storage agnostic

•Je použitelná pro jakýkoli typ

digitálního obsahu

Archivematica - silné stránky

Implementace OAIS AIP

BagIt, METS, PREMIS, DC

•Fixity info

•Info o zabalení /bagit version,

datum, payload size atd./

•Logy o průběhu ingestu

•Vlastní ochraňované objekty a

její normalizované deriváty

•Submission documentation

(podrobnější záznam zpracování

v Premis Events)

•METS.xml (DC, PREMIS

obj.agent. events)

Archivematica - silné stránky

Workflow pro příjem - transfer a ingest dat

z jiných systémů nebo manuální

•kontroly vstupujících dat (kompletnosti, fixity)

•antivirové kontroly

•identifikace a validace formátů vstupních dat

•extrakce technických metadat z vložených objektů

•aplikace formátových politik dlouhodobé ochrany (normalizace do

preferovaných formátů) a kontrola výsledku normalizace (opět identifikace a

validace nových souborů atd.)

•doplnění nebo vytvoření popisných metadat

•vytvoření METS kontejnerů a zápis metadat

•zabalení a export do formátu BagIt balíčku AIP

•uložení na předem definovanou storage pro AIP (storage service)

•případně export DIP do externího systému pro zpřístupnění koncovým

uživatelům

Archivematica - silné stránky

Architektura založená na „microservices“

Archivematica - silné stránky

Architektura založená na „microservices“

Archivematica – omezení

Příjem:

•metadata – pouze DC, pouze csv + AR

•nelze vložit Archivematica METS nebo AIP

•automatické doplnění metadat při ingestu z jiného

systému

•collections – absence rozumné metody ingestu do AIC

•vyjádření a kontrola submission agreementu

•identifikace dodavatele a informace o dodání dat

•API pro transfer a ingest – zatím omezené funkce

•konfigurace workflow – lze exportovat xml, nelze uložit

v systému a přiřadit dodavateli s konkrétním ID – oddělení

konfiguračního souboru od nastavení FPR v systému

•1 instance ideálně jako 1 pipeline

Archivematica – omezení

Archivní uložení

• verzování balíků AIP nebo souborů chybí

• vytvoření více kopií

• nelze nastavit periodické kontroly fixity

Zpřístupnění

• externí systém (ICA ATOM, Islandora, atd.)

• export DIP pouze v okamžiku ingestu

• žádné možnosti konverze DIP

• žádná autentizace a vynucování přístupových práv,

• žádné zpřístupnění metadat přes OAI nebo SRU apod.

Archivematica – omezení

Administrace

- návaznost mikroslužeb není jasně popsána

- nelze snadno regulovat citlivost workflow na hybridní

nebo chybné objekty

-udržování více worklfow v jednom systému pro více

institucí může být noční můra

- jednoduché typy rolí uživatelů (admin/non admin)

Správa dat

-AIP lze pouze najít, stáhnout a vymazat

-Základní indexování a vyhledávání

-Zcela chybí reporting

Archivematica – omezení

Jak řešit omezení?

•Využít další systém vedle Archivematicy (DAM systémy)

•Přidat nebo upravit microslužby

•Přidat nebo sponzorovat vývoj dalších funkcí

•Rozšířit standard AIPu o další informace (příklad

submission manifest z ZUSE)

Archivematica – plánování uchovávání

FPR databáze se základními informacemi k formátům z Pronom –

k tomu pravidla a scripty – jaký nástroj se má použít a jaký command

•nelze exportovat celou databázi, neřeší se verzování celé databáze

•chybí pravidla pro řešení problémů s nástroji pro standardní chyby

(invalid page tree node s Jhove pro PDF apod.)

•Jediný způsob realizace ochranné akce je normalizace na vstupu

Archivematica – plánování uchovávání

Jak jsme Archivematiku

testovali

Archivematica – testování

A. Možnosti ingestu

B. Formátové korpusy

C. Ingest dat z CD/DVD

D. Ingest dat z Digitální knihovny fotografií

E. Ingest dat z DSpace

F. Ingest dat ve formátu NDK

Archivematica – testování

A. Možnosti ingestu

•Archivematica Standard

•BagIt (zipped a unzipped)

•DSpace

•DISK Image

•API

Archivematica – testování

B. Formátové korpusy

• Používat FITS a FIDO a moc neexperimentovat

• Lze použít DROID

• Identifikace formátů jen v transferu pokud možno

• Validace formátů – teď jen pomocí Jhove

•Malá citlivost workflow na nevalidní objekty v případě, že to

jsou hybridní soubory, nevalidní soubory - unknown formát je

formát

•Neexistuje logická vazba mezi identifikací formátu a validací

formátu

•DROID, ve výsledných metadatech není uvedeno, jakým

způsobem byl formát identifikován

•Atd.

Archivematica – testování

C. Ingest dat z CD/DVD

•pro každou sbírku odladit workflow a porovnat AIP s vloženými daty

•pro některé typy obsahu nelze použít normalizaci

•před migrací do Archivematicy data z disků přehrát na file systém a

analyzovat jeho obsahu pomocí DROID mimo Archivematicu. Detekovat

ty sbírky, kde mohou nastat potíže.

•ve workflow používat standardní FIDO/FITS

•přidat mikroslužby, které zkontrolují a ohlásí soubory idenfikované

nebo validované jako octet/stream apod

Archivematica – testování

D. Ingest dat z Digitální knihovny fotografií

•větší objemy dat nelze vkládat jako jeden AIP

•je třeba počítat s přípravou a testováním skriptů/programu pro

přípravu dat pro Archivematicu

•k spuštění Transferů lze použít API Archivematicy, nicméně toto není

dobře dokumentované

Transfer typ Standard je poměrně zajímavý a vhodný zejména pro

zdrojové systémy, které nemají standardizovaný výstupní formát

Archivematica – testování

E. Ingest dat z DSpace

F. Ingest dat ve formátu NDK

Co si z toho odnést?

Hledání kreativních řešení

Co stojí především za vylepšení?

•Archivematica není repozitář

•Vylepšení indexování a možností vyhledávání

•Export DIP baličku

•Další vylepšení mechanismů pro řízení vstupu dat –

workflow

•Použitelnost pro komplexnější projekty

•Publikace metadat

•Vynucení přístupových práv a metadata

•Úprava pro možnost použití jako služby

•Podpora dalších typů popisných metadata

•Integrace

•Dokumentace

•API

Děkuji za pozornost!

Marek Melichar

[email protected] Národní archiv

V Praze dne 1.12.2015

DOTAZY?

Odkazy, použité zdroje

BROWN, Adrian. Practical digital preservation: a how-to guide for organizations of any size. 1st ed.

London: Facet, c2013, xvi, 336 s. ISBN 978-1-85604-755-5.

CORRADO, E. M., a H. L. MOULAISON. Digital preservation for libraries, archives, and museums.

Lanham, MA: Rowman & Littlefield, 2014. 270 s. ISBN 0810887126.

KLINDT, M. a AMERHEIM, K. One core preservation system for all your data. No exceptions!, In iPRES

2015, 2-6.11.2015, Chapel Hill, USA.

Owens, Trevor, 2012, NDSA levels of digital preservation: release candidate one, Library of Congress.

http://blogs.loc.gov/digitalpreservation/2012/11/ndsa-levels-of-digital-preservation-release-candidate-

one/

http://bit.ly/ltp-portal

http://digitalpowrr.niu.edu/

https://www.artefactual.com/

http://dsa.cuni.cz/

http://www.digitalpreservation.cz/