zkušenosti se systémem archivematica

37
Zkušenosti se systémem Archivematica Možnosti a omezení systému Marek Melichar UVT UK Projekt LTP PILOT Masarykova univerzita V Praze dne 1.12.2015

Upload: dp-blog-cz

Post on 14-Apr-2017

209 views

Category:

Education


1 download

TRANSCRIPT

Page 1: Zkušenosti se systémem Archivematica

Zkušenosti se systémem

ArchivematicaMožnosti a omezení systému

Marek MelicharUVT UK

Projekt LTP PILOTMasarykova

univerzitaV Praze dne 1.12.2015

Page 2: Zkušenosti se systémem Archivematica

Obsah

●Obecně o dlouhodobé archivaci●Pragmatický přístup●Co je a co není Archivematica●Jak jsme Archivematiku testovali

Page 3: Zkušenosti se systémem Archivematica

Obecně o dlouhodobé archivaci

Page 4: Zkušenosti se systémem Archivematica

Aktivistické teniskyPhoto: West Papua independence leader Benny Wenda,

presenting campaign gifts to Mr. Ondrej Liska, Czech Minister of Education

Page 5: Zkušenosti se systémem Archivematica

Co je dlouhodobá archivace

„uchování obsahu pro budoucí použití a zpřístupnění“ (loc.gov)

Systematická, plánovaná, dokumentovaná činnost, která má přímé a nepřímé dopady (budování sbírek, legitimizace existence institucí, smysl instituce, ochrana investic, zákonné požadavky, zvyšování důvěryhodnosti instituce atd.)

Pro budoucí „uživatele“ (archivář/knihovník/kurátor vs data science expert)

Page 6: Zkušenosti se systémem Archivematica

Jak se mluví o dlouhodobé archivaci

Teoretický, terminologick

ý diskursVýzkum v

oblasti LTPArchivace

v IT kontextu

Praxe a potřeby

 paměťových

institucích

Page 7: Zkušenosti se systémem Archivematica

Mýty o dlouhodobé archivaci • Je to jen konceptuální nebo výzkumná disciplína• Vyžaduje vysoce odborné a technické znalosti, na to

nemáte staff• Vyžaduje obrovský rozpočet• Měly by to řešit národní instituce nebo centrální

instituce• Tohle můžeme odložit, až se bude vědět jak na to,

zatím není řešení• Stačí to uložit na nějaké trvalé médium (PIQL, UDO

disk, mikrofilm)• Stačí více kopií na více místech a více technologiích • Musíme počkat, na velký projekt• Nejsou zatím dokonalá řešení, nemá smysl se do toho

pouštět

Page 8: Zkušenosti se systémem Archivematica

Pragmatický přístup • začni hned, start simple, postupuj po krocích• začni s tím, co máš, nečekej na velké

finance, na dokonalé řešení…• koukni se kolem, co je k dispozici• využij jednoduché nástroje• rozděl složité úkoly na jednodušší kroky• uvědom si, že plánování a financování jsou

stejně důležité jako technologie• hledej partnery, sleduje co se děje v komunitě• definuj krátkodobé cíle pro dlouhodobou

archivaci

Page 9: Zkušenosti se systémem Archivematica

Pragmatický přístup Oblasti a úrovně Úroveň nultá

(ukaž data)Úroveň první(ochraň data)

Úroveň druhá(poznej data)

Úroveň třetí (monitoruj data) Úroveň čtvrtá(oprav data)

Datové úložiště a jeho geografické umístění

Data jsou někde uložena na nějakých médiích.

Existují dvě úplné kopie dat, které nejsou umístěné na stejném místě.Data z heterogenních nosičů (optické disky, přenosné harddisky, apod.) je nutné přenést do datového úložiště.

Ukládají se tři úplné kopie dat.Alespoň jedna kopie v jiné lokalitě.Jsou dokumentovány systémy úložiště dat a úložná média včetně informací o všem, co je třeba k jejich použití.   

Ukládají se nejméně tři úplné kopie dat.Alespoň dvě kopie dat se nacházejí v lokalitách, které nesdílejí shodný druh ohrožení (např. přírodních katastrof, ale znamená to i různý hardware a filesystém).Existuje proces sledování zastarávání úložných systémů a médií.

Ukládají se nejméně tři úplné kopie dat.Tři kopie dat se nacházejí každá v jiné lokalitě, žádné dvě z těchto lokalit nesdílejí shodný druh ohrožení.Je vypracován podrobný plán, který zajistí, že soubory i metadata jsou uloženy na dostupných médiích nebo systémech.

Integrita dat a neměnnost souborů Není známa / nelze zkontrolovat. Kontrola integrity souborů probíhá při převzetí dat, pokud byla data dodána s kontrolním součtem.Pokud nejsou kontrolní součty součástí dodávky dat, jsou při převzetí dat vytvářeny.

Kontrola integrity u všech přebíraných dat.Originální média se blokují proti zápisu.Vysoce rizikový obsah prochází antivirovou kontrolou.

Integrita dat je kontrolována v pravidelných intervalech.Udržují se záznamy (logy) o stavu integrity dat, na požádání lze dodat audit těchto informací.Lze detekovat poškozená data.Všechen obsah prochází antivirovou kontrolou.

Kontroluje se integrita všech dat v návaznosti na konkrétní události nebo aktivity.Zajistit, že žádná osoba nemá právo zápisu ke všem kopiím dat.

Informační bezpečnost Není známa. Ví se, kdo má práva čtení, přesouvání a mazání souborů.Omezit tato přístupová oprávnění k jednotlivým souborům.

Přístupová oprávnění k obsahu jsou zdokumentována.

Jsou uchovávány záznamy (logy) toho, kdo prováděl jaké akce s jakými soubory, včetně mazání a akcí digitální ochrany.

Jsou prováděny audity těchto záznamů.

Metadata Nějaká metadata lze odvodit z názvů souborů, jejich atributů a adresářové struktury.

Existuje přehled obsahu repozitáře a jeho konkrétního umístění na úložišti.Je zajištěno zálohování tohoto seznamu a jeho záloha v jiné lokalitě.Je zaveden lokální jednoznačný identifikáto.r

Jsou ukládány administrativní metadata.Ukládají se metadata o transformacích a záznamy událostí.

Ukládají se standardní technická a popisná metadata.

Ukládají se standardní ochranná metadata.Je zaveden globálně jednoznačný identifikátor.

Formáty souborů Dají se odvodit z přípony souborů. Pokud je to možné ovlivnit, podporujte používání malé skupiny dobře známých a otevřených formátů souborů a kodeků.

Existuje seznam formátů, které jsou používány.

Monitorují se hrozby zastarávání formátů.

Provádí se formátové migrace, emulace a podobné aktivity podle potřeby.

Práva Je akceptován fakt, že je nutné mít ujasněny zodpovědnosti za ochranu a právní vztahy k digitálním objektům, které mají být předmětem ochrany.

Odpovědnost za ochranu je vyjasněná - máme právo daná data trvale uchovávat.

Je známo, co je možné s předmětem ochrany dělat z hlediska použití a zpřístupnění.

Existuje oprávnění provádět akce digitální ochrany (např. migraci do nových formátů).

Existuje oprávnění vytvářet a zpřístupňovat odvozené dokumenty pro definovanou komunitu.Právo přenést zodpovědnost za ochranu a práva k obsahu na někoho jiného.

Page 10: Zkušenosti se systémem Archivematica

Pragmatický přístup – OS • Bit level preservation tools (fixity and hash libraries,

monitoring tools, backup tools, etc)• Format related tools (Jhove, Droid, Fido, Fits, Jpylyzer, Tikka,

etc.)• Data creation and harvest tools (scanning tools, harvesters,

etc.)• Metadata open standards (Mets, Mods, Premis, Mix, TextMD

other) and tools (parsers etc.)• Open and community developed standards and best practices

(global or local) • Community maintained information (formats related

information infrastructure, etc.)• Community financed research (result in usable tools or

standards E-ARK, Scape, and many other)

Page 11: Zkušenosti se systémem Archivematica

Co je a co není Archivematica

Page 12: Zkušenosti se systémem Archivematica

Co je a co není Archivematica

Peter Van Garderen

2001: Artefactual inc. 2005: blog pod archivemati.ca2007: ICA ATOM2008: vývoj Archivematicy – vytvoření požadavků na základě OAIS

Page 13: Zkušenosti se systémem Archivematica

Co je a co není Archivematica

Archivematica není repozitář

DCC definice: Digital Repositories offer a convenient infrastructure through which to store, manage, re-use and curate digital materials …..overall commitment to the stewardship of digital materials; this requires not just software and hardware, but also policies, processes, services, and people, as well as content and metadata

Page 14: Zkušenosti se systémem Archivematica

Co je a co není Archivematica

Archivematica nenaplňuje kompletně všechny funkční entity OAIS….nebo ano?

Page 15: Zkušenosti se systémem Archivematica

Co je a co není ArchivematicaArchivematica je systém pro: 1. Vytvoření a uložení AIP2. Vyhledání a získání AIP3. Jednorázové vytvoření DIPu a odeslání DIPu4. Normalizaci souborových formátů (převod do preferovaných formátů)

•  Má GUI • Je storage agnostic• Je použitelná pro jakýkoli

typ digitálního obsahu

Page 16: Zkušenosti se systémem Archivematica

Archivematica - silné stránky Implementace OAIS AIP

BagIt, METS, PREMIS, DC• Fixity info• Info o zabalení /bagit

version, datum, payload size atd./

• Logy o průběhu ingestu• Vlastní ochraňované

objekty a její normalizované deriváty

• Submission documentation (podrobnější záznam zpracování v Premis Events)

• METS.xml (DC, PREMIS obj.agent. events)

Page 17: Zkušenosti se systémem Archivematica

Archivematica - silné stránky Workflow pro příjem - transfer a ingest dat z jiných systémů nebo manuální

• kontroly vstupujících dat (kompletnosti, fixity) • antivirové kontroly• identifikace a validace formátů vstupních dat• extrakce technických metadat z vložených objektů• aplikace formátových politik dlouhodobé ochrany (normalizace

do preferovaných formátů) a kontrola výsledku normalizace (opět identifikace a validace nových souborů atd.)

• doplnění nebo vytvoření popisných metadat• vytvoření METS kontejnerů a zápis metadat• zabalení a export do formátu BagIt balíčku AIP• uložení na předem definovanou storage pro AIP (storage

service) • případně export DIP do externího systému pro zpřístupnění

koncovým uživatelům

Page 18: Zkušenosti se systémem Archivematica

Archivematica - silné stránky Architektura založená na „microservices“

Page 19: Zkušenosti se systémem Archivematica

Archivematica - silné stránky Architektura založená na „microservices“

Page 20: Zkušenosti se systémem Archivematica

Archivematica – omezení Příjem: • metadata – pouze DC, pouze csv + AR • nelze vložit Archivematica METS nebo AIP• automatické doplnění metadat při ingestu

z jiného systému • collections – absence rozumné metody ingestu

do AIC• vyjádření a kontrola submission agreementu • identifikace dodavatele a informace o dodání dat • API pro transfer a ingest – zatím omezené funkce• konfigurace workflow – lze exportovat xml, nelze

uložit v systému a přiřadit dodavateli s konkrétním ID – oddělení konfiguračního souboru od nastavení FPR v systému

• 1 instance ideálně jako 1 pipeline

Page 21: Zkušenosti se systémem Archivematica

Archivematica – omezení Archivní uložení • verzování balíků AIP nebo souborů chybí• vytvoření více kopií • nelze nastavit periodické kontroly fixity

Zpřístupnění• externí systém (ICA ATOM, Islandora, atd.)• export DIP pouze v okamžiku ingestu• žádné možnosti konverze DIP • žádná autentizace a vynucování přístupových

práv, • žádné zpřístupnění metadat přes OAI nebo SRU

apod.

Page 22: Zkušenosti se systémem Archivematica

Archivematica – omezení Administrace- návaznost mikroslužeb není jasně popsána- nelze snadno regulovat citlivost workflow na hybridní nebo chybné objekty- udržování více worklfow v jednom systému pro

více institucí může být noční můra- jednoduché typy rolí uživatelů (admin/non

admin) Správa dat- AIP lze pouze najít, stáhnout a vymazat- Základní indexování a vyhledávání- Zcela chybí reporting

Page 23: Zkušenosti se systémem Archivematica

Archivematica – omezení Jak řešit omezení?

• Využít další systém vedle Archivematicy (DAM systémy)

• Přidat nebo upravit microslužby• Přidat nebo sponzorovat vývoj dalších funkcí• Rozšířit standard AIPu o další informace (příklad

submission manifest z ZUSE)

Page 24: Zkušenosti se systémem Archivematica

Archivematica – plánování uchovávání FPR databáze se základními informacemi k formátům z Pronom – k tomu pravidla a scripty – jaký nástroj se má použít a jaký command

• nelze exportovat celou databázi, neřeší se verzování celé databáze

• chybí pravidla pro řešení problémů s nástroji pro standardní chyby (invalid page tree node s Jhove pro PDF apod.)

• Jediný způsob realizace ochranné akce je normalizace na vstupu

Page 25: Zkušenosti se systémem Archivematica

Archivematica – plánování uchovávání

Page 26: Zkušenosti se systémem Archivematica

Jak jsme Archivematiku testovali

Page 27: Zkušenosti se systémem Archivematica

Archivematica – testování

A. Možnosti ingestuB. Formátové korpusyC. Ingest dat z CD/DVDD. Ingest dat z Digitální knihovny

fotografiíE. Ingest dat z DSpaceF. Ingest dat ve formátu NDK

Page 28: Zkušenosti se systémem Archivematica

Archivematica – testování

A. Možnosti ingestu

• Archivematica Standard• BagIt (zipped a unzipped)• DSpace• DISK Image• API

Page 29: Zkušenosti se systémem Archivematica

Archivematica – testování

B. Formátové korpusy

• Používat FITS a FIDO a moc neexperimentovat• Lze použít DROID• Identifikace formátů jen v transferu pokud možno• Validace formátů – teď jen pomocí Jhove

• Malá citlivost workflow na nevalidní objekty v případě, že to jsou hybridní soubory, nevalidní soubory - unknown formát je formát

• Neexistuje logická vazba mezi identifikací formátu a validací formátu

• DROID, ve výsledných metadatech není uvedeno, jakým způsobem byl formát identifikován

• Atd.

Page 30: Zkušenosti se systémem Archivematica

Archivematica – testování

C. Ingest dat z CD/DVD

• pro každou sbírku odladit workflow a porovnat AIP s vloženými daty

• pro některé typy obsahu nelze použít normalizaci • před migrací do Archivematicy data z disků přehrát na file

systém a analyzovat jeho obsahu pomocí DROID mimo Archivematicu. Detekovat ty sbírky, kde mohou nastat potíže.

• ve workflow používat standardní FIDO/FITS• přidat mikroslužby, které zkontrolují a ohlásí soubory

idenfikované nebo validované jako octet/stream apod

Page 31: Zkušenosti se systémem Archivematica

Archivematica – testování

D. Ingest dat z Digitální knihovny fotografií

• větší objemy dat nelze vkládat jako jeden AIP• je třeba počítat s přípravou a testováním skriptů/programu

pro přípravu dat pro Archivematicu• k spuštění Transferů lze použít API Archivematicy, nicméně

toto není dobře dokumentované

Transfer typ Standard je poměrně zajímavý a vhodný zejména pro zdrojové systémy, které nemají standardizovaný výstupní formát

Page 32: Zkušenosti se systémem Archivematica

Archivematica – testování

E. Ingest dat z DSpaceF. Ingest dat ve formátu NDK

Page 33: Zkušenosti se systémem Archivematica

Co si z toho odnést?

Page 34: Zkušenosti se systémem Archivematica

Hledání kreativních řešení KLINDT, M. a AMERHEIM, K. One core

preservation

system for all

your data. No

exceptions!, In iPRES 2015, 2-

6.11.2015,

Chapel Hill,

USA.

Page 35: Zkušenosti se systémem Archivematica

Co stojí především za vylepšení?• Archivematica není repozitář• Vylepšení indexování a možností vyhledávání • Export DIP baličku • Další vylepšení mechanismů pro řízení vstupu dat

– workflow• Použitelnost pro komplexnější projekty• Publikace metadat• Vynucení přístupových práv a metadata • Úprava pro možnost použití jako služby • Podpora dalších typů popisných metadata • Integrace • Dokumentace• API

Page 36: Zkušenosti se systémem Archivematica

Děkuji za pozornost!

Marek Melichar [email protected]

Národní archiv V Praze dne 1.12.2015

DOTAZY?

Page 37: Zkušenosti se systémem Archivematica

Odkazy, použité zdrojeBROWN, Adrian. Practical digital preservation: a how-to guide for organizations of any size. 1st ed. London: Facet, c2013, xvi, 336 s. ISBN 978-1-85604-755-5.

CORRADO, E. M., a H. L. MOULAISON. Digital preservation for libraries, archives, and museums. Lanham, MA: Rowman & Littlefield, 2014. 270 s. ISBN 0810887126.

KLINDT, M. a AMERHEIM, K. One core preservation system for all your data. No exceptions!, In iPRES 2015,

2-6.11.2015, Chapel Hill, USA.

Owens, Trevor, 2012, NDSA levels of digital preservation: release candidate one, Library of Congress. http://blogs.loc.gov/digitalpreservation/2012/11/ndsa-levels-of-digital-preservation-release-candidate-one/

http://bit.ly/ltp-portalhttp://digitalpowrr.niu.edu/ https://www.artefactual.com/ http://dsa.cuni.cz/http://www.digitalpreservation.cz/