Ist Langzeitarchivierung finanzierbar?
Überlegungen zur Produktion langzeitarchivierbarer Objekte
Ralf Stockmann, Göttinger Digitalisierungszentrum
Langzeitarchivierung – Was kostet es, nichts zu tun?
• Dr. Ross King Austrian Research Centers
• Kosten für (vergebliche) Produktion, Anzahl relevanter Dokumente, Halbwertzeit von Dokumentenformaten
• Für den EU-Raum:
Das Göttinger Digitalisierungszentrum (GDZ)
• Abteilung der Staats- und Universitätsbibliothek Göttingen (SUB)
• Nationales und Internationales Service- und Kompetenzzentrum seit 1997 - zu Beginn gefördert von der Deutschen Forschungsgemeinschaft (DFG)
• Entwicklung eines Produktionsworkflows für große Mengen an Digitalisaten im Printbereich
• Standardisierungsaktivitäten (METS)
• Mehr als 6 Millionen Seiten digitalisiert, über 4 Millionen Seiten online bereitgestellt
• Konzeption, Beratung und Durchführung von Projekten (häufig kooperativ)
• Zielsetzung: Masse UND Klasse
Gliederung
• Ebenen der LZA
• Komponenten und Kostenfaktoren der LZA
• Kostenrechnung
• Empfehlungen
Ebenen der LZA
• Bitstream Preservation (Hardware)– Integrität der Dateien erhalten
• Inhalte im Zugriff halten (Software)– Nutzung/Bedeutung der Datei erhalten– Migration– Emulation
Komponenten und Kostenfaktoren
• Dateiformate
• Produktionswerkzeuge
• Metadaten
• LZA-Management System (für Migration, Emulation)
• Storage (4-fach redundant)
Produktionworkflow (Digitalisierung)
Quality ControlQuality ControlSelection(Bookshelf)Selection
(Bookshelf) ScanningScanningImage
OptimizationProcessing
Image OptimizationProcessing
PDF Rendering, OCR, backup
PDF Rendering, OCR, backup MetadataMetadata Upload,
CMS / DMSUpload,
CMS / DMS
förderungsfähig
Selection(Bookshelf)Selection
(Bookshelf) ProduktionProduktion UploadCMS / DMS
UploadCMS / DMS LZALZA
Kostenfaktoren
Quality ControlQuality ControlScanningScanningImage
OptimizationProcessing
Image OptimizationPro
cessing
PDF Rendering, OCR, backup
PDF Rendering, OCR, backup MetadataMetadata Upload /
LZAUpload /
LZA
Dateiformat JPGTIFF (FAXG4)JPG20003D-Scan
Header
Hardware
Software
Dateiformat JPGTIFF (FAXG4)JPG20003D-Scan
Header
Hardware
Software
Log Log Header
Software
Header
Software
PDF/A
Software
PDF/A
Software
Format
ZVDD-METSEADMuseumDAT
LZA: PREMIS
Format
ZVDD-METSEADMuseumDAT
LZA: PREMIS
Archivobjekt
Ingest
Storage
Updates
Migration
Archivobjekt
Ingest
Storage
Updates
Migration
Kosten entstehen durch…
• Weiche Kosten– Change Management Prozesse– Wechsel des Workflow, Schulungen auf neue
Tools und Verfahren, …
• Harte Kosten– Anschaffungen– Software, Lizenzen– Hardware (Storage, RAID-Systeme)
Kosten Software LZA
• Produktionssysteme– Open Source (Supportkosten)
• Goobi (GDZ)– Kommerziell (Lizenzkosten)
• ZENDpro (MDZ)• Semantics• CCS
– Ziel: ingestfähige LZA Pakete • LZA Systeme
– LOCKSS (open source)– KOPAL (DNB/SUB/IBM)– …
Beispielrechnung Storage
• Lizenzgebühren LZA Software– 40.000 € p.a.– 100 TB LZA-Storage: 25.000 € einmalig
• 4-fach redundant• Tape
• 1TB = 250 €– Platz für 62.000 unkomprimierte TIFF Bilder A5 (16
MB pro Seite)– Kosten GDZ Jahresproduktion (3 Mio Seiten): ca.
20.000 €• Kosten pro Seite: ca. 2 Cent• Ca. 10% der Gesamtkosten
Dienstleistungs-Infrastruktur
• Der Aufbau eigener LZA-Archive ist wenig ratsam
• Dienstleister:– GWDG (KOPAL, DNB, SUB)– Leibnitz RZ (BSB)– Angebote noch nicht im Dauerbetrieb getestet
Werkzeuge für Format-Validierung
JHOVE (JSTOR/Harvard Object Validation Environment)Konformitätsvalidierung für:– AIFF, AIFF-C– ASCII– GIF 87a, 89a– HTML 3.2, 4.0, 4.01, XHTML 1.0, 1.1– JPEG, JFIF, SPIFF, JTIP, JPEG-LS, Exif 2.0, 2.1, 2.2– JPEG 2000 JP2, JPX– PDF 1.0 – 1.6, PDF/X-1, -1a, -2, -3, PDF/A, Tagged PDF, Linearized PDF– TIFF 4.0 – 6.0, Class B, G, P, R, Y, F, RFC 1314, TIFF/EP, TIFF/IT (CT, LW, HC,
MP, BP, BL, FP, and P1, P2), GeoTIFF, TIFF-FX, Exif 2.0, 2.1, 2.2, DNG– UTF-8– WAVE, BWF– XML
http://hul.harvard.edu/jhove/http://www.nationalarchives.gov.uk/pronom/
Empfehlungen
• Vorsicht vor proprietären Formaten
• Formate/Metadaten jetzt umstellen, jeder Tag Verzug führt zu höheren Kosten
• Bitstream Preservation jetzt garantieren (LOCKS, RAID, Verbund)
• LZA Archivsysteme: abwarten bis Marktreif erwiesen und Konsolidierung erreicht
• Auf dem Laufenden bleiben:– www.nestor.sub.uni-goettingen.de
Vielen Dank