europeana newspapers german infoday - ocr @ ccs
TRANSCRIPT
![Page 1: Europeana Newspapers German infoday - OCR @ CCS](https://reader033.vdocuments.net/reader033/viewer/2022052322/554fc6c4b4c9053d018b4ea9/html5/thumbnails/1.jpg)
28. Februar 2014Seite 1
Content Conversion SpecialistsEuropeana Newspapers Infoday Berlin
Claus GravenhorstDirector Strategic Initiatives
CCSContent Conversion Specialists
europeana newspapersInformation Day, Berlin, 28.2.2014
Optical Layout Recognition (OLR)Generierung und Nutzung von Strukturdaten
Claus Gravenhorst
![Page 2: Europeana Newspapers German infoday - OCR @ CCS](https://reader033.vdocuments.net/reader033/viewer/2022052322/554fc6c4b4c9053d018b4ea9/html5/thumbnails/2.jpg)
28. Februar 2014Seite 2
Content Conversion SpecialistsEuropeana Newspapers Infoday Berlin
Claus GravenhorstDirector Strategic Initiatives
Agenda
� Über CCS
� Allgemeiner OLR-Workflow für Massendigitalisierung
� Layout- und Struktur-Analyse
� ENP OLR Workflow
� Qualitätssicherung
� Output - METS/ALTO package
� Nutzung von Strukturdaten
![Page 3: Europeana Newspapers German infoday - OCR @ CCS](https://reader033.vdocuments.net/reader033/viewer/2022052322/554fc6c4b4c9053d018b4ea9/html5/thumbnails/3.jpg)
28. Februar 2014Seite 3
Content Conversion SpecialistsEuropeana Newspapers Infoday Berlin
Claus GravenhorstDirector Strategic Initiatives
Über CCS
� Als technischer Projektpartner bringt CCS Content Conversion Specialists GmbH (Hamburg) seine Erfahrung und die docWorks-Technologie ein, um übereinen Massendigitalisierungs-Workflow für 2,2 Millionen Zeitungsseiten einenqualitativ hochwertigen, Artikel-strukturierten Content zu generieren.
� Seitenvolumen der 5 Partner:
BNF=1.000 k, NLE=500 k , SUB HH=580 k, NLF=90 k, SBB=10 k
� Verteilter OLR Workflow ermöglicht die Beteiligung der Projektpartner (content provider) am integrierten Qualitätssicherungs-Prozess
� CCS arbeitet auch an der Spezifikation des ENMAP Metadaten-Modells mit
![Page 4: Europeana Newspapers German infoday - OCR @ CCS](https://reader033.vdocuments.net/reader033/viewer/2022052322/554fc6c4b4c9053d018b4ea9/html5/thumbnails/4.jpg)
28. Februar 2014Seite 4
Content Conversion SpecialistsEuropeana Newspapers Infoday Berlin
Claus GravenhorstDirector Strategic Initiatives
Allgemeiner OLR-Workflow für Massendigitalisierung
Re-Scan
Conversion
Imaging
Layout Analysis
OCR
ISR
Reject Condition
Delivery QA random
Final Output
Scanning
Image
Metadata
Database----------------Repository
Automated QA
DocumentUID
BarcodeItem Tracking
Manual QA
• in-house• near-shore• off-shore• multiple locations
Manual QA
• in-house• near-shore
Check inCheck out
Scanner
• Robot-• Book-• Document-• Microfilm-
QA+CorrectionQA+Correcti
onQA +
Correction
Z 39.50Metadata
![Page 5: Europeana Newspapers German infoday - OCR @ CCS](https://reader033.vdocuments.net/reader033/viewer/2022052322/554fc6c4b4c9053d018b4ea9/html5/thumbnails/5.jpg)
28. Februar 2014Seite 5
Content Conversion SpecialistsEuropeana Newspapers Infoday Berlin
Claus GravenhorstDirector Strategic Initiatives
Layout- und Struktur-Analyse
� Layout-Analyse basiert auf „bottom up“-Verfahren
� Regelwerk ermöglicht Erkennung von Wörtern, Textzeilen, Textblöcken, Spalten sowie Klassifikation von Textblöcken, Illustrationen, Werbung, Tabellen und der folgenden Seitentypen:
- title page (Titelseite einer Ausgabe)- content page (Seite die nur Content/Text enthält)- illustration page (Seite mit mindestens einer Illustration)- advertisement page (Seite mit ausschließlich Werbung)
� Struktur-Analyse durch Erkennung/Klassifikation der Überschriften und Gruppierung von Zonen zu Artikeln (inkl. Fortsetzung)
![Page 6: Europeana Newspapers German infoday - OCR @ CCS](https://reader033.vdocuments.net/reader033/viewer/2022052322/554fc6c4b4c9053d018b4ea9/html5/thumbnails/6.jpg)
28. Februar 2014Seite 6
Content Conversion SpecialistsEuropeana Newspapers Infoday Berlin
Claus GravenhorstDirector Strategic Initiatives
ENP OLR Workflow | Konvertierung ohne Scanning
Digital ImageMetadataDelivery
Digital ImageMetadataDelivery
Digital ObjectReturn
Digital ObjectReturn
Inspection / Automatic QAInspection /
Automatic QA
Doc DeliveryDoc Delivery
RejectReject
Conversion facility
Material location
Conversion
MD Recording
optionalPDFMETS/ALTOENMAP
![Page 7: Europeana Newspapers German infoday - OCR @ CCS](https://reader033.vdocuments.net/reader033/viewer/2022052322/554fc6c4b4c9053d018b4ea9/html5/thumbnails/7.jpg)
28. Februar 2014Seite 7
Content Conversion SpecialistsEuropeana Newspapers Infoday Berlin
Claus GravenhorstDirector Strategic Initiatives
Mögliche Konvertierungs-Szenarien
A) Konvertierung in-house
B) Konvertierung off-shore über CCS-Rechenzentrum,finale QS an der Bibliothek über Internet Transfer (remote QS)
C) Konvertierung off-shore bei CCS,finale QS an der Bibliothek über Backup-Lieferung
![Page 8: Europeana Newspapers German infoday - OCR @ CCS](https://reader033.vdocuments.net/reader033/viewer/2022052322/554fc6c4b4c9053d018b4ea9/html5/thumbnails/8.jpg)
28. Februar 2014Seite 8
Content Conversion SpecialistsEuropeana Newspapers Infoday Berlin
Claus GravenhorstDirector Strategic Initiatives
Szenario B | Remote QS an der Bibliothek
Internet
Storage
IN
OUTPOOL
dW Share
Master
OffshoreProcessing
@ CCS
OUTPUT
METS ALTO
Storage
POOL
dW Share
RQA
QA on-site @ Library
INPUT
![Page 9: Europeana Newspapers German infoday - OCR @ CCS](https://reader033.vdocuments.net/reader033/viewer/2022052322/554fc6c4b4c9053d018b4ea9/html5/thumbnails/9.jpg)
28. Februar 2014Seite 9
Content Conversion SpecialistsEuropeana Newspapers Infoday Berlin
Claus GravenhorstDirector Strategic Initiatives
Qualitätssicherung
� @ CCS | Automatisches Tagging/Markup und Basis-Korrektur:
- Artikelüberschriften, Illustrationen, Bilder, Untertitel, Werbung, etc.- Artikel-Segmentierung und Gruppierung der Zonen zu Artikeln (inkl. Fortsetzung)
� @ Content Provider (Bibliothek):
Empfohlen- Zonenerkennung: Korrektur der Block-Klassifikation als „Text“ oder „Illustration“- Artikel Segmentierung: Korrektur der Identifikation von Überschriften, Textblöcken,
Untertiteln- Gruppierung: Korrektur der Gruppierung von Blöcken (Text, Illustration) zu Artikeln- Metadaten: Korrektur von Titel, Ausgabe-Datum und -Nummer
Optional- Seitentypen: Korrektur der Typen- Seitennummern: Korrektur der Seitenreihenfolge- OCR: Textkorrektur für spezifische Zonen (z.B. Überschriften, Untertitel)
![Page 10: Europeana Newspapers German infoday - OCR @ CCS](https://reader033.vdocuments.net/reader033/viewer/2022052322/554fc6c4b4c9053d018b4ea9/html5/thumbnails/10.jpg)
28. Februar 2014Seite 10
Content Conversion SpecialistsEuropeana Newspapers Infoday Berlin
Claus GravenhorstDirector Strategic Initiatives
Output | METS/ALTO package
� METS/ALTO Metadaten-Schemas zur Beschreibung des strukturierten digitalen Objekts
� Eine Zeitungsausgabe wird in eine METS XML Datei konvertiert, die die gesamtephysikalische und logische Struktur beschreibt. Es werden alle Links zu den Image-und verbundenen ALTO/XML-Dateien verwaltet. ALTO basiert auf einemstandardisierten Schema zur Seitenbeschreibung und enthält alle Informationeneiner Seite (Satzspiegel, Ränder, Koordinaten, OCR-Ergebnisse).
� Vorteile des strukturellen Markup‘s:
- besseres Durchsuchen und präzisere Textsuche- besserer Zugriff und Anzeige auf mobilen und Tablet-Geräten- aktive Rolle des Benutzers: manuelle Textkorrektur, Artikelklassifikation,Annotation, persönliche Kollektion, etc.
- automatische Artikel-Klassifizierung und -Gruppierung durch data/text-miningund linguistische Technologien
- Verteilung von Artikeln z.B. über Social Media Plattformen_______________METS = Metadada Encoding and Transmission Standard
ALTO = Analyzed Layout and Text Object
![Page 11: Europeana Newspapers German infoday - OCR @ CCS](https://reader033.vdocuments.net/reader033/viewer/2022052322/554fc6c4b4c9053d018b4ea9/html5/thumbnails/11.jpg)
28. Februar 2014Seite 11
Content Conversion SpecialistsEuropeana Newspapers Infoday Berlin
Claus GravenhorstDirector Strategic Initiatives
Nutzung von Strukturdaten – Recherche & Präsentation
� Recherche über Portale von TEL (Europeana Newspaper Browser) und der Content Provider
� Existierende Präsentationssysteme [Artikel-Struktur]:
- The British Library (The British Newspaper Archive, brightsolid)- Holländische Nationalbibliothek (DDD)- Nationalbibliothek Luxemburg (eLuxemburgensia)- Nationalbibliothek Australien (Trove)- Nationalbibliothek Neuseeland (Papers Past)
� Beispiele von bereits prozessierten ENP-Titeln:
- BNF: L‘Ouest Eclair (1919)- SBB: Deutsches Nachrichtenbüro (1936)- NLE: Livländische Gouvernements-Zeitung (1852)
![Page 12: Europeana Newspapers German infoday - OCR @ CCS](https://reader033.vdocuments.net/reader033/viewer/2022052322/554fc6c4b4c9053d018b4ea9/html5/thumbnails/12.jpg)
28. Februar 2014Seite 12
Content Conversion SpecialistsEuropeana Newspapers Infoday Berlin
Claus GravenhorstDirector Strategic Initiatives
Nutzung von Strukturdaten – SucheRecherche
Textsuche
![Page 13: Europeana Newspapers German infoday - OCR @ CCS](https://reader033.vdocuments.net/reader033/viewer/2022052322/554fc6c4b4c9053d018b4ea9/html5/thumbnails/13.jpg)
28. Februar 2014Seite 13
Content Conversion SpecialistsEuropeana Newspapers Infoday Berlin
Claus GravenhorstDirector Strategic Initiatives
Nutzung von Strukturdaten – Auswahl Titel/DatumAusgabe
Inhaltsverzeichnis
![Page 14: Europeana Newspapers German infoday - OCR @ CCS](https://reader033.vdocuments.net/reader033/viewer/2022052322/554fc6c4b4c9053d018b4ea9/html5/thumbnails/14.jpg)
28. Februar 2014Seite 14
Content Conversion SpecialistsEuropeana Newspapers Infoday Berlin
Claus GravenhorstDirector Strategic Initiatives
Nutzung von Strukturdaten – ArtikelArtikel-Bild/Text
Zusatzfunktionen
![Page 15: Europeana Newspapers German infoday - OCR @ CCS](https://reader033.vdocuments.net/reader033/viewer/2022052322/554fc6c4b4c9053d018b4ea9/html5/thumbnails/15.jpg)
28. Februar 2014Seite 15
Content Conversion SpecialistsEuropeana Newspapers Infoday Berlin
Claus GravenhorstDirector Strategic Initiatives
Nutzung von Strukturdaten – ArtikelimageSeparierter Artikel
Verteilung
![Page 16: Europeana Newspapers German infoday - OCR @ CCS](https://reader033.vdocuments.net/reader033/viewer/2022052322/554fc6c4b4c9053d018b4ea9/html5/thumbnails/16.jpg)
28. Februar 2014Seite 16
Content Conversion SpecialistsEuropeana Newspapers Infoday Berlin
Claus GravenhorstDirector Strategic Initiatives
Nutzung von Strukturdaten – ArtikeltextArtikel
Text
![Page 17: Europeana Newspapers German infoday - OCR @ CCS](https://reader033.vdocuments.net/reader033/viewer/2022052322/554fc6c4b4c9053d018b4ea9/html5/thumbnails/17.jpg)
28. Februar 2014Seite 17
Content Conversion SpecialistsEuropeana Newspapers Infoday Berlin
Claus GravenhorstDirector Strategic Initiatives
Nutzung von Strukturdaten – ArtikelkorrekturOnline-Textkorrektur
durch Benutzer
![Page 18: Europeana Newspapers German infoday - OCR @ CCS](https://reader033.vdocuments.net/reader033/viewer/2022052322/554fc6c4b4c9053d018b4ea9/html5/thumbnails/18.jpg)
28. Februar 2014Seite 18
Content Conversion SpecialistsEuropeana Newspapers Infoday Berlin
Claus GravenhorstDirector Strategic Initiatives
Nutzung von Strukturdaten – Suche nach „poulet“Trefferliste
Artikel-basiert
![Page 19: Europeana Newspapers German infoday - OCR @ CCS](https://reader033.vdocuments.net/reader033/viewer/2022052322/554fc6c4b4c9053d018b4ea9/html5/thumbnails/19.jpg)
28. Februar 2014Seite 19
Content Conversion SpecialistsEuropeana Newspapers Infoday Berlin
Claus GravenhorstDirector Strategic Initiatives
Nutzung von Strukturdaten – ArtikelanzeigeArtikel
Wortmarkierung
![Page 20: Europeana Newspapers German infoday - OCR @ CCS](https://reader033.vdocuments.net/reader033/viewer/2022052322/554fc6c4b4c9053d018b4ea9/html5/thumbnails/20.jpg)
28. Februar 2014Seite 20
Content Conversion SpecialistsEuropeana Newspapers Infoday Berlin
Claus GravenhorstDirector Strategic Initiatives
Nutzung von Strukturdaten – SBBDeutschesNachrichtenbüro
![Page 21: Europeana Newspapers German infoday - OCR @ CCS](https://reader033.vdocuments.net/reader033/viewer/2022052322/554fc6c4b4c9053d018b4ea9/html5/thumbnails/21.jpg)
28. Februar 2014Seite 21
Content Conversion SpecialistsEuropeana Newspapers Infoday Berlin
Claus GravenhorstDirector Strategic Initiatives
Nutzung von Strukturdaten – NLELivländischeGouvernements-Zeitung
![Page 22: Europeana Newspapers German infoday - OCR @ CCS](https://reader033.vdocuments.net/reader033/viewer/2022052322/554fc6c4b4c9053d018b4ea9/html5/thumbnails/22.jpg)
28. Februar 2014Seite 22
Content Conversion SpecialistsEuropeana Newspapers Infoday Berlin
Claus GravenhorstDirector Strategic Initiatives
Fragen + Antworten
![Page 23: Europeana Newspapers German infoday - OCR @ CCS](https://reader033.vdocuments.net/reader033/viewer/2022052322/554fc6c4b4c9053d018b4ea9/html5/thumbnails/23.jpg)
28. Februar 2014Seite 23
Content Conversion SpecialistsEuropeana Newspapers Infoday Berlin
Claus GravenhorstDirector Strategic Initiatives
Kontakt
Claus GravenhorstDirector Strategic InitiativesCCS Content Conversion Specialists GmbHWeidestr. 13422083 HamburgGermany [email protected]