Europeana Newspapers -Evaluierung und Qualitätskontrolle
Information Day SBB
Berlin, 28 Februar 2014
Clemens Neudecker, KB, Twitter: @cneudecker
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 2
Übersicht
• Qualitätskontrolle in Digitalisierungsprojekten
• Besondere Herausforderungen bei der Digitalisierung von Zeitungen• Digitalisierungsworkflows und Qualitätskontrolle
• Das PAGE Evaluierungsframework• Ground truth
• Tools
• Layoutanalyse
• Lesefluss
• Textgenauigkeit
• Was tun mit den Ergebnissen?
• Zusammenfassung und Ausblick
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 3
Qualitätskontrolle in Digitalisierungsprojekten
• Planung• Machbarkeit
• Prioritäten
• Kosten, Zeitaufwand, manuelle Schritte
• Services, Dateiformate
• Umsetzung• Aufsetzen des Workflows
• Aufspüren von “Bottlenecks”
• Optimierung der Prozessschritte
• Kontrolle• Qualität der OCR
Performance Analyse:Gründliche Analyse allerProzessschritte –was trägt wie zur Qualität bei?
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp
Herausforderungen für Zeitungen
• Anzahl Zeichen pro Seite sehr hoch
• Mehrere Spalten• Unterschiedlichste Typen von Regionen
• Lesefluss
• Komplexe Layouts• Abbildungen
• Tabellen
• Werbung• Schlechte Papierqualität
• Oft von Mikrofilm gescannt
• …
4
Quelle: NLF
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp
Digitalisierungsworkflows und Qualitätskontrolle
5
① Scannen② (Bild-)vorverarbeitung
� Doppelseiten aufsplitten� Rand entfernen/Ausschneiden� Geraderücken� Entfernen von Artefakten (Noise)� Binarisierung
③ Layoutanalyse� Segmentierung in Regionen,
Zeilen, Wörter und Zeichen� Klassifizierung von Regionen� Analyse der logischen Struktur
④ Zeichenerkennung (OCR)⑤ Nachverarbeitung
• Einzelne Prozessschritte vs.gesamter Workflow
• Direkt vs. indirekt
• Basierend auf realen Nutzungsszenarien
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp
Das PAGE Evaluierungsframework
6
Evaluation Tools
Image Repository
Evaluation Results
Compatibility through one common format
(PAGE)
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp
Ground Truth
7
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp
Tools zur Erstellung von Ground Truth
8
• Aletheia
• Seitenrand, Satzspiegel
• Regionen (inkl. Typ)
• Zeilen, Wörter und Glyphen
• Unicode text
• Lesefluss, Layer etc.
• FineReader Engine
Exporter (Preproduction)
• GT Validator
• GT Converter/Normaliser
���� http://www.primaresearch.org/tools
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp
Layoutanalyse
9
Miss / Part. Miss
Split
Misclass-ification
Merge
False Detection
Fehlerkategorien Ground truth OCR
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp
Lesefluss
10
Groundtruth
OCR
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp
Textgenauigkeit
11
• Vergleich von Ground Truth und durch OCR erkanntem Text unter Berücksichtigung des Textencoding (ASCII, Unicode)
• Normalisierung
• Zeichengenauigkeit
• Distance measure: Minimale Anzahl von Edits (insertions, deletions, substitutions)
• Für alle Klassen von Zeichen (lower case, upper case, whitespace characters, numbers, symbols)
• Wortgenauigkeit
• Korrekt erkannte Wörter vs. Gesamtanzahl Wörter
• Bag of words (index, ranking)
• Stop words und non-stop words (“und”, “in”, etc.)
• Rejected and suspicious characters/words
• Substitutionsfehler (höher gewichtet)
• OCR confidence ≠ accuracy
“OCR is cool” � “OOR is cod”
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp
Was tun mit den Ergebnissen?
12
• Kriterien
• Min. Anforderungen erfüllt?
• Anzahl und Klassen von Fehlern
• Szenarien
• Anwendung / Kontext
• Gewichtung von Fehlern
Miss
Misclass.
Merge
Split
False detect.
Merge Rate
M1M2
M3
Split Rate
S1 S2
...
Error Rate
• Gesamtergebnis / Aggregation
• gewichtete Einzelergebnisse
• Typ und Umfang der falschenRegionen
• Erlaubte vs. nicht-erlaubte Fehler
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 13
Zusammenfassung und Ausblick
• Gute und gründliche Evaluierung kostet Zeit und Geld… • Festlegen der Qualitätsanforderungen (in Abhängigkeit von Nutzungsszenarien)
• Erstellen von Ground Truth (hoher manueller Aufwand)
• Durchführen der Evaluierung
• Interpretation der Ergebnisse
• …aber nur auf diesem Weg lassen sich wirklich verlässliche Aussagen zur Qualität der Layout- und Textgenauigkeit treffen!
• Das IMPACT Centre of Competence kann Ihnen dabei helfen: www.digitisation.eu
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 14
Weiterführende Informationen
� PRImA
www.primaresearch.org
� Europeana Newspapers
www.europeana-newspapers.eu