vk niod jan_2013

Post on 06-May-2015

215 Views

Category:

Education

2 Downloads

Preview:

Click to see full reader

DESCRIPTION

Verrijkt Koninkrijk presentation given at the NIOD lunch meeting

TRANSCRIPT

Het Verrijkt Koninkrijk

NIOD Lunchlezing 08/01/2013

Johan van Doornik (UvA) Victor de Boer (VUA)

The Kingdom of the Netherlands During World War II

• History of German occupied Dutch society (1940-1945)

• 14 volumes, 30 parts, 18.000 pages• Digitized version online in 2011, crashing the

server

“Published between 1969 and 1991, the 30 volumes still combine the qualities of an authoritative work for a general audience, and an inevitable point of reference for scholars”

Clarin-VK: Verrijkt Koninkrijk

“The aim of this project is twofold; in the demonstrator part of the project advanced tools and techniques are applied to gather data on De Jong's perception of the much debated issue of pillarization (Dutch: 'verzuiling') and group identity. In the resource curation part of the project the corpus will be enriched and made available to the CLARIN-community for further research”

NIOD: Historical research questions

UvA: Representation of digital text, Named Entity extraction and consolidation, search prototype

VUA: Enrichment of structured sources, internal and external linking. Hackathon

DANS: Data storage and access.

Verrijkt Koninkrijk Project

Digitization and Search(the UvA part)

<book xmlns="http://www.loedejongdigitaal.nl" vk:id="nl.vk.d.5-I"> <index vk:title="Inhoud" vk:id="nl.vk.d.5-I.1"> <chapter vk:title="Lente 4 1" vk:number="1" vk:id="nl.vk.d.5-I.2"> <section vk:title="" vk:id="nl.vk.d.5-I.2.1"> <section vk:title="Oorlogsverloop en -perspectiej?" vk:id="nl.vk.d.5-I.2.2"> <section vk:title="II. Midden-Oosten, lente 1941" vk:id="nl.vk.d.5-I.2.3"> <subsection vk:id="nl.vk.d.5-I.2.3.1"> <subsection vk:id="nl.vk.d.5-I.2.3.2"> <p vk:pdf-page-ref="21" vk:id="nl.vk.d.5-I.2.3.2.1">Hoe kon Engeland ooit de oorlog winnen?</p> <p vk:pdf-page-ref="21" vk:id="nl.vk.d.5-I.2.3.2.2">Het is, achteraf gezien, volstrekt duidelijk ... <p vk:pdf-page-ref="22" vk:id="nl.vk.d.5-I.2.3.2.3">Deze conceptie was bemoedigend en dit ... <page vk:pdf-page="22" vk:original-page="14" vk:id="nl.vk.d.5-I.2.3.2.3.14"> <backofbook-ref> </page> <header vk:id="nl.vk.d.5-I.2.3.2.3.15">HET BRITSE OORLOGSPLAN</header>men zich in Londen: in de ... <p vk:pdf-page-ref="23" vk:id="nl.vk.d.5-I.2.3.2.4">Hoe dat zij vooral Churchill ... <p vk:pdf-page-ref="23" vk:id="nl.vk.d.5-I.2.3.2.5">Had men dat in bezet Nederland vernomen ... </subsection> </section> <section vk:title="Publieke opinie" vk:id="nl.vk.d.5-I.2.4"> <subsection vk:id="nl.vk.d.5-I.2.4.1"> <p vk:pdf-page-ref="23" vk:id="nl.vk.d.5-I.2.4.1.1">Het verwachtingspatroon van een volk ... <p vk:pdf-page-ref="23" vk:id="nl.vk.d.5-I.2.4.1.2">1 Aangehaald in Butler .... <page vk:pdf-page="23" vk:original-page="15" vk:id="nl.vk.d.5-I.2.4.1.2.4"> <backofbook-ref> <lemma-ref>Azoren</lemma-ref> <lemma-ref>Bomber Command</lemma-ref> <lemma-ref>Canarische eilanden</lemma-ref> <lemma-ref>Madeira</lemma-ref> <lemma-ref>Portugal</lemma-ref> <lemma-ref>Spanje</lemma-ref> <lemma-ref>Tsjechoslowakije</lemma-ref> </backofbook-ref> </page>

Back of the Book

Required specialized parsing:

Pages (312, 316, …) and page ranges (210-215, …)

See and See also references

OCR correction for numbers (3I2 = 312, …)

Verification of all page references

Mapping page references to paragraph references

Terms that span multiple pages in the back of book

Layout not always as consistent as you would like

vk:book 30

vk:chapter 226

vk:section 1885

vk:subsection 4708

vk:p 86257

vk:quote 56547

vk:page 16922

vk:lemma 16186

vk:lemma-ref 148370

Counting elements

Resolverhttp://resolver.loedejongdigitaal.nl/nl.vk.d.5-II.6.1.2.2

<p vk:pdf-page-ref="338" vk:id="nl.vk.d.5-II.6.1.2.2">En in het algemeen leed de Geallieerde koopvaardij in de eerste zes maanden van '42 opnieuw zeer zware verliezen. Zij waren vooral gevolg van het feit dat de Amerikanen traag waren met het treffen van veiligheidsmaatregelen in de Caraïbische Zee en in de zeegebieden bij de Amerikaanse oostkust. Maandenlang vonden<i>U-Boote</i>daar een uiterst profijtelijk jachtterrein. Het aantal<i>U-Boote</i>nam ook steeds toe; in juli '41 waren er constant 65 in de vaart, in juli '42 140. Hitler bezat er toen 331 en er waren, doordat de<i>U-Boote</i>zich zo verspreid hadden, in de zeven maandenvan januari t.e.m. juli '42 slechts weinige vernietigd: 31. In die periode verloren de Geallieerden daartentegen per maand gemiddeld meer dan een half miljoen ton aan scheepsruimte. Het waren vooral die scheepsverliezen die de Geallieerde oorlogsleiders in de eerste helft van '42 voortdurend aanleiding gaven tot diepe bezorgdheid. Hoe haakten zij naar de dag waarop de Duitsers en Italianen uit NoordAfrika verdreven zouden zijn! Dan zou eindelijk de lange, schepen verslindende toevoerroute naar Egypte om Afrika heen door de zoveel kortere via de Straat van Gibraltar vervangen kunnen worden.</p>

country, collection, doc-type, volume, chapter, section, sub-section, paragraph

Named Entities + Wikification

1. Natural Language Processing with FROG

2. Detecting namesMachine learned detection using POS and capitalization

3. Linking to Wikipedia with ILPS toolsMussert Anton

Mussert

Avondklok Spertijd

Nationale Padvindersraad Padvinder

Verrijkt Koninkrijk and Linked Data (the VUA part)

What is Linked Open Data•Open data is about open licenses•Linked (Open) Data is about interoperability

``a term used to describe a recommended best practice for exposing, sharing, and connecting pieces of data, information, and knowledge on the Semantic Web using URIs and RDF.’’ --Wikipedia

``Sharable, spreadable and nerd-friendly’’

-- Charlotte S H Jensen, kulturweb

Web of Documents (WWW)Linked Documents

Web of DataLinked Data

“Linking Open Data cloud diagram, by Richard Cyganiak and Anja Jentzsch. http://lod-cloud.net/”

Linked Data:NIOD and VK

niod:Avondklok

Dbpedia:Avondklok

VK:paragraaf 1.2.3.4

bbwo2:plaatje1.jpg4en5mei:Avonklok

DBPedia:Curfew

4en5mei:monumentX

“Spertijd”

Niod thesaurus

Back of the Book-index

Named Entity Results

Verrijkt Koninkrijk

Niod thesaurus

Back of the Book-index

Named Entity Results

Verrijkt Koninkrijk

NIOD List of terms

• Used by NIOD library, archive, AV archive

• Externally by 29 institutions

• 1408 terms: “Civil servants”, “Anti-fascism”, “Arrival”– 12 ‘categories’: “Law,”

“Military history”, “Countries”, etc.

Niod thesaurus

Rub Term

4 Repressie

Voorlichting

Kernwapens - Zie: Atoomwapens

3 Atoomwapens

2 Kolonialisme - Zie ook: Dekolonisatie

8 Religie - Zie ook bij soorten afzonderlijk, bijv.: Christendom

niod:Gasmaskers

niod:Uitrusting

niod:Transport

conversion

conversion

Niod termenlijst (XML)

Preferred: “Transport”Alternative: “Vracht”

Niod thesaurus

1408 concepts, 170 altLabels, 290 related,

165 hierarchy relations,

Manually validated by Kees Ribbens, Marjo

Bakker, Femke Jacobs80-95% correctness

Niod Thesaurus (SKOS)

Back of the Book-index

botb:Amsterdamniod:botb-Blitzkrieg

niod:botb-Blitzkrieg

niod:hasParRef

botb:Blitzkrieg

Back-of-the-Book Index (SKOS)

http://resolver.verrijktkoninkrijk.nl/nl.vk.d.reg.4.1386

15.234 Concepts121.525 references to pages

entity:Maassluisentity:Amsterdam

niod:botb-Blitzkriegniod:botb-Blitzkrieg

niod

:has

ParR

ef

entity:Abraham Kuijper

Named Entity Results

http://resolver.verrijktkoninkrijk.nl/nl.vk.d.reg.4.1386

88.249 Concepts364,924 references to pages

Named Entities (SKOS)

Niod thesaurus

Back of the Book-index

Named Entity Results

Verrijkt Koninkrijk

Linked Data

niod:Blitzkrieg

hasParRef

niod:oai_wo2_niod_nl_rec_102045

Niod thesaurus

http://resolver.verrijktkoninkrijk.nl/nl.vk.d.reg.4.1386

subject

Back-of-the-Book IndexKoninkrijk

niod:botb-Blitzkrieg

Skos:exactMatch

Niod thesaurusgtaa:Oorlog

GTAA thesaurus

niod:Blitzkrieg

sameAs

Niod thesaurus

http://resolver.verrijktkoninkrijk.nl/nl.vk.d.reg.4.1386

subject

Back-of-the-Book IndexKoninkrijk

Niod:Oorlog

dbpedia:Abraham Kuijper

Entity:Abraham Kuijper

Koninkrijk

dbpedia:Minister-President

entity:Barend Biesheuvel

dbpedia:Barend Biesheuvel

Geonames:Maassluis

Botb:Maassluis

Koninkrijk

Geonames:Zuid-Holland

32780

N 51° 55' 24'' E 4° 15' 0''

population

coordinates

The semantic server

“Give me all BBWO2 images linked to a VK paragraph through a niod thesaurus entity found in the text”

PREFIX niod: <http://purl.org/collections/nl/niod/>prefix dc: <http://purl.org/dc/elements/1.1/>PREFIX skos: <http://www.w3.org/2004/02/skos/core#>SELECT DISTINCT *WHERE { ?object dc:subject ?subj ; dc:relation ?img .?subj skos:inScheme niod:ConceptScheme.?subj skos:exactMatch ?bc.?bc skos:inScheme niod:EntityScheme.?bc niod:pRef ?pRef.}limit 100

“What placenames occur on which page and to which province do they belong”

PREFIX niod: <http://purl.org/collections/nl/niod/>PREFIX skos: <http://www.w3.org/2004/02/skos/core#>SELECT ?pl ?provname ?prefWHERE{?s skos:inScheme niod:BotBScheme.?s skos:prefLabel ?pl.?s skos:closeMatch ?geo.?geo <http://www.geonames.org/ontology#parentADM1> ?prov.?prov <http://www.geonames.org/ontology%23name> ?provname.?s niod:pageRef ?pref.}LIMIT 100

“Give me all occurrences of Prime Ministers in Het Koninkrijk”

PREFIX dcterms: <http://purl.org/dc/terms/>PREFIX niod: <http://purl.org/collections/nl/niod/>PREFIX skos: <http://www.w3.org/2004/02/skos/core#>PREFIX dbp-prop: <http://nl.dbpedia.org/property/>PREFIX dbp-res: <http://nl.dbpedia.org/resource/>SELECT * WHERE {?entity niod:nerClass niod:nerclass-per;owl:sameAs ?dbpedia_entry;niod:pRef ?pref.?dbpedia_entry dbp-prop:functie dbp-res:Minister-president_van_Nederland.}LIMIT 100

Hackathon

Photos from Flickr user HackNY

Some issues

• Quality issues – OCR– Named Entity Recognition/Reconcilliation– Linkage

• Pillarization question

• Acceptability for historical research

?

top related