screen biographischportaal2010 12-10

14

Click here to load reader

Upload: maartenmarx

Post on 15-Jun-2015

325 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: Screen biographischportaal2010 12-10

Verbinden van Biografieen aan Documenten 1

Verbinden van Biografieen aanDocumenten

Maarten Marx

Universiteit van Amsterdam

Den Haag 2010-12-10

Page 2: Screen biographischportaal2010 12-10

Verbinden van Biografieen aan Documenten 2

Koppeling Bio’s en Documenten: Inhoud

• Wat is dat?

• Wat heeft dat voor nut?

• Hoe doe je dat?

• Hoe maak je een Bio-archief waardevol?

Page 3: Screen biographischportaal2010 12-10

Verbinden van Biografieen aan Documenten 3

Koppeling Bio’s en Documenten. Wat is dat?

• Handeling zonder koppeling

• Gekoppelde Handelingen

• Gekoppelde geOCRde Handelingen

Page 4: Screen biographischportaal2010 12-10

Verbinden van Biografieen aan Documenten 4

Archieven om naar te koppelen

• Twee op parlementariers gerichte databases:

• parlement.com (Parlementair Documentatie Centrum)

• pentapolitica.nl (PoliticalMashup)

• Wikipedia is een mooi alternatief.

http://nl.wikipedia.org/wiki/Lijst_van_Nederlandse_politici

Page 5: Screen biographischportaal2010 12-10

Verbinden van Biografieen aan Documenten 5

Koppeling andersom

Dynamische Biografieen

Combinatie van

• statische achtergrond data

• dynamische groeiende gegevens.

• Voorbeelden

• http://www.pentapolitica.nl/politici/femke-halsema• Pagina van Sophie in het Veld bij Europees Parlement

• Sophie in het Veld bij IkKiesWijzer.nl

• Pagina van David Cameron bij TheyWorkForYou.com

Page 6: Screen biographischportaal2010 12-10

Verbinden van Biografieen aan Documenten 6

Koppeling Mens–Document. Wat is het nut? I

• Verhogen van betrouwbaarheid van de data.

• Makkelijker toegang tot de data.

• Grootscheeps automatisch (wetenschappelijk) onderzoek wordt

opeens mogelijk.

Page 7: Screen biographischportaal2010 12-10

Verbinden van Biografieen aan Documenten 7

Koppeling Mens–Document. Wat is het nut? II

1. Normalisatie van namen door koppeling.

• Typos

• Naamswijzigingen

• OCR fouten

2. Zoeken op naam met autocompletion. Voorbeeld in DBLP.

3. Van document-centrisch naar mens-centrisch.

Page 8: Screen biographischportaal2010 12-10

Verbinden van Biografieen aan Documenten 8

Mens-centrische informatiebehoeften

• Expert search. http://ikkieswijzer.nl/personen

• Geef me alle uitspraken van Balkenende over Suriname

• Geef alle uitspraken gedaan door allochtonen over Suriname.

• Wie spreekt het meest in de Tweede Kamer?

• Glazen Plafond Query.

De Kamer bestaat voor 40% uit vrouwen. Hoeveel % van de

uitspraken wordt door vrouwen gedaan?

• Interruptiegraaf. 2010-10-27 2010-10-26

Page 9: Screen biographischportaal2010 12-10

Verbinden van Biografieen aan Documenten 9

Hoe maak je zo’n koppeling?

• Twee manieren.

• Van bovenaf opleggen (top-down)

• Door “slimme algorithmes” laten aanleggen (bottom up)

• Top-down werkt alleen vanaf een bepaald moment, en

• is moeilijk te onderhouden in een gedistribueerde omgeving.

Page 10: Screen biographischportaal2010 12-10

Verbinden van Biografieen aan Documenten 10

Bottom up

• Bottom-up kan ook op historische data (zie

statengeneraaldigitaal.nl).

• Bottom-up geeft inzicht in de kwaliteit van de koppeling.

• Bottom-up algorithmes zijn herbruikbaar.

• Er is zeer veel onderzoek gedaan naar bottom up algorithmes.

• Data Deduplication

• named entity reconciliation

• Zwaan–kleef–aan effect. (Veel gebruikt systeem wordt de facto

standaard).

Page 11: Screen biographischportaal2010 12-10

Verbinden van Biografieen aan Documenten 11

Bottom up pipeline

• Intuitie: maak het equivalent van de zoek functie in Google Maps.

• http://maps.google.com/maps?hl=en&q=Koninklijke+Bibliotheek+Den+Haag&sa=N&tab=sl

• normalize(KB Den Haag) = (52.081273,4.328055)

• Dus nodig:

• Dimensie met unieke waardes voor elk datapunt.

• Normaliserings-functie.

• Eventueel functie terug.

Page 12: Screen biographischportaal2010 12-10

Verbinden van Biografieen aan Documenten 12

Super goede baseline: Wikipedia

• Gebruik Wikipedia paginanamen als je dimensie.

• http://en.wikipedia.org/wiki/Jimi_Hendrix• Gebruik Wikipedia search functie (inclusief redirects) als

normaliseringsfunctie.

• http://en.wikipedia.org/w/index.php?search=Jimi+Hendricks

• Prima (crowdsourced and quality-controlled) disambiguation and

redirect.

James Hendrix James Marshall Hendrix Jim Hendrix Jimi hendrix

Jimmi Hendrix Jimmy Hendricks Jimmy Hendrix Jimmy hendrix

Jimy Hendrix Johnny Allen Hendrix Johnny Hendrix

Page 13: Screen biographischportaal2010 12-10

Verbinden van Biografieen aan Documenten 13

Concreet

Stap 1 Vind een betrouwbare, goed georganiseerde en

gedocumenteerde bron met biodata met in ieder geval

• permanente vrij beschikbare unieke identifiers voor elke entiteit.

Stap 2 Maak de normaliserings-functie.

Stap 3 Zet een kwaliteitscontrole systeem op.

• % correct gevonden (recall)

• % niet gevonden

• % verkeerd gevonden (precisie)

Stap 4 Hergebruik je functie op andere data.

Page 14: Screen biographischportaal2010 12-10

Verbinden van Biografieen aan Documenten 14

Boodschap en Conclusies

• Een niet verbonden of niet koppelbaar archief heeft geen waarde.

• Een archief kan een bron van meerwaarde worden door openheid.

• open machine leesbare formaten

• geen maffe restricties, beperkingen, moeilijkheden

• gebruik een slim verdienmodel

• wees eerlijk

• wees niet bang

• gebruik je gebruikers (kwaliteitscontrole, crowdsourcing)

• De waarde van je archief wordt bepaald door het aantal

koppelingen.