screen biographischportaal2010 12-10
TRANSCRIPT
Verbinden van Biografieen aan Documenten 1
Verbinden van Biografieen aanDocumenten
Maarten Marx
Universiteit van Amsterdam
Den Haag 2010-12-10
Verbinden van Biografieen aan Documenten 2
Koppeling Bio’s en Documenten: Inhoud
• Wat is dat?
• Wat heeft dat voor nut?
• Hoe doe je dat?
• Hoe maak je een Bio-archief waardevol?
Verbinden van Biografieen aan Documenten 3
Koppeling Bio’s en Documenten. Wat is dat?
• Handeling zonder koppeling
• Gekoppelde Handelingen
• Gekoppelde geOCRde Handelingen
Verbinden van Biografieen aan Documenten 4
Archieven om naar te koppelen
• Twee op parlementariers gerichte databases:
• parlement.com (Parlementair Documentatie Centrum)
• pentapolitica.nl (PoliticalMashup)
• Wikipedia is een mooi alternatief.
http://nl.wikipedia.org/wiki/Lijst_van_Nederlandse_politici
Verbinden van Biografieen aan Documenten 5
Koppeling andersom
Dynamische Biografieen
Combinatie van
• statische achtergrond data
• dynamische groeiende gegevens.
• Voorbeelden
• http://www.pentapolitica.nl/politici/femke-halsema• Pagina van Sophie in het Veld bij Europees Parlement
• Sophie in het Veld bij IkKiesWijzer.nl
• Pagina van David Cameron bij TheyWorkForYou.com
Verbinden van Biografieen aan Documenten 6
Koppeling Mens–Document. Wat is het nut? I
• Verhogen van betrouwbaarheid van de data.
• Makkelijker toegang tot de data.
• Grootscheeps automatisch (wetenschappelijk) onderzoek wordt
opeens mogelijk.
Verbinden van Biografieen aan Documenten 7
Koppeling Mens–Document. Wat is het nut? II
1. Normalisatie van namen door koppeling.
• Typos
• Naamswijzigingen
• OCR fouten
2. Zoeken op naam met autocompletion. Voorbeeld in DBLP.
3. Van document-centrisch naar mens-centrisch.
Verbinden van Biografieen aan Documenten 8
Mens-centrische informatiebehoeften
• Expert search. http://ikkieswijzer.nl/personen
• Geef me alle uitspraken van Balkenende over Suriname
• Geef alle uitspraken gedaan door allochtonen over Suriname.
• Wie spreekt het meest in de Tweede Kamer?
• Glazen Plafond Query.
De Kamer bestaat voor 40% uit vrouwen. Hoeveel % van de
uitspraken wordt door vrouwen gedaan?
• Interruptiegraaf. 2010-10-27 2010-10-26
Verbinden van Biografieen aan Documenten 9
Hoe maak je zo’n koppeling?
• Twee manieren.
• Van bovenaf opleggen (top-down)
• Door “slimme algorithmes” laten aanleggen (bottom up)
• Top-down werkt alleen vanaf een bepaald moment, en
• is moeilijk te onderhouden in een gedistribueerde omgeving.
Verbinden van Biografieen aan Documenten 10
Bottom up
• Bottom-up kan ook op historische data (zie
statengeneraaldigitaal.nl).
• Bottom-up geeft inzicht in de kwaliteit van de koppeling.
• Bottom-up algorithmes zijn herbruikbaar.
• Er is zeer veel onderzoek gedaan naar bottom up algorithmes.
• Data Deduplication
• named entity reconciliation
• Zwaan–kleef–aan effect. (Veel gebruikt systeem wordt de facto
standaard).
Verbinden van Biografieen aan Documenten 11
Bottom up pipeline
• Intuitie: maak het equivalent van de zoek functie in Google Maps.
• http://maps.google.com/maps?hl=en&q=Koninklijke+Bibliotheek+Den+Haag&sa=N&tab=sl
• normalize(KB Den Haag) = (52.081273,4.328055)
• Dus nodig:
• Dimensie met unieke waardes voor elk datapunt.
• Normaliserings-functie.
• Eventueel functie terug.
Verbinden van Biografieen aan Documenten 12
Super goede baseline: Wikipedia
• Gebruik Wikipedia paginanamen als je dimensie.
• http://en.wikipedia.org/wiki/Jimi_Hendrix• Gebruik Wikipedia search functie (inclusief redirects) als
normaliseringsfunctie.
• http://en.wikipedia.org/w/index.php?search=Jimi+Hendricks
• Prima (crowdsourced and quality-controlled) disambiguation and
redirect.
James Hendrix James Marshall Hendrix Jim Hendrix Jimi hendrix
Jimmi Hendrix Jimmy Hendricks Jimmy Hendrix Jimmy hendrix
Jimy Hendrix Johnny Allen Hendrix Johnny Hendrix
Verbinden van Biografieen aan Documenten 13
Concreet
Stap 1 Vind een betrouwbare, goed georganiseerde en
gedocumenteerde bron met biodata met in ieder geval
• permanente vrij beschikbare unieke identifiers voor elke entiteit.
Stap 2 Maak de normaliserings-functie.
Stap 3 Zet een kwaliteitscontrole systeem op.
• % correct gevonden (recall)
• % niet gevonden
• % verkeerd gevonden (precisie)
Stap 4 Hergebruik je functie op andere data.
Verbinden van Biografieen aan Documenten 14
Boodschap en Conclusies
• Een niet verbonden of niet koppelbaar archief heeft geen waarde.
• Een archief kan een bron van meerwaarde worden door openheid.
• open machine leesbare formaten
• geen maffe restricties, beperkingen, moeilijkheden
• gebruik een slim verdienmodel
• wees eerlijk
• wees niet bang
• gebruik je gebruikers (kwaliteitscontrole, crowdsourcing)
• De waarde van je archief wordt bepaald door het aantal
koppelingen.