Kennis uitwisselen met SKOS en OpenSKOS
Hennie BrugmanMeertens Instituut
1
Overzicht
1. Inleiding
2. Ontstaansgeschiedenis
3. Begrippen
4. Functionele beschrijving
5. Toepassingen in de praktijk
6. Content en beschikbaarheid
7. Stakeholders en toekomstige ontwikkelingen
2
Inleiding
3
Problemen mbt gebruik van vocabulaires
• Bouwen en beheren van thesauri is tijdrovend– Liever hergebruik– Hoe ontdek en evalueer je bestaande thesauri?
• Je software-tools moeten specifieke thesauri ondersteunen
• Nog vaak als browsable en doorzoekbare website gepubliceerd– Niet als data, niet in standaardvorm
• Toolbouwers moeten veel maatwerk verrichten4
5
OpenSKOS visie: een marktplaats voor SKOS vocabulaires Iedere knoop implementeert:
•Upload module•RESTful API (autocomplete, find, CRUD)•Linked Data toegang•OAI-PMH data provider enharvester•Editor voor management en curatie
• OpenSKOS =– SKOS formaat +– Peer to peer architectuur +– RESTful API +– Linked Data +– Publicatie dmv upload en OAI-PMH +– Management mbv Interactief Dashboard +– Ondersteuning voor alignment +– Stimuleren van open database licenses– Vocabulaire curatie mbv ingebouwde Editor
6
Voordelen aanbieders
• Anderen je vocabulaires aanbieden kan met een simpele upload actie– Of via een eigen OpenSKOS instantie, of via OAI-PMH
• Het is mogelijk je eigen vocabulaire te gebruiken in andermans tools (al dan niet commercieel), als die tools OpenSKOS aanspreken
• Vocabulaires kunnen makkelijk en frequent door de bouwer/beheerder worden ge-update, zonder tussenkomst van derden
• Contextualiseren: et is eenvoudig concepten uit je eigen vocabulaires te koppelen aan andere vocabulaires
7
Voordelen gebruikers
• Het is eenvoudig om vocabulaires te ontdekken, evalueren en te gebruiken– Minder noodzaak ze zelf te construeren
• Nieuwe mogelijkheden tot browsen en zoeken– In vocabulaires, in collectie-beschrijvingen
• Altijd up-to-date versies van vocabulaires beschikbaar
8
9
Voordelen toolbouwers
Geen maatwerk per vocabulaire meer nodig, geen periodieke updates door te voerenKunnen profiteren van werk van andere toolbouwers en vocabulaire-aanbiedersKunnen OpenSKOS gebruiken voor een reeks van nieuwe use cases
Ontstaansgeschiedenis
10
• Eerste CATCHPlus versie– Jarenlang stabiel gedraaid en toegepast voor gebruik Beeld en
Geluid thesaurus door Nationaal Archief (via Pictura’s Memorix tool)
• Gedurende half jaar intensief overlegd door CATCHPlus, RCE, Adlib, Pictura, Trezorix– Op initiatief van en gehost door RCE– Doel: elkaars tools en omgevingen op elkaar aansluiten mbt
vocabulaires/kennisstructuren• Uitkomst: architectuur-concept en REST API specificatie• OpenSKOS implementatie (door Picturae) is conform de
uitkomsten van dit overleg• OpenSKOS Editor toegevoegd in opdracht van Beeld en
Geluid 11
Begrippen
12
SKOS, een ultrakorte primer
• SKOS kennisstructuren bestaan uit Concepten, onderverdeeld in ConceptSchemes
• Concepten hebben een URL ter identificatie• Concepten hebben labels in 1 of meer talen• Concepten kunnen worden gedocumenteerd met
‘notes’• Concepten hebben onderling semantische relaties
– broader, narrower, related
• OpenSKOS onderscheidt daarnaast nog Collections en Institutions
13
14
Term: Economic cooperation Used For: Economic co-operation Broader terms: Economic policy Narrower terms: Economic integration, European economic cooperation, European industrial cooperation, Industrial cooperation Related terms: Interdependence Scope Note: Includes cooperative measures in banking, trade, industry etc., between and among countries.
SKOS en Linked Data
• Concepten kunnen over grenzen van ConceptSchemes worden gelinkt– exactMatch, closeMatch, broadMatch, narrowMatch,
relatedMatch• Mits een Concept een stabiele, resolvable http URI
heeft kan er naar gelinkt worden• Concepten kunnen zelf linken naar (Linked Open
Data op) het web
15
Voor- en nadelen
• Standardisatie• Eenvoudig en generiek data-model• Web-gebaseerd• Concept- versus term-gebaseerd• Omvat ‘alignment’
• Echter– Bij transformatie gaat semantiek verloren– Data deels niet op SKOS te mappen
16
RESTful web services
• Web service: – Software die interactie tussen machines over het web
mogelijk maakt (“protocol mbt vragen en antwoorden”)• RESTful:
– Gebruikt standaard protocollen van world wide web (http)– Beschrijft resultaten zoveel mogelijk als (online) ‘resources’– Aan te roepen via gewone URLs– In principe eenvoudig in gebruik en schaalbaar
• Voor gebruik vanuit software– Dus primair voor gebruik door programmeurs
• Linked Data is een specifieke instantie van een RESTful web service
17
Functionele beschrijving
18
19
OpenSKOS EditorUpload moduleInteractieve management functiesRESTful APIOAI-PMH data provider en harvester
• Stel, ik zoek een thesaurus om molens te beschrijven, of medicijnen, of krantenberichten, of …
• Dan kan ik naar openskos.org, waarop allerlei thesauri beschikbaar worden gemaakt
- dan wil ik informatie over zo’n thesaurus en ik wil er online in browsen en zoeken
- Stel, ik wil mijn thesaurus online opbouwen en beheren, eventueel met andere instellingen samen
- Dan kan ik de OpenSKOS Editor gebruiken, gebouwd voor Beeld en Geluid, als onderdeel van OpenSKOS
- Stel, ik heb een thesaurus(-update) en wil die aanbieden aan de wereld of aan mijn partner-instelling, die een commerciële tool gebruikt (bv Memorix van Picturae), of een wetenschappelijke (bv Arbil uit CLARIN)
- Dan kan ik eenvoudig uploaden mbv OpenSKOS
- Stel, ik wil een OpenSKOS node beheren, dan heb ik interactieve beheerfuncties ter beschikking
RESTful API
• Concept resolve API• Find API • Autocomplete• CRUD (create, retrieve, update, delete)
• Institutions• Collections
25
API voorbeelden
• Concept resolve
– api/concept?id=http://openskos.meertens.knaw.nl/Organisations/78d67e6a-0a2a-4ba3-8757-146eaf7fed7d&format=html
– RDF, JSON of html
26
<rdf:RDF> <rdf:Description rdf:about="http://openskos.meertens.knaw.nl/Organisations/3f..70"> <rdf:type rdf:resource="http://www.w3.org/2004/02/skos/core#Concept"/> <skos:prefLabel xml:lang="en">UiL-OTS, Utrecht University</skos:prefLabel> <skos:altLabel xml:lang="en">UiL-OTS, Utrecht University</skos:altLabel> <skos:broader rdf:resource="http://openskos.meertens.knaw.nl/Organisations/78..7d"/ <skos:inScheme rdf:resource="http://openskos.meertens.knaw.nl/Organisations"/> </rdf:Description></rdf:RDF>
{ "tenant": "meertens", "collection": 4,.. "uri": "http://openskos.meertens.knaw.nl/Organisations/3ffbdaf6-d07f-4f04-8ea9-aba0c2749670", "uuid": "d921f9f9-f759-475a-cb9d-5f1dcfa00b49", "class": "Concept",.. "prefLabel@en": [ "UiL-OTS, Utrecht University" ],.. "LexicalLabels@en": [ "UiL-OTS, Utrecht University", "UiL-OTS, Utrecht University" ], "altLabel@en": [ "UiL-OTS, Utrecht University" ],.. "broader": [ "http://openskos.meertens.knaw.nl/Organisations/78d67e6a-0a2a-4ba3-8757-146eaf7fed7d" ], "SemanticRelations": [ "http://openskos.meertens.knaw.nl/Organisations/78d67e6a-0a2a-4ba3-8757-146eaf7fed7d" ], "inScheme": [ "http://openskos.meertens.knaw.nl/Organisations" ], "xmlns": [ "rdf", "skos" ], "notation": [ "108950" ]}
API voorbeelden
• Find API– api/find-concepts?q=crisis&format=rdf
– api/find-concepts?q=crisis+collection:4&format=json
– api/find-concepts?q=crisis+tenant:rkd&format=json
– api/find-concepts?q=prefLabelText:rutte+collection:4+inScheme:http*Persoonsnamen&format=json&fl=prefLabel,scopeNote
27
{"response": {"numFound": 4,"start": 0,"docs": [
…{
"scopeNote": ["veldrijder"
],"prefLabel": [
"Rutte, Marcel"],"xmlns": [
"rdf","skos","dcterms"
]},{
"scopeNote": ["minister-president VVD, fractievoorzitter VVD Tweede Kamer, staatssecretaris OCW en Sociale Zaken, voorzitter JOVD"
],"prefLabel": [
"Rutte, Mark"],"xmlns": [
"rdf","skos","dcterms"
]},…
]}}
API voorbeelden
• Autocomplete API
– api/autocomplete/politi?returnLabel=prefLabel
– api/autocomplete/speelf?returnLabel=prefLabel
28
API voorbeelden
• Institutions, Collections API
– in RDF: /api/institutions– in HTML: /api/institutions?format=html
– /api/collections/beng:gtaa.html
29
OAI-PMH voorbeelden
30
Toepassingen in de praktijk
31
OpenSKOS instanties
• Instantie(s) tbv intern gebruik, publicatie en beheer van de GTAA thesaurus van Beeld en Geluid
• Ongeveer 8 instanties tbv (internationale) klanten van Picturae
• Meertens instantie tbv CLARIN-NL CLAVAS project• Experimentele instantie tbv CLARIN-EU bij Institute for
Corpus Linguistics and Text Technology, Wenen• Tbv thesaurus-constructie bij Cologne Center for
eHumanities• Test-installatie bij Europeana ihkv 1914-1918 project
32
Client tools
• OpenSKOS editor zelf• Memorix (Picturae)• Gepland: Arbil (CMDI metadata editor, CLARIN)
33
34
Content en beschikbaarheid
35
Vocabulaires
• GTAA (Beeld en Geluid)• AAT-NED (RKD)• Library of Congress Subject Headings• CLAVAS
– ISO 639-3 language codes– ISOcat metadata profile– Organisatie-namen
• Getest met enkele andere bestaande SKOS thesauri• Getest met versie van Thesaurus Nationaal Farmaceutisch
Museum• ??
• Overkoepelende registry ontbreekt nog
36
Beschikbaarheid
• Broncode is onder Open source licentie en online beschikbaar (GitHub)
• Open Database licenties en Creative Commons aanbevolen
• We promoten vrij gebruik van services– M.u.v. schrijf-acties via API en Editor, en
management functies– Iedereen kan eigen instantie van OpenSKOS
draaien• Picturae biedt 10 jaar hosting van OpenSKOS
aan ihkv CATCHPlus contract
37
Stakeholders en toekomstige ontwikkelingen
38
• Beeld en Geluid• CLARIN-NL/Clavas, CLARIN-EU• DARIAH (Task Force Reference Data and
Controlled Vocabularies)• Meertens Instituut• Nationaal Archief• Picturae• RCE• RKD• Digitale Collectie NL (Europeana aggregator)• Europeana• ??
39
Toekomst
• (Mogelijke) toepassingen in concrete projecten
• OpenSKOS community in oprichting (werkgroep: Meertens, Picturae, Digitale Collectie NL, Beeld en Geluid, Europeana)
• Functionele wensen– Vrij browsen en zoeken voor iedereen– ‘discovery’ van thesauri– Uitbouwen gedistribueerde opzet
40
Hartelijk dank.
???
41