länkad data
DESCRIPTION
Min introduktion till länkad data från träffen om länkad data i Sverige: http://ldsv.eventbrite.com/TRANSCRIPT
Länkad dataLänkad data i Sverige, 17 april, 2012
Marie Gustafsson Friberger, Malmö högskola [email protected]
twitter: mariegus
Översikt
• Länkade data och den semantiska webben
• En kort introduktion till SW-relaterad W3C rekommendationer
• Några exempel
• Vill du tillgängliggöra data och/eller vokabulär?
• Vill du hitta data?
• Vill du bygga?
2
Hans Rosling
http://www.flickr.com/photos/23176450@N08/2663925153/
Hans Rosling
http://www.flickr.com/photos/23176450@N08/2663925153/
"The database hugging in public institutions is hampering innovation."
Hans Rosling at OECD World Forum in Istanbul, 2007http://www.viddler.com/explore/JesseRobbins/videos/4/
6
• Hur tillhandahålla data så att den går att återanvända?
• Hur möjliggöra upptäckandet av relevanta data bland alla dataset som finns tillgängliga?
• Hur möjliggöra att applikationer kan integrera data från tidigare okända datakällor?
7
★ Tillgänglig på webben (oavsett format),
med en öppen licens
★★ Tillgänglig som maskinläsbar strukturerad
data (t ex Excel i stället för scannad tabell)
★★★ som (2) samt ickeproprietärt format
(t ex CSV i stället för Excel)
★★★★ Alla ovan, plus att använda W3C-standarder (RDF
och SPARQL) för beskriva saker
★★★★★ Alla ovan plus att länka din data till andras data
Principer för länkade data1. Använd URI:er för att namnge saker
2. Använd HTTP URI:er så att dessa namn kan användas för att få mer information
3. När någon kollar en URI, ge användbar information genom standarder (RDF*, SPARQL)
4. Inkludera länkar till andra URI:er så att fler saker kan upptäckas
http://www.w3.org/DesignIssues/LinkedData.html
10
Linked data
11Linking Open Data cloud diagram, by Richard Cyganiak and Anja Jentzsch. http://lod-cloud.net/
Semantiska webben
• Data-webb (snarare än dokument-webb).
• Idag kontrollerar applikationer ofta sin egen data och delar inte med sig av den.
• Visionen med den semantiska webben är att göra det möjligt att kombinera data från flera olika källor.
12
define the concepts and relationships used to describe and represent an area of concern
13
Main SW components
RDF Linked Data
OWL
SKOSVocabularies
Ontologies
common formats for integration and combination of data drawn from diverse sources
SPARQL
En kort introduktion till W3C-rekommendationer
relaterade till den semantiska webben
Resource Description Framework
“Description”?
Subject - Predicate - Object
Subject - Predicate - Object
Image from the book Semantic Web for the Working Ontologist by Allemang and Hendler.
Image from the book Semantic Web for the Working Ontologist by Allemang and Hendler.
Flera källor
+
+Image from the book Semantic Web for the Working Ontologist by Allemang and Hendler.
En graf...
Image from the book Semantic Web for the Working Ontologist by Allemang and Hendler.
Vad är vad?
• Om två källor använder samma benämningar, avser de då samma ”sak”?
• URI:er to the rescue!
• Två noder avser samma sak om de använder samma URI.
SPARQL
• SPARQL Protocol and RDF Query Language
• En fråga består av en uppsättning trippel-mönster (tripple patterns).
• Trippel-mönster är som RDF-tripplar förutom att varje subjekt, predikat och objekt kan vara en variabel.
Ontologier – OWL
• Kallas ofta vokabulärer i samband med länkade data
• Används för att beskriva begrepp och relationer mellan begrepp I någon domän
• Kan innehålla allt från en enkel vokabulär till komplexa logiska uttryck för att dra slutsatser baserat på data
23
Simple Knowledge Organization System (SKOS)
• RDF vokabulär för att representera semiformella knowledge organization systems (KOSs), exempelvis thesauri o taxonomier.
24
ex:animals rdf:type skos:Concept; skos:prefLabel "animals"@en; skos:narrower ex:mammals.
ex:birds rdf:type skos:Concept; skos:prefLabel "birds"@en; skos:related ex:ornithology.
25
Exempel
DBpediaNYTimes
• Extraherar strukturerad information från Wikipedia och tillgängliggör den via webben.
• Beskriver över 3,4 miljoner saker, varav 1,5 miljoner är klassificerad i en konsistent ontologi som innehåller 312.000 personer, 413.000 platser, 94.000 musik album, 49.000 filmer, 15.000 videospel, 140.000 organisationer, 146.000 arter och 4.600 sjukdomar.
Möjliga frågor
• DBPedia gör det möjligt att ställa frågor där informationen som behövs för att svara finns spridd över flera olika Wikipedia-artiklar.
• Till exempel...
28
Personer födda i Köpenhamn innan år 1900.
29
30
NYTimes – Linked Open Data
http://data.nytimes.com/
32
Example app: Who Went Where?
Vill du göra data och/eller vokabulär
tillgängliga?
Välja vokabulär
• Hur många använder? Vilka?
• Underhåll och styrning
• Vilka koncept täcker den?
• Hur uttrycksfull är den?
35
Baserat på http://linkeddatabook.com/
Verktyg för att utveckla vokabulär
• Protégé
• TopBraid Composer
• NeOn Toolkit
36
Specifikt för SKOS:
• PoolParty Thesaurus Manager
• VocBench (developed by the FAO of the UN)
Recept för att publicera länkade data
• Statiska RDF/XML-filer
• Som RDF inbäddad i HTML (RDFa)
• Genom egna server-side scripts
• Från relationsdatabaser
• Från RDF Triple Stores
• Genom att ”wrappa” existerande API:er
37 http://linkeddatabook.com/
Vill du hitta data?
39
40
Vill du bygga?
42
Läs mer!
• Heath and Bizer (2011) Linked Data: Evolving the Web into a Global Data Spacehttp://linkeddatabook.com/editions/1.0/
• Allemang and Hendler (2011) Semantic Web for the Working Ontologisthttp://workingontologist.org/
• http://www.w3.org/2001/sw/wiki/Tools