12 - linked data engineering - semantic web technologien, ws 2011/12

VorlesungDr. Harald Sack

Hasso-Plattner-Institut für SoftwaresystemtechnikUniversität Potsdam

Wintersemester 2011/12

Semantic Web Technologien

Blog zur Vorlesung: http://wwwsoup2011.blogspot.com/

Dienstag, 17. Januar 12

http://wwwsoup2011.blogspot.com


Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

2

Ontolo

gical

Engine

ering

Semantic Web Technologien Wiederholung



1. Einführung 2. Semantic Web Basisarchitektur

Die Sprachen des Semantic Web - Teil 1

3. Wissensrepräsentation und LogikDie Sprachen des Semantic Web - Teil 2

4. Semantic Web Anwendungen

3

Semantic Web Technologien Vorlesungsinhalt



4

Linked

Data

& Sema

ntic

Web Ap

plicat

ions



4. Semantic Web Anwendungen4.1.Ontological Engineering4.2.Linked Data Engineering 4.3.Semantic Search4.4.Aktuelle Projekte:

Yovisto, mediaglobe und Semantic Media Explorer




6

4.1 Linked Data Engineering4.1.1 APIs vs. Linked Data4.1.2 Linked Data Principles4.1.3 Linked Data @ Work4.1.4 Linked Data Research Challenges


Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität PotsdamTurmbau zu Babel, Pieter Brueghel, 1563

Wie beschaffen wir uns eigentlich Informationen....?


Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität PotsdamTurmbau zu Babel, Pieter Brueghel, 1563

8

•Wie beschaffen wir uns eigentlich Informationen über Dinge?

•...über abstrakte Konzepte?

•...etwa über ein Buch?

ⓒ Harald Sack

•...über einen Film?

ⓒ Friedrich Murnau Stiftung

Information und wo man sie findet



9

Wir schlagen einfach unter dem jeweiligen NAMEN nach...



10

Information und wo man sie findet•...Wir schlagen einfach unter den entsprechenden Namen nach

„Rache / Revenge“„Brave New World“

ⓒ Harald Sack

„Der blaue Engel“




11

Brave New World

siehe auch Schöne neue Welt Welt wohin? : ein Roman der Zukunft

Wackere neue Welt : ein Roman der Zukunft

kontrolliertes Vokabular

Information und wo man sie findet•...früher ging man in die Bibliothek



12

Information und wo man sie findet•...früher ging man in die Bibliothek

Brave New World. - Aldous H U X L E Y. - The Albatros Continental Library, 47 (Hamburg usw., Albatros Verlag, 1933) 257 S. 8“

II 1, 2506, 34548

Metadaten

Identifier/Locator



13


http://www.worldcat.org

•...heute geht man ins WWW


http://www.worldcat.org/





14



•...heute geht man ins WWW







15


•Ist Information heute nicht im WWW vorhanden,kann sie nur schwer gefunden werden (wenn überhaupt...)

Datenbank

Web-Server

JDBC

HTTPHTML



16

Das WWW heute...

•Das WWW ist für die Nutzung durch den Menschen bestimmt•Das WWW basiert auf der Markupsprache HTML

•HTML beschreibt•wie Informationen dargestellt werden sollen (XHMLT + CSS),

•wie Informationen miteinander verknüpft werden können,

•aber nicht, was diese Informationen bedeuten….

bedarf der Interpretation durch den Menschen...



17

Das WWW heute...•Daten selbst sind verschlossen in abgeschirmten „Datensilos“ •Andere Applikationen können diese Daten weder zugreifen noch weiterverarbeiten

Datenbank

Datenbank

Datenbank

Datenbank

Datenbank

Datenbank

Datenbank

Datenbank

Datenbank



18

Das WWW heute...•Aber es gibt eine ganze Reihe unterschiedlicher (proprietärer) Web-APIs, Austauschdatenformate und darauf aufbauende Mashups

Datenbank 1

WebAPI 1

WebAPI 2

WebAPI 3

WebAPI 4

Datenbank 2 Datenbank 3 Datenbank 4

Mashup



19

http://www.w3.org/2009/Talks/0204-ted-tbl/#(22)

Die Probleme liegen auf der Hand....





20

Also auch die Lösung...•...Öffnen der proprietären Datensilos•...Veröffentlichung aller Daten von allgemeinem Interesse

•...und zwar so, dass •andere Anwendungen diese Daten zugreifen, benutzen und weiterverarbeiten können und

•alle Anwendungen sich zusätzliche (Meta)daten zu den verfügbaren Daten beschaffen können

Datenbank 1 Datenbank 2 Datenbank 3



21

Also auch die Lösung...•...Anwendungen schlagen unter dem jeweiligen Namen die

zugehörigen (Meta)daten im Web nach

http://dbpedia.org/resource/Der_Blaue_Engel

http://dbpedia.org/resource/Revenge

ⓒ Harald Sack


http://dbpedia.org/resource/Brave_New_World


http://dbpedia.org/resource//Brave_new_world







22

Also auch die Lösung...• Nutze semantische Technologien,

•um strukturierte Daten im Web zu publizieren

•um Verbindungen von einer Datenquelle zu Daten aus anderen Datenquellen zu ziehen

Datenbank 1 Datenbank 2 Datenbank 3 Datenbank 4

RDF Data RDF Data RDF Data RDF Data

RDF Links

RDF Links

RDF Links



23




24

Linked Data and the ‘Web of Data‘

■Begriff wurde von geht auf Idee vonTim Berners-Lee zurück(Tim Berners-Lee, Linked Data, 2006, http://www.w3.org/DesignIssues/LinkedData.html)

□Menge von Best practices zur Veröffentlichung und Verknüpfung von strukturierten Daten im Web

□Grundannahme: Der Wert (Nützlichkeit) von Daten im Web steigt je stärker diese mit Daten aus anderen Datenquellen verknüpft sind.


http://www.w3.org/DesignIssues/LinkedData.html



25

Linked Data

■Begriff wurde von geht auf Idee vonTim Berners-Lee zurück(Tim Berners-Lee, Linked Data, 2006, http://www.w3.org/DesignIssues/LinkedData.html)

M.Hausenblas, Quick Linked Data Introduction, http://www.slideshare.net/mediasemanticweb/quick-linked-data-introduction

The Web of data is abouta dataand namingmodel on the Web




http://www.slideshare.net/mediasemanticweb/quick-linked-data-introduction

http://www.slideshare.net/mediasemanticweb/quick-linked-data-introduction


26

Linked Data Principles(1) Use URIs as names for things.(2) Use HTTP URIs, so that people can look up those

names.(3) When someone looks up a URI, provide useful

information, using the standards (RDF, SPARQL)(4) Include links to other URIs, so that they can discover

more things.



27

Linked Data Principles

(1) Use URIs as names for things.

• URIs identifizieren nicht nur Dokumente, sondern beliebige reale Objekte und abstrakte Konzepte

http://wwwsoup2011.blogspot.com/

http://dbpedia.org/resource/Albert_Einstein

http://musicbrainz.org/artist/b10bbbfc-cf9e-42e0-be17-e2c3e1d2600d



28


(2) Use HTTP URIs, so that people can look up those names.

• HTTP URIs (URLs) als global eindeutige Namen erlauben das „Nachschlagen“ (Dereferenzieren) der zugehörigen Information im Web

• via http Content Negotiation• 303 URIs

http Response Code 303 ,See Other‘ (redirect)

• Hash URIshttp://example.com/Harald#me



29

Linked Data für Mensch und Maschine

■URI soll sowohl für Menschen als auch für Computer interpretierbare Informationen liefern, d.h.

URI

Accept: application/rdf+xml Accept: text/html

(Thing)

(RDF data) (HTML page)


http://dbpedia.org/resource/Ernest_Hemingway









30


■Server liefert unterschiedliche HTTP Responses in Abhängigkeit vom HTTP-Accept-Header (Content Negotiation)

http://www4.wiwiss.fu-berlin.de/bizer/pub/LinkedDataTutorial/





31


■URI soll sowohl für Menschen als auch für Computer interpretierbare Informationen liefern, d.h.

Accept: application/rdf+xml Accept: text/html

(Thing)

(RDF data) (HTML page)


http://dbpedia.org/data/Ernest_Hemingway.rdf

http://dbpedia.org/page/Ernest_Hemingway



















32


(3) When someone looks up a URI, provide useful information, using the standards (RDF, SPARQL)

• RDF als universelles Datenmodell zur Veröffentlichung strukturierter Daten im Web

• Alle URIs in RDF-Graphen aus dem Web dereferenzierbar machen

• Vermeide möglichst folgende RDF Konstrukte, da im Linked Data Kontext problematisch:• RDF Reifikation

• RDF Collections und Containers• unbenannte Blank Nodes



33


(4) Include links to other URIs, so that they can discover more things.

• RDF-Verweise zwischen Daten in verschiedenen Datenquellen setzen, um (inhaltlich) zusammenhängende Informationen zu finden

• Relationship LinksLinks auf externe LOD Entitäten, die mit den beschriebenen in Bezug stehen

• Identity LinksLinks auf externe LOD Entitäten, die dasselbe Objekt oder Konzept beschreiben

• Vocabulary LinksLinks auf Definitionen der beschriebenen LOD Entität



34

Dereferenzierung von URIs■Bsp.: FOAF (Friend-of-a-Friend)

<rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" xmlns:rdfs="http://www.w3.org/2000/01/rdf-schema#" xmlns:foaf="http://xmlns.com/foaf/0.1/" xmlns:dbpedia=“http://dbpedia.org/resource/“></rdf:RDF>...<foaf:Person rdf:ID=“http://hpi.uni-potsdam.de/meinel/sack/foaf.rdf#harald“>

<foaf:name>Harald Sack</foaf:name><foaf:homepage rdf:resource="http://www.hpi.uni-potsdam.de/meinel/team/sack.html"/><foaf:based_near rdf:resource="dbpedia:Potsdam“/>

...</foaf:Person>...


http://www.w3.org/1999/02/22-rdf-syntax-ns#

http://www.w3.org/1999/02/22-rdf-syntax-ns#

http://www.w3.org/2000/01/rdf-schema#

http://www.w3.org/2000/01/rdf-schema#

http://xmlns.com/foaf/0.1/

http://xmlns.com/foaf/0.1/

http://dbpedia.org/resource/

http://dbpedia.org/resource/

http://hpi.uni-potsdam.de/meinel/sack/foaf.rdf#harald

http://hpi.uni-potsdam.de/meinel/sack/foaf.rdf#harald

http://www.hpi.uni-potsdam.de/meinel/sack.html





35


hpihs:harald foaf:Personrdf:type

Harald Sackfoaf:name

foaf:based_neardbpedia:Potsdam

GET /resource/Potsdam HTTP/1.0Accept: application/rdf+xml

(dbpedia:Potsdam = http://dbpedia.org/resource/Potsdam)


http://dbpedia.org/resource/Berlin

http://dbpedia.org/resource/Berlin


36





dbpedia:Potsdam dbpedia:population

skos:subject

dbpedia:Cities_in_Germany

GET /resource/Potsdam HTTP/1.0Accept: application/rdf+xml

150.833



37





dbpedia:population

skos:subject

dbpedia:Cities_in_Germany

150.833

dbpedia:Berlin

dbpedia:Jena

skos:subject

skos:subject



38

Die Anwendung der Linked Data Prinzipien führt zur Entstehung eines ,Web of Data‘



39

Entwicklung des ,Web of Data‘

May 2007



40


Nov 2007



41




42


July 2009



43


September 2010



44


September 2011

31 Mrd. RDF Tripel504 Mio. Links



45http://dbpedia.org/

Zentraler Hub innerhalb des Link Data Graphen ist die DBpedia


http://linkeddata.org

http://linkeddata.org


46

DBPedia□Zentraler Bestandteil: Wikipedia Info-Boxen



47




48




49




50

□Semantic Mashups sind Anwendungen, die vernetzte RDF-Daten aus unterschiedlichen Datenquellen nutzen

□ im Gegensatz zu diversen Schnittstellen und Ergebnisformaten regulärer Web-APIs bieten vernetzte Daten (Linked Data) folgende Vorteile:□ flexibles, standardisiertes Datenformat (RDF)□ standardisierter Zugriffsmechanismus (http)□Möglichkeit, Verweise (RDF-Links) zwischen unterschiedlichen

Datenquellen zu setzen» ermöglicht Navigation» wird von Suchmaschinen genutzt (Crawler)» Ermöglichung expressiver Suchfunktionalität über

gesammelte Daten hinweg

S. Auer, J. Lehmann, Ch. Bizer: Semantitsche Mashups auf Basis vernetzter Daten, in T. Pellegrini, A. Blumauer (Hrsg.): Social Semantic Web, Springer, 2009.

Semantic Mashups



51

Linked Data Quellen im Web

□native Publikation□ D2R-Server, OpenLink Virtuoso, Pubby, etc.

□ Implementierung von Wrapper um existierende Anwendungen/APIs□SIOC-Exporter für Wordpress, Drupal, phpBB,...□RDF Book Mashup (Amazon API, Google Base-API,...)

□Linking Open Data Project□Semantic Web Education and Outreach Arbeitsgruppe des

W3C□Verzeichnis aller bekannter Quellen vernetzter Daten mit

offener Lizenz» DBPedia, Flickr, Open-Cyc, FOAF, SIOC, GeoNames, ...



52

Browser für Linked Data

■Unterschied zu nativen RDF-Browsern□ zu visualisierende RDF-Daten liegen nicht notwendigerweise

im lokalen Repository, sondern verteilt im WWW□erfordert dynamisches Nachladen von RDF Ressourcen■Tabulator (Tim Berners-Lee, MIT-Arbeitsgruppe)

(T. Berners-Lee et al.: Tabulator: Exploring and analyzing linked data on the semantic web, in Proc. 3rd Int. Semantic Web User Interaction Workshop, 2006, http://swui.semanticweb.org/swui06/papers/Berners-Lee/Berners-Lee.pdf)

■ OpenLink RDF Browser□erlaubt Darstellung als Graph, Zeitreihe, Landkarte, etc.

http://demo.openlinksw.com/DAV/JS/rdfbrowser/index.html

■Zitgist Browserhttp://browser.zitgist.com/

■DISCO Browserhttp://sites.wiwiss.fu-berlin.de/suhl/bizer/ng4j/disco/




http://sites.wiwiss.fu-berlin.de/suhl/bizer/ng4j/disco/



53

Suchmaschinen für Linked Data■Crawler-basiert, folgen Verknüpfungen von Datensätzen, um

einen Index zu erstellen, an den Suchabfragen gerichtet werden können

■Swoogle□ Stichwort-basierte Volltextsuche (Apache-Lucene), nutzt

semantische Annotation nur begrenzthttp://swoogle.umbc.edu/

■ Semantic Web Search Engine (SWSE)□ nutzt zusätzlich rdf:type Properties zur Filterung der Suche

http://swse.deri.org/

■Sindicehttp://www.sindice.com/

■ Falcons□mit Datenbrowser zur Analyse der Suchergebnisse

http://iws.seu.edu.cn/services/falcons/

■Sig.ma - Semantic Information Mashup (auf der Basis von Sindice)http://sig.ma/


http://swoogle.umbc.edu

http://swoogle.umbc.edu

http://swse.deri.org

http://swse.deri.org

http://www.sindice.com

http://www.sindice.com



http://sig.ma

http://sig.ma


54

http://dbpedia.neofonie.com


http://dbpedia.neofonie.com/

http://dbpedia.neofonie.com/


55

Linked Open Data■ offen zugängliche Linked Data Ressourcen im WWW, d.h. lizensiert als

„Creative Common CC-BY“ ■ 5-Sterne Kriterien für Linked Open Data

Available on the web (whatever format) but with an open licence, to be Open Data

Available as machine-readable structured data (e.g. excel instead of image scan of a table)

as (2) plus non-proprietary format (e.g. CSV instead of excel)

All the above plus, Use open standards from W3C (RDF and SPARQL) to identify things, so that people can point at your stuff

All the above, plus: Link your data to other people’s data to provide context

★

★ ★

★ ★ ★★ ★ ★ ★

★ ★ ★ ★ ★



56




57

Linked Data □geordnet nach Kategorien



58

Linked Data

Medien

User Generated Content



59

Linked Data Publications



60

Government

Linked Data

Geographic



61

Life Sciences Linked Data Cross-Domain



62

Linking Open Data■Some statistics (as of 09/2011)



63

Linked Data Ontologien □Ontologien halten die Linked Data Cloud zusammen


Linked Data Ontologien □ z.B. OWL

□owl:sameAs verknüpft identische Individuen□owl:equivalentClass verknüpft äquivalente Klassen


64


Linked Data Ontologien □ z.B. umbel (version 1.0, Feb. 2011)

□ „Upper Mapping and Binding Exchange Layer“□Teilmenge von OpenCyc

als RDF Tripel basierendauf SKOS und OWL2□Upper Ontology mit 28.000

Konzepten (skos:Concept)□46.000 Mappings zu

DBpedia, geonames u.a.(owl:equivalentClass, rdfs:subClassOf)□Links zu über 2 Mio Wikipedia-Seiten


65



66

Linked Data Ontologien □ z.B. SKOS

□ „Simple Knowledge Organization System“□basiert auf RDF und RDFS und dient der

Definition und zum Mapping von Voka-bularien und Ontologien□skos:Concept (Klassen / Konzepte)□skos:narrower

□skos:broader

□skos:related

□skos:exactMatch, skos:narrowMatch,skos:broadMatch, skos:relatedMatch



67

Linked Data Driven Web Applications□Notwendige Komponenten:□Local RDF Store

□caching of results □permanent storage

□Logic (Controller) und User Interface (-> Business Logic)□ (nicht LOD spezifisch)

□Data Integration component□Daten direkt aus LOD-Cloud oder □ via Semantic Indexer (sindice, etc.) holen

□Data Republishing component□Applikations-eigene Daten in Web of Data

zurückschreiben



68

Linked Data Driven Web Applications

M.Hausenblas: Linked Data Applications, DERI Technical Report, 2009


http://wtlab.um.ac.ir/parameters/wtlab/filemanager/LD_resources/other/lod-app-tr-2009-07-26_0.pdf

http://wtlab.um.ac.ir/parameters/wtlab/filemanager/LD_resources/other/lod-app-tr-2009-07-26_0.pdf


69

Linked Data Driven Web Applications□ Zugriff auf Linked Data erfolgt über SPARQL Endpoints□ ...aber wo finde ich SPARQL Endpoints?

□W3C: Currently Alive SPARQL Endpointshttp://esw.w3.org/SparqlEndpoints

□SPARQL endpoints are a RESTful Web Services□HTTP GET Request mit SPARQL query□Result als

□ XML, JSON, plaintext (SPARQL Select/Ask)□RDF/XML, NTriples, Turtle, N3

(SPARQL Describe/Construct)□Datenformat kann über HTTP Accept Header gesteuert

werdenz.B. Accept: application/sparql-results+json

□ (oder über Parameter in der SPARQL query)


http://esw.w3.org/SparqlEndpoints

http://esw.w3.org/SparqlEndpoints


70

Linked Data Driven Web Applications□Einfacher geht es mit einer entsprechenden Library:

□SPARQL Javascript Libraryhttp://www.thefigtrees.net/lee/blog/2006/04/sparql_calendar_demo_a_sparql.html

□ARC for SPARQL (PHP)http://arc.semsol.org/

□RAP - RDF API für PHPhttp://www4.wiwiss.fu-berlin.de/bizer/rdfapi/index.html

□ Jena/ARQ (Java)http://jena.sourceforge.net/

□Sesame (Java)http://www.openrdf.org/

□SPARQL Wrapper (Python)http://sparql-wrapper.sourceforge.net/

□ ...


http://www.thefigtrees.net/lee/blog/2006/04/sparql_calendar_demo_a_sparql.html




http://arc.semsol.org/

http://arc.semsol.org/

http://www4.wiwiss.fu-berlin.de/bizer/rdfapi/index.html

http://www4.wiwiss.fu-berlin.de/bizer/rdfapi/index.html

http://jena.sourceforge.net

http://jena.sourceforge.net

http://www.openrdf.org/

http://www.openrdf.org/

http://sparql-wrapper.sourceforge.net/

http://sparql-wrapper.sourceforge.net/


71

Linked Data Driven Web Applications□Simples Beispiel mit Jena ARQ:

import com.hp.hpl.jena.query.*;

String service = "..."; // address of the SPARQL endpoint String query = "SELECT ..."; // your SPARQL query QueryExecution e = QueryExecutionFactory.sparqlService(service, query)

ResultSet results = e.execSelect(); while ( results.hasNext() ) {! ! QuerySolution s = results.nextSolution(); ! ! // ...}

e.close();



72

Linked Data Driven Web Applications

□Komplexe SPARQL Abfragen über mehrere SPARQL Endpoints hinweg

1. Nacheinander Anfragen an verschiedene SPARQL Endpoints richten

2. Abfrage an eine LOD Repository Sammlung

3. Aufbau einer lokalen Kopie aus mehreren LOD-Quellen

4. Nutzung eines föderierten Abfragesystems

a) Traditioneller Ansatz

b) Link Traversal Based Query Execution



73

Komplexe SPARQL Abfragen über mehrere SPARQL Endpoints hinweg1. Nacheinander Anfragen an verschiedene SPARQL Endpoints richten□ Idee:

Richte SPARQL Anfragen an weitere SPARQL-Endpoints basierend auf den Ergebnissen der vorangegangenen Abfragen

□ d.h. Platzhalter in Query-Templates werden durch Ergebnisse der vorangegangenen SPARQL-Abfragen ersetzt

LOD2

Query1

Erg1

Query2(Erg1)

Erg2LOD3

LOD1



74

Komplexe SPARQL Abfragen über mehrere SPARQL Endpoints hinweg1. Nacheinander Anfragen an verschiedene SPARQL Endpoints richten

String s1 = "http://sparql.yovisto.com/"; String s2 = "http://dbpedia.org/sparql";

String qTmpl = "SELECT ?c WHERE{ <%s> <http://dbpedia.org/ontology/abstract> ?a }";String q1 = "SELECT ?s WHERE { ..."; QueryExecution e1 = QueryExecutionFactory.sparqlService(s1,q1); ResultSet results1 = e1.execSelect(); while ( results1.hasNext() ) {! QuerySolution s1 = results.nextSolution(); ! String q2 = String.format( qTmpl, s1.getResource("s").getURI() );! QueryExecution e2= QueryExecutionFactory.sparqlService(s2,q2); ! ResultSet results2 = e2.execSelect(); ! while ( results2.hasNext() ) {! ! // ... ! }


http://sparql.yovisto.com/

http://sparql.yovisto.com/

http://dbpedia.org/sparql

http://dbpedia.org/sparql

http://dbpedia.org/ontology/abstract

http://dbpedia.org/ontology/abstract


75

Komplexe SPARQL Abfragen über mehrere SPARQL Endpoints hinweg1. Nacheinander Anfragen an verschiedene SPARQL Endpoints richten

□ Vorteile:□ Abgefragte Daten sind stets aktuell

□ Nachteile:□ Jeder der verwendeten Datensätze benötigt einen SPARQL

Endpoint□ Programmlogik erforderlich□ ineffizient



76

Komplexe SPARQL Abfragen über mehrere SPARQL Endpoints hinweg

2. Abfrage an eine LOD Repository Sammlung□ Idee:

Nutze einen vorhandenen SPARQL Endpoint, der den Zugang zu einer Menge von verschiedenen LOD Datensätzen ermöglicht

□= Data Centralization

□SPARQL Endpoints, über die eine Vielzahl der LOD-Datensätze zugegriffen werden können:□ http://uberblic.org□ http://lod.openlinksw.com/sparql


http://uberblic.org

http://uberblic.org

http://log.openlinksw.com/sparql

http://log.openlinksw.com/sparql


77


2. Abfrage an eine LOD Repository Sammlung

□Vorteile:□Benötigt keine spezielle Programmlogik

□Nachteile:□ abgefragte Daten sind möglicherweise nicht immer aktuell□möglicherweise sind nicht alle benötigten Datensätze in der

Sammlung enthalten



78


3. Aufbau einer lokalen Kopie aus mehreren LOD Quellen □ Idee:

Nutze einen lokalen SPARQL Endpoint und kopiere alle relevanten LOD Datensätze darauf

□= Data Centralization

□LOD Datensätze können gewonnen werden aus□RDF Dumps (falls vorhanden)□ (Focused) Crawling

□ z.B. Ldspiderhttp://code.google.com/p/ldspider/


http://code.google.com/p/ldspider/

http://code.google.com/p/ldspider/


79


3. Aufbau einer lokalen Kopie aus mehreren LOD Quellen □ Vorteile:

□ Benötigt keine spezielle Programmlogik □ Umfasst alle benötigten LOD Datensätze□ Unabhängig von der Verfügbarkeit der originalen SPARQL

Endpoints

□ Nachteile:□ Aufwand bzgl. Aufbau und Wartung des lokalen SPARQL

Endpoints□ Kompliziert, wenn nicht auf RDF-Dumps zurückgegriffen werden

kann□ Synchronisation mit den originalen Daten notwendig, d.h.

abgefragte Daten sind möglicherweise nicht immer aktuell



80

Komplexe SPARQL Abfragen über mehrere SPARQL Endpoints hinweg4. Nutzung eines föderierten Abfragesystems□ Idee (traditioneller Ansatz):

Ein Mediator wird zwischen Query und Datenquellen geschalten, der die Query in Subqueries zerlegt und die Ergebnisse wieder zusammenfasst

LOD1

LOD2

LOD3

MediatorQuery

Subquery1

Subquery2Subquery3



81

Komplexe SPARQL Abfragen über mehrere SPARQL Endpoints hinweg4. Nutzung eines föderierten Abfragesystems□ Idee (traditioneller Ansatz):

Ein Mediator wird zwischen Query und Datenquellen geschalten, der die Query in Subqueries zerlegt und die Ergebnisse wieder zusammenfasst

LOD1

LOD2

LOD3

MediatorResult

result1

result2

result3



82

Komplexe SPARQL Abfragen über mehrere SPARQL Endpoints hinweg4. Nutzung eines föderierten Abfragesystems


□Nachteile:□Abgefragte LOD Daten müssen über aktiven SPARQL-

Endpoint verfügen□Abgefragte LOD-Datenquellen müssen im Voraus bekannt

sein□Neue bzw. unbekannte LOD-Datenquellen werden nicht

berücksichtigt (!)



83

Komplexe SPARQL Abfragen über mehrere SPARQL Endpoints hinweg4. Nutzung eines föderierten Abfragesystems

Mit Link Traversal Based Query Execution□ Idee:

Verknüpfe Auswertung der Query direkt mit Traversierung des RDF-Graphen

Query: Suche Publikationen des Vortragenden eines yovisto-Videos

speaker PND-id



84

speaker PND-id

http://www.yovisto.com/resource/video/6389



http://www.yovisto.com/video/6389

http://www.yovisto.com/video/6389


85

speaker PND-id


http://www.yovisto.com/resource/speaker/813





86

speaker PND-id


http://dbpedia.org/resource/Max_Planck

owl:sameAs <http://d-nb.info/gnd/118594818>




http://d-nb.info/gnd/118594818



87

speaker PND-id



:118594818 :preferredNameForThePerson "Planck, Max" ; :publicationOfThePerson "Planck, Max: Sinn und Grenzen der exakten Wissenschaft. - 1942"@de ; :publicationOfThePerson "Planck, Max: Der Kausalbegriff in der Physik. - 1932"@de ; :publicationOfThePerson "Planck, Max: Religion und Naturwissenschaft. - 1938"@de ; :publicationOfThePerson "Planck, Max: Kausalgesetz und Willensfreiheit. - 1923"@de ; :publicationOfThePerson "Planck, Max: Determinismus oder Indeterminismus? Vortrag. - 1938"@de ; :publicationOfThePerson "Planck, Max: Positivismus und reale Au\u00DFenwelt. - 1931"@de ; :publicationOfThePerson "Planck, Max: Sinn und Grenzen der exakten wissenschaft. - 1942"@de ; :publicationOfThePerson "Planck, Max: Significato e limiti della scienza esatta. - 1943"@de ; :publicationOfThePerson "Planck, Max: Wege zur physikalischen Erkenntnis. - 1944"@de .





88


4. Nutzung eines föderierten AbfragesystemsMit Link Traversal Based Query Execution

□ Implementierungen:□Semantic Web Client library (SWClLib) for Java

http://www4.wiwiss.fu-berlin.de/bizer/ng4j/semwebclient/□SQUIN

http://squin.org □Provides SWClLib functionality as a Web service□Accessible like a SPARQL endpoint



http://www4.wiwiss.fu-berlin.de/bizer/ng4j/semwebclient/

http://www4.wiwiss.fu-berlin.de/bizer/ng4j/semwebclient/

http://squin.org

http://squin.org


89


4. Nutzung eines föderierten AbfragesystemsMit Link Traversal Based Query Execution

□ Vorteile:□ Keine zusätzliche Programmlogik notwendig□ Datenbestände sind stets aktuell□ Nicht alle Datenbestände müssen im Voraus bekannt sein

□ Nachteile:□ Online Query während Query Evaluation ist zeitaufwändiger als

zentralisierte Abfrage□ ABER: lokaler RDF-Store fungiert als Cache□ Eventuell unvollständige Ergebnisse...



90




91

■Extension of the Web with a data commons (31b RDF triples = facts)

■Vibrant global RTD community■ Industrial uptake starting

(BBC, Thomson, Reuters, etc.)■Emerging governmental adoption

in sight■Establishing Linked Data as a deployment path

for the Semantic Web

Linked Data Achievements



92

Linked Data Challenges

■Coherencerelatively few, expensively maintained links

■Qualitypartly low quality data and inconsistencies

■ Performancestill substantial penalties compared torelational database technologies

■Data consumptionlarge scale processing, schema mapping anddata fusion still in its infancy

■UsabilityMissing direct end user tools and network effect

Sören Auer:"Linked Data: Now what?"ESWC2010 Panel Discussion



93



94



95

Selected Linked Data Research Challenges

(1) Crawling the Semantic Web(2) Structural Analysis (3) Content-based Analysis(4) Data Cleansing(5) Heuristics for Ranking Semantic Web Data(6) Augmenting Semantic Web Infrastructure



96

So what? ■ Interesting Facts to find out about

Semantic Web & Linked Data

■How big is the Semantic Universe?■# tripel■# documents■# interlinking

■Linking Open Data is only registered vocabulary/data in the LOD-Wiki→ 31b RDF triples

■What else is out there ... and how much of it?■ ...and how do we get it?



97

■Of course we are not the first to be out there...■Swoogle

Li Ding et al: Finding and Ranking Knowledge on the Semantic Web, ISWC 2005.

■Scutter/Slug Leigh Dodds: Slug: A Semantic Web Crawler, 2006

■Sindice Giovanni Tumarello et al: Sindice.com - weaving the open linked data, ISWC 2007 → 2.1b RDF triples

■SWSE Andreas Harth et al: SWSE: Objects before Documents, Semantic Web Challenge 2008, ISWC 2008

→ 1.1b RDF triples■ Falcons

G.Cheng et al.:Falcons: Searching and Browsing Entities on the Semantic Web, WWW17 2008. → 2.9b RDF triples

(1) Crawling the Semantic Web



98

■Again we are not the first to be out there...■Structural Analysis of the ,early‘ WWW

(2) Analyzing the Semantic Web I - Structural Analysis

IN44m nodes

SCC56m nodes

OUT44m nodes

unconnected components

unconnected components

tunnels

appendices

appendices

A. Broder et al.: Graph structure in the Web. In Comput. Netw. 33, 1-6 (Jun. 2000), 309-320.



99

■Again we are not the first to be out there...■Structural Analysis of the ,early‘ Semantic Web

(2) Analyzing the Semantic Web I - Structural Analysis

Weiyi Ge et al.: Object Link Structure in the Semantic Web, ESWC 2010

■ Experimental Setup ■ 18m RDF documents (Falcons crawl 2009)■ 110m nodes with 190m edges

■ Analysis of RDF link graph■ average node degree: ≈3.4■ effective diameter: ≈11.5■ Largest connected component: ≈88% of all

nodes



100 ■Again we are not the first to be out there...

(3) Analyzing the Semantic Web II Content-Based Analysis

A. Hoigan et al: Weaving the Pedantic Web, LDOW 2010■ 150k documents with more than 12m RDF triples■ Discovered categories of symptoms:

■ incomplete → dead links■ incoherent → no correct interpretation (local)■ hijack → no correct interpretation (remote)■ inconsistent → contradictions



101 ■Again we are not the first to be out there...

(3) Analyzing the Semantic Web II Content-Based Analysis

Urbani et al: OWL Reasoning with WebPIE: Calculating the Closure of 100 Billion Triples, ESWC 2010■ Artificial Benchmark dataset used

Leigh University Benchmark (LUBM) with 100b RDF triples

■ Computing the transitive closure (= reasoning)

■ Making implicit knowledge explicit

Fabio Capello

Person

is a

San Canzian d‘IsonzohasBirthPlace

class membershipcan be deduced

PlacehasBirthPlace



102

■ trying to clean out Linked Open Data and possibly also (partially) the Semantic Web... (1)Identify inconsistencies and ambiguities

by (automated) content-based analysis (2)Solve inconsistencies & ambiguities ■ if possible by reasoning■else by crowdsourcing

(game-based evaluation, etc.)

(4) Analyzing the Semantic Web III - Data Cleansing

Cleaning out the Augean stables...AUGEAN-STABLES: Extremely nasty and smelly warehouses of filth, straw and manure



103

■Linked Data provides (unbiased) knowledge■unbiased = no distinction of what is important,

what is not important

(5) Analyzing the Semantic Web IV - Relevance Ranking

http://dbpedia.org/page/Albert_Einstein

■ e.g., Albert Einstein■ > 600 facts (triples)■ > 80 properties■ no ranking■ no relevance





104

■We have developed heuristics for ranking objects and properties, e.g.

(5) Analyzing the Semantic Web IV - Relevance Ranking

:Albert_Einstein

:AmericanVegetarian

rdf:type

:Alfred_Kleiner

rdf:type

:Scientistrdf:type :Bill_Cosby

rdf:type

:doctoralAdviser

considered to be relevant



105




4. Semantic Web Anwendungen4.1. Ontological Engineering4.2. Linked Data Engineering 4.3. Semantic Search4.4. Aktuelle Projekte:

Yovisto, mediaglobe und Semantic Media Explorer




107

Nächste Vorlesung:

Semant

ic

Search

Albrecht Dürer: Melancholia I, 1514



108

4. Semantic Web Anwendungen4.2 Linked Data Engineering

Literatur

• T. Heath, Ch. BitzerLinked Data - Evolving the Web into a Global Data Space,Morgan & Claypool, 2011.


http://www.amazon.de/gp/product/1608454304/ref=as_li_ss_tl?ie=UTF8&tag=moresemantic-21&linkCode=as2&camp=1638&creative=19454&creativeASIN=1608454304

http://www.amazon.de/gp/product/1608454304/ref=as_li_ss_tl?ie=UTF8&tag=moresemantic-21&linkCode=as2&camp=1638&creative=19454&creativeASIN=1608454304

Materialien

□Bloghttp://wwwsoup2011.blogspot.com/

□Webseitehttp://www.hpi.uni-potsdam.de/studium/lehrangebot/veranstaltung/semantic_web_technologien.html

□bibsonomy - Bookmarkshttp://www.bibsonomy.org/user/lysander07/swt1112_13


109

4. Semantic Web Anwendungen4.2 Linked Data Engineering




http://www.hpi.uni-potsdam.de/studium/lehrangebot/veranstaltung/semantic_web_technologien.html




http://www.bibsonomy.org/user/lysander07/swt1112_12

http://www.bibsonomy.org/user/lysander07/swt1112_12

12 - linked data engineering - semantic web technologien, ws 2011/12

Technology

frher ging

das www heute

auch die lsung

semantic web

semantic web

semantic web

vorlesung

universitt