12 - linked data engineering - semantic web technologien, ws 2011/12

109
Vorlesung Dr. Harald Sack Hasso-Plattner-Institut für Softwaresystemtechnik Universität Potsdam Wintersemester 2011/12 Semantic Web Technologien Blog zur Vorlesung: http://wwwsoup2011.blogspot.com/ Dienstag, 17. Januar 12

Upload: harald-sack

Post on 29-Oct-2014

11 views

Category:

Technology


0 download

DESCRIPTION

 

TRANSCRIPT

Page 1: 12 - Linked Data Engineering - Semantic Web Technologien, WS 2011/12

VorlesungDr. Harald Sack

Hasso-Plattner-Institut für SoftwaresystemtechnikUniversität Potsdam

Wintersemester 2011/12

Semantic Web Technologien

Blog zur Vorlesung: http://wwwsoup2011.blogspot.com/

Dienstag, 17. Januar 12

Page 2: 12 - Linked Data Engineering - Semantic Web Technologien, WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

2

Ontolo

gical

Engine

ering

Semantic Web Technologien Wiederholung

Dienstag, 17. Januar 12

Page 3: 12 - Linked Data Engineering - Semantic Web Technologien, WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

1. Einführung 2. Semantic Web Basisarchitektur

Die Sprachen des Semantic Web - Teil 1

3. Wissensrepräsentation und LogikDie Sprachen des Semantic Web - Teil 2

4. Semantic Web Anwendungen

3

Semantic Web Technologien Vorlesungsinhalt

Dienstag, 17. Januar 12

Page 4: 12 - Linked Data Engineering - Semantic Web Technologien, WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

4

Linked

Data

& Sema

ntic

Web Ap

plicat

ions

Dienstag, 17. Januar 12

Page 5: 12 - Linked Data Engineering - Semantic Web Technologien, WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

4. Semantic Web Anwendungen4.1.Ontological Engineering4.2.Linked Data Engineering 4.3.Semantic Search4.4.Aktuelle Projekte:

Yovisto, mediaglobe und Semantic Media Explorer

Semantic Web Technologien Vorlesungsinhalt

Dienstag, 17. Januar 12

Page 6: 12 - Linked Data Engineering - Semantic Web Technologien, WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

6

4.1 Linked Data Engineering4.1.1 APIs vs. Linked Data4.1.2 Linked Data Principles4.1.3 Linked Data @ Work4.1.4 Linked Data Research Challenges

Dienstag, 17. Januar 12

Page 7: 12 - Linked Data Engineering - Semantic Web Technologien, WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität PotsdamTurmbau zu Babel, Pieter Brueghel, 1563

Wie beschaffen wir uns eigentlich Informationen....?

Dienstag, 17. Januar 12

Page 8: 12 - Linked Data Engineering - Semantic Web Technologien, WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität PotsdamTurmbau zu Babel, Pieter Brueghel, 1563

8

•Wie beschaffen wir uns eigentlich Informationen über Dinge?

•...über abstrakte Konzepte?

•...etwa über ein Buch?

ⓒ Harald Sack

•...über einen Film?

ⓒ Friedrich Murnau Stiftung

Information und wo man sie findet

Dienstag, 17. Januar 12

Page 9: 12 - Linked Data Engineering - Semantic Web Technologien, WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

9

Wir schlagen einfach unter dem jeweiligen NAMEN nach...

Dienstag, 17. Januar 12

Page 10: 12 - Linked Data Engineering - Semantic Web Technologien, WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

10

Information und wo man sie findet•...Wir schlagen einfach unter den entsprechenden Namen nach

„Rache / Revenge“„Brave New World“

ⓒ Harald Sack

„Der blaue Engel“

ⓒ Friedrich Murnau Stiftung

Dienstag, 17. Januar 12

Page 11: 12 - Linked Data Engineering - Semantic Web Technologien, WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

11

Brave New World

siehe auch Schöne neue Welt Welt wohin? : ein Roman der Zukunft

Wackere neue Welt : ein Roman der Zukunft

kontrolliertes Vokabular

Information und wo man sie findet•...früher ging man in die Bibliothek

Dienstag, 17. Januar 12

Page 12: 12 - Linked Data Engineering - Semantic Web Technologien, WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

12

Information und wo man sie findet•...früher ging man in die Bibliothek

Brave New World. - Aldous H U X L E Y. - The Albatros Continental Library, 47 (Hamburg usw., Albatros Verlag, 1933) 257 S. 8“

II 1, 2506, 34548

Metadaten

Identifier/Locator

Dienstag, 17. Januar 12

Page 13: 12 - Linked Data Engineering - Semantic Web Technologien, WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

13

Information und wo man sie findet

http://www.worldcat.org

•...heute geht man ins WWW

Dienstag, 17. Januar 12

Page 14: 12 - Linked Data Engineering - Semantic Web Technologien, WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

14

Information und wo man sie findet

http://www.worldcat.org

•...heute geht man ins WWW

Dienstag, 17. Januar 12

Page 15: 12 - Linked Data Engineering - Semantic Web Technologien, WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

15

Information und wo man sie findet

•Ist Information heute nicht im WWW vorhanden,kann sie nur schwer gefunden werden (wenn überhaupt...)

Datenbank

Web-Server

JDBC

HTTPHTML

Dienstag, 17. Januar 12

Page 16: 12 - Linked Data Engineering - Semantic Web Technologien, WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

16

Das WWW heute...

•Das WWW ist für die Nutzung durch den Menschen bestimmt•Das WWW basiert auf der Markupsprache HTML

•HTML beschreibt•wie Informationen dargestellt werden sollen (XHMLT + CSS),

•wie Informationen miteinander verknüpft werden können,

•aber nicht, was diese Informationen bedeuten….

bedarf der Interpretation durch den Menschen...

Dienstag, 17. Januar 12

Page 17: 12 - Linked Data Engineering - Semantic Web Technologien, WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

17

Das WWW heute...•Daten selbst sind verschlossen in abgeschirmten „Datensilos“ •Andere Applikationen können diese Daten weder zugreifen noch weiterverarbeiten

Datenbank

Datenbank

Datenbank

Datenbank

Datenbank

Datenbank

Datenbank

Datenbank

Datenbank

Dienstag, 17. Januar 12

Page 18: 12 - Linked Data Engineering - Semantic Web Technologien, WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

18

Das WWW heute...•Aber es gibt eine ganze Reihe unterschiedlicher (proprietärer) Web-APIs, Austauschdatenformate und darauf aufbauende Mashups

Datenbank 1

WebAPI 1

WebAPI 2

WebAPI 3

WebAPI 4

Datenbank 2 Datenbank 3 Datenbank 4

Mashup

Dienstag, 17. Januar 12

Page 19: 12 - Linked Data Engineering - Semantic Web Technologien, WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

19

http://www.w3.org/2009/Talks/0204-ted-tbl/#(22)

Die Probleme liegen auf der Hand....

Dienstag, 17. Januar 12

Page 20: 12 - Linked Data Engineering - Semantic Web Technologien, WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

20

Also auch die Lösung...•...Öffnen der proprietären Datensilos•...Veröffentlichung aller Daten von allgemeinem Interesse

•...und zwar so, dass •andere Anwendungen diese Daten zugreifen, benutzen und weiterverarbeiten können und

•alle Anwendungen sich zusätzliche (Meta)daten zu den verfügbaren Daten beschaffen können

Datenbank 1 Datenbank 2 Datenbank 3

Dienstag, 17. Januar 12

Page 21: 12 - Linked Data Engineering - Semantic Web Technologien, WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

21

Also auch die Lösung...•...Anwendungen schlagen unter dem jeweiligen Namen die

zugehörigen (Meta)daten im Web nach

http://dbpedia.org/resource/Der_Blaue_Engel

http://dbpedia.org/resource/Revenge

ⓒ Harald Sack

ⓒ Friedrich Murnau Stiftung

http://dbpedia.org/resource/Brave_New_World

Dienstag, 17. Januar 12

Page 22: 12 - Linked Data Engineering - Semantic Web Technologien, WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

22

Also auch die Lösung...• Nutze semantische Technologien,

•um strukturierte Daten im Web zu publizieren

•um Verbindungen von einer Datenquelle zu Daten aus anderen Datenquellen zu ziehen

Datenbank 1 Datenbank 2 Datenbank 3 Datenbank 4

RDF Data RDF Data RDF Data RDF Data

RDF Links

RDF Links

RDF Links

Dienstag, 17. Januar 12

Page 23: 12 - Linked Data Engineering - Semantic Web Technologien, WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

23

4.1 Linked Data Engineering4.1.1 APIs vs. Linked Data4.1.2 Linked Data Principles4.1.3 Linked Data @ Work4.1.4 Linked Data Research Challenges

Dienstag, 17. Januar 12

Page 24: 12 - Linked Data Engineering - Semantic Web Technologien, WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

24

Linked Data and the ‘Web of Data‘

■Begriff wurde von geht auf Idee vonTim Berners-Lee zurück(Tim Berners-Lee, Linked Data, 2006, http://www.w3.org/DesignIssues/LinkedData.html)

□Menge von Best practices zur Veröffentlichung und Verknüpfung von strukturierten Daten im Web

□Grundannahme: Der Wert (Nützlichkeit) von Daten im Web steigt je stärker diese mit Daten aus anderen Datenquellen verknüpft sind.

Dienstag, 17. Januar 12

Page 25: 12 - Linked Data Engineering - Semantic Web Technologien, WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

25

Linked Data

■Begriff wurde von geht auf Idee vonTim Berners-Lee zurück(Tim Berners-Lee, Linked Data, 2006, http://www.w3.org/DesignIssues/LinkedData.html)

M.Hausenblas, Quick Linked Data Introduction, http://www.slideshare.net/mediasemanticweb/quick-linked-data-introduction

The Web of data is abouta dataand namingmodel on the Web

Dienstag, 17. Januar 12

Page 26: 12 - Linked Data Engineering - Semantic Web Technologien, WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

26

Linked Data Principles(1) Use URIs as names for things.(2) Use HTTP URIs, so that people can look up those

names.(3) When someone looks up a URI, provide useful

information, using the standards (RDF, SPARQL)(4) Include links to other URIs, so that they can discover

more things.

Dienstag, 17. Januar 12

Page 27: 12 - Linked Data Engineering - Semantic Web Technologien, WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

27

Linked Data Principles

(1) Use URIs as names for things.

• URIs identifizieren nicht nur Dokumente, sondern beliebige reale Objekte und abstrakte Konzepte

http://wwwsoup2011.blogspot.com/

http://dbpedia.org/resource/Albert_Einstein

http://musicbrainz.org/artist/b10bbbfc-cf9e-42e0-be17-e2c3e1d2600d

Dienstag, 17. Januar 12

Page 28: 12 - Linked Data Engineering - Semantic Web Technologien, WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

28

Linked Data Principles

(2) Use HTTP URIs, so that people can look up those names.

• HTTP URIs (URLs) als global eindeutige Namen erlauben das „Nachschlagen“ (Dereferenzieren) der zugehörigen Information im Web

• via http Content Negotiation• 303 URIs

http Response Code 303 ,See Other‘ (redirect)

• Hash URIshttp://example.com/Harald#me

Dienstag, 17. Januar 12

Page 29: 12 - Linked Data Engineering - Semantic Web Technologien, WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

29

Linked Data für Mensch und Maschine

■URI soll sowohl für Menschen als auch für Computer interpretierbare Informationen liefern, d.h.

URI

Accept: application/rdf+xml Accept: text/html

(Thing)

(RDF data) (HTML page)

Dienstag, 17. Januar 12

Page 30: 12 - Linked Data Engineering - Semantic Web Technologien, WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

30

Linked Data für Mensch und Maschine

■Server liefert unterschiedliche HTTP Responses in Abhängigkeit vom HTTP-Accept-Header (Content Negotiation)

http://www4.wiwiss.fu-berlin.de/bizer/pub/LinkedDataTutorial/

Dienstag, 17. Januar 12

Page 31: 12 - Linked Data Engineering - Semantic Web Technologien, WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

31

Linked Data für Mensch und Maschine

■URI soll sowohl für Menschen als auch für Computer interpretierbare Informationen liefern, d.h.

Accept: application/rdf+xml Accept: text/html

(Thing)

(RDF data) (HTML page)

http://dbpedia.org/resource/Ernest_Hemingway

http://dbpedia.org/data/Ernest_Hemingway.rdf

http://dbpedia.org/page/Ernest_Hemingway

Dienstag, 17. Januar 12

Page 32: 12 - Linked Data Engineering - Semantic Web Technologien, WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

32

Linked Data Principles

(3) When someone looks up a URI, provide useful information, using the standards (RDF, SPARQL)

• RDF als universelles Datenmodell zur Veröffentlichung strukturierter Daten im Web

• Alle URIs in RDF-Graphen aus dem Web dereferenzierbar machen

• Vermeide möglichst folgende RDF Konstrukte, da im Linked Data Kontext problematisch:• RDF Reifikation

• RDF Collections und Containers• unbenannte Blank Nodes

Dienstag, 17. Januar 12

Page 33: 12 - Linked Data Engineering - Semantic Web Technologien, WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

33

Linked Data Principles

(4) Include links to other URIs, so that they can discover more things.

• RDF-Verweise zwischen Daten in verschiedenen Datenquellen setzen, um (inhaltlich) zusammenhängende Informationen zu finden

• Relationship LinksLinks auf externe LOD Entitäten, die mit den beschriebenen in Bezug stehen

• Identity LinksLinks auf externe LOD Entitäten, die dasselbe Objekt oder Konzept beschreiben

• Vocabulary LinksLinks auf Definitionen der beschriebenen LOD Entität

Dienstag, 17. Januar 12

Page 34: 12 - Linked Data Engineering - Semantic Web Technologien, WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

34

Dereferenzierung von URIs■Bsp.: FOAF (Friend-of-a-Friend)

<rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" xmlns:rdfs="http://www.w3.org/2000/01/rdf-schema#" xmlns:foaf="http://xmlns.com/foaf/0.1/" xmlns:dbpedia=“http://dbpedia.org/resource/“></rdf:RDF>...<foaf:Person rdf:ID=“http://hpi.uni-potsdam.de/meinel/sack/foaf.rdf#harald“>

<foaf:name>Harald Sack</foaf:name><foaf:homepage rdf:resource="http://www.hpi.uni-potsdam.de/meinel/team/sack.html"/><foaf:based_near rdf:resource="dbpedia:Potsdam“/>

...</foaf:Person>...

Dienstag, 17. Januar 12

Page 35: 12 - Linked Data Engineering - Semantic Web Technologien, WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

35

Dereferenzierung von URIs■Bsp.: FOAF (Friend-of-a-Friend)

hpihs:harald foaf:Personrdf:type

Harald Sackfoaf:name

foaf:based_neardbpedia:Potsdam

GET /resource/Potsdam HTTP/1.0Accept: application/rdf+xml

(dbpedia:Potsdam = http://dbpedia.org/resource/Potsdam)

Dienstag, 17. Januar 12

Page 36: 12 - Linked Data Engineering - Semantic Web Technologien, WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

36

Dereferenzierung von URIs■Bsp.: FOAF (Friend-of-a-Friend)

hpihs:harald foaf:Personrdf:type

Harald Sackfoaf:name

foaf:based_neardbpedia:Potsdam

dbpedia:Potsdam dbpedia:population

skos:subject

dbpedia:Cities_in_Germany

GET /resource/Potsdam HTTP/1.0Accept: application/rdf+xml

150.833

Dienstag, 17. Januar 12

Page 37: 12 - Linked Data Engineering - Semantic Web Technologien, WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

37

Dereferenzierung von URIs■Bsp.: FOAF (Friend-of-a-Friend)

hpihs:harald foaf:Personrdf:type

Harald Sackfoaf:name

foaf:based_neardbpedia:Potsdam

dbpedia:population

skos:subject

dbpedia:Cities_in_Germany

150.833

dbpedia:Berlin

dbpedia:Jena

skos:subject

skos:subject

Dienstag, 17. Januar 12

Page 38: 12 - Linked Data Engineering - Semantic Web Technologien, WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

38

Die Anwendung der Linked Data Prinzipien führt zur Entstehung eines ,Web of Data‘

Dienstag, 17. Januar 12

Page 39: 12 - Linked Data Engineering - Semantic Web Technologien, WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

39

Entwicklung des ,Web of Data‘

May 2007

Dienstag, 17. Januar 12

Page 40: 12 - Linked Data Engineering - Semantic Web Technologien, WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

40

Entwicklung des ,Web of Data‘

Nov 2007

Dienstag, 17. Januar 12

Page 41: 12 - Linked Data Engineering - Semantic Web Technologien, WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

41

Entwicklung des ,Web of Data‘

Dienstag, 17. Januar 12

Page 42: 12 - Linked Data Engineering - Semantic Web Technologien, WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

42

Entwicklung des ,Web of Data‘

July 2009

Dienstag, 17. Januar 12

Page 43: 12 - Linked Data Engineering - Semantic Web Technologien, WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

43

Entwicklung des ,Web of Data‘

September 2010

Dienstag, 17. Januar 12

Page 44: 12 - Linked Data Engineering - Semantic Web Technologien, WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

44

Entwicklung des ,Web of Data‘

September 2011

31 Mrd. RDF Tripel504 Mio. Links

Dienstag, 17. Januar 12

Page 45: 12 - Linked Data Engineering - Semantic Web Technologien, WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

45http://dbpedia.org/

Zentraler Hub innerhalb des Link Data Graphen ist die DBpedia

Dienstag, 17. Januar 12

Page 46: 12 - Linked Data Engineering - Semantic Web Technologien, WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

46

DBPedia□Zentraler Bestandteil: Wikipedia Info-Boxen

Dienstag, 17. Januar 12

Page 47: 12 - Linked Data Engineering - Semantic Web Technologien, WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

47

DBPedia□Zentraler Bestandteil: Wikipedia Info-Boxen

Dienstag, 17. Januar 12

Page 48: 12 - Linked Data Engineering - Semantic Web Technologien, WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

48

DBPedia□Zentraler Bestandteil: Wikipedia Info-Boxen

Dienstag, 17. Januar 12

Page 49: 12 - Linked Data Engineering - Semantic Web Technologien, WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

49

DBPedia□Zentraler Bestandteil: Wikipedia Info-Boxen

Dienstag, 17. Januar 12

Page 50: 12 - Linked Data Engineering - Semantic Web Technologien, WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

50

□Semantic Mashups sind Anwendungen, die vernetzte RDF-Daten aus unterschiedlichen Datenquellen nutzen

□ im Gegensatz zu diversen Schnittstellen und Ergebnisformaten regulärer Web-APIs bieten vernetzte Daten (Linked Data) folgende Vorteile:□ flexibles, standardisiertes Datenformat (RDF)□ standardisierter Zugriffsmechanismus (http)□Möglichkeit, Verweise (RDF-Links) zwischen unterschiedlichen

Datenquellen zu setzen» ermöglicht Navigation» wird von Suchmaschinen genutzt (Crawler)» Ermöglichung expressiver Suchfunktionalität über

gesammelte Daten hinweg

S. Auer, J. Lehmann, Ch. Bizer: Semantitsche Mashups auf Basis vernetzter Daten, in T. Pellegrini, A. Blumauer (Hrsg.): Social Semantic Web, Springer, 2009.

Semantic Mashups

Dienstag, 17. Januar 12

Page 51: 12 - Linked Data Engineering - Semantic Web Technologien, WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

51

Linked Data Quellen im Web

□native Publikation□ D2R-Server, OpenLink Virtuoso, Pubby, etc.

□ Implementierung von Wrapper um existierende Anwendungen/APIs□SIOC-Exporter für Wordpress, Drupal, phpBB,...□RDF Book Mashup (Amazon API, Google Base-API,...)

□Linking Open Data Project□Semantic Web Education and Outreach Arbeitsgruppe des

W3C□Verzeichnis aller bekannter Quellen vernetzter Daten mit

offener Lizenz» DBPedia, Flickr, Open-Cyc, FOAF, SIOC, GeoNames, ...

Dienstag, 17. Januar 12

Page 52: 12 - Linked Data Engineering - Semantic Web Technologien, WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

52

Browser für Linked Data

■Unterschied zu nativen RDF-Browsern□ zu visualisierende RDF-Daten liegen nicht notwendigerweise

im lokalen Repository, sondern verteilt im WWW□erfordert dynamisches Nachladen von RDF Ressourcen■Tabulator (Tim Berners-Lee, MIT-Arbeitsgruppe)

(T. Berners-Lee et al.: Tabulator: Exploring and analyzing linked data on the semantic web, in Proc. 3rd Int. Semantic Web User Interaction Workshop, 2006, http://swui.semanticweb.org/swui06/papers/Berners-Lee/Berners-Lee.pdf)

■ OpenLink RDF Browser□erlaubt Darstellung als Graph, Zeitreihe, Landkarte, etc.

http://demo.openlinksw.com/DAV/JS/rdfbrowser/index.html

■Zitgist Browserhttp://browser.zitgist.com/

■DISCO Browserhttp://sites.wiwiss.fu-berlin.de/suhl/bizer/ng4j/disco/

Dienstag, 17. Januar 12

Page 53: 12 - Linked Data Engineering - Semantic Web Technologien, WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

53

Suchmaschinen für Linked Data■Crawler-basiert, folgen Verknüpfungen von Datensätzen, um

einen Index zu erstellen, an den Suchabfragen gerichtet werden können

■Swoogle□ Stichwort-basierte Volltextsuche (Apache-Lucene), nutzt

semantische Annotation nur begrenzthttp://swoogle.umbc.edu/

■ Semantic Web Search Engine (SWSE)□ nutzt zusätzlich rdf:type Properties zur Filterung der Suche

http://swse.deri.org/

■Sindicehttp://www.sindice.com/

■ Falcons□mit Datenbrowser zur Analyse der Suchergebnisse

http://iws.seu.edu.cn/services/falcons/

■Sig.ma - Semantic Information Mashup (auf der Basis von Sindice)http://sig.ma/

Dienstag, 17. Januar 12

Page 54: 12 - Linked Data Engineering - Semantic Web Technologien, WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

54

http://dbpedia.neofonie.com

Dienstag, 17. Januar 12

Page 55: 12 - Linked Data Engineering - Semantic Web Technologien, WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

55

Linked Open Data■ offen zugängliche Linked Data Ressourcen im WWW, d.h. lizensiert als

„Creative Common CC-BY“ ■ 5-Sterne Kriterien für Linked Open Data

Available on the web (whatever format) but with an open licence, to be Open Data

Available as machine-readable structured data (e.g. excel instead of image scan of a table)

as (2) plus non-proprietary format (e.g. CSV instead of excel)

All the above plus, Use open standards from W3C (RDF and SPARQL) to identify things, so that people can point at your stuff

All the above, plus: Link your data to other people’s data to provide context

★ ★

★ ★ ★★ ★ ★ ★

★ ★ ★ ★ ★

Dienstag, 17. Januar 12

Page 56: 12 - Linked Data Engineering - Semantic Web Technologien, WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

56

4.1 Linked Data Engineering4.1.1 APIs vs. Linked Data4.1.2 Linked Data Principles4.1.3 Linked Data @ Work4.1.4 Linked Data Research Challenges

Dienstag, 17. Januar 12

Page 57: 12 - Linked Data Engineering - Semantic Web Technologien, WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

57

Linked Data □geordnet nach Kategorien

Dienstag, 17. Januar 12

Page 58: 12 - Linked Data Engineering - Semantic Web Technologien, WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

58

Linked Data

Medien

User Generated Content

Dienstag, 17. Januar 12

Page 59: 12 - Linked Data Engineering - Semantic Web Technologien, WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

59

Linked Data Publications

Dienstag, 17. Januar 12

Page 60: 12 - Linked Data Engineering - Semantic Web Technologien, WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

60

Government

Linked Data

Geographic

Dienstag, 17. Januar 12

Page 61: 12 - Linked Data Engineering - Semantic Web Technologien, WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

61

Life Sciences Linked Data Cross-Domain

Dienstag, 17. Januar 12

Page 62: 12 - Linked Data Engineering - Semantic Web Technologien, WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

62

Linking Open Data■Some statistics (as of 09/2011)

Dienstag, 17. Januar 12

Page 63: 12 - Linked Data Engineering - Semantic Web Technologien, WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

63

Linked Data Ontologien □Ontologien halten die Linked Data Cloud zusammen

Dienstag, 17. Januar 12

Page 64: 12 - Linked Data Engineering - Semantic Web Technologien, WS 2011/12

Linked Data Ontologien □ z.B. OWL

□owl:sameAs verknüpft identische Individuen□owl:equivalentClass verknüpft äquivalente Klassen

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

64

Dienstag, 17. Januar 12

Page 65: 12 - Linked Data Engineering - Semantic Web Technologien, WS 2011/12

Linked Data Ontologien □ z.B. umbel (version 1.0, Feb. 2011)

□ „Upper Mapping and Binding Exchange Layer“□Teilmenge von OpenCyc

als RDF Tripel basierendauf SKOS und OWL2□Upper Ontology mit 28.000

Konzepten (skos:Concept)□46.000 Mappings zu

DBpedia, geonames u.a.(owl:equivalentClass, rdfs:subClassOf)□Links zu über 2 Mio Wikipedia-Seiten

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

65

Dienstag, 17. Januar 12

Page 66: 12 - Linked Data Engineering - Semantic Web Technologien, WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

66

Linked Data Ontologien □ z.B. SKOS

□ „Simple Knowledge Organization System“□basiert auf RDF und RDFS und dient der

Definition und zum Mapping von Voka-bularien und Ontologien□skos:Concept (Klassen / Konzepte)□skos:narrower

□skos:broader

□skos:related

□skos:exactMatch, skos:narrowMatch,skos:broadMatch, skos:relatedMatch

Dienstag, 17. Januar 12

Page 67: 12 - Linked Data Engineering - Semantic Web Technologien, WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

67

Linked Data Driven Web Applications□Notwendige Komponenten:□Local RDF Store

□caching of results □permanent storage

□Logic (Controller) und User Interface (-> Business Logic)□ (nicht LOD spezifisch)

□Data Integration component□Daten direkt aus LOD-Cloud oder □ via Semantic Indexer (sindice, etc.) holen

□Data Republishing component□Applikations-eigene Daten in Web of Data

zurückschreiben

Dienstag, 17. Januar 12

Page 68: 12 - Linked Data Engineering - Semantic Web Technologien, WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

68

Linked Data Driven Web Applications

M.Hausenblas: Linked Data Applications, DERI Technical Report, 2009

Dienstag, 17. Januar 12

Page 69: 12 - Linked Data Engineering - Semantic Web Technologien, WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

69

Linked Data Driven Web Applications□ Zugriff auf Linked Data erfolgt über SPARQL Endpoints□ ...aber wo finde ich SPARQL Endpoints?

□W3C: Currently Alive SPARQL Endpointshttp://esw.w3.org/SparqlEndpoints

□SPARQL endpoints are a RESTful Web Services□HTTP GET Request mit SPARQL query□Result als

□ XML, JSON, plaintext (SPARQL Select/Ask)□RDF/XML, NTriples, Turtle, N3

(SPARQL Describe/Construct)□Datenformat kann über HTTP Accept Header gesteuert

werdenz.B. Accept: application/sparql-results+json

□ (oder über Parameter in der SPARQL query)

Dienstag, 17. Januar 12

Page 70: 12 - Linked Data Engineering - Semantic Web Technologien, WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

70

Linked Data Driven Web Applications□Einfacher geht es mit einer entsprechenden Library:

□SPARQL Javascript Libraryhttp://www.thefigtrees.net/lee/blog/2006/04/sparql_calendar_demo_a_sparql.html

□ARC for SPARQL (PHP)http://arc.semsol.org/

□RAP - RDF API für PHPhttp://www4.wiwiss.fu-berlin.de/bizer/rdfapi/index.html

□ Jena/ARQ (Java)http://jena.sourceforge.net/

□Sesame (Java)http://www.openrdf.org/

□SPARQL Wrapper (Python)http://sparql-wrapper.sourceforge.net/

□ ...

Dienstag, 17. Januar 12

Page 71: 12 - Linked Data Engineering - Semantic Web Technologien, WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

71

Linked Data Driven Web Applications□Simples Beispiel mit Jena ARQ:

import com.hp.hpl.jena.query.*;

String service = "..."; // address of the SPARQL endpoint String query = "SELECT ..."; // your SPARQL query QueryExecution e = QueryExecutionFactory.sparqlService(service, query)

ResultSet results = e.execSelect(); while ( results.hasNext() ) {! ! QuerySolution s = results.nextSolution(); ! ! // ...}

e.close();

Dienstag, 17. Januar 12

Page 72: 12 - Linked Data Engineering - Semantic Web Technologien, WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

72

Linked Data Driven Web Applications

□Komplexe SPARQL Abfragen über mehrere SPARQL Endpoints hinweg

1. Nacheinander Anfragen an verschiedene SPARQL Endpoints richten

2. Abfrage an eine LOD Repository Sammlung

3. Aufbau einer lokalen Kopie aus mehreren LOD-Quellen

4. Nutzung eines föderierten Abfragesystems

a) Traditioneller Ansatz

b) Link Traversal Based Query Execution

Dienstag, 17. Januar 12

Page 73: 12 - Linked Data Engineering - Semantic Web Technologien, WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

73

Komplexe SPARQL Abfragen über mehrere SPARQL Endpoints hinweg1. Nacheinander Anfragen an verschiedene SPARQL Endpoints richten□ Idee:

Richte SPARQL Anfragen an weitere SPARQL-Endpoints basierend auf den Ergebnissen der vorangegangenen Abfragen

□ d.h. Platzhalter in Query-Templates werden durch Ergebnisse der vorangegangenen SPARQL-Abfragen ersetzt

LOD2

Query1

Erg1

Query2(Erg1)

Erg2LOD3

LOD1

Dienstag, 17. Januar 12

Page 74: 12 - Linked Data Engineering - Semantic Web Technologien, WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

74

Komplexe SPARQL Abfragen über mehrere SPARQL Endpoints hinweg1. Nacheinander Anfragen an verschiedene SPARQL Endpoints richten

String s1 = "http://sparql.yovisto.com/"; String s2 = "http://dbpedia.org/sparql";

String qTmpl = "SELECT ?c WHERE{ <%s> <http://dbpedia.org/ontology/abstract> ?a }";String q1 = "SELECT ?s WHERE { ..."; QueryExecution e1 = QueryExecutionFactory.sparqlService(s1,q1); ResultSet results1 = e1.execSelect(); while ( results1.hasNext() ) {! QuerySolution s1 = results.nextSolution(); ! String q2 = String.format( qTmpl, s1.getResource("s").getURI() );! QueryExecution e2= QueryExecutionFactory.sparqlService(s2,q2); ! ResultSet results2 = e2.execSelect(); ! while ( results2.hasNext() ) {! ! // ... ! }

Dienstag, 17. Januar 12

Page 75: 12 - Linked Data Engineering - Semantic Web Technologien, WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

75

Komplexe SPARQL Abfragen über mehrere SPARQL Endpoints hinweg1. Nacheinander Anfragen an verschiedene SPARQL Endpoints richten

□ Vorteile:□ Abgefragte Daten sind stets aktuell

□ Nachteile:□ Jeder der verwendeten Datensätze benötigt einen SPARQL

Endpoint□ Programmlogik erforderlich□ ineffizient

Dienstag, 17. Januar 12

Page 76: 12 - Linked Data Engineering - Semantic Web Technologien, WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

76

Komplexe SPARQL Abfragen über mehrere SPARQL Endpoints hinweg

2. Abfrage an eine LOD Repository Sammlung□ Idee:

Nutze einen vorhandenen SPARQL Endpoint, der den Zugang zu einer Menge von verschiedenen LOD Datensätzen ermöglicht

□= Data Centralization

□SPARQL Endpoints, über die eine Vielzahl der LOD-Datensätze zugegriffen werden können:□ http://uberblic.org□ http://lod.openlinksw.com/sparql

Dienstag, 17. Januar 12

Page 77: 12 - Linked Data Engineering - Semantic Web Technologien, WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

77

Komplexe SPARQL Abfragen über mehrere SPARQL Endpoints hinweg

2. Abfrage an eine LOD Repository Sammlung

□Vorteile:□Benötigt keine spezielle Programmlogik

□Nachteile:□ abgefragte Daten sind möglicherweise nicht immer aktuell□möglicherweise sind nicht alle benötigten Datensätze in der

Sammlung enthalten

Dienstag, 17. Januar 12

Page 78: 12 - Linked Data Engineering - Semantic Web Technologien, WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

78

Komplexe SPARQL Abfragen über mehrere SPARQL Endpoints hinweg

3. Aufbau einer lokalen Kopie aus mehreren LOD Quellen □ Idee:

Nutze einen lokalen SPARQL Endpoint und kopiere alle relevanten LOD Datensätze darauf

□= Data Centralization

□LOD Datensätze können gewonnen werden aus□RDF Dumps (falls vorhanden)□ (Focused) Crawling

□ z.B. Ldspiderhttp://code.google.com/p/ldspider/

Dienstag, 17. Januar 12

Page 79: 12 - Linked Data Engineering - Semantic Web Technologien, WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

79

Komplexe SPARQL Abfragen über mehrere SPARQL Endpoints hinweg

3. Aufbau einer lokalen Kopie aus mehreren LOD Quellen □ Vorteile:

□ Benötigt keine spezielle Programmlogik □ Umfasst alle benötigten LOD Datensätze□ Unabhängig von der Verfügbarkeit der originalen SPARQL

Endpoints

□ Nachteile:□ Aufwand bzgl. Aufbau und Wartung des lokalen SPARQL

Endpoints□ Kompliziert, wenn nicht auf RDF-Dumps zurückgegriffen werden

kann□ Synchronisation mit den originalen Daten notwendig, d.h.

abgefragte Daten sind möglicherweise nicht immer aktuell

Dienstag, 17. Januar 12

Page 80: 12 - Linked Data Engineering - Semantic Web Technologien, WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

80

Komplexe SPARQL Abfragen über mehrere SPARQL Endpoints hinweg4. Nutzung eines föderierten Abfragesystems□ Idee (traditioneller Ansatz):

Ein Mediator wird zwischen Query und Datenquellen geschalten, der die Query in Subqueries zerlegt und die Ergebnisse wieder zusammenfasst

LOD1

LOD2

LOD3

MediatorQuery

Subquery1

Subquery2Subquery3

Dienstag, 17. Januar 12

Page 81: 12 - Linked Data Engineering - Semantic Web Technologien, WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

81

Komplexe SPARQL Abfragen über mehrere SPARQL Endpoints hinweg4. Nutzung eines föderierten Abfragesystems□ Idee (traditioneller Ansatz):

Ein Mediator wird zwischen Query und Datenquellen geschalten, der die Query in Subqueries zerlegt und die Ergebnisse wieder zusammenfasst

LOD1

LOD2

LOD3

MediatorResult

result1

result2

result3

Dienstag, 17. Januar 12

Page 82: 12 - Linked Data Engineering - Semantic Web Technologien, WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

82

Komplexe SPARQL Abfragen über mehrere SPARQL Endpoints hinweg4. Nutzung eines föderierten Abfragesystems

□Vorteile:□Benötigt keine spezielle Programmlogik

□Nachteile:□Abgefragte LOD Daten müssen über aktiven SPARQL-

Endpoint verfügen□Abgefragte LOD-Datenquellen müssen im Voraus bekannt

sein□Neue bzw. unbekannte LOD-Datenquellen werden nicht

berücksichtigt (!)

Dienstag, 17. Januar 12

Page 83: 12 - Linked Data Engineering - Semantic Web Technologien, WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

83

Komplexe SPARQL Abfragen über mehrere SPARQL Endpoints hinweg4. Nutzung eines föderierten Abfragesystems

Mit Link Traversal Based Query Execution□ Idee:

Verknüpfe Auswertung der Query direkt mit Traversierung des RDF-Graphen

Query: Suche Publikationen des Vortragenden eines yovisto-Videos

speaker PND-id

Dienstag, 17. Januar 12

Page 84: 12 - Linked Data Engineering - Semantic Web Technologien, WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

84

speaker PND-id

http://www.yovisto.com/resource/video/6389

Query: Suche Publikationen des Vortragenden eines yovisto-Videos

Dienstag, 17. Januar 12

Page 85: 12 - Linked Data Engineering - Semantic Web Technologien, WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

85

speaker PND-id

Query: Suche Publikationen des Vortragenden eines yovisto-Videos

http://www.yovisto.com/resource/speaker/813

Dienstag, 17. Januar 12

Page 86: 12 - Linked Data Engineering - Semantic Web Technologien, WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

86

speaker PND-id

Query: Suche Publikationen des Vortragenden eines yovisto-Videos

http://dbpedia.org/resource/Max_Planck

owl:sameAs <http://d-nb.info/gnd/118594818>

Dienstag, 17. Januar 12

Page 87: 12 - Linked Data Engineering - Semantic Web Technologien, WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

87

speaker PND-id

Query: Suche Publikationen des Vortragenden eines yovisto-Videos

http://d-nb.info/gnd/118594818

:118594818 :preferredNameForThePerson "Planck, Max" ; :publicationOfThePerson "Planck, Max: Sinn und Grenzen der exakten Wissenschaft. - 1942"@de ; :publicationOfThePerson "Planck, Max: Der Kausalbegriff in der Physik. - 1932"@de ; :publicationOfThePerson "Planck, Max: Religion und Naturwissenschaft. - 1938"@de ; :publicationOfThePerson "Planck, Max: Kausalgesetz und Willensfreiheit. - 1923"@de ; :publicationOfThePerson "Planck, Max: Determinismus oder Indeterminismus? Vortrag. - 1938"@de ; :publicationOfThePerson "Planck, Max: Positivismus und reale Au\u00DFenwelt. - 1931"@de ; :publicationOfThePerson "Planck, Max: Sinn und Grenzen der exakten wissenschaft. - 1942"@de ; :publicationOfThePerson "Planck, Max: Significato e limiti della scienza esatta. - 1943"@de ; :publicationOfThePerson "Planck, Max: Wege zur physikalischen Erkenntnis. - 1944"@de .

Dienstag, 17. Januar 12

Page 88: 12 - Linked Data Engineering - Semantic Web Technologien, WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

88

Komplexe SPARQL Abfragen über mehrere SPARQL Endpoints hinweg

4. Nutzung eines föderierten AbfragesystemsMit Link Traversal Based Query Execution

□ Implementierungen:□Semantic Web Client library (SWClLib) for Java

http://www4.wiwiss.fu-berlin.de/bizer/ng4j/semwebclient/□SQUIN

http://squin.org □Provides SWClLib functionality as a Web service□Accessible like a SPARQL endpoint

□Vorteile:□Benötigt keine spezielle Programmlogik

Dienstag, 17. Januar 12

Page 89: 12 - Linked Data Engineering - Semantic Web Technologien, WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

89

Komplexe SPARQL Abfragen über mehrere SPARQL Endpoints hinweg

4. Nutzung eines föderierten AbfragesystemsMit Link Traversal Based Query Execution

□ Vorteile:□ Keine zusätzliche Programmlogik notwendig□ Datenbestände sind stets aktuell□ Nicht alle Datenbestände müssen im Voraus bekannt sein

□ Nachteile:□ Online Query während Query Evaluation ist zeitaufwändiger als

zentralisierte Abfrage□ ABER: lokaler RDF-Store fungiert als Cache□ Eventuell unvollständige Ergebnisse...

Dienstag, 17. Januar 12

Page 90: 12 - Linked Data Engineering - Semantic Web Technologien, WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

90

4.1 Linked Data Engineering4.1.1 APIs vs. Linked Data4.1.2 Linked Data Principles4.1.3 Linked Data @ Work4.1.4 Linked Data Research Challenges

Dienstag, 17. Januar 12

Page 91: 12 - Linked Data Engineering - Semantic Web Technologien, WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

91

■Extension of the Web with a data commons (31b RDF triples = facts)

■Vibrant global RTD community■ Industrial uptake starting

(BBC, Thomson, Reuters, etc.)■Emerging governmental adoption

in sight■Establishing Linked Data as a deployment path

for the Semantic Web

Linked Data Achievements

Dienstag, 17. Januar 12

Page 92: 12 - Linked Data Engineering - Semantic Web Technologien, WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

92

Linked Data Challenges

■Coherencerelatively few, expensively maintained links

■Qualitypartly low quality data and inconsistencies

■ Performancestill substantial penalties compared torelational database technologies

■Data consumptionlarge scale processing, schema mapping anddata fusion still in its infancy

■UsabilityMissing direct end user tools and network effect

Sören Auer:"Linked Data: Now what?"ESWC2010 Panel Discussion

Dienstag, 17. Januar 12

Page 93: 12 - Linked Data Engineering - Semantic Web Technologien, WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

93

Dienstag, 17. Januar 12

Page 94: 12 - Linked Data Engineering - Semantic Web Technologien, WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

94

Dienstag, 17. Januar 12

Page 95: 12 - Linked Data Engineering - Semantic Web Technologien, WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

95

Selected Linked Data Research Challenges

(1) Crawling the Semantic Web(2) Structural Analysis (3) Content-based Analysis(4) Data Cleansing(5) Heuristics for Ranking Semantic Web Data(6) Augmenting Semantic Web Infrastructure

Dienstag, 17. Januar 12

Page 96: 12 - Linked Data Engineering - Semantic Web Technologien, WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

96

So what? ■ Interesting Facts to find out about

Semantic Web & Linked Data

■How big is the Semantic Universe?■# tripel■# documents■# interlinking

■Linking Open Data is only registered vocabulary/data in the LOD-Wiki→ 31b RDF triples

■What else is out there ... and how much of it?■ ...and how do we get it?

Dienstag, 17. Januar 12

Page 97: 12 - Linked Data Engineering - Semantic Web Technologien, WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

97

■Of course we are not the first to be out there...■Swoogle

Li Ding et al: Finding and Ranking Knowledge on the Semantic Web, ISWC 2005.

■Scutter/Slug Leigh Dodds: Slug: A Semantic Web Crawler, 2006

■Sindice Giovanni Tumarello et al: Sindice.com - weaving the open linked data, ISWC 2007 → 2.1b RDF triples

■SWSE Andreas Harth et al: SWSE: Objects before Documents, Semantic Web Challenge 2008, ISWC 2008

→ 1.1b RDF triples■ Falcons

G.Cheng et al.:Falcons: Searching and Browsing Entities on the Semantic Web, WWW17 2008. → 2.9b RDF triples

(1) Crawling the Semantic Web

Dienstag, 17. Januar 12

Page 98: 12 - Linked Data Engineering - Semantic Web Technologien, WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

98

■Again we are not the first to be out there...■Structural Analysis of the ,early‘ WWW

(2) Analyzing the Semantic Web I - Structural Analysis

IN44m nodes

SCC56m nodes

OUT44m nodes

unconnected components

unconnected components

tunnels

appendices

appendices

A. Broder et al.: Graph structure in the Web. In Comput. Netw. 33, 1-6 (Jun. 2000), 309-320.

Dienstag, 17. Januar 12

Page 99: 12 - Linked Data Engineering - Semantic Web Technologien, WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

99

■Again we are not the first to be out there...■Structural Analysis of the ,early‘ Semantic Web

(2) Analyzing the Semantic Web I - Structural Analysis

Weiyi Ge et al.: Object Link Structure in the Semantic Web, ESWC 2010

■ Experimental Setup ■ 18m RDF documents (Falcons crawl 2009)■ 110m nodes with 190m edges

■ Analysis of RDF link graph■ average node degree: ≈3.4■ effective diameter: ≈11.5■ Largest connected component: ≈88% of all

nodes

Dienstag, 17. Januar 12

Page 100: 12 - Linked Data Engineering - Semantic Web Technologien, WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

100 ■Again we are not the first to be out there...

(3) Analyzing the Semantic Web II Content-Based Analysis

A. Hoigan et al: Weaving the Pedantic Web, LDOW 2010■ 150k documents with more than 12m RDF triples■ Discovered categories of symptoms:

■ incomplete → dead links■ incoherent → no correct interpretation (local)■ hijack → no correct interpretation (remote)■ inconsistent → contradictions

Dienstag, 17. Januar 12

Page 101: 12 - Linked Data Engineering - Semantic Web Technologien, WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

101 ■Again we are not the first to be out there...

(3) Analyzing the Semantic Web II Content-Based Analysis

Urbani et al: OWL Reasoning with WebPIE: Calculating the Closure of 100 Billion Triples, ESWC 2010■ Artificial Benchmark dataset used

Leigh University Benchmark (LUBM) with 100b RDF triples

■ Computing the transitive closure (= reasoning)

■ Making implicit knowledge explicit

Fabio Capello

Person

is a

San Canzian d‘IsonzohasBirthPlace

class membershipcan be deduced

PlacehasBirthPlace

Dienstag, 17. Januar 12

Page 102: 12 - Linked Data Engineering - Semantic Web Technologien, WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

102

■ trying to clean out Linked Open Data and possibly also (partially) the Semantic Web... (1)Identify inconsistencies and ambiguities

by (automated) content-based analysis (2)Solve inconsistencies & ambiguities ■ if possible by reasoning■else by crowdsourcing

(game-based evaluation, etc.)

(4) Analyzing the Semantic Web III - Data Cleansing

Cleaning out the Augean stables...AUGEAN-STABLES: Extremely nasty and smelly warehouses of filth, straw and manure

Dienstag, 17. Januar 12

Page 103: 12 - Linked Data Engineering - Semantic Web Technologien, WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

103

■Linked Data provides (unbiased) knowledge■unbiased = no distinction of what is important,

what is not important

(5) Analyzing the Semantic Web IV - Relevance Ranking

http://dbpedia.org/page/Albert_Einstein

■ e.g., Albert Einstein■ > 600 facts (triples)■ > 80 properties■ no ranking■ no relevance

Dienstag, 17. Januar 12

Page 104: 12 - Linked Data Engineering - Semantic Web Technologien, WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

104

■We have developed heuristics for ranking objects and properties, e.g.

(5) Analyzing the Semantic Web IV - Relevance Ranking

:Albert_Einstein

:AmericanVegetarian

rdf:type

:Alfred_Kleiner

rdf:type

:Scientistrdf:type :Bill_Cosby

rdf:type

:doctoralAdviser

considered to be relevant

Dienstag, 17. Januar 12

Page 105: 12 - Linked Data Engineering - Semantic Web Technologien, WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

105

4.1 Linked Data Engineering4.1.1 APIs vs. Linked Data4.1.2 Linked Data Principles4.1.3 Linked Data @ Work4.1.4 Linked Data Research Challenges

Dienstag, 17. Januar 12

Page 106: 12 - Linked Data Engineering - Semantic Web Technologien, WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

4. Semantic Web Anwendungen4.1. Ontological Engineering4.2. Linked Data Engineering 4.3. Semantic Search4.4. Aktuelle Projekte:

Yovisto, mediaglobe und Semantic Media Explorer

Semantic Web Technologien Vorlesungsinhalt

Dienstag, 17. Januar 12

Page 107: 12 - Linked Data Engineering - Semantic Web Technologien, WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

107

Nächste Vorlesung:

Semant

ic

Search

Albrecht Dürer: Melancholia I, 1514

Dienstag, 17. Januar 12

Page 108: 12 - Linked Data Engineering - Semantic Web Technologien, WS 2011/12

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

108

4. Semantic Web Anwendungen4.2 Linked Data Engineering

Literatur

• T. Heath, Ch. BitzerLinked Data - Evolving the Web into a Global Data Space,Morgan & Claypool, 2011.

Dienstag, 17. Januar 12

Page 109: 12 - Linked Data Engineering - Semantic Web Technologien, WS 2011/12

Materialien

□Bloghttp://wwwsoup2011.blogspot.com/

□Webseitehttp://www.hpi.uni-potsdam.de/studium/lehrangebot/veranstaltung/semantic_web_technologien.html

□bibsonomy - Bookmarkshttp://www.bibsonomy.org/user/lysander07/swt1112_13

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

109

4. Semantic Web Anwendungen4.2 Linked Data Engineering

Dienstag, 17. Januar 12