1114 sasaki-metadata

54
Sasaki – Markupforum 2014 Tools, offene Daten, Vokabulare und Anwendungsszenarien für semi-automatische Metadatengenerierung Felix Sasaki DFKI / W3C Fellow 1

Upload: felix-sasaki

Post on 10-Jul-2015

5.862 views

Category:

Technology


2 download

TRANSCRIPT

Page 1: 1114 sasaki-metadata

Sasaki – Markupforum 2014

Tools, offene Daten, Vokabulare und Anwendungsszenarien für

semi-automatische Metadatengenerierung

Felix Sasaki

DFKI / W3C Fellow

1

Page 2: 1114 sasaki-metadata

Sasaki – Markupforum 2014

Überblick

• Metadaten: Was und warum?

• Demo zu neuen Metadaten:Tooling für Inhaltsanreicherung

• Was fehlt für Content Authors?

• Was ist Linked Data? – Kurzeinführung ...

• Offene Datenquellen im Web

• Nächste Schritte

2

Page 3: 1114 sasaki-metadata

Sasaki – Markupforum 2014

Überblick

• Metadaten: Was und warum?

• Demo zu neuen Metadaten:Tooling für Inhaltsanreicherung

• Was fehlt für Content Authors?

• Was ist Linked Data? – Kurzeinführung ...

• Offene Datenquellen im Web

• Nächste Schritte

3

Page 4: 1114 sasaki-metadata

Sasaki – Markupforum 2014

Metadaten

• Häufige Anwendung im Publikationsbereich: Indexierung

– Automatisch

– Manuell

– Kombiniert

4

Page 5: 1114 sasaki-metadata

Sasaki – Markupforum 2014

Metadaten

• Häufige Anwendung im Publikationsbereich: Indexierung

• Standardisierte Vokabulare für manuelle Indexierung

– Bibliothek: Gemeinschaftliche Normdatei

– Verlage, Buchhändler, ....: ONIX

5

Page 6: 1114 sasaki-metadata

Sasaki – Markupforum 2014

Anwendungsszenario:Suche erleichtern

• „Finde alle Bücher über Stuttgart“

• „Stuttgart“ abbildbar auf Metadaten in bibliothekarischen Normdaten

– DNB http://d-nb.info/gnd/4058282-6

– LOChttp://id.loc.gov/authorities/names/n79110280

– VIAF http://viaf.org/viaf/153084910/

– ...

6

Page 7: 1114 sasaki-metadata

Sasaki – Markupforum 2014

WAS HABEN GEGENWÄRTIGE METADATENANWENDUNGENGEMEINSAM?

7

Page 8: 1114 sasaki-metadata

Sasaki – Markupforum 2014

Metadaten = Containerlabel

8

http://d-nb.info/gnd/4058282-6

http://id.loc.gov/authorities/names/n79110280

http://viaf.org/viaf/153084910/

Page 9: 1114 sasaki-metadata

Sasaki – Markupforum 2014

Metadaten – der nächste Schritt:Vom Container in die Inhalte

9

Page 10: 1114 sasaki-metadata

Sasaki – Markupforum 2014

Überblick

• Metadaten: Was und warum?

• Demo zu neuen Metadaten:Tooling für Inhaltsanreicherung

• Was fehlt für Content Authors?

• Was ist Linked Data? – Kurzeinführung ...

• Offene Datenquellen im Web

• Nächste Schritte

10

Page 11: 1114 sasaki-metadata

Sasaki – Markupforum 2014

Schritt 1: AutomatischeErkennung von Eigennamen

• <p>Welcome to Stuttgart.</p>

Input

• <p>Welcome to <span its-ta-ident-ref="http://dbpedia.org/resource/Stuttgart"...>Stuttgart</span>!.</p>

Output (als ITS 2.0 “Text Analysis” Markup)

11

Page 12: 1114 sasaki-metadata

Sasaki – Markupforum 2014

Schritt 2: Anreicherung der Inhalte durch Zugriff auf DBpedia via SPARQL

Nutzt DBpedia URIs aus Schritt 1.

• SELECT ?wikiURI ...WHERE{ http://dbpedia.org/resource/Stuttgartrdf:type <http://schema.org/Place>.... }

Beispielabfrage, prüft ob Entität ein Ort (place) ist

12

Page 13: 1114 sasaki-metadata

Sasaki – Markupforum 2014

Schritt 3: Generierung von Schema.orgMarkup und Inhalten

• Teil 1: SPARQL Query Ausgabe und

• Teil 2: Dokument

• <p>Welcome to <span its-ta-ident-ref="http://dbpedia.org/resource/Stuttgart"...>Stuttgart</span>!</p>

Input

• <p>Welcome to <span ... Itemscope=""

itemtype="http://schema.org/Place">… Stuttgart</span>! Population: 600038</p>

Output: Dokument mit Schema.org Markup

13

Page 14: 1114 sasaki-metadata

Sasaki – Markupforum 2014

Outputtest mit„Structured Data Testing Tool“

14

http://www.google.com/webmasters/tools/richsnippets

Page 15: 1114 sasaki-metadata

Sasaki – Markupforum 2014

Überblick

• Metadaten: Was und warum?

• Demo zu neuen Metadaten:Tooling für Inhaltsanreicherung

• Was fehlt für Content Authors?

• Was ist Linked Data? – Kurzeinführung ...

• Offene Datenquellen im Web

• Nächste Schritte

15

Page 16: 1114 sasaki-metadata

Sasaki – Markupforum 2014

1) Tooling für Content Authors

• Beispiel oXygen Editor Modifikation

• Informationsquellen aus dem Web holen

– Autor muss Quellen und Abfragen auswählen können

– Strukturgenerierung muss konfigurierbar sein

16

Page 17: 1114 sasaki-metadata

Sasaki – Markupforum 2014

1) Tooling für Content Authors• Abfrage von Datenquellen macht Inhalte

dynamisch – Inhalte werden intelligent und „fragen die Datenquellen ab“– Beispiel: Einwohnerzahl für Orte aus DBpedia

17

Page 18: 1114 sasaki-metadata

Sasaki – Markupforum 2014

1) Tooling für Content Authors• Abfrage von Datenquellen macht Inhalte

dynamisch – Inhalte werden intelligent und „fragen die Datenquellen ab“– Beispiel: Geburtsdatum für Personen aus DBpedia

18

Page 19: 1114 sasaki-metadata

Sasaki – Markupforum 2014

2) Wissen umDatenquellen und Technologien

• Technologien In a Nutshell– RDF um Daten zu repräsentieren

– SPARQL zur Abfrage

– ITS 2.0 „Text Analysis“ um Identikatoren in Inhalten zu Speichern > Link zur Linked Data Cloud

• Relevante Datenquellen– Allgemein: DBpedia

– Speziell: Abhängig von der Domäne + dem Anwendungsfall

– (Potential): die eigenen, angereicherten Inhalte selbst

– Beispiel: Reiseführer über Stuttgart

19

Page 20: 1114 sasaki-metadata

Sasaki – Markupforum 2014

Überblick

• Metadaten: Was und warum?

• Demo zu neuen Metadaten: Tooling für Inhaltsanreicherung

• Was fehlt für Content Authors?

• Was ist Linked Data? – Kurzeinführung ...

• Offene Datenquellen im Web

• Nächste Schritte

20

Page 21: 1114 sasaki-metadata

Sasaki – Markupforum 2014

WAS IST LINKED DATA?KURZEINFÜHRUNG …

21

Page 22: 1114 sasaki-metadata

Sasaki – Markupforum 2014

Bausteine für das Web

<p>All content on this site is licensed under<a

href="http://creativecommons.org/licenses/by/3.0/">a Creative Commons License</a>. </p>

22

Page 23: 1114 sasaki-metadata

Sasaki – Markupforum 2014

Inhalt

<p>All content on this site is licensed under<a

href="http://creativecommons.org/licenses/by/3.0/">a Creative Commons License</a>. </p>

23

Page 24: 1114 sasaki-metadata

Sasaki – Markupforum 2014

Links (oder “Identifier”)

<p>All content on this site is licensed under<a

href="http://creativecommons.org/licenses/by/3.0/">a Creative Commons License</a>. </p>

24

Page 25: 1114 sasaki-metadata

Sasaki – Markupforum 2014

Einfach: “Finde alle Seiten mit Links zu http://creativecommons.org/licenses/by/3.0/“

<p>All content on this site is licensed under<a

href="http://creativecommons.org/licenses/by/3.0/">a Creative Commons License</a>. </p>

25

Page 26: 1114 sasaki-metadata

Sasaki – Markupforum 2014

Noch schwierig: “Finde alle Inhalte die unter einer Creative Commons Lizenz stehen“

<p>All content on this site is licensed under<a

href="http://creativecommons.org/licenses/by/3.0/">a Creative Commons License</a>. </p>

26

?

Page 27: 1114 sasaki-metadata

Sasaki – Markupforum 2014

Linked Data =maschinenlesbare Information im Web

<p>All content on this site is licensed under<a property="http://creativecommons.org/ns#license"

href="http://creativecommons.org/licenses/by/3.0/">a Creative Commons License</a>. </p>

27

?

Page 28: 1114 sasaki-metadata

Sasaki – Markupforum 2014

Linked Data =maschinenlesbare Information im Web

28

Web der Dokumente Web der Daten

Page 29: 1114 sasaki-metadata

Sasaki – Markupforum 2014

AUFGABEN & TECHNOLOGIEN

29

Page 30: 1114 sasaki-metadata

Sasaki – Markupforum 2014

Aufgaben …

Linked Data erzeugen

Linked Data Vokabulare definieren

Abfrage

30

Page 31: 1114 sasaki-metadata

Sasaki – Markupforum 2014

Technologien

• Linked Data erzeugen: RDF (Resource Description Framework)

• Vokabulare definieren: RDFS, SKOS, OWL (für komplexe wissensbasierte Modellierung -Ontologien)

• Abfrage: SPARQL

31

Page 32: 1114 sasaki-metadata

Sasaki – Markupforum 2014

Linked Data = RDF „Aussagen“

32

http://www.w3.org/Talks/2014/1114-sasaki-metadata/

http://creativecommons.org/licenses/by/3.0/

http://creativecommons.org/ns#license

Referenz zu einer Lizenz als RDF Aussage (Visualisierung):

Page 33: 1114 sasaki-metadata

Sasaki – Markupforum 2014

Turtle Syntax

33

http://www.w3.org/Talks/2014/1114-sasaki-metadata/

http://creativecommons.org/licenses/by/3.0/

http://creativecommons.org/ns#license

Referenz zu einer Lizenz als RDF Aussage (Visualisierung) + Turtle Syntax:

@prefix cc: <http://creativecommons.org/ns#>.@prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#>.<http://www.w3.org/Talks/2014/1114-sasaki-metadata/>

cc:license<http://creativecommons.org/licenses/by/3.0/>.

Page 34: 1114 sasaki-metadata

Sasaki – Markupforum 2014

RDF Aussagen …

34

http://www.w3.org/Talks/2014/1114-sasaki-metadata/

http://creativecommons.org/licenses/by/3.0/

http://creativecommons.org/ns#license

Page 35: 1114 sasaki-metadata

Sasaki – Markupforum 2014

… auf der Basis vonVokabularien

35

http://www.w3.org/Talks/2014/1114-sasaki-metadata/

http://creativecommons.org/licenses/by/3.0/

cc:license rdf:Propertyrdf:Type

ex:Presentationsrdf:Type

RDF Schema- Definition von Classes (example “Presentations”) und properties (like “cc:license”)OWL (Web Ontology Language)- Definition weiterer (logischer) Constraints für VokabulareSKOS- Beschreibung von Thesauri, Taxonomien, Klassifikationen

Page 36: 1114 sasaki-metadata

Sasaki – Markupforum 2014

Query - SPARQL

• Query Sprache für RDF

• Muster in Linkstrukturen

• Z.B. „Finde Präsentationen mit CC ... Lizenz“

Ergebnis:

http://www.w3.org/Talks/2014/1114-sasaki-metadata/

36

PREFIX cc: <http://creativecommons.org/ns#>SELECT ?presentation WHERE {?presentation cc:license <http://creativecommons.org/licenses/by/3.0/>.}

Page 37: 1114 sasaki-metadata

Sasaki – Markupforum 2014

SPARQL Abfrage mit Dbpedia: „Personen die in Stuttgart vor 1900 geboren wurden“:

http://tinyurl.com/dbpedia-bsp

37

Page 38: 1114 sasaki-metadata

Sasaki – Markupforum 2014

Q/A in Suchmaschinen heute

38

Beispiel nach Noz Urbina, Präsentation bei „Soap!“ Konferenz, Oktober 2014

Page 39: 1114 sasaki-metadata

Sasaki – Markupforum 2014

Potential: Q/A selbstgemacht

• Suche traditional

– Volltextindexierung, Linkgewichtung

• Metadaten heute

– Zugang zu Containern

• Metadaten morgen: Linked Data

– Neue Anwendungsszenarien, z.B. Q/A selbst gemacht

39

Page 40: 1114 sasaki-metadata

Sasaki – Markupforum 2014

Wiederholung:Metadaten = Containerlabel

40

http://d-nb.info/gnd/4058282-6

http://id.loc.gov/authorities/names/n79110280

http://viaf.org/viaf/153084910/

Page 41: 1114 sasaki-metadata

Sasaki – Markupforum 2014

Potential: Buchproduktionsprozess für Anwendung „Q/A via Metadaten in Inhalten“

41

Page 42: 1114 sasaki-metadata

Sasaki – Markupforum 2014

Potential: Buchauslieferung = Inhalte + Anreicherung

42

Page 43: 1114 sasaki-metadata

Sasaki – Markupforum 2014

Potential: Buchauslieferung = Inhalte + Anreicherung + Service Linked Data Abfrage über die Anreicherungen!

43

Abfrage „Personen die in Stuttgart vor 1900 geboren wurden“• Ergebnis ist anders als Abfrage gegenüber DBpedia

„Gustav Schwab“• Buch als Linked Data Quelle in verschiedenen Sprachen zugänglich• Linked Data Anreicherung + Anfragen: spezifisch für Markt

Reiseführer, Technische Dokumentation, ...

Page 44: 1114 sasaki-metadata

Sasaki – Markupforum 2014

Überblick

• Metadaten: Was und warum?

• Demo zu neuen Metadaten: Tooling für Inhaltsanreicherung

• Was fehlt für Content Authors?

• Was ist Linked Data? – Kurzeinführung ...

• Offene Datenquellen im Web

• Nächste Schritte

44

Page 45: 1114 sasaki-metadata

Sasaki – Markupforum 2014

Linked Data 1/3

Page 46: 1114 sasaki-metadata

Sasaki – Markupforum 2014

Linked Data 2/3

Linked Open Data Cloud

Page 47: 1114 sasaki-metadata

Sasaki – Markupforum 2014

Linked Data 2/3

Linked Open Data Cloud

Umfasst DNB, Library of Congress Subject Headings, VIAF, ...

Page 48: 1114 sasaki-metadata

Sasaki – Markupforum 2014

Linked Data 3/3

Linguistic Linked Open Data Cloud

Page 49: 1114 sasaki-metadata

Sasaki – Markupforum 2014

Linked Open Data Clouds –Datensätze und Themen

Linked Open Data LinguisticLinked Open Data

Öffentliche Daten 183 18.05%Publikations(Meta)daten 96 9.47%Medizin, Biologie 83 8.19%User-generated Content 48 4.73%Domänenübergreifend 41 4.04%Multimedia 22 2.17%Geoinformationen 21 2.07%Soziales Web 520 51.28%

Total 1014

LexikaThesauriEinzelsprachlichMehrsprachig…

Page 50: 1114 sasaki-metadata

Sasaki – Markupforum 2014

Überblick

• Metadaten: Was und warum?

• Demo zu neuen Metadaten: Tooling für Inhaltsanreicherung

• Was fehlt für Content Authors?

• Was ist Linked Data? – Kurzeinführung ...

• Offene Datenquellen im Web

• Nächste Schritte

50

Page 51: 1114 sasaki-metadata

Sasaki – Markupforum 2014

Nächste Schritte(und Herausforderungen)

• Datenquellen finden– Zugangspunkt

http://datahub.io/dataset?tags=lod

• Datenqualität

• Vereinfachen: Linked Data erzeugen– Z.B. CSV als Linked Data verarbeiten

• Linked Data Tooling zur Inhaltsanreicherung in Authoring Prozesse einbauen

• Abfrage + Services für Endnutzer bereit stellen

51

Page 52: 1114 sasaki-metadata

Sasaki – Markupforum 2014

Einstieg/Loslegen

W3C LD4LT (Linked Data for Language Technology) Community Group

• http://www.w3.org/community/ld4lt/

• https://www.w3.org/community/ld4lt/join

• https://www.w3.org/community/ld4lt/wiki/Lider_roadmapping_activities

• Teilnahme ist frei

LIDER: EU Projekt, November 2013 – Oktober 2015

• Basisplanung („Roadmap“) für eine umfangreiche „Linguistic Linked Data Cloud“ und Anwendungen im Bereich Content Analytics zu schaffen

• Anwendungsszenarien und Anforderungen von … Ihnen

Page 53: 1114 sasaki-metadata

Sasaki – Markupforum 2014

Zusammenfassung

• Metadaten zur Anreicherung von Inhalten ist möglich• Prototypen Tools für Content Authors existieren• Externe, offene Linked Data Datenquellen wie DBpedia

sind wichtiger Bestandteil der Anreicherung• Angereicherte Inhalte können Basis für neue

Anwendungen wie SEO sein• Angereicherte Inhalte können selbst zur Datenquelle

werden und neue Anwendungen wie (mehrsprachige) Q/A Services erlauben

• Nächste Schritte u.a.: Bereitstellung einfacher Toolkomponenten für die Markupwelt

53

Page 54: 1114 sasaki-metadata

Sasaki – Markupforum 2014

Tools, offene Daten, Vokabulare und Anwendungsszenarien für

semi-automatische Metadatengenerierung

Felix Sasaki

DFKI / W3C Fellow

54