13 - semantic search - semantic web technologien ws 2011/12
Post on 16-Jan-2015
682 Views
Preview:
DESCRIPTION
TRANSCRIPT
VorlesungDr. Harald Sack
Hasso-Plattner-Institut für SoftwaresystemtechnikUniversität Potsdam
Wintersemester 2011/12
Semantic Web Technologien
Blog zur Vorlesung: http://wwwsoup2011.blogspot.com/
Mittwoch, 25. Januar 12
Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
2
Linked
Data
& Sema
ntic
Web Ap
plicat
ions
Semantic Web Technologien Wiederholung
Mittwoch, 25. Januar 12
Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
1. Einführung 2. Semantic Web Basisarchitektur
Die Sprachen des Semantic Web - Teil 1
3. Wissensrepräsentation und LogikDie Sprachen des Semantic Web - Teil 2
4. Semantic Web Anwendungen
3
Semantic Web Technologien Vorlesungsinhalt
Mittwoch, 25. Januar 12
Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
4
Semant
ic
Search
Albrecht Dürer: Melancholia I, 1514
Mittwoch, 25. Januar 12
Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
4. Semantic Web Anwendungen4.1.Ontological Engineering4.2.Linked Data Engineering 4.3.Semantic Search4.4.Aktuelle Projekte:
Yovisto, mediaglobe und Semantic Media Explorer
Semantic Web Technologien Vorlesungsinhalt
Mittwoch, 25. Januar 12
Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
6
4.3 Semantische Suche4.3.1 Information Retrieval 4.3.2 Multimedia Analyse und Retrieval4.3.3 Semantische Analyse und Retrieval4.3.4 Explorative Suche
Mittwoch, 25. Januar 12
Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
7
Das ,Google-Dilemma‘Mittwoch, 25. Januar 12
Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
8
Das ,Google-Dilemma‘Mittwoch, 25. Januar 12
Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
9
• Erzeugung einer linearen (nach Relevanz gewichteten) Ergebnisliste
• TFIDF / PageRank
• Personalisierung (Logdatenanalyse)
• multimodale Ergebnisse
• Facetierung
Mittwoch, 25. Januar 12
Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
10
Klassisches Information Retrieval
(nach Salton,G., McGill, M.J.: Introduction to Modern Information Retrieval. McGraw-Hill, New York 1983)
Menge von Dokumenten
files of records
Menge von Anfragen
Information requests
Indexierungssprache
similarity
IndexierungAnfrage-formulierung
Mittwoch, 25. Januar 12
Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
11
Klassisches Information Retrieval
“Information-Retrieval Systeme • verarbeiten Dateien mit Informationsressourcen und
Informationsanfragen, • identifizieren und liefern aus diesen Dateien bestimmte
Informationsressourcen als Antwort auf eine Informationsanfrage. • Das Finden (Retrieval) bestimmter Ressourcen hängt von der
Ähnlichkeit der Ressourcen und den Anfragen ab, gemessen am Vergleich bestimmter Attributwerte.”
(nach Salton,G., McGill, M.J.: Introduction to Modern Information Retrieval. McGraw-Hill, New York 1983)
Menge von Anfragen
informationrequests
Menge von Dokumenten
files of records
Indexierungs-sprache
similarityIndexierungAnfrage-
formulierung
Mittwoch, 25. Januar 12
Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
12
Klassisches Information Retrieval(vereinfachte Variante....)
Menge von Dokumenten
Suchindex
SUCHEN, vb. , in allen ger n sprachen bezeugt: got.sokjan, ags. sēcan, as. sokian, an. Soekj
[Bd. 20, Sp. 835]
sēza, ahd. suohhan. aus idg. sprachen steht am nächsten lat. sāgiospüre, air. saigim gehe
einer sache nach, suche; zur weiteren verwandtschaft vgl. Walde-Pokorny 2, 449.
der umlaut des stammvokals erscheint im nd., er wird im md. verzeichnet vonCrecelius
oberhess. wb. 827; Spiess henneb. id. 248; Hertel Thüringen240; Gerbet Vogtland 425
und auf kolonialem boden bei Schröerdeutsche mundarten des ungrischen
berglandes 225. neben eigentlichem suchen 'einer sache
nachspüren, sich bemühen, sie aufzufinden' (dann auch 'jemanden
aufsuchen, ihn bedrohen, angreifen') steht eine reich bezeugte bedeutungsgruppe mehr
Schlüsselwörter
„Suchen“Suchterm(e) ?
Suchanfrage
Mittwoch, 25. Januar 12
Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
13
Klassisches Information Retrieval
InformationRetrieval
Bereitstellenvon
Informationen
Suchfunktionenund
Navigationsformen
Interne Wissens-repräsentationen
Verfahren derWissensrekonstruktion
Analyse/Modellierungder im Objektbereich
festgelegtenWissensobjekte
mit dem Zielberuht auf
durch Anwendung von durch Anwendung von
operieren überErgebnisse abgelegt alsAllgemeines Modell des Information Retrievalnach [Kuhlen 1995]
Informations-aufbereitung Retrieval
Mittwoch, 25. Januar 12
Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
14
Klassisches Information Retrieval
Dominik Kuropka: Modelle zur Repräsentation natürlichsprachlicher Dokumente. Ontologie-basiertes Information-Filtering und -Retrieval mit relationalen Datenbanken, Advances in Information Systems and Management Science, Bd. 10, Logos Verlag, Berlin, 2004.
Mittwoch, 25. Januar 12
Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
15
Information Retrieval Modelle
• Boolean Retrieval• Vector Space Model• Probabilistic Model
A B
C(A ∧ ¬B) ∧ C
• verwendet Aussagenlogik als Retrievalsprache• erlaubt Selektion und Verknüpfung beliebiger
Dokumentenmengen aus einer einer Dokumentenkollektion• mit Hilfe Boolescher Junktoren (Suchoperatoren) • einfache Implementierung• keine differenzierte Termgewichtung möglich• keine Rangreihenfolge der Ergebnisse (Ranking)
Mittwoch, 25. Januar 12
Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
16
Information Retrieval Modelle
• Boolean Retrieval• Vector Space Model• Probabilistic Model
Deskriptor1
Deskriptor2
Deskriptor3
Dokument = (2,4,2)Suchabfrage = (1,0,0)
Dokument
Suchanfrage
2
2
4
Bsp.: n = 3
ρ
•Dokumente und Anfragen werden als Punkte in einem hochdimensionalen, metrischen Vektorraum repräsentiert
•Zum Retrieval wird die Distanz zwischen Suchanfrage- und Dokumentenvektor verwendet
•Relevanzbewertung (Ranking) erfolgt nach der ermittelten Distanz
•Differenzierte Termgewichtung möglich•lineare Termanordnung im Dokument geht
verloren •mangelnde semantische Sensitivität
(Vokabularabhängigkeit)
Mittwoch, 25. Januar 12
Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
17
Information Retrieval Modelle• Boolean Retrieval• Vector Space Model• Probabilistic Model
• Dokumente werden gemäß der Wahrscheinlichkeit ihrer Relevanz bzgl. der Anfrage gewichtet
• IR-System schätzt die Wahrscheinlichkeit der Relevanz bzgl. einer Anfrage ab
Robertson, S. E., Sparck Jones, K.: Relevance weighting of search terms. In Document Retrieval Systems, P. Willett, Ed. Taylor Graham Series In Foundations Of Information Science, vol. 3. Taylor Graham Publishing, London, UK, 143-160, 1988.
Mittwoch, 25. Januar 12
Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
18
Probabilistic Retrieval Modelle
Termgewichtungen für Terme ti bzgl. Suchanfrage
Für neues Dokument dm kann Relevanz bzgl. Suchanfrage mit Hilfe der Termgewichte bestimmt werden
Mittwoch, 25. Januar 12
Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
19
Evaluation von Information Retrieval Systemen
relevante Dokumente gefundene Dokumente
relevante Dokumente, die gefunden wurden
RP
Recall=| R ∩ P |
|R|
Precision=| R ∩ P |
|P|
Recall: Anteil der korrekt als positiv klassifizierten Dokumente an der Gesamtheit aller positiven Dokumente (Trefferquote)Precision: Anteil der korrekt als positiv klassifizierten Dokumente an der Gesamtheit der als positiv klassifizierten Dokumente (Genauigkeit)F-Measure: gewichtetes harmonisches Mittel aus Trefferquote und Genauigkeit
Fα=(1+α)⋅(Recall ⋅ Precision )
α⋅(Recall + Precision )
Mittwoch, 25. Januar 12
Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
20
Suchmaschinen im WWW
• World Wide Web ist ein verteiltes Hypermediasystem• multimediale Dokumente• über Hyperlinks miteinander
vernetzt
• WWW-Suchmaschinen sind Information Retrieval Systeme mit folgenden Aufgaben• Erstellung und Pflege eines Indexes
(Web Crawler + Indexing)• Verarbeitung von Suchabfragen (Retrieval + Ranking)• Aufbereitung der Ergebnisse (Visualisierung)
Mittwoch, 25. Januar 12
Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
21
URL Liste
http://www.xxxx.de/1234...http://www.xxxx.de/2234...http://www.xxxx.de/3234...http://www.xxxx.de/4234...http://www.xxxx.de/5234...http://www.xxxx.de/6234...http://www.xxxx.de/7234......
<a href=“...“ .../>
<a href=“...“ .../>
HTMLDokumente
WWW-ServerHTTP Request
WWW-Server liefert angefragteHTML-Dokumente an denWeb-Crawler zurück
1
2
3
4
Web-Crawler (Web Robot)
Mittwoch, 25. Januar 12
Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
22
Datennormalisierung
Web Crawler
Datenanalyseund Anlegender Index-
Datenstrukturen
Preprocessing und IndexierungSuchmaschinen im WWW
Wortidentifikation
Sprachidentifikation
Word Stemming
POS-Tagging
Deskriptorengenerierung
Mittwoch, 25. Januar 12
Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
23
Effiziente IndexdatenstrukturenSuchmaschinen im WWW
Aachen
Altavista
Ananas
……
Zustand
Zypern
Indexdatei
AnanasDocID Pos Frequenz Gewicht
D123 1;13;77;132 4 9.4D456 22;38 2 6.7 … … … …D998 15 1 1.2
Location List D123Frequenz URL <H1> … <H6> <title> … text
4 1 1 0 1 … 1
D123 http://producers.ananas.org/index.htm
<html><head><title=“Ananas around the World“></head><body> … </body></html>
Invertierte Datei
Direkte DateiMittwoch, 25. Januar 12
Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
24
Relevanzbewertung (Ranking)Suchmaschinen im WWW
• Linkpopularität (Google PageRank)
A
1.0
D
1.0
B
1.0
C
1.0
Ausgangssituation
Nr. PR(A) PR(B) PR(C) PR(D)1 1,0 1,0 1,0 1,02 1,0 0,575 2,275 0,153 2,083 0,575 1,191
20,15
… … … … …n 1,49 0,7833 1,577 0,15
Iteration der PageRank Berechnung A
1.49
D
0,15
B
0,78
C
1.57
resultierender PageRank
Mittwoch, 25. Januar 12
Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
25
Aber...Das WWW ist ziemlich groß
•ca. 25 x 109 in Suchmaschinen indizierte Dokumente (TNL Blog: Google has 24 billion items index, considers MSN search nearest competitor, September 2005)
•Web Crawler: > 1012 Dokumente(The Official Google Blog: We knew the Web was Big....., Juli 25, 2008)
•Google Search Index Caffeine umfasst ca.100 Million Gigabytes i.e. 1017 Byte (SMX Video: Google’s Matt Cutts On Caffeine Launch, June 9, 2010,http://searchengineland.com/smx-video-googles-matt-cutts-on-caffeine-launch-43933)
•DeepWeb (Darkweb) schätzungsweise bis zu 550 mal größer als das Surface Web (Bergman, 2001)
Mittwoch, 25. Januar 12
Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
26
und damit nicht genug...
Mittwoch, 25. Januar 12
Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
27
Problemfeld Informationssuche
Mittwoch, 25. Januar 12
Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
28
Problemfeld Informationsextraktion
Mittwoch, 25. Januar 12
Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
29
4.3 Semantische Suche4.3.1 Information Retrieval 4.3.2 Multimedia Analyse und Retrieval4.3.3 Semantische Analyse und Retrieval4.3.4 Explorative Suche
Mittwoch, 25. Januar 12
Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
30
Google und MultimediasucheMittwoch, 25. Januar 12
Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
31
How does Google find Multimedia?Mittwoch, 25. Januar 12
Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität PotsdamMittwoch, 25. Januar 12
Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
...<a href="/mission_pages/shuttle/shuttlemissions/sts134/multimedia/index.html">
<IMG WIDTH="100" ALT="Close-up view of Endeavour's crew cabin prior to docking with the International Space Station" TITLE="Close-up view of Endeavour's crew cabin prior to docking with the International Space Station" SRC="/images/content/549665main_2011-05-18_1600_100-75.jpg" HEIGHT="75" ALIGN="Bottom" BORDER="0" /></a><p><a href="/mission_pages/shuttle/shuttlemissions/sts134/multimedia/index.html">› STS-134 Multimedia</a></p>
...
‣Google Multimedia Search relies on link context
How does Google find Multimedia?
Mittwoch, 25. Januar 12
Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
Google Image Searchmakes use of visual similarity
Mittwoch, 25. Januar 12
Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
How to Search in Multimedia Archives?
Mittwoch, 25. Januar 12
Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
Step 1: Digitalization of analog data
Step 2: Annotation with (text based) metadata
How to Search in Multimedia Archives?
Step 3: Content based search on textual metadata
Mittwoch, 25. Januar 12
Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
How to Search in Multimedia Archives?• manual annotation with text based
descriptive metadata
...how to extract metadatain an automated way?
Mittwoch, 25. Januar 12
Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
Automated Audiovisual Analysis
Face DetectionIdentification
TrackingClustering
overlay text
Logo Detection
VisualConcept Analysis
Classification:StudioIndoorPerson
News Show
scenetext
Audio-Mining
structuralanalysis
AutomatedSpeech
Recognitionspeaker
identification
Mittwoch, 25. Januar 12
Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
• Result: Multimedia data with spatiotemporal Annotations
Metadata (e.g. MPEG-7) ... <Video> <TemporalDecomposition> <VideoSegment> <TextAnnotation> <KeywordAnnotation> <Keyword>Astronaut</Keyword> </KeywordAnnotation> </TextAnnotation> <MediaTime> <MediaTimePoint> T00:05:05:0F25 </MediaTimePoint> <MediaDuration> PT00H00M31S0N25F </MediaDuration> </MediaTime> ... </VideoSegment> </TemporalDecomposition> </Video> ...
time
Automated Audiovisual Analysis
Mittwoch, 25. Januar 12
Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
Automated Audiovisual Analysis
Metadata (e.g. MPEG-7) ... <SpatialDecomposition> <TextAnnotation> <KeywordAnnotation> <Keyword>Astronaut</Keyword> </KeywordAnnotation> </TextAnnotation> <SpatialMask> <SubRegion> <Polygon> <Coords> 480 150 620 480 </Coords> </Polygon> </SubRegion> </SpatialMask> ... </SpatialDecomposition> ...
• Result: Multimedia data with spatiotemporal Annotations
Mittwoch, 25. Januar 12
Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität PotsdamMittwoch, 25. Januar 12
Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
But what about semantic metadata..?
... <SpatialDecomposition> <TextAnnotation> <KeywordAnnotation> <Keyword>Astronaut</Keyword> </KeywordAnnotation> </TextAnnotation> <SpatialMask> <SubRegion> <Polygon> <Coords> 480 150 620 480 </Coords> </Polygon> </SubRegion> </SpatialMask> ... </SpatialDecomposition> ...
Mittwoch, 25. Januar 12
Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
4242 42 4224424242 42 424243
4.3 Semantische Suche4.3.1 Information Retrieval 4.3.2 Multimedia Analyse und Retrieval4.3.3 Semantische Analyse und Retrieval4.3.4 Explorative Suche
Mittwoch, 25. Januar 12
Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
44
BegriffsbestimmungSemantische Suche
4242244242 • Verknüpfung von (textuellen) Metadaten mit semantischen Entitäten
• Entitätenzentriertes Information Retrieval• Ausnutzung von semantischen Relationen, wie z.B.
inhaltliche Ähnlichkeiten bzw. Verwandschaften• Interoperable Metadaten durch Semantik• zur inhaltlichen Beschreibung• zur struturellen/technischen Beschreibung
(Multimedia Ontologien)
• Ziel: quantitative und qualitative Verbesserung der im Information Retrieval erzielten Suchergebnisse
Mittwoch, 25. Januar 12
• MPEG-7 has been re-engineered to become an OWL-DL ontology (2007: Arndt et al., COMM model)
Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
45
Multimedia OntologienSemantische Metadaten
4242244242
• Localize a region → Draw a bounding box
• Annotate the content → Interpret the content → Tag ,Astronaut‘
Mittwoch, 25. Januar 12
4242244242
Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
46
Multimedia OntologienSemantische Metadaten
Example: Tagging with an MPEG-7 Ontology
Reg1
mpeg7:image
mpeg7:depicts
Man on the Moon
mpeg7:spatial_decomposition Reg1
mpeg7:StillRegion
rdf:type
mpeg7:depicts
dbpedia:Astronaut
mpeg7:SpatialMask
mpeg7:polygon
mpeg7:Coords
Mittwoch, 25. Januar 12
4242244242
Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
47
Named Entity Recognition
Astronaut Person
Neil Armstrong
Science Occupation
Employment
is a is a
is a
is a
Entities
Classes
Named Entity Recognition„locating and classifying atomic elements...intopredefined categories such as names, persons, organizations, locations, expressions of time,quantities, monetary values, etc.“C.J.Rijsbergen, Information Retrieval (1979)
Mittwoch, 25. Januar 12
Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
48
Named Entity Recognition
Astronaut Person
Neil Armstrong
Science Occupation
Employment
is a is a
is a
is a
Mittwoch, 25. Januar 12
4242244242
Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
49
Semantic Multimedia Retrieval
Video Analysis /Metadata Extraction
timemetadata
metadatametadata
metadatametadata
e.g., person xylocation yzevent abc
e.g., bibliographical data,geographical data,encyclopedic data, ..
Entity Recognition/ Mapping
Mittwoch, 25. Januar 12
4242244242
Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
50
Named Entity Recognition
Astronaut Person
Neil Armstrong
Science Occupation
Employment
is a is a
is a
is a
„Armstrong betrat als erster Mensch den Mond.“ Text
Entity Mapping
Mittwoch, 25. Januar 12
Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
51
Astronaut
Named Entity Recognition
Person
Neil Armstrong
Science Occupation
Employment
is a is a
is a
is a
Text
rdfs:label Neil Armstrong
rdf:type dbpedia-owl:Astronaut
rdf:type foaf:Person
Mittwoch, 25. Januar 12
4242244242
Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
52
Named Entity Recognition
Text
http://dbpedia.org/resource/Neil_Armstrong
„Armstrong betrat als erster Mensch den Mond.“ Text
Entity Mapping
Aber wie finde ich die passende Entität ?
Mittwoch, 25. Januar 12
4242244242
Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
53
Named Entity Recognition
Text
„Armstrong betrat als erster Mensch den Mond.“ Text
Armstrong, Florida
Determine possible Entity Mapping Candidates
Aber wie finde ich die passende Entität ?
Armstrong, Ontario
Armstrong County, Texas
Armstrong Tunnel
Louis Armstrong
Armstrong Tools
Armstrong (Mondkrater)
Armstrong (Automobile)
The Armstrongs
Craig Armstrong
Anton Armstrong
Edward Armstrong
Gary Armstrong
George Armstrong
The Armstrong Twins
Ian Armstrong
+ 200 mehr...Mittwoch, 25. Januar 12
4242244242
Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
54
Named Entity Recognition
Text
„Armstrong betrat als erster Mensch den Mond.“ Text
Determine possible Entity Mapping Candidates
Aber wie finde ich die passende Entität ?
We have to examine the Context...
Mond
Weltraum
Flagge
Mondfähre „Eagle“Mittwoch, 25. Januar 12
Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
55
Text
Der Kontext (lat. contextus = verflochten) wird durch das Umfeld eines Wortes bzw. Begriffes und dessen Zusammenhang mit umgebenden Worten bzw. Begriffen gebildet und legt dessen Bedeutung (Semantik) fest.
Mittwoch, 25. Januar 12
4242244242
Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
56
Named Entity Recognition
Text
„Armstrong betrat als erster Mensch den Mond.“ Text
Determine Named Entities from Text
Armstrong
Mensch
MondCreate all possible Sets of Mapping Candidates
Mittwoch, 25. Januar 12
4242244242
Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
57
Named Entity Recognition
Text„Armstrong betrat als erster Mensch den Mond.“ Text
Create all possible Sets of Mapping Candidates
Armstrong Mensch MondGeorge Armstrong Custer
Neil Armstrong
The Armstrong Twins
Armstrong, Florida
Armstrong, Ontario
Armstrong Automobile
Joe Armstrong
Armstrong County, Texass
Armstrong Gun
Craig Armstrong
Armstrong (Mondkrater)
Louis Armstrong
Armstrong Tunnel
Louis Armstrong International Airport
Armstrong‘s Theorem
Sir Thomas Armstrong
Ian Armstrong
HumanBill Mensch
Bob Mensch
David Mensch
Homer Mensch
Louise Mensch
Halber Mensch
Mensch ärgere Dich nichtMensch Computer
Peter van Mensch
Daniel Mensch
Mensch (album)
Der Mond (Oper)
MOND
Mond Nickel CompanyBrunner Mond
Bernard Mond
Peter Mond
Julian Mond
Ludwig Mond
Violet MondMOND Technologies
Robert Mond
Henry Mond
Alfred Mond
Chava Mond
Mittwoch, 25. Januar 12
4242244242
Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
58
Named Entity Recognition
Armstrong Mensch Mond
(1) Co-occurence Analysis(2) Semantic Analysis(3) Machine Learning
Armstrong, Florida Mensch (Album) MOND Technologies
‣For all possible Combinations do:‣Determine the probability of the co-occurence of a
term combination in an arbitrary text document corpus‣Select the combination with the maximum probability
Mittwoch, 25. Januar 12
4242244242
Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
59
Named Entity Recognition
Armstrong Mensch Mond
(1) Co-occurence Analysis(2) Semantic Analysis(3) Machine Learning
George Armstrong Custer
Neil Armstrong
Armstrong, Florida
Armstrong, Ontario
Armstrong Gun
Craig Armstrong
Armstrong (Mondkrater)
Louis Armstrong
Sir Thomas Armstrong
Human
Bob Mensch
David Mensch
Homer Mensch
Louise Mensch
Halber Mensch
Mensch ärgere Dich nichtMensch Computer
Mensch (album)
Der Mond (Oper)
Mond (Erdtrabant)
Mond Nickel CompanyBrunner Mond
Bernard Mond
Peter Mond
Julian Mond
Ludwig Mond
Henry Mond
Alfred Mond
Chava Mond
Mittwoch, 25. Januar 12
Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität PotsdamTurmbau zu Babel, Pieter Brueghel, 1563
Wie kann ich semantische Metadaten im Retrieval nutzen?
Mittwoch, 25. Januar 12
Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität PotsdamTurmbau zu Babel, Pieter Brueghel, 1563
Semantische Metadaten ermöglichen eine Verbesserung der traditionellen Schlüsselwort-basierten Suche durch(1) Erweiterung / Präzisierung der Suchergebnisse
(Query String Refinement)(2) Herstellung von Querverweisen
(Cross Referencing)(3) Nutzung von semantischen Beziehungen zur
• Visualisierung und • Navigation durch den Suchraum (Explorative Suche)
(4) Herleitung von impliziten Informationen (Reasoning)
Mittwoch, 25. Januar 12
4242244242
Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
62
Erweiterung / Präzisierung der Suchergebnisse• Keyword-basierte Suche liefert nicht alle inhaltlich relevanten
Suchergebnisse zu einer Suchphrase, da Synonyme, Metaphern und Umschreibungen den gesuchten Inhalt mit anderen Termen beschreiben.
• Erweiterung der ursprünglichen Suchphrase (Query Refinement)• Nutzung von Wörterbüchern und Thesauri
• Synonyme, Ober- und Unterbegriffe• Nutzung von Domain Ontologien
• Meronyme, Holonyme, Assoziationen
Ursprüngliche Suchphrase: Bank
Mögliche Erweiterung: Bank ∨ Kreditanstalt ∨ Sparkasse ∨ ... Bank ∨ Konto ∨ Kredit ∨ ... Bank ∨ Santander ∨ Raiffeisen ∨ ...
Mittwoch, 25. Januar 12
4242244242
Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
63
Präzisierung der Suchergebnisse• Keyword-basierte Suche liefert zu viele inhaltlich nicht relevante
Suchergebnisse zu einer Suchphrase, da Suchbegriffe mehrere Bedeutung und in unterschiedlichem Kontext/Pragmatik genutzt werden.
• Verfeinerung der ursprünglichen Suchphrase (Query Refinement)
• Nutzung von Wörterbüchern und Thesauri• Homonyme mit Hilfe von Ober- und Unterbegriffen disambiguieren
• Nutzung von Domain Ontologien• Meronyme, Holonyme
Ursprüngliche Suchphrase: Bank
Mögliche Erweiterung: Bank ∧ Kreditanstalt oder Bank ∧ Sitzgelegenheit oder Bank ∧ Sediment
Mittwoch, 25. Januar 12
4242244242
Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
64
Herstellung von Querverweisen□ Bereitstellung von Suchergebnissen, die zwar den Suchbegriff
nicht notwendigerweise enthalten, aber mit diesem in inhaltlichem Zusammenhang stehen□Nutzung von Domain Ontologien□Nutzung von Thesauri und Kookurrenzanalysen
repräsentativer Dokumentenkorpora
Suchphrase: Neil Armstrongermittelter Oberbegriff: Apollo 11Ausweitung der Suche auf andere Crewmitglieder
dbpedia:Neil_Armstrong
dbpedia:Apollo_11
dbprop:mission
Neil Armstrong
NER
dbpedia:Buzz_Aldrin
dbprop:mission
dbpedia:Michael_Collinsdbprop:mission
Mittwoch, 25. Januar 12
Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
65
4.3 Semantische Suche4.3.1 Information Retrieval 4.3.2 Multimedia Analyse und Retrieval4.3.3 Semantische Analyse und Retrieval4.3.4 Explorative Suche
Mittwoch, 25. Januar 12
Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
66
Searching is not always just searching
Mittwoch, 25. Januar 12
Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
67
Ich suche das Buch „Brave New World“ von Aldous Huxleyin der ersten in Deutschland erschienenen Ausgabe...
Brave New World. - Aldous H U X L E Y.
- The Albatros Continental Library, 47
(Hamburg usw., Albatros Verlag, 1933)
257 S. 8“
II 1, 2506, 34548
Mittwoch, 25. Januar 12
Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
68
Mir hat das Buch „Brave New World“ von Aldous Huxley gefallen und ich weiß nicht genau, was ich als nächstes lesen soll....
Mittwoch, 25. Januar 12
Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
69
Exploratory Search• What, if the user does not know, which query string to use?• What, if the user is looking for complex answers ?• What, if the user does not know the domain he/she is looking for?• What, if the user wants to know all(!) about a specific topic?
• ...,Browsing‘ instead of ,Searching‘• ...to find something by chance -> Serendipity• ...to get an overview• ...enable content based navigation
Mittwoch, 25. Januar 12
Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
70
What facts for dbpedia:Brave_New_Worldare relevant?
http://dbpedia.org/page/Brave_New_World
...use heuristicsMittwoch, 25. Januar 12
Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
71
dbpedia:Brave_New_World
dbpedia-owl:author
dbpedia:Aldous_Huxley
dbpe
dia-
owl:a
utho
r
dbpedia-owl:au
thor
dbpedia-owl:author
Mittwoch, 25. Januar 12
Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
72
dbpedia:Brave_New_World
dbpedia-owl:author
dbpedia:Aldous_Huxley
dbpe
dia:
onto
logy
/influ
ence
s
dbpedia:H._G._Wells
dbpedia:ontology/in
fluences
dbpedia:George_Orwell
dbpedia:ontology/influences
dbpedia:Michel_Houellebecq
Mittwoch, 25. Januar 12
Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
73
dbpedia:H._G._Wells dbpedia:George_Orwell dbpedia:Michel_Houellebecq
dbpedia-owl:notableWork
dbpedia:Les_Particules_élémentaires
dbpedia-owl:notableWork
dbpedia:Nineteen_Eighty-Four
dbpedia-owl:notableWork
dbpedia:The_Time_Machine
Mittwoch, 25. Januar 12
Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
74
Problem: Was ist eigentlich wichtig?
http://dbpedia.org/page/Aldous_Huxley
Aldous Huxley
•z.B.., Aldous Huxley•> 400 Fakten (RDF-triples)•> 70 Eigenschaften (properties)•keine Reihenfolge•keine Relevanzbewertungen
•Linked Data beinhaltet ungewichtetes Wissen•ungewichtet = keine Unterscheidung, ob wichtig oder unwichtig
•Entwicklung von Heuristischen Verfahren zur Relevanz-Bewertung von Linked Data Fakten•semantische Graphenanalyse•statistische Verfahren
Mittwoch, 25. Januar 12
Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
75
Explorative Suche - ein einfaches Beispiel
• Suche im Grunddatenbestand nach ,Aldous Huxley‘• Identifikation einer Entität dbpedia:Aldous_Huxley• Bestimmung eines geeigneten Properties
dbpedia:Aldous_Huxley foaf:name “Aldous Huxley“ .dbpedia:Aldous_Huxley rdfs:type yago:EnglishScienceFictionWriters ....dbpedia:Aldous_Huxley dbpedia:ontology/influences dbpedia:H._G._Wells .dbpedia:H._G._Wells rdfs:type yago:EnglishScienceFictionWriters ....dbpedia:George_Orwell dbpedia:ontology/influences dbpedia:Ernest_Hemingway .dbpedia:George_Orwell rdfs:type yago:EnglishScienceFictionWriters .
Mittwoch, 25. Januar 12
Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
76
Explorative Suche - ein einfaches Beispiel
• Suche im Grunddatenbestand nach ,Aldous Huxley‘• Identifikation einer Entität dbpedia:Aldous Huxley• Bestimmung eines geeigneten Properties• Nutzung der gefundenen Properties zur Navigation des Suchraums
Aldous Huxley
Yago:EnglishScienceFictionWriters
rdfs:type
dbpedia:ontology/influences
George Orwell
rdfs:type
dbpedia:ontology/influences
H.G. Wells
rdfs:type
Mittwoch, 25. Januar 12
Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
77
4.3 Semantische Suche4.3.1 Information Retrieval 4.3.2 Multimedia Analyse und Retrieval4.3.3 Semantische Analyse und Retrieval4.3.4 Explorative Suche
Mittwoch, 25. Januar 12
Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
4. Semantic Web Anwendungen4.1.Ontological Engineering4.2.Linked Data Engineering 4.3.Semantic Search4.4.Aktuelle Projekte:
Yovisto, mediaglobe und Semantic Media Explorer
Semantic Web Technologien Vorlesungsinhalt
Mittwoch, 25. Januar 12
Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
79
Explorative Suche mit yovisto
Waitelonis, Sack: Augmenting Video Search with Linked Open Data, in Proc. I-Semantics , Graz 2009.
http://mediaglobe.yovisto.com:8080/
Mittwoch, 25. Januar 12
Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
80
http://mediaglobe.yovisto.com:8080/mggui/#start
Mittwoch, 25. Januar 12
Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
4. Semantic Web Anwendungen4.1.Ontological Engineering4.2.Linked Data Engineering 4.3.Semantic Search4.4.Aktuelle Projekte:
Yovisto, mediaglobe und Semantic Media Explorer
Semantic Web Technologien Vorlesungsinhalt
Mittwoch, 25. Januar 12
Materialien
□Bloghttp://wwwsoup2011.blogspot.com/
□Webseitehttp://www.hpi.uni-potsdam.de/studium/lehrangebot/veranstaltung/semantic_web_technologien.html
□bibsonomy - Bookmarkshttp://www.bibsonomy.org/user/lysander07/swt1112_14
Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
82
4. Semantic Web Anwendungen4.3 Semantic Search
Mittwoch, 25. Januar 12
top related