berlin semantic meetup feb. 07, 2011
DESCRIPTION
Slides for my presentation on Berlin Semantic Web Meetup at FU BErlin, Feb, 07. 2011TRANSCRIPT
Dr. Harald SackHasso-Plattner-Institut für SoftwaresystemtechnikUniversität Potsdam
Semantische MultimediasucheCONTENTUS, Mediaglobe und yovisto.com
Dr. Harald Sack, Semantic Web Meetup, 07. Feb. 2011
2
Hasso Plattner Institut für Softwaresystemtechnik
■ Das HPI – Hasso Plattner Institut – wurde im Oktober 1998 im Rahmen einer Public-Private-Partnership gegründet
■ Forschung und Lehre am HPI ist dem „IT Systems Engineering“ gewidmet
■ 10 Professoren und ca. 100 Mitarbeiter in Forschung und Lehre
■ aktuell 450 Studenten in universitären Studiengängen „IT Systems Engineering“ (BSc/MSc)
■ CHE-Ranking 2010 sieht HPI auf Top-Rang
3. Semantik Web Meetup, Berlin, 15.09.2009, Dr. Harald Sack
3
■ Forschungsgruppe ,Semantic Technologies & Multimedia Retrieval‘
■ Research Topics
□ Semantic Web Technologies
□ Ontological Engineering
□ Information Retrieval
□ Multimedia Analysis & Retrieval
□ Social Networking
□ Data/Information Visualization
■ Research Projects
Semantic Web und Linked Data am HPI
3. Semantik Web Meetup, Berlin, 15.09.2009, Dr. Harald Sack
4
■ Projektrahmen THESEUS Mittelstand, assoziiert mit CONTENTUS Usecase
■ Öffnung von audiovisuellen Medienarchiven mit historischen und dokumentarischen Inhalten zur inhaltsbasierten semantischen und explorativen Suche
■ Time Frame: 2009-2012
■ Projektpartner:
Mediaglobe – The Digital Archive
http://projekt-mediaglobe.de/
3. Semantik Web Meetup, Berlin, 15.09.2009, Dr. Harald Sack
5
■Automatisierte AV Medienanalyse
□ Structural Analysis
□ Intelligent Character Recognition (ICR)
□ Character/Logo Detection
□ Character Filtering
□ Character Recognition
□ Audio Analysis
□ Speaker Detection
□ Automated Speech Recognition (ASR)
□ Genre Analysis
□ Indoor/Outdoor, Tag/Nacht, Stadt/Land, ...
□ Face/Body Detection
Mediaglobe – The Digital Archive
3. Semantik Web Meetup, Berlin, 15.09.2009, Dr. Harald Sack
6
Mediaglobe – The Digital Archive
video
scenes
shots
subhots
frames
Structural Analysis
3. Semantik Web Meetup, Berlin, 15.09.2009, Dr. Harald Sack
7
Mediaglobe – The Digital Archive
Structural Analysis
shots
• Shot Boundary Detection
• Identification of• Hard Cuts• Drop Outs• Soft Cuts, as e.g., Dissolve, Wipe, Cross-Fade, etc.
Analytical Shot Boundary Detection• Analysis of Luminance/Chrominance Histograms• Analysis of Edge Distribution• Analysis of Motion Vectors
Machine Learning• Classification of Hard/Soft Cuts based on Image Features• Random Trees • Support Vector Machines
3. Semantik Web Meetup, Berlin, 15.09.2009, Dr. Harald Sack
8
Mediaglobe – The Digital Archive
Intelligent Character Recognition
• Preprocessing• Keyframe extraction• Script identification• Script filtering• Adaption of script geometry (Deskew)• Image quality enhancement
• Optical Character Recognition (OCR)• standard OCR software (tesseract/OCRopus)
• Postprocessing• Keyterm spotting• Lexical analysis • Statistical filtering
Prof. Rudolf AgstenLDPD
3. Semantik Web Meetup, Berlin, 15.09.2009, Dr. Harald Sack
9
time
e.g., person xy
location yz
event abc
e.g., bibliographical data,geographical data,encyclopedic data, ..
Video Analyse /Metadaten Extraktion
Entity Recognition/ Mapping
Mediaglobe – The Digital Archive
Semantische Analyse
3. Semantik Web Meetup, Berlin, 15.09.2009, Dr. Harald Sack
10
Mediaglobe – The Digital Archive
Semantische Analyse• Entity Mapping
• Mapping keyterms (text) to semantic entities• Context Analysis and Disambiguation
Truman
Keyterm / User Tag
Truman Capote
Harry S. Truman
Truman, Minesota
The Truman Show
?
?
?
?
Semantic Entity
3. Semantik Web Meetup, Berlin, 15.09.2009, Dr. Harald Sack
11
Mediaglobe – The Digital Archive
Semantische Analyse• Entity Mapping
• Mapping keyterms (text) to semantic entities• Context Analysis and Disambiguation
Truman Context Defining Elements• Time-related Metadata • Same Time Point • Adjacent Time Points / Segments
• Metadata Provenance• User-generated Metadata• Authoritative Metadata• Automated Analysis
PotsdamEisenhower
Inauguration
Context• Statistical /Linguistic Methods (Co-Occurrence Analysis)• Semantic Methods (Semantic Graph Analysis)• Machine Learning
3. Semantik Web Meetup, Berlin, 15.09.2009, Dr. Harald Sack
12
Mediaglobe – The Digital Archive
Semantische Analyse
Truman
Keyterm / User Tag
LOD Cloud
Eisenhower
Inauguration
3. Semantik Web Meetup, Berlin, 15.09.2009, Dr. Harald Sack
13
Mediaglobe – The Digital Archive
3. Semantik Web Meetup, Berlin, 15.09.2009, Dr. Harald Sack
14
CONTENTUS Next Generation Multimedia Libraries
CONTENTUS•Use Case (among 5 others) of the German Theseus Research
Program
•Time Frame: 2007 - 2012
•7 Project Partners
•Supported by the Bundesministerium für Wirtschaft und Technologie
3. Semantik Web Meetup, Berlin, 15.09.2009, Dr. Harald Sack
15
CONTENTUS Next Generation Multimedia Libraries
Contentus Process Chain
HPI Research
3. Semantik Web Meetup, Berlin, 15.09.2009, Dr. Harald Sack
16
CONTENTUS Next Generation Multimedia Libraries
CONTENTUS SMMS DEMONSTRATORhttp://yovisto.com/labs/vissw2011/
3. Semantik Web Meetup, Berlin, 15.09.2009, Dr. Harald Sack
http://www.yovisto.com
Yovisto Video Search Engine
Video Suchmaschine und Web 2.0 Portal
■ Spezialisiert auf akademinsche Videoaufzeichnungen, d.h. Vorlesungen, Vorträge
■ Ermöglicht (semantische) Suche innerhalb der Videoaufzeichnungen
■ Automatisierte Videoanalyse:: video scene cut detection, intelligent character recognition, ergänzt durch User-generated Metadata
■mehr als 10.000h Videoaufzeichnungen
Semantic Metadata:
■ Ontology: http://www.yovisto.com/ontology/0.9/
■ DBpedia, FOAF, DublinCore, MPEG-7, Tagging
■ RDFa Annotation
■ public SPARQL Endpoint: http://sparql.yovisto.com/
3. Semantik Web Meetup, Berlin, 15.09.2009, Dr. Harald Sack
18
YOVISTOOntologie
time
e.g., person xy
location yz
event abc
e.g., bibliographical data,geographical data,encyclopedic data, ..
Metadata Extraction
Entity Recognition/ Mapping
Yovisto Video Search Engine
zielgenaue semantische und explorative Suche
3. Semantik Web Meetup, Berlin, 15.09.2009, Dr. Harald Sack
19
Explorative Suche mit Yovisto
Information und wo/wie man sie findet•früher ging man in die Bibliothek...
Ich suche das Buch „Brave New World“ von Aldous Huxleyin der ersten in Deutschland erschienenen Ausgabe...
3. Semantik Web Meetup, Berlin, 15.09.2009, Dr. Harald Sack
20 Information und wo/wie man sie findet•...früher ging man z.B. in die Bibliothek
Ich suche das Buch „Brave New World“ von Aldous Huxleyin der ersten in Deutschland erschienenen Ausgabe...
Brave New World. - Aldous H U X L E Y. - The Albatros Continental Library, 47 (Hamburg usw., Albatros Verlag, 1933) 257 S. 8“
II 1, 2506, 34548
Explorative Suche mit Yovisto
3. Semantik Web Meetup, Berlin, 15.09.2009, Dr. Harald Sack
21 Information und wo/wie man sie findet•...aber was, wenn man nicht genau weiß, was man sucht?
Mir hat das Buch „Brave New World“ von Aldous Huxley gefallen und ich möchte Bücher mit ähnlicher Thematik lesen....
Explorative Suche mit Yovisto
3. Semantik Web Meetup, Berlin, 15.09.2009, Dr. Harald Sack
22 • Was, wenn der Benutzer nicht weiß, welchen Suchbegriff er/sie benutzen soll?
• Was, wenn der Benutzer komplexere Antworten sucht?
• Was, wenn er/sie das Wissensgebiet, über das er sich informieren will, nicht (gut) kennt?
• Was, wenn er/sie wissen möchte, welche Dokumente es insgesamt zu einem speziellen Thema in einem Repository gibt?
• Das Problem ist nicht neu....
• ...,Stöbern‘ statt ,Suchen‘
• ...etwas ,zufällig‘ finden
• ...Serendipity
• ...einen Überblick gewinnen
Explorative Suche mit Yovisto
3. Semantik Web Meetup, Berlin, 15.09.2009, Dr. Harald Sack
23 ■How to Explore the Web of Data?
dbpedia:Aldous_Huxley
Wie soll das semantischeNetzwerk um dbpedia:Aldous_Huxleyherum durchsucht werden?
http://dbpedia.org/page/Aldous_Huxley
Explorative Suche mit Yovisto
3. Semantik Web Meetup, Berlin, 15.09.2009, Dr. Harald Sack
24 ■How to Explore the Web of Data?
Aldous Huxley
Yago:EnglishScienceFictionWriters
rdfs:type
dbpedia:ontology/influences
George Orwell
rdfs:type
dbpedia:ontology/influences
H.G. Wells
rdfs:type
Explorative Suche mit Yovisto
3. Semantik Web Meetup, Berlin, 15.09.2009, Dr. Harald Sack
25
Aldous Huxley
dbpedia:ontology/influences
George Orwell
dbpedia:ontology/influences
Kurt Vonnegut
dbpedia:notableWorks dbpedia:notableWorks
Explorative Suche mit Yovisto
■Problem: Was ist eigentlich wichtig?
3. Semantik Web Meetup, Berlin, 15.09.2009, Dr. Harald Sack
26
http://dbpedia.org/page/Aldous_Huxley
Aldous Huxley
• z.B.., Aldous Huxley• > 600 Fakten (RDF-triples)• > 80 Eigenschaften (properties)• keine Reihenfolge• keine Relevanzbewertungen
• Linked Data beinhaltet ungewichtetes Wissen• ungewichtet = keine Unterscheidung, ob wichtig oder unwichtig
• Entwicklung von heuristischenVerfahren zur Relevanzbewertungvon Linked Data Fakten• semantische Graphenanalyse• statistische Verfahren
Explorative Suche mit Yovisto
3. Semantik Web Meetup, Berlin, 15.09.2009, Dr. Harald Sack
27
Waitelonis, Sack: Augmenting Video Search with Linked Open Data, in Proc. I-Semantics , Graz 2009.
http://mediaglobe.yovisto.com:8080/
3. Semantik Web Meetup, Berlin, 15.09.2009, Dr. Harald Sack
28
Semantische MultimediasucheCONTENTUS, Mediaglobe und yovisto.com
Kontakt:Dr. Harald SackHasso-Plattner-Institut für SoftwaresystemtechnikUniversität PotsdamProf.-Dr.-Helmert-Str. 2-3D-14482 Potsdam
Homepage: http://www.hpi.uni-potsdam.de/meinel/team/sack.htmlBlog: http://moresemantic.blogspot.com/E-Mail: [email protected]: lysander07
Vielen Dank für
Ihre Aufmerksamkeit!