berlin semantic meetup feb. 07, 2011

28
Dr. Harald Sack Hasso-Plattner-Institut für Softwaresystemtechnik Universität Potsdam Semantische Multimediasuche CONTENTUS, Mediaglobe und yovisto.com

Upload: harald-sack

Post on 29-Nov-2014

1.534 views

Category:

Technology


1 download

DESCRIPTION

Slides for my presentation on Berlin Semantic Web Meetup at FU BErlin, Feb, 07. 2011

TRANSCRIPT

Page 1: Berlin Semantic Meetup Feb. 07, 2011

Dr. Harald SackHasso-Plattner-Institut für SoftwaresystemtechnikUniversität Potsdam

Semantische MultimediasucheCONTENTUS, Mediaglobe und yovisto.com

Page 2: Berlin Semantic Meetup Feb. 07, 2011

Dr. Harald Sack, Semantic Web Meetup, 07. Feb. 2011

2

Hasso Plattner Institut für Softwaresystemtechnik

■ Das HPI – Hasso Plattner Institut – wurde im Oktober 1998 im Rahmen einer Public-Private-Partnership gegründet

■ Forschung und Lehre am HPI ist dem „IT Systems Engineering“ gewidmet

■ 10 Professoren und ca. 100 Mitarbeiter in Forschung und Lehre

■ aktuell 450 Studenten in universitären Studiengängen „IT Systems Engineering“ (BSc/MSc)

■ CHE-Ranking 2010 sieht HPI auf Top-Rang

Page 3: Berlin Semantic Meetup Feb. 07, 2011

3. Semantik Web Meetup, Berlin, 15.09.2009, Dr. Harald Sack

3

■ Forschungsgruppe ,Semantic Technologies & Multimedia Retrieval‘

■ Research Topics

□ Semantic Web Technologies

□ Ontological Engineering

□ Information Retrieval

□ Multimedia Analysis & Retrieval

□ Social Networking

□ Data/Information Visualization

■ Research Projects

Semantic Web und Linked Data am HPI

Page 4: Berlin Semantic Meetup Feb. 07, 2011

3. Semantik Web Meetup, Berlin, 15.09.2009, Dr. Harald Sack

4

■ Projektrahmen THESEUS Mittelstand, assoziiert mit CONTENTUS Usecase

■ Öffnung von audiovisuellen Medienarchiven mit historischen und dokumentarischen Inhalten zur inhaltsbasierten semantischen und explorativen Suche

■ Time Frame: 2009-2012

■ Projektpartner:

Mediaglobe – The Digital Archive

http://projekt-mediaglobe.de/

Page 5: Berlin Semantic Meetup Feb. 07, 2011

3. Semantik Web Meetup, Berlin, 15.09.2009, Dr. Harald Sack

5

■Automatisierte AV Medienanalyse

□ Structural Analysis

□ Intelligent Character Recognition (ICR)

□ Character/Logo Detection

□ Character Filtering

□ Character Recognition

□ Audio Analysis

□ Speaker Detection

□ Automated Speech Recognition (ASR)

□ Genre Analysis

□ Indoor/Outdoor, Tag/Nacht, Stadt/Land, ...

□ Face/Body Detection

Mediaglobe – The Digital Archive

Page 6: Berlin Semantic Meetup Feb. 07, 2011

3. Semantik Web Meetup, Berlin, 15.09.2009, Dr. Harald Sack

6

Mediaglobe – The Digital Archive

video

scenes

shots

subhots

frames

Structural Analysis

Page 7: Berlin Semantic Meetup Feb. 07, 2011

3. Semantik Web Meetup, Berlin, 15.09.2009, Dr. Harald Sack

7

Mediaglobe – The Digital Archive

Structural Analysis

shots

• Shot Boundary Detection

• Identification of• Hard Cuts• Drop Outs• Soft Cuts, as e.g., Dissolve, Wipe, Cross-Fade, etc.

Analytical Shot Boundary Detection• Analysis of Luminance/Chrominance Histograms• Analysis of Edge Distribution• Analysis of Motion Vectors

Machine Learning• Classification of Hard/Soft Cuts based on Image Features• Random Trees • Support Vector Machines

Page 8: Berlin Semantic Meetup Feb. 07, 2011

3. Semantik Web Meetup, Berlin, 15.09.2009, Dr. Harald Sack

8

Mediaglobe – The Digital Archive

Intelligent Character Recognition

• Preprocessing• Keyframe extraction• Script identification• Script filtering• Adaption of script geometry (Deskew)• Image quality enhancement

• Optical Character Recognition (OCR)• standard OCR software (tesseract/OCRopus)

• Postprocessing• Keyterm spotting• Lexical analysis • Statistical filtering

Prof. Rudolf AgstenLDPD

Page 9: Berlin Semantic Meetup Feb. 07, 2011

3. Semantik Web Meetup, Berlin, 15.09.2009, Dr. Harald Sack

9

time

e.g., person xy

location yz

event abc

e.g., bibliographical data,geographical data,encyclopedic data, ..

Video Analyse /Metadaten Extraktion

Entity Recognition/ Mapping

Mediaglobe – The Digital Archive

Semantische Analyse

Page 10: Berlin Semantic Meetup Feb. 07, 2011

3. Semantik Web Meetup, Berlin, 15.09.2009, Dr. Harald Sack

10

Mediaglobe – The Digital Archive

Semantische Analyse• Entity Mapping

• Mapping keyterms (text) to semantic entities• Context Analysis and Disambiguation

Truman

Keyterm / User Tag

Truman Capote

Harry S. Truman

Truman, Minesota

The Truman Show

?

?

?

?

Semantic Entity

Page 11: Berlin Semantic Meetup Feb. 07, 2011

3. Semantik Web Meetup, Berlin, 15.09.2009, Dr. Harald Sack

11

Mediaglobe – The Digital Archive

Semantische Analyse• Entity Mapping

• Mapping keyterms (text) to semantic entities• Context Analysis and Disambiguation

Truman Context Defining Elements• Time-related Metadata • Same Time Point • Adjacent Time Points / Segments

• Metadata Provenance• User-generated Metadata• Authoritative Metadata• Automated Analysis

PotsdamEisenhower

Inauguration

Context• Statistical /Linguistic Methods (Co-Occurrence Analysis)• Semantic Methods (Semantic Graph Analysis)• Machine Learning

Page 12: Berlin Semantic Meetup Feb. 07, 2011

3. Semantik Web Meetup, Berlin, 15.09.2009, Dr. Harald Sack

12

Mediaglobe – The Digital Archive

Semantische Analyse

Truman

Keyterm / User Tag

LOD Cloud

Eisenhower

Inauguration

Page 13: Berlin Semantic Meetup Feb. 07, 2011

3. Semantik Web Meetup, Berlin, 15.09.2009, Dr. Harald Sack

13

Mediaglobe – The Digital Archive

Page 14: Berlin Semantic Meetup Feb. 07, 2011

3. Semantik Web Meetup, Berlin, 15.09.2009, Dr. Harald Sack

14

CONTENTUS Next Generation Multimedia Libraries

CONTENTUS•Use Case (among 5 others) of the German Theseus Research

Program

•Time Frame: 2007 - 2012

•7 Project Partners

•Supported by the Bundesministerium für Wirtschaft und Technologie

Page 15: Berlin Semantic Meetup Feb. 07, 2011

3. Semantik Web Meetup, Berlin, 15.09.2009, Dr. Harald Sack

15

CONTENTUS Next Generation Multimedia Libraries

Contentus Process Chain

HPI Research

Page 16: Berlin Semantic Meetup Feb. 07, 2011

3. Semantik Web Meetup, Berlin, 15.09.2009, Dr. Harald Sack

16

CONTENTUS Next Generation Multimedia Libraries

CONTENTUS SMMS DEMONSTRATORhttp://yovisto.com/labs/vissw2011/

Page 17: Berlin Semantic Meetup Feb. 07, 2011

3. Semantik Web Meetup, Berlin, 15.09.2009, Dr. Harald Sack

http://www.yovisto.com

Yovisto Video Search Engine

Video Suchmaschine und Web 2.0 Portal

■ Spezialisiert auf akademinsche Videoaufzeichnungen, d.h. Vorlesungen, Vorträge

■ Ermöglicht (semantische) Suche innerhalb der Videoaufzeichnungen

■ Automatisierte Videoanalyse:: video scene cut detection, intelligent character recognition, ergänzt durch User-generated Metadata

■mehr als 10.000h Videoaufzeichnungen

Semantic Metadata:

■ Ontology: http://www.yovisto.com/ontology/0.9/

■ DBpedia, FOAF, DublinCore, MPEG-7, Tagging

■ RDFa Annotation

■ public SPARQL Endpoint: http://sparql.yovisto.com/

Page 18: Berlin Semantic Meetup Feb. 07, 2011

3. Semantik Web Meetup, Berlin, 15.09.2009, Dr. Harald Sack

18

YOVISTOOntologie

time

e.g., person xy

location yz

event abc

e.g., bibliographical data,geographical data,encyclopedic data, ..

Metadata Extraction

Entity Recognition/ Mapping

Yovisto Video Search Engine

zielgenaue semantische und explorative Suche

Page 19: Berlin Semantic Meetup Feb. 07, 2011

3. Semantik Web Meetup, Berlin, 15.09.2009, Dr. Harald Sack

19

Explorative Suche mit Yovisto

Information und wo/wie man sie findet•früher ging man in die Bibliothek...

Ich suche das Buch „Brave New World“ von Aldous Huxleyin der ersten in Deutschland erschienenen Ausgabe...

Page 20: Berlin Semantic Meetup Feb. 07, 2011

3. Semantik Web Meetup, Berlin, 15.09.2009, Dr. Harald Sack

20 Information und wo/wie man sie findet•...früher ging man z.B. in die Bibliothek

Ich suche das Buch „Brave New World“ von Aldous Huxleyin der ersten in Deutschland erschienenen Ausgabe...

Brave New World. - Aldous H U X L E Y. - The Albatros Continental Library, 47 (Hamburg usw., Albatros Verlag, 1933) 257 S. 8“

II 1, 2506, 34548

Explorative Suche mit Yovisto

Page 21: Berlin Semantic Meetup Feb. 07, 2011

3. Semantik Web Meetup, Berlin, 15.09.2009, Dr. Harald Sack

21 Information und wo/wie man sie findet•...aber was, wenn man nicht genau weiß, was man sucht?

Mir hat das Buch „Brave New World“ von Aldous Huxley gefallen und ich möchte Bücher mit ähnlicher Thematik lesen....

Explorative Suche mit Yovisto

Page 22: Berlin Semantic Meetup Feb. 07, 2011

3. Semantik Web Meetup, Berlin, 15.09.2009, Dr. Harald Sack

22 • Was, wenn der Benutzer nicht weiß, welchen Suchbegriff er/sie benutzen soll?

• Was, wenn der Benutzer komplexere Antworten sucht?

• Was, wenn er/sie das Wissensgebiet, über das er sich informieren will, nicht (gut) kennt?

• Was, wenn er/sie wissen möchte, welche Dokumente es insgesamt zu einem speziellen Thema in einem Repository gibt?

• Das Problem ist nicht neu....

• ...,Stöbern‘ statt ,Suchen‘

• ...etwas ,zufällig‘ finden

• ...Serendipity

• ...einen Überblick gewinnen

Explorative Suche mit Yovisto

Page 23: Berlin Semantic Meetup Feb. 07, 2011

3. Semantik Web Meetup, Berlin, 15.09.2009, Dr. Harald Sack

23 ■How to Explore the Web of Data?

dbpedia:Aldous_Huxley

Wie soll das semantischeNetzwerk um dbpedia:Aldous_Huxleyherum durchsucht werden?

http://dbpedia.org/page/Aldous_Huxley

Explorative Suche mit Yovisto

Page 24: Berlin Semantic Meetup Feb. 07, 2011

3. Semantik Web Meetup, Berlin, 15.09.2009, Dr. Harald Sack

24 ■How to Explore the Web of Data?

Aldous Huxley

Yago:EnglishScienceFictionWriters

rdfs:type

dbpedia:ontology/influences

George Orwell

rdfs:type

dbpedia:ontology/influences

H.G. Wells

rdfs:type

Explorative Suche mit Yovisto

Page 25: Berlin Semantic Meetup Feb. 07, 2011

3. Semantik Web Meetup, Berlin, 15.09.2009, Dr. Harald Sack

25

Aldous Huxley

dbpedia:ontology/influences

George Orwell

dbpedia:ontology/influences

Kurt Vonnegut

dbpedia:notableWorks dbpedia:notableWorks

Explorative Suche mit Yovisto

Page 26: Berlin Semantic Meetup Feb. 07, 2011

■Problem: Was ist eigentlich wichtig?

3. Semantik Web Meetup, Berlin, 15.09.2009, Dr. Harald Sack

26

http://dbpedia.org/page/Aldous_Huxley

Aldous Huxley

• z.B.., Aldous Huxley• > 600 Fakten (RDF-triples)• > 80 Eigenschaften (properties)• keine Reihenfolge• keine Relevanzbewertungen

• Linked Data beinhaltet ungewichtetes Wissen• ungewichtet = keine Unterscheidung, ob wichtig oder unwichtig

• Entwicklung von heuristischenVerfahren zur Relevanzbewertungvon Linked Data Fakten• semantische Graphenanalyse• statistische Verfahren

Explorative Suche mit Yovisto

Page 27: Berlin Semantic Meetup Feb. 07, 2011

3. Semantik Web Meetup, Berlin, 15.09.2009, Dr. Harald Sack

27

Waitelonis, Sack: Augmenting Video Search with Linked Open Data, in Proc. I-Semantics , Graz 2009.

http://mediaglobe.yovisto.com:8080/

Page 28: Berlin Semantic Meetup Feb. 07, 2011

3. Semantik Web Meetup, Berlin, 15.09.2009, Dr. Harald Sack

28

Semantische MultimediasucheCONTENTUS, Mediaglobe und yovisto.com

Kontakt:Dr. Harald SackHasso-Plattner-Institut für SoftwaresystemtechnikUniversität PotsdamProf.-Dr.-Helmert-Str. 2-3D-14482 Potsdam

Homepage: http://www.hpi.uni-potsdam.de/meinel/team/sack.htmlBlog: http://moresemantic.blogspot.com/E-Mail: [email protected]: lysander07

Vielen Dank für

Ihre Aufmerksamkeit!