Download - Metadaten - eine (extrem) kurze Einführung
Metadaten – Struktur, Analyse, SuchsystematikErgebnisse Focus Group 2
Dr. Harald Sack
Hasso-Plattner-Institut für Softwaresystemtechnik
Universität Potsdam
cinearchive digital, 25. März 2009
cinearchiv digital, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam 23. Mai 2009
2
Metadaten Struktur, Analyse, Suchsystematik Ergebnisse Focus Group 2
InhaltTeil I: Dr. Harald Sack, HPI Potsdam
1. Metadaten - eine kurze Einführung
2. Focus Group 2 - Teilnehmer und Arbeitsergebnisse
Teil II: Prof. Dr. Angela Schreyer, FH Potsdam
3. Metadaten in Videoportalen im Vergleich
Teil III: Dr. Patrick Ndjiki-Nya, HHI Berlin
4. Automatische Audio-/Videoanalyse zur Metadatengewinnung
cinearchiv digital, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam 23. Mai 2009
Hasso Plattner Institut für IT Systems EngineeringUniversität Potsdam
• im Oktober 1998 im Rahmen einer Public Private Partnership gegründet
• An-Institut der Universität Potsdam
• zwei universitäre Informatik-Studiengänge IT Systems Engineering mitAbschlüssen
• Bachelor of Science (6 Semester) und
• Master of Science (4 Semester)
• 10 Professuren und 438 Studenten (WS08/09)
• 284 Bachelor Studenten
• 154 Master Studenten
3
cinearchiv digital, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam 23. Mai 2009
4
Teil 1: Dr. Harald Sack, HPI Potsdam
1. Metadaten - eine kurze Einführung
1.1 Motivation
1.2 Metadaten Definitionen
1.3 strukturierte vs. unstrukturierte Metadaten
1.4 semantische Metadaten
2. Focus Group 2 - Teilnehmer und Arbeitsergebnisse
2.1 Teilnehmer
2.2 Metadaten Bedarfsanalyse
2.3 cinearchiv digital Metadaten Schema
cinearchiv digital, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam 23. Mai 2009
1. Metadaten - eine kurze Einführung1.1 Motivation
Wie findet man etwas in einem audiovisuellen Archiv?
• Damit audiovisuelle Daten einer computergestützten gezielten Suche zugänglich werden, müssen Beschreibungen, Schlüsselwörter, etc. üblicherweise Textform vorliegen.
5
cinearchiv digital, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam 23. Mai 2009
1. Metadaten - eine kurze Einführung1.1 Motivation
Wie findet man etwas in einem audiovisuellen Archiv?
•
6
automatische inhaltliche Analyse ist • schwierig und• berechnungs-/speicheraufwändig
Marlene Dietrich ????????
„...ich bin von Kopf bis Fuß...“
{
cinearchiv digital, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam 23. Mai 2009
1. Metadaten - eine kurze Einführung1.1 Motivation
7 Wie findet man etwas in einem audiovisuellen Archiv? • Suche in traditionellen
(textbasierten) Medien
• Digitalisierung, Texterfassung, Texterkennung und Suche ist bereits auf hohem Niveau möglich und skalierbar
• Suche in audiovisuellen Medien
• Digitalisierung
• Erschließung
• manuell
• automatisiert
• zusätzliche Dimension (Zeit)
cinearchiv digital, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam 23. Mai 2009
1. Metadaten - eine kurze Einführung1.1 Motivation
8 Wie findet man etwas in einem audiovisuellen Archiv? • Fazit: Wir benötigen textuelle Beschreibungen
• des Inhalts
• des Produktionsprozesses
• der technischen Parameter
• etc....
Metadaten
cinearchiv digital, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam 23. Mai 2009
9
Teil 1: Dr. Harald Sack, HPI Potsdam
1. Metadaten - eine kurze Einführung
1.1 Motivation
1.2 Metadaten Definitionen
1.3 strukturierte vs. unstrukturierte Metadaten
1.4 semantische Metadaten
2. Focus Group 2 - Teilnehmer und Arbeitsergebnisse
2.1 Teilnehmer
2.2 Metadaten Bedarfsanalyse
2.3 cinearchiv digital Metadaten Schema
cinearchiv digital, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam 23. Mai 2009
1. Metadaten - eine kurze Einführung1.2 Metadaten Definitionen
10 Metadaten
„Metadaten sind Daten, die Informationen über andere Daten enthalten“ und „Metadaten werden benötigt, um in der Lage zu sein, einen bestimmten Zweck zu erfüllen (oder) ein bestimmtes Ergebnis zu erreichen“ (informelle Definition, Wikipedia)
„Metadaten sind strukturierte, kodierte Daten, die Charakteristika informationstragender Entitäten beschreiben, zum Zweck der Identifikation, Recherche, Beurteilung und der Verwaltung der damit beschriebenen Entitäten.“ (W.R. Durell, 1985)
„Metadaten sind maschinenlesbare Informationen über elektronische Ressourcen oder andere Dinge“ (W3C)
cinearchiv digital, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam 23. Mai 2009
1. Metadaten - eine kurze Einführung1.2 Metadaten Definitionen
11 Metadaten• einfaches Beispiel: Bücher und bibliografische Metadaten
Identifikation über• ISBN / ISSN• Autor(en)• Titel• ...
Klassifikation über• Kategorien• Schlüsselwörter• Abstract / Zusammenfassung• ...
cinearchiv digital, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam 23. Mai 2009
12
Teil 1: Dr. Harald Sack, HPI Potsdam
1. Metadaten - eine kurze Einführung
1.1 Motivation
1.2 Metadaten Definitionen
1.3 strukturierte vs. unstrukturierte Metadaten
1.4 semantische Metadaten
2. Focus Group 2 - Teilnehmer und Arbeitsergebnisse
2.1 Teilnehmer
2.2 Metadaten Bedarfsanalyse
2.3 cinearchiv digital Metadaten Schema
cinearchiv digital, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam 23. Mai 2009
1. Metadaten - eine kurze Einführung1.3 strukturierte vs. unstrukturierte Metadaten
13 Strukturierte Metadaten• bestehen aus Name-Werte Paaren (Autor = „Böll, Heinrich“)
• sind typisiert (Autor ist vom Typ „Zeichenkette“)
• Semantik strukturierter Daten beruht auf gemeinsamer Vereinbarung(z.B. Standardisierung bei Cublin Core)
• Title: Namen des Objekts. • Creator: Personen, Organisationen oder Dienste, die in erster Linie für den Inhalt
des Objekts verantwortlich sind, z.B. Autorinnen oder Autoren. • Subject: Thema (topic) des Objekts, typischerweise Stichwörter, Deskriptoren
oder Elemente eines Klassifikationssystems. • Description: Beschreibung des Inhalts des Objekts als Text, z.B. als Abstract oder
Inhaltsverzeichnis. • Publisher: Personen oder Organisationen, die dafür verantwortlich sind, das
Objekt zugänglich zu machen. • Contributor: Personen oder Organisationen, die wesentliche Beiträge zum Inhalt
des Objekts geleistet haben, aber nicht unter Creator genannt sind (Herausgebende, Übersetzerinnen, Illustratoren).....
cinearchiv digital, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam 23. Mai 2009
1. Metadaten - eine kurze Einführung1.3 strukturierte vs. unstrukturierte Metadaten
14 Strukturierte Metadaten• können hierarchisch strukturiert werden (Taxonomie)
Tierreich (Animalia)
Wirbeltiere
Mensch (Homo)
Moderner Mensch (Homo sapiens)
Menschenartige (Hominidae)
Primaten
Säugetiere (Mammaliae)
Mehrzeller (Eukaria)
cinearchiv digital, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam 23. Mai 2009
1. Metadaten - eine kurze Einführung1.3 strukturierte vs. unstrukturierte Metadaten
15 Strukturierte Metadaten• Klassifikationssysteme
• z.B. Dewey Decimal System
DDC 22 (2003)• 4 Bände• 4000 Seiten• 45.000 Klassen• 96.000 Registerbegriffe
Hauptklassen000 Inf.-Wiss., allg. Werke100 Philosophie200 Religion300 Sozialwissenschaften400 Sprachen500 Naturwissenschaften600 Technik (Angew. Wiss.)700 Künste800 Literatur900 Geschichte
DDC 1 (1876)• 44 Seiten
cinearchiv digital, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam 23. Mai 2009
1. Metadaten - eine kurze Einführung1.3 strukturierte vs. unstrukturierte Metadaten
16 Unstrukturierte Metadaten• als unstrukturierte Metadaten werden textuelle Metadaten bezeichnet,
deren Semantik nicht durch vorherige Vereinbarung festgelegt ist, sondern durch ihren (natürlichsprachlichen) inhalt.
• Bsp.: Inhaltsangabe/abstract
Josef von Sternbergs Geschichte vom Fall eines bigotten Kleinbürgers gehört zu den größten Leistungen des deutschen Films überhaupt - ein stilistisch brillanter, vom Expressionismus beeinflusster Klassiker mit 'starmaking quality'. 'Der blaue Engel' machte Marlene Dietrich berühmt und begründete zugleich ein Rollenprofil, das auch ihre späteren amerikanischen Arbeiten mit Sternberg prägen sollte: das der Verführerin, die gewissermaßen ihrer eigenen Sinnlichkeit ausgeliefert ist....
cinearchiv digital, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam 23. Mai 2009
1. Metadaten - eine kurze Einführung1.3 strukturierte vs. unstrukturierte Metadaten
17 Autoritative vs. nicht-autoritative Metadaten• Autoritative Metadaten
stammen von einer zuverlässigen (autoritativen) Quelle, wie z.B.
• dem Autor der Original-Daten
• einem ausgewiesenen Experten
• Nicht-autoritative Metadatenstammen von einer prinzipiell unzuverlässigen Quelle, wie z.B.
• den Benutzern
• prominentes Beispiel: Social Tagging Systeme
cinearchiv digital, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam 23. Mai 2009
1. Metadaten - eine kurze Einführung1.3 strukturierte vs. unstrukturierte Metadaten
18 Kollaborative Annotation -- Social Tagging
AutorRessource
Benutzer
autoritativeMetadaten
Apfel
Frucht
nicht-autoritativeMetadaten
Apfel
apple
Obst
Frühstück
kaufen
cinearchiv digital, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam 23. Mai 2009
1. Metadaten - eine kurze Einführung1.3 strukturierte vs. unstrukturierte Metadaten
19 Kollaborative Annotation -- Social Tagging
cinearchiv digital, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam 23. Mai 2009
20
Teil 1: Dr. Harald Sack, HPI Potsdam
1. Metadaten - eine kurze Einführung
1.1 Motivation
1.2 Metadaten Definitionen
1.3 strukturierte vs. unstrukturierte Metadaten
1.4 semantische Metadaten
2. Focus Group 2 - Teilnehmer und Arbeitsergebnisse
2.1 Teilnehmer
2.2 Metadaten Bedarfsanalyse
2.3 cinearchiv digital Metadaten Schema
cinearchiv digital, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam 23. Mai 2009
1. Metadaten - eine kurze Einführung1.4 semantische Metadaten
21 Semantische Metadaten• sind strukturierte/unstrukturierte Metadaten
• Semantik (Bedeutung) der Metadaten ist formal definiert (Ontologie) und daher maschinenlesbar (und maschinenverstehbar)
"An ontology is an explicit, formal specification of a shared conceptualization. The term is borrowed from philosophy, where an Ontology is a systematic account of Existence. For AI systems, what ‘exists’ is that which can be represented.“
(Thomas R. Gruber, 1993)
Konzeptualisierung: abstraktes Modell (Domäne, identifizierte relevante
Begriffe, Beziehungen)
Explizit: Bedeutungen aller Begriffe definiert
Formal: maschinenverstehbar
Gemeinsam: Konsens bzgl. Ontologie
cinearchiv digital, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam 23. Mai 2009
1. Metadaten - eine kurze Einführung1.4 semantische Metadaten
22 Semantische Metadaten• Beispiel
Publikation
Buch
ist eine
Zeitschrift
ist eine
Verlag verlegt
• Titel• Schlüsselwörter• ...
Eigenschaften
Autorverfasst
wird verfasstvon
Personist eine
Adresse
hat eine
• Nachname• Vorname• Straße...
Eigenschaften
Springer Verlag
ist ein
HaraldSack
ist eine
Digitale Kommunikation
ist ein
1..n
1..n
Mann
Frauist eine
ist eine
≠
cinearchiv digital, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam 23. Mai 2009
1. Metadaten - eine kurze Einführung1.4 semantische Metadaten
23 Semantische Metadaten• erlauben die Festlegung formaler Axiome
• z.B. „Es ist nicht möglich, dass das Publikationsdatum vor dem Geburtsdatum eines Autors der Publikation liegt.“
• erlauben das Ziehen von Schlussfolgerungen
• z.B. Alle Menschen sind sterblich. Sokrates ist ein Mensch. Daher ist Sokrates sterblich.
• Daher ist es mit semantischen Metadaten möglich, implizit vorhandenes Wissen, explizit zu machen
cinearchiv digital, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam 23. Mai 2009
1. Metadaten - eine kurze Einführung1.4 semantische Metadaten
24 Semantische Metadaten für Audiovisuelle Daten
ZeitMetadaten
Metadaten
Metadaten
Metadaten Metadaten
Metadaten
z.B. bibliografische Daten, geografische Daten, enzyklopädische Daten, ....
cinearchiv digital, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam 23. Mai 2009
25
Teil 1: Dr. Harald Sack, HPI Potsdam
1. Metadaten - eine kurze Einführung
1.1 Motivation
1.2 Metadaten Definitionen
1.3 strukturierte vs. unstrukturierte Metadaten
1.4 semantische Metadaten
2. Focus Group 2 - Teilnehmer und Arbeitsergebnisse
2.1 Teilnehmer
2.2 Metadaten Bedarfsanalyse
2.3 cinearchiv digital Metadaten Schema
cinearchiv digital, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam 23. Mai 2009
2. Focus Group 2 - Teilnehmer und Arbeitsergebnisse2.1 Teilnehmer
26 Focus Group 2 - Metadaten•ArchivInForm GmbH
•Bundesarchiv-Filmarchiv
•DEFA Stiftung
•Deutsches Musikarchiv
•Deutsche Nationalbibliothek
•Deutsches Rundfunkarchiv
•Fachhochschule Potsdam
•Fraunhoher Intelligente Analyse- und Informationssysteme
•Grundy UFA
•Fraunhofer Institut für Nachrichtentechnik, Heinrich-Hertz
•Hasso-Plattner-Institut für IT Systems Engineering
•Hochschule für Film und Fernsehen "Konrad Wolf"
•In2 search interfaces developement Ltd.
cinearchiv digital, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam 23. Mai 2009
2. Focus Group 2 - Teilnehmer und Arbeitsergebnisse2.2 Metadaten Bedarfsanalyse
27 Metadaten -Bedarfsanalyse• zu klärende Fragen
• aktuelle Entwicklungen im Audio-/Video-Mining
• Hilfsmittel für Archivare
• Fortschreitende Automatisierung, wo befinden wir uns?
• Metadatenstandards?
• automatische und semi-automatische Erschließung
• Feststellung Status Quo
Ausgangspunkt und Diskussionsgrundlage:Statuspapier zur Metadatenerfassung
cinearchiv digital, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam 23. Mai 2009
2. Focus Group 2 - Teilnehmer und Arbeitsergebnisse2.2 Metadaten Bedarfsanalyse
28 Metadaten -Bedarfsanalyse• Arbeitsgrundlage: definierte Anforderungen der Focus Groups 1 und 3
• Focus Group 1:
• Digitalisierung erfolgt durchweg in HD
• Focus Group 3:
• In einer zu realisierenden Anwendung sollen nach folgenden Entitäten gesucht werden können
• Personen
• Orte
• Gebäude / Landmarks
• Ereignisse
cinearchiv digital, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam 23. Mai 2009
2. Focus Group 2 - Teilnehmer und Arbeitsergebnisse2.3 Cinearchiv Digital Metadaten Schema
29 Metadaten Schema• hierarchischer Aufbau
• Kollektion / Sammlung
• Einzelmedium
• Mediensegment
• weitere Untergliederung der Metadaten in
• strukturelle, deskriptive Metadaten
• inhaltsbezogene Metadaten
• inhaltliche Metadaten für Kollektionen / Einzelmedien können aus Metadaten für Mediensegmente erschlossen werden.
cinearchiv digital, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam 23. Mai 2009
30
Teil 1: Dr. Harald Sack, HPI Potsdam
1. Metadaten - eine kurze Einführung
1.1 Motivation
1.2 Metadaten Definitionen
1.3 strukturierte vs. unstrukturierte Metadaten
1.4 semantische Metadaten
2. Focus Group 2 - Teilnehmer und Arbeitsergebnisse
2.1 Teilnehmer
2.2 Metadaten Bedarfsanalyse
2.3 cinearchiv digital Metadaten Schema
cinearchiv digital, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam 23. Mai 2009
31
Metadaten Struktur, Analyse, Suchsystematik Ergebnisse Focus Group 2
InhaltTeil I: Dr. Harald Sack, HPI Potsdam
1. Metadaten - eine kurze Einführung
2. Focus Group 2 - Teilnehmer und Arbeitsergebnisse
Teil II: Prof. Dr. Angela Schreyer, FH Potsdam
3. Metadaten in Videoportalen im Vergleich
Teil III: Dr. Patrick Ndjiki-Nya, HHI Berlin
4. Automatische Audio-/Videoanalyse zur Metadatengewinnung