multimedia-analysetechnik - kickoff02 - maschinelles lernen und tools

170
MULTIMEDIA- ANALYSE-TECHNIKEN Seminar Dr. Harald Sack / Jörg Waitelonis Zalan Kramer / Johannes Hercher Hasso-Plattner-Institut für Softwaresystemtechnik Universität Potsdam Sommersemester 2010 Die nichtkommerzielle Vervielfältigung, Verbreitung und Bearbeitung dieser Folien ist zulässig (Lizenzbestimmungen CC-BY-NC ). Montag, 17. Mai 2010

Upload: harald-sack

Post on 05-Dec-2014

2.113 views

Category:

Education


7 download

DESCRIPTION

Kickoff02 Multimedia-Analysetechnik (1) Maschinelles Lernen - Eine kurze Einführung (2) Evaluation (3) Aufgabenbeschreibung (4) Libs und Tools

TRANSCRIPT

Page 1: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

MULTIMEDIA-ANALYSE-TECHNIKEN

SeminarDr. Harald Sack / Jörg Waitelonis

Zalan Kramer / Johannes HercherHasso-Plattner-Institut für Softwaresystemtechnik

Universität PotsdamSommersemester 2010

Die nichtkommerzielle Vervielfältigung, Verbreitung und Bearbeitung dieser Folien ist zulässig (Lizenzbestimmungen CC-BY-NC).

Montag, 17. Mai 2010

Page 2: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

2

Multimedia-Analyse-Techniken

1. Multimedia und Kodierung

2. Bild- und Videokodierung

3. Audiokodierung

4. Kurzer Exkurs: Maschinelles Lernen

5. Aufgabenstellung und Werkzeuge

Montag, 17. Mai 2010

Page 3: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

3

Multimedia-Analyse-Techniken1. Multimedia und Kodierung

Multimediale Daten im Computer

•Definition Multimedia

•Kommen bei der Darstellung von Information mehrere, verschiedenartige Medien zum Einsatz, wie z.B. Text, Bild und Ton, so spricht man von einer multimedialen Darstellung der Information.

•Multimediale Darstellung soll dem Betrachter die Wissensaufnahme von Inhalten erleichtern, da der Benutzer die Informationen mit verschiedenen Sinnesorganen aufnimmt

alphanumerischeInformation

graphischeInformation

Audio-information

Video-information

Montag, 17. Mai 2010

Page 4: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

4

Multimedia-Analyse-Techniken1. Multimedia und Kodierung

Medientypen•zeitunabhängige Medien

•Zeitkomponente während der Aufzeichnung ohne Bedeutung

•z.B. Text, Grafik

•„diskrete Medien“

•zeitunabhängige Medien

•Information verändert sich mit der Zeit

•Gehalt einer Einzelinformation (zu einem diskreten Zeitpunkt) nicht signifikant

•Gesamtinformation erschließt sich erst aus dem zeitlichen Ablauf

•Zeitkomponente kritisch sowohl bei Aufzeichnung als auch bei Wiedergabe

•z.B. Audio, Video

Montag, 17. Mai 2010

Page 5: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

5

Multimedia-Analyse-Techniken1. Multimedia und Kodierung

Multimediakodierung•Um Informationen zum Zweck der Archivierung oder Übertragung aufzuzeichnen,

müssen die Informationen entsprechend kodiert werden.

•alphanumerische Information (Text)

•Zur Kodierung alphanumerischer Nachrichten, also mittels Ziffern und Buchstaben verschiedener Alphabete dargestellter Informationen, existieren viele unterschiedliche Verfahren, angefangen von ASCII, dem 7-Bit Standard, der noch aus den Zeiten des Fernschreibers stammt, bis hin zum 32-Bit Unicode, mit dem es möglich ist, annähernd alle Alphabete der Erde zu kodieren.

Montag, 17. Mai 2010

Page 6: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

6

Multimedia-Analyse-Techniken1. Multimedia und Kodierung

Multimediakodierung•graphische Information

•Graphische Information liegt analog vor und muss vor einer entsprechenden Kodierung zunächst digitalisiert werden.

•man unterscheidet verlustfreie und verlustbehaftete Kodierung graphischer Information

•verlustfreie Kodierung:

•RAW, TIFF, BMP, ...

•verlustbehaftete Kodierung:

•GIF, PNG, JPEG, JPEG2000, ...

Montag, 17. Mai 2010

Page 7: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

7

Multimedia-Analyse-Techniken1. Multimedia und Kodierung

Multimediakodierung•Audio- /Videoinformation

•Audio-/Videoinformation liegt analog vor und muss vor einer entsprechenden Kodierung zunächst (zeitabhängig) digitalisiert werden.

•man unterscheidet verlustfreie und verlustbehaftete Kodierung von Audio-/Videoinformation

•verlustfreie Kodierung:

•Audio: AU, WAV, ...

•Video: DV

•verlustbehaftete Kodierung:

•Audio: MP3, MPEG-2 AAC, MPEG-4 AAC, ...

•Video: MPEG-1, MPEG-2, MPEG-4, H.264, X.264, DVCPro, ...

Montag, 17. Mai 2010

Page 8: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

8

Multimedia-Analyse-Techniken

1. Multimedia und Kodierung

2. Bild- und Videokodierung

3. Audiokodierung

4. Kurzer Exkurs: Maschinelles Lernen

5. Aufgabenstellung und Werkzeuge

Montag, 17. Mai 2010

Page 9: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

9

Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.1 Farbe und Farbmodelle

Farbe und Farbmodelle•Was ist Farbe?

•Farben sind die Grundbestandteile des weißen Lichts

•Prisma zerlegt weißes Licht in seine spektralen Bestandteile

•Lichtstrahlen besitzen keine Farbe sondern eine spektrale Energieverteilung

1648 Marcus Marci1672 Isaac Newton

λ=780 nm λ=380 nm

Infrarot UVsichtbares Licht

Elektromagnetisches Spektrum

PrismaIsaac Newton(1643-1727)

Marcus Marci(1595-1667)

Montag, 17. Mai 2010

Page 10: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

10

Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.1 Farbe und Farbmodelle

Farbe und Farbmodelle•Thomas Young (1801) weist nach, dass das menschliche Auge nur in der Lage

ist, 3 Grundfarben wahrzunehmen (3-Farbtheorie)

•Alle übrigen wahrgenommenen Farben ergeben sich durch Mischung der 3 Grundfarben in unterschiedlicher Intensität

•Max Planck (1900) weist Zusammenhang zwischen Strahlungsfrequenz (Farbe des Lichts) und Temperatur nach (Schwarzkörperstrahlung und Farbtemperatur)

•„In einem geschlossenem Hohlraum stellt sich eine nach allen Richtungen gleiche elektromagnetische Strahlung bestimmter Gesamtenergie und bestimmter spektraler Verteilung ein, die nur von der Temperatur der Hohlraumwände abhängt.“

Thomas Young(1773-1829)

2200 K 5500 K Farbtemperatur(Kelvin)

Montag, 17. Mai 2010

Page 11: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

10

Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.1 Farbe und Farbmodelle

Farbe und Farbmodelle•Thomas Young (1801) weist nach, dass das menschliche Auge nur in der Lage

ist, 3 Grundfarben wahrzunehmen (3-Farbtheorie)

•Alle übrigen wahrgenommenen Farben ergeben sich durch Mischung der 3 Grundfarben in unterschiedlicher Intensität

•Max Planck (1900) weist Zusammenhang zwischen Strahlungsfrequenz (Farbe des Lichts) und Temperatur nach (Schwarzkörperstrahlung und Farbtemperatur)

•„In einem geschlossenem Hohlraum stellt sich eine nach allen Richtungen gleiche elektromagnetische Strahlung bestimmter Gesamtenergie und bestimmter spektraler Verteilung ein, die nur von der Temperatur der Hohlraumwände abhängt.“

Thomas Young(1773-1829)

Max Planck(1858- 1947)

2200 K 5500 K Farbtemperatur(Kelvin)

Montag, 17. Mai 2010

Page 12: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

11

Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.1 Farbe und Farbmodelle

Farbe und Farbmodelle•Um Farben korrekt (auf dem Computer) reproduzieren zu können dienen

mathematische Farbmodelle

•Diese basieren auf unterschiedlichen Arten der Mischung von Anteilen der jeweiligen Grundfarben, deren Helligkeit und anderer Farbeigenschaften

Isaac Newton (1704) verbindet die beidenEnden des optischen elektromagnetischen Spektrums zum Farbkreis

Isaac Newton(1643-1727)

Montag, 17. Mai 2010

Page 13: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

12

Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.1 Farbe und Farbmodelle

Farbe und Farbmodelle•Auch Goethe beschäftigte

sich mit der Farbenlehre. Er entwickelte einen Farbkreis und ordneteden einzelnen Farben spezifische Eigenschaften zu.

•Goethe vertrat im Gegensatz zu Newton die Ansicht, dasssich das weisse Licht nicht aus monochromatischen Komponenten zusammensetzt(Spektrum), sondern Farbe erst imAuge entsteht

Johann Wolfgang v. Goethe

(1749-1832)

Farbenkreis zur Symbolisierung des menschlichen Geistes- und Seelenlebens, 1809

Montag, 17. Mai 2010

Page 14: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

13

Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.1 Farbe und Farbmodelle

Farbe und Farbmodelle•1931 wurde als erstes Modell

zur objektiven Farbbestimmungdie Farbnormtafel von derinternationalen Beleuchtungs-kommision festgelegt(Commission Internationale d´Eclairage, CIE)

•Farben werden aus Farbanteilen derGrundfarben (Rot, Grün, Blau)gemischt und in ein 2-dimensionalesKoordinatensystem projiziert

CIE Farbnormtafel, 1931

Montag, 17. Mai 2010

Page 15: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

14

Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.1 Farbe und Farbmodelle

Farbe und Farbmodelle•RGB-Farbmodell

•additive Farbmischung

•Mischung selbstleuchtender Grundfarben

•Rot (700nm)

•Grün (546,1nm)

•Blau (435,8nm)

•Farbe wird als Tripel (r,g,b) aus den jeweiligen Farbanteilen angegeben

•z.B. bei 8 Bit pro Farbkanal:gelb = (255,255,0)

additive Farbmischung

Montag, 17. Mai 2010

Page 16: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

15

Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.1 Farbe und Farbmodelle

Farbe und Farbmodelle•RGB-Farbmodell

•Bsp.:

R

G

B

additive Farbmischung

Montag, 17. Mai 2010

Page 17: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

16

Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.1 Farbe und Farbmodelle

Farbe und Farbmodelle•CMY(K)-Farbmodell

•subtraktive Farbmischung

•Farbe entsteht durch Reflektion/Absorbtion an unterschiedlichen Oberflächen

•Grundfarben Cyan / Magenta / Yellow

•Druckprinzip: Farbpigmente der Grundfarben werden auf weiße Oberfläche aufgetragen

Lichtstrahl bestimmte Farbanteilewerden reflektiert,andere absorbiert

subtraktive Farbmischung

Montag, 17. Mai 2010

Page 18: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

16

Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.1 Farbe und Farbmodelle

Farbe und Farbmodelle•CMY(K)-Farbmodell

•subtraktive Farbmischung

•Farbe entsteht durch Reflektion/Absorbtion an unterschiedlichen Oberflächen

•Grundfarben Cyan / Magenta / Yellow

•Druckprinzip: Farbpigmente der Grundfarben werden auf weiße Oberfläche aufgetragen

Lichtstrahl bestimmte Farbanteilewerden reflektiert,andere absorbiert

subtraktive Farbmischung

Montag, 17. Mai 2010

Page 19: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

17

Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.1 Farbe und Farbmodelle

Farbe und Farbmodelle•CMY(K) Farbmodell

•Bsp.:

C

YM

subtraktive Farbmischung

Montag, 17. Mai 2010

Page 20: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

18

Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.1 Farbe und Farbmodelle

Farbe und Farbmodelle•YUV-Farbmodell

•Zerlegung der Farben in

•Helligkeitsanteil (Luminanz) – Y-Komponente

•Farbanteil (Chrominanz) – U und V Komponente

•Historisch in Verbindung mit dem Farbfernsehens entstanden

•Rückwärtskompatibilität mit Schwarzweiß-Empfängern

•daher separater Helligkeitskanal

•Ausnutzung der unterschiedlichen Empfindlichkeit des menschlichen Auges für Helligkeits- und Farbunterschiede

Montag, 17. Mai 2010

Page 21: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

19

Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.1 Farbe und Farbmodelle

Farbe und Farbmodelle•YUV-Farbmodell

rot grün blau

Montag, 17. Mai 2010

Page 22: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

20

Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.1 Farbe und Farbmodelle

Farbe und Farbmodelle•YUV-Farbmodell

Y U V

Montag, 17. Mai 2010

Page 23: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

21

Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.2 Visuelle Wahrnehmung

Visuelle Wahrnehmung des Menschen•Das menschliche Auge

Montag, 17. Mai 2010

Page 24: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

22 Visuelle Wahrnehmung des Menschen•Licht- / Farbempfindlichkeit

•Netzhaut enthält zwei Typen von Licht-rezeptoren im menschlichen Auge:

•ZapfenFarb- und Helligkeitsempfindlich,verantwortlich für Farbsehen,im zentralen Retinabereich,ca. 6 Millionen, man unterscheidet drei Typen von Zapfen, die jeweils über unterschiedliches Sehpigment verfügen

•StäbchenHelligkeitsempfindlichauch bei geringer Beleuchtungim peripheren Retinabereichca. 120 Millionen

Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.2 Visuelle Wahrnehmung

Montag, 17. Mai 2010

Page 25: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

23 Verlustbehaftete JPEG Kodierung•JPEG, Joint Photographic Experts Group

•verlustbehaftete Komprimierung, sehr gut geeignet für natürliche Bildquellen

•Komprimierung bis 1:20 bei kaum nennenswerten Verlust der Darstellungsqualität

•Ausnutzung der Physiologie der menschlichen Wahrnehmung

•Das menschliche Auge reagiert auf Änderungen der Helligkeit empfindlicher als auf Farbänderungen

•Natürliche Bildquellen besitzen

•häufig Farb- / Helligkeitsverläufe

•häufig keine starken Kontrastschwankungen

Helligkeit benachbarte Bildpunkte unterscheidet sich kaum

Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.3 JPEG Kodierung

Montag, 17. Mai 2010

Page 26: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

24 Verlustbehaftete JPEG Kodierung•Natürliche Bildquellen besitzen

•häufig Farb- / Helligkeitsverläufe

•häufig keine starken Kontrastschwankungen

Helligkeit benachbarte Bildpunkte unterscheidet sich kaum

Idee: Das Herausfiltern von Bildanteilen mit starken Kontrastschwankungen fällt bei den meisten „natürlichen“ Bildern nicht auf

Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.3 JPEG Kodierung

Montag, 17. Mai 2010

Page 27: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

24 Verlustbehaftete JPEG Kodierung•Natürliche Bildquellen besitzen

•häufig Farb- / Helligkeitsverläufe

•häufig keine starken Kontrastschwankungen

Helligkeit benachbarte Bildpunkte unterscheidet sich kaum

Idee: Das Herausfiltern von Bildanteilen mit starken Kontrastschwankungen fällt bei den meisten „natürlichen“ Bildern nicht auf

Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.3 JPEG Kodierung

Montag, 17. Mai 2010

Page 28: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

25 JPEG Komprimierung - Ablauf•

Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.3 JPEG Kodierung

Farbraum-wechsel

DiskreteCosinus-

Transformation

Chroma-Subsampling

Quantisierungmodifizierte

HuffmanKodierung

Originalbild komprimiertes Bild

schwächereFarbempfindlichkeitdes menschlichenAuges

Filterung von Bildanteilenmit starken Kontrastschwankungen

Montag, 17. Mai 2010

Page 29: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

26 JPEG Komprimierung - Ablauf

(1) Farbraumwechsel (r,g,b) →(Y,Cb,Cr)

Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.3 JPEG Kodierung

Farbraum-wechsel

Originalbild

(r,g,b)

Y

Cb

Cr

Luminanz

Chrominanz

+0,299 +0,587 +0,114+0,1687 −0,3313 +0,5

+0,5 −0,4187 −0,081

⎜ ⎜ ⎜

⎟ ⎟ ⎟ ⋅

rgb

⎜ ⎜ ⎜

⎟ ⎟ ⎟

=

YCb

Cr

⎜ ⎜ ⎜

⎟ ⎟ ⎟

Montag, 17. Mai 2010

Page 30: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

JPEG Komprimierung - Ablauf(2) Chroma Subsampling

Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

27

Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.3 JPEG Kodierung

Y-Pixel

Montag, 17. Mai 2010

Page 31: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

JPEG Komprimierung - Ablauf(2) Chroma Subsampling

Cr-Pixel

Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

27

Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.3 JPEG Kodierung

Y-Pixel

Montag, 17. Mai 2010

Page 32: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Cb-Pixel

JPEG Komprimierung - Ablauf(2) Chroma Subsampling

Cr-Pixel

Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

27

Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.3 JPEG Kodierung

Y-Pixel

Montag, 17. Mai 2010

Page 33: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Cb-Pixel

JPEG Komprimierung - Ablauf(2) Chroma Subsampling

Cr-Pixel

Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

27

Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.3 JPEG Kodierung

Y-Pixel

Statt 4·(r,g,b) 4·Y+1·(Cb+Cr)

4·(8+8+8)=96 Bit 4·8+(8+8)=48 Bit

Montag, 17. Mai 2010

Page 34: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

JPEG Komprimierung - Ablauf(2) Chroma Subsampling

Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

28

Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.3 JPEG Kodierung

4:4:4 – kein Subsampling

Luminanzpixel

Chrominanzpixel

4:2:2 – horizontales Subsampling um Faktor 2

Montag, 17. Mai 2010

Page 35: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

JPEG Komprimierung - Ablauf(2) Chroma Subsampling

Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

29

Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.3 JPEG Kodierung

Luminanzpixel

Chrominanzpixel

4:1:1 – horizontales Subsampling um Faktor 4

4:2:0 – horizontales und vertikales Subsampling um Faktor 2

Montag, 17. Mai 2010

Page 36: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

JPEG Komprimierung - Ablauf(2) Chroma Subsampling

Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

30

Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.3 JPEG Kodierung

4:2:0 Subsampling285 KB

Original PNG968 KB

Montag, 17. Mai 2010

Page 37: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

JPEG Komprimierung - Ablauf(3) Diskrete Cosinus-Transformation (DCT)

•versetzt einzelne Helligkeitswerte von Ortsraum in Frequenzraum

•Jede Komponente (Y,Cb,Cr) wird separat transformiert

•Bild wird dazu in Blöcke 8x8-Pixel zerlegt

Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

31

Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.3 JPEG Kodierung

(0,0)

(7,7)8x8 Block

DCT

F(0,0)

F(7,7)

transformierter 8x8 Block

Montag, 17. Mai 2010

Page 38: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

JPEG Komprimierung - Ablauf(3) Diskrete Cosinus-Transformation (DCT)

Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

32

Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.3 JPEG Kodierung

(0,0)

(7,7)8x8 BlockOrtsraum

Montag, 17. Mai 2010

Page 39: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

JPEG Komprimierung - Ablauf(3) Diskrete Cosinus-Transformation (DCT)

Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

32

Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.3 JPEG Kodierung

(0,0)

(7,7)8x8 BlockOrtsraum

Montag, 17. Mai 2010

Page 40: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

JPEG Komprimierung - Ablauf(3) Diskrete Cosinus-Transformation (DCT)

Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

32

Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.3 JPEG Kodierung

(0,0)

(7,7)8x8 Block

177 177177 136218 218177 218

Ortsraum

Montag, 17. Mai 2010

Page 41: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

JPEG Komprimierung - Ablauf(3) Diskrete Cosinus-Transformation (DCT)

Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

32

Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.3 JPEG Kodierung

(0,0)

(7,7)8x8 Block

177 177177 136218 218177 218

Ortsraum

Montag, 17. Mai 2010

Page 42: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

JPEG Komprimierung - Ablauf(3) Diskrete Cosinus-Transformation (DCT)

Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

32

Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.3 JPEG Kodierung

(0,0)

(7,7)8x8 Block

177 177177 136218 218177 218

Ortsraum

Montag, 17. Mai 2010

Page 43: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

JPEG Komprimierung - Ablauf(3) Diskrete Cosinus-Transformation (DCT)

Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

32

Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.3 JPEG Kodierung

(0,0)

(7,7)8x8 Block

177 177177 136218 218177 218

Ortsraum

Montag, 17. Mai 2010

Page 44: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

JPEG Komprimierung - Ablauf(3) Diskrete Cosinus-Transformation (DCT)

•Das Prinzip der Fouriertransformation:Jede periodische Funktion lässt sich als Summevon Sinus- und Cosinus-Funktionen darstellen.

Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

33

Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.3 JPEG Kodierung

Jean-Babtiste Joseph Baron de Fourier

(1768-1830)

Montag, 17. Mai 2010

Page 45: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

JPEG Komprimierung - Ablauf(3) Diskrete Cosinus-Transformation (DCT)

•Das Prinzip der Fouriertransformation:Jede periodische Funktion lässt sich als Summevon Sinus- und Cosinus-Funktionen darstellen.

Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

33

Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.3 JPEG Kodierung

Jean-Babtiste Joseph Baron de Fourier

(1768-1830)

A

x

Ortsraum

Montag, 17. Mai 2010

Page 46: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

JPEG Komprimierung - Ablauf(3) Diskrete Cosinus-Transformation (DCT)

•Das Prinzip der Fouriertransformation:Jede periodische Funktion lässt sich als Summevon Sinus- und Cosinus-Funktionen darstellen.

Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

33

Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.3 JPEG Kodierung

Jean-Babtiste Joseph Baron de Fourier

(1768-1830)

A

x

Ortsraum

Montag, 17. Mai 2010

Page 47: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

JPEG Komprimierung - Ablauf(3) Diskrete Cosinus-Transformation (DCT)

•Das Prinzip der Fouriertransformation:Jede periodische Funktion lässt sich als Summevon Sinus- und Cosinus-Funktionen darstellen.

Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

33

Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.3 JPEG Kodierung

Jean-Babtiste Joseph Baron de Fourier

(1768-1830)

A

f

Frequenz-Spektrum

A

x

Ortsraum

Montag, 17. Mai 2010

Page 48: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

34 Farbe und Farbmodelle(3) Diskrete Cosinus-Transformation (DCT)

Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.3 JPEG Kodierung

• Jede periodische Schwingung kann als eine Überlagerung von Sinusschwingungen unter- schiedlicher Amplituden und Frequenzen dargestellt werden  • Trägt man die Amplituden der beteiligten Schwingungen in Abhängigkeit der Frequenz auf, erhält man das Frequenz- spektrum

Montag, 17. Mai 2010

Page 49: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

35 Farbe und Farbmodelle(3) Diskrete Cosinus-Transformation (DCT)

Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.3 JPEG Kodierung

Ortsraum

xy

DCT

Frequenzraum

uv

f(x,y) F(u,v)

Montag, 17. Mai 2010

Page 50: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

36 Farbe und Farbmodelle(3) Diskrete Cosinus-Transformation (DCT)

Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.3 JPEG Kodierung

Frequenzraum

uv

F(u,v)

• Jeder Punkt bezeichnet Anteil einer bestimmten Frequenz

• F(0,0) - niedrigste Frequenz• F(7,7) - höchste Frequenz

Niedrige Frequenz = langsame ÄnderungHohe Frequenz = rasche Änderung

„natürliche“ Bilder besitzen viele kontinuierliche Farb-/Helligkeitsübergänged.h. Hauptanteil der Bildinformation liegt in den niedrigen Frequenzen

Montag, 17. Mai 2010

Page 51: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

37 Farbe und Farbmodelle(3) Diskrete Cosinus-Transformation (DCT)

Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.3 JPEG Kodierung

große, regelmäßig gefärbte Flächen niedrige Frequenzanteile

feine Details, hohe Kontrast-unterschiede hohe Frequenzanteile

DC (Direct Current) = F(0,0) enthält Durchschnittswert der 8x8-Matrix

AC (Alternating Current) = F(0,1) … F(7,7) speichern Veränderungen zum DC

wachsende Frequenz

wac

hsen

de F

requ

enz

Visualisierung der Basisfrequenzen

Montag, 17. Mai 2010

Page 52: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

38 Farbe und Farbmodelle(3) Diskrete Cosinus-Transformation (DCT)

Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.3 JPEG Kodierung

45 5045 45 50

50 5045

50

53

56

56

56

5653 53

535350

58 48

43 48

48

43 48 61 63

68 504858

45 48 56

56

50 45

48

6168

61

61

61

61

63

53635656

56 56

50

50

53

53 53

45 5050 61 61

58

48

425 -6-25 -5

-1 -710

9

-4

0

3-15

-3

-17 0

-5

-3 -3 4

-3

0 0 0 -1

4

1-43

-8 3

3

1

4

2

-3 2 -1

5

-6

DCT

Orts

raum

Freq

uenz

raum

-15

3

4

-6

-2-10

13

10

0 -22

4

6 66

1

0

3

2

-4

-3

-3

0 4

Montag, 17. Mai 2010

Page 53: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

39 Farbe und Farbmodelle(3) Diskrete Cosinus-Transformation (DCT) - Quantisierung

Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.3 JPEG Kodierung

Hohe Frequenzenwerden entfernt

Niedrige Frequenzenbleiben erhalten

Qua

ntis

ieru

ngsm

atrix

– Q

(u,v

)1 11 1 8

1 41

2

16

4

4

8

161 4

888

1 16

1 1

2

1 1 4 8

16 16168

4 8 8

8

8 16

4

3216

16

64

32

32

32

3216168

8 8

8

4

8

8 16

16 328 8 16

16

8

Montag, 17. Mai 2010

Page 54: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

40 Farbe und Farbmodelle(3) Diskrete Cosinus-Transformation (DCT) - Zig-Zag-Encodierung

Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.3 JPEG Kodierung

DC

Mittelwert

Montag, 17. Mai 2010

Page 55: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

40 Farbe und Farbmodelle(3) Diskrete Cosinus-Transformation (DCT) - Zig-Zag-Encodierung

Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.3 JPEG Kodierung

DC

Mittelwert

Montag, 17. Mai 2010

Page 56: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

41 Farbe und Farbmodelle(3) Diskrete Cosinus-Transformation (DCT) - mod. Huffman Kodierung

Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.3 JPEG Kodierung

• Kodierung variabler Länge mit fester Kodierungsvorschrift• Zusammenfassung von Null-Ketten mit Lauflängenkodierung (RLE-Kodierung)

Bits Wertebereich1 -1, +1

2 -3,-2, +2,+3

3 -7…-4, +4…7

4 -15…-8, 8…15

5 -31…-16, 16…31

6 -63…-32, 32…63

7 -127…-64, 64…127

8 -255..-128, 128…255

9 -511…-256, 256…511

Montag, 17. Mai 2010

Page 57: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

42 Farbe und Farbmodelle(3) Diskrete Cosinus-Transformation (DCT) - mod. Huffman Kodierung

Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.3 JPEG Kodierung

Quality : 90%Size: 21,868 bytes

Quality : 50%Size: 9,096 bytes

Quality : 10%Size: 3,519 bytes

Quality : 100%Size: 54,124 bytes

Montag, 17. Mai 2010

Page 58: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

43 Videokodierung und Bewegungswahrnehmung•Grundlagen

•Video (Film):kontinuierliche Abfolge von aufeinander folgenden Einzelbildern, die aufgrund der Netzhautträgheit des Menschen als zusammen-hängende, bewegte Sequenz erscheint.

•Netzhautträgheit:das von der Netzhaut (Retina) wahrgenommene Bild bleibt für 1/16s auf dieser bestehen, ehe es verlischt

•Kodierung einer Video(Film)sequenz erfordert sehr viel Speicherplatz

•Bild und Ton müssen synchron ablaufen

•erfordert hohe Bandbreite

Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.4 Video Kodierung

Montag, 17. Mai 2010

Page 59: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

44 Videokodierung und Bewegungswahrnehmung•Bewegungswahrnehmung

•komplexe Funktion der menschlichen Sensorik

•abhängig von

•Physiologischen Faktoren

•Beeinflussung benachbarter Lichtsinneszellen in der Retina

•Foveale Objektverfolgung (Nachführung des Auges)

•Vergenz und Akkomodation

•Psychologischen Faktoren

•Elimination gleichförmiger Bewegung durch das Gehirn

•Koppelung von Bewegung und Beschleunigungswahrnehmung (Gleichgewichtsorgan)

Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.4 Video Kodierung

Montag, 17. Mai 2010

Page 60: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

45 Videokodierung und Bewegungswahrnehmung•Analoge Videotechnik

•Farbfernsehen – PAL

•PAL (Phase Alternation Line, Europa) sendet mit Bildwiederholfrequenz von 25 Hz und einer Bildauflösung von 720x576 Pixeln, wobei 2 gegenseitig verschränkte Halbbilder mit im Takt von jeweils 1/50s gesendet werden

Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.4 Video Kodierung

gerade Zeilen ungerade Zeilen

+

1/50s 1/50s

=

1/25s

PAL interlaced

Montag, 17. Mai 2010

Page 61: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

46 Videokodierung und Bewegungswahrnehmung•PAL (SD576i)- notwendige Bandbreite

•Bildauflösung: 720 x 576 Pixel

•Bildwiederholfrequenz: 25 Hz

•Farbtiefe: 8 Bit

•Subsampling: 4:2:2

•Benötigte Bandbreite: 720 x 576 x 25 x 8 + 2 x (360 x 576 x 25 x 8) = 166 Mbps

Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.4 Video Kodierung

Luminanz Chrominanz

Montag, 17. Mai 2010

Page 62: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

47 Videokodierung und Bewegungswahrnehmung•HDTV (HD1080p) - notwendige Bandbreite

•Bildauflösung: z.B. 1920 x 1080 Pixel

•Bildwiederholfrequenz: bis 60 Hz

•Farbtiefe: 8 Bit

•Subsampling: 4:2:2

•Benötigte Bandbreite (Beispiel): 1920x1080x60x8 + 2x(960x1080x60x8) = 1,99 Gbps

Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.4 Video Kodierung

Montag, 17. Mai 2010

Page 63: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

48 Prediktive Kodierung•Ausnutzung von inhärenten Redundanzen in Videosequenzen

•z.B. Hintergrund statisch, nur Objekt im Vordergrund bewegt

•Objekte und Objektbewegungen müssen erkannt werden

•Bewegung kann als Grauwertveränderungder Position von Bildpunkten definiert werden

•Bei fester Kameraeinstellung ändert sich derBildinhalt durch Bewegung der Objekte in der Szene

•Verfahren zur Bewegungsprädiktion:

• Vorhersage ohne semantischen Kontext

• Modellbasierte Verfahren, z.B. bei Videotelefonie, Nachrichtensprecher, etc.

• Objekt-/Regionenbasierte Verfahren, d.h. Bildsegmentierung und Extraktion von Objekten

Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.4 Video Kodierung

Montag, 17. Mai 2010

Page 64: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

49 Prediktive Kodierung•Block-Matching

Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.4 Video Kodierung

Referenzbild RIn-k

• Annahme:

• benachbarte Bildpunkte führen die gleiche Bewegung aus.

• Vorgehen

• Unterteile das vorherzusagende Bild In in gleich große Blöcke (Segmente)

• Für jedes Segment bestimme im Referenzbild RIn-k einen Block mit möglichst gleichem Inhalt

Originalbild In

Montag, 17. Mai 2010

Page 65: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

50 Prediktive Kodierung•Block-Matching

Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.4 Video Kodierung

Referenzbild RIn-k

• Vorgehen (Fortsetzung):

• Ist ein passendes Segment gefunden, bestimme den Verschiebevektor v=(vx,vy)

• Vollständige Prädiktion ist nur möglich, wenn für jedes Segment in In ein passender Block im Referenzbild gefunden wird.

• Das Prädiktionsbild PIn wird wie eine Collage aus den gefundenen Segmenten des Referenzbildes zusammengesetzt und sieht bei erfolgreicher Prädiktion dem Originalbild In sehr ähnlich.

Originalbild In

v

Montag, 17. Mai 2010

Page 66: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

51 Prediktive Kodierung•Ursache für Bildveränderungen in Videosequenzen sind auch Bewegungen der

Kamera

•Geradlinige Bewegungen der Kamera (Translation)

•Kameraschwenk (Rotation)

•Einsatz von Zoomobjektiven (Skalierung)

Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.4 Video Kodierung

y

z

Bewegungskompensation gleichtBewegungen der Kamera aus

x

Montag, 17. Mai 2010

Page 67: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

52 Video Codecs und Komprimierverfahren

Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.4 Video Kodierung

Codec Komprimierungs-verfahrenDatencontainer implementiertverpackt kodierte

Daten in

WMV9

DivXRealVideo

XviD

h.261

h.263

MPEG 1

MPEG 2

MPEG 4

h.264

avi

RealMedia

mpg

ogm

mkv

vobasf QuickTime Nero

HDX4mp4

Montag, 17. Mai 2010

Page 68: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

53 Videokomprimierung nach MPEG•MPEG - Moving Pictures Experts Group

•eigentlich ISO/IEC JTC1/SC29/WG11

•seit 1988, ca. 360 Mitglieder aus Industrie/Forschung

•MPEG-1 Standard 1992

•VCD, MP3-Audiokomprimierung

•Datenrate 1,5 Mbps erfordert Komprimierung von >100:1

•MPEG-2 Standard 1995

•Digitalfernsehen (DVB), DVD

•MPEG-3 Standard in MPEG-2 integriert (HDTV)

•MPEG-4 Standard 1999

•Interaktives Audio und Video über drahtlose Netze und Internet

•HDTV, DRM, komplexe Objektverwaltung

Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.4 Video Kodierung

Montag, 17. Mai 2010

Page 69: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

54 MPEG-1 Videokodierung - Prinzipieller Ablauf•

Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.4 Video Kodierung

Farbkonversionnach YCrCb

DCTTransformation Quantisierung Lauflängen

KodierungBlock-

vergleich

Videoeinzelbilder

Referenz-bild

HuffmanKodierung

RGB YUV

YUV Fehler-/Differenzwerte DCT-Werte quantisierte

DCT-WerteNullen

unterdrückt

Codevariabler Länge

MPEG Bitstrom

InverseQuantisierungInverse DCT

quantisierteDCT-Werte

DCT-WerteYUV

Montag, 17. Mai 2010

Page 70: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

55 MPEG-1 Videokodierung - Datenstrom Struktur•

Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.4 Video Kodierung

Videosequenz

Group of Pictures

Einzelbild

Slice

Makroblock

16 x 16 Pixel

Block

8 x 8 Pixel

Montag, 17. Mai 2010

Page 71: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

56 MPEG-1 Videokodierung •Farbraumkonvertierung → YCrCb (4:2:2)

•Aufteilung der Einzelbilder in Zeilenabschnitte (Slices) und Makroblöcke

•16 x 16 Pixel Luminanz (Makroblock)

• 8 x 8 Pixel Chrominanz (Block)

•Bewegungsvorhersagealgorithmus

•Vergleiche Luminanzmakroblöcke aufeinander folgender Einzelbilder

•Ortsveränderungen von Luminanzmakroblöcken werden über Vektoren kodiert

•Qualität abhängig von Suchraumgröße

Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.4 Video Kodierung

Montag, 17. Mai 2010

Page 72: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

57 MPEG-1 Videokodierung •Farbraumkonvertierung → YCrCb (4:2:2)

•Bewegungsvorhersagealgorithmus

•DCT – Transformation

•Unterscheide Einzelbildvarianten:

•Intra-Frame (I-Frame)vollständiges Einzelbild, keine Bewegungsvorhersage, stets erstes Bild einer Sequenz (Standbild)

•Predictive Frame (P-Frame)nutzt zusätzlich Bewegungsvorhersage, bezieht sich auf vorhergehendes I-Frame

•Bidirectional Frame (B-Frame)Bewegungsvorhersage, bezieht sich auf vorhergehendes/nachfolgendes P-/I-Frame

Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.4 Video Kodierung

Montag, 17. Mai 2010

Page 73: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

58 MPEG-1 Videokodierung •Frametypen

•I-Frame muss nach spätestens 12 Frames wieder folgen

•Reihenfolge und jeweilige Wiederholungsanzahl der einzelnen Framessonst nicht vorgeschrieben

Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.4 Video Kodierung

Zeit

I B B B P B B B P B B B P B B B I

Montag, 17. Mai 2010

Page 74: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

59MPEG-1 Videokodierung •P-Frame Kodierung

Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.4 Video Kodierung

Referenz-Frame Ziel-Frame

Montag, 17. Mai 2010

Page 75: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

59MPEG-1 Videokodierung •P-Frame Kodierung

Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.4 Video Kodierung

Referenz-Frame Ziel-Frame

Montag, 17. Mai 2010

Page 76: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

59MPEG-1 Videokodierung •P-Frame Kodierung

Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.4 Video Kodierung

Referenz-Frame Ziel-Frame

1. Suche Best Match

Montag, 17. Mai 2010

Page 77: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

59MPEG-1 Videokodierung •P-Frame Kodierung

Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.4 Video Kodierung

Referenz-Frame Ziel-Frame

2. Verschiebungsvektor1. Suche Best Match

Montag, 17. Mai 2010

Page 78: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

59MPEG-1 Videokodierung •P-Frame Kodierung

Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.4 Video Kodierung

Referenz-Frame Ziel-Frame

2. Verschiebungsvektor1. Suche Best Match

3. Differenzbildung

-

Montag, 17. Mai 2010

Page 79: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

60MPEG-1 Videokodierung •B-Frame Kodierung

Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.4 Video Kodierung

Past Referenz Ziel-Frame Future Referenz

- ( + )/2

Montag, 17. Mai 2010

Page 80: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

60MPEG-1 Videokodierung •B-Frame Kodierung

Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.4 Video Kodierung

Past Referenz Ziel-Frame

1. Suche Best Match

Future Referenz

- ( + )/2

Montag, 17. Mai 2010

Page 81: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

60MPEG-1 Videokodierung •B-Frame Kodierung

Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.4 Video Kodierung

Past Referenz Ziel-Frame

1. Suche Best Match2. Verschiebungsvektoren

3. Differenzbildung

Future Referenz

- ( + )/2

Montag, 17. Mai 2010

Page 82: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

61MPEG-1 Videokodierung •Typische Kompressionsfaktoren (SD576)

Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.4 Video Kodierung

Frame Size Rate

I 92 kB 7:1

P 32 kB 20:1

B 13 kB 50:1

average 26 kB 25:1

Montag, 17. Mai 2010

Page 83: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

62MPEG-1 Videokodierung •MPEG Datenstrom

Multimedia-Analyse-Techniken2. Bild- und Videokodierung / 2.4 Video Kodierung

Sequence…SequenceSequence

GOP…GOPQTsStrParVidParSqc SC

Pict…PictGOPParTCodeGOP SC

Slice…SliceSliceEncodeBufferTypeP SC

MB…MBQscaleVPosS SC

… b5b0CBPQScaleMVTypeAddrln

Sequence Layer

Group of PicturesLayer

Picture Layer

Slice Layer

Macroblock Layer

Block Layer

Montag, 17. Mai 2010

Page 84: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

1. Multimedia und Kodierung

2. Bild- und Videokodierung

3. Audiokodierung

4. Kurzer Exkurs: Maschinelles Lernen

5. Aufgabenstellung und Werkzeuge

Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

63

Multimedia-Analyse-Techniken

Montag, 17. Mai 2010

Page 85: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

64 Grundlagen - Was ist Schall?•Schall wird hervorgerufen durch Schwingungen von Molekülen in einem elastischen

Medium, die sich wellenförmig ausbreiten.

•Maßeinheit:

•Frequenz = #Schwingungen/Sekunde = Hz (Hertz)

•≙ Dauer einer Schwingung:

•Frequenz:

•Lautstärke: Höhe der Amplitude A

Multimedia-Analyse-Techniken3. Audiokodierung

Montag, 17. Mai 2010

Page 86: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

64 Grundlagen - Was ist Schall?•Schall wird hervorgerufen durch Schwingungen von Molekülen in einem elastischen

Medium, die sich wellenförmig ausbreiten.

•Maßeinheit:

•Frequenz = #Schwingungen/Sekunde = Hz (Hertz)

•≙ Dauer einer Schwingung:

•Frequenz:

•Lautstärke: Höhe der Amplitude A

Multimedia-Analyse-Techniken3. Audiokodierung

Montag, 17. Mai 2010

Page 87: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

64 Grundlagen - Was ist Schall?•Schall wird hervorgerufen durch Schwingungen von Molekülen in einem elastischen

Medium, die sich wellenförmig ausbreiten.

•Maßeinheit:

•Frequenz = #Schwingungen/Sekunde = Hz (Hertz)

•≙ Dauer einer Schwingung:

•Frequenz:

•Lautstärke: Höhe der Amplitude A

Multimedia-Analyse-Techniken3. Audiokodierung

Montag, 17. Mai 2010

Page 88: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

65 Grundlagen - Was ist Schall?•Lautstärke: Schalldruck

•Druckschwankungen eines kompressiblen Schall-übertragungsmediums, die bei der Ausbreitung von Schall auftreten

•angegeben wird aber meist der Schalldruckpegel, gemessen in Dezibel (db)

•1db entspricht der Lautstärke, bei der ein Ton von 1 KHz gerade noch hörbar ist

•p0 = 0 db →Hörschwelle, entspricht Schalldruck von 20µPa

AlexanderGraham Bell(1847-1922)

Multimedia-Analyse-Techniken3. Audiokodierung

Montag, 17. Mai 2010

Page 89: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

66 Grundlagen - Was ist Schall?•der Klang (subjektives Schallerlebnis) kann charakterisiert werden durch

•Lautstärken (→ Amplitude) und

•Tonhöhen (→ Frequenz) seiner Grund- und Obertöne (→ Frequenzspektrum)

•im zeitlichen Verlauf

Hüllkurve (envelope) eines Tones

A

t

Atta

ck

Decay

Sustain

Release

Grundtontiefste Frequenz einer komplexen Wellenform

Obertonbei natürlicher Tonerzeugung wird stets nebendem Grundton eine Vielzahl höherer Töneerzeugt

FrequenzspektrumGesamtheit aller Obertöne

Multimedia-Analyse-Techniken3. Audiokodierung

Montag, 17. Mai 2010

Page 90: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

67 Audio Digitalisierung•Läst sich in drei Stufen zerlegen:

1.Abtastung des Signals (Sampling)

2.Diskretisierung der Abtastwerte (Quantisierung)

3.Kodierung der quantisierten Abtastwerte

!"#$%&'()'"%*(+,&(&-"%+."'/%0'(!"#$%#&%'()%*+',

-#-)".',

/%#.-#.,,%.#-)

0%,!"#$%#&%'()%*+',

-#-)".',12%.#-)

0%,!"#$%#&%'()%*+',

0%,!('$',

3&,.-#.,,%.#-)

! !"" ! !""#$ ! !""#$! "

Multimedia-Analyse-Techniken3. Audiokodierung

Montag, 17. Mai 2010

Page 91: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

68 Audio Digitalisierung•Sampling und Quantisierung

Δt

!"#$

%&'(#$)*"

+),-$#.#"/)-0.1

#-$"/2,(("

3#0-,(,4$,.$)-0

,-,(50".63#0-,(

7#0#$,(1%-,(501

8,-*()-0

!"#$

%&'(#$)*"3#0-,(,4$,.$)-0

*#0#$,(".63#0-,(

Multimedia-Analyse-Techniken3. Audiokodierung

Montag, 17. Mai 2010

Page 92: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Psychoakustik und menschliche Wahrnehmung

Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

69

Δt20 50 100 200 500 1000 5.000 10.000

100110120130140

0102030405060708090

Frequenz f, Hz

Schalldruckpegel A, dB

Ruhehörschwelle

0 Phon

40 Phon

80 Phon

100 Phon

130 Phon

Schmerzschwelle

Multimedia-Analyse-Techniken3. Audiokodierung

Montag, 17. Mai 2010

Page 93: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Psychoakustik und menschliche Wahrnehmung

Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

70

GehörgangTrommelfellMittelohrSteigbügel

Schnecke(Cochlea)

HammerAmboß

Bogengänge

Innenohr

Hörnerv

Multimedia-Analyse-Techniken3. Audiokodierung

Montag, 17. Mai 2010

Page 94: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

71 Psychoakustik und Audiokodierung•kodiere nur Signale, die im menschlichen Hörfeld liegen

•auch innerhalb des Hörfeldes müssen nicht alle Signale kodiert werden

•Simultane Verdeckung:starkes (lautes) Signal verdeckt (maskiert) gleichzeitiges schwaches (leises) Signal

•Temporäre Verdeckung:starkes Signal verdeckt schwaches Signal nicht nur zeitgleich, sondern wirkt

•für gewisse Zeit nach (bis 200 ms)

•sogar einige Zeit vor (bis 50 ms, liegt an der Trägheit des Hörvorganges)

Multimedia-Analyse-Techniken3. Audiokodierung

Montag, 17. Mai 2010

Page 95: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

72 Psychoakustik und Audiokodierung•Simultane Verdeckung

20 50 100 200 500 1000 5.000 10.000

100110120130140

0102030405060708090

Frequenz f, Hz

Schalldruckpegel A, dB

Wahrnehmungs-schwelle

Störpegel100 dB

80 dB

60 dB

40 dB20 dB

Multimedia-Analyse-Techniken3. Audiokodierung

Montag, 17. Mai 2010

Page 96: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

73 Psychoakustik und Audiokodierung•Temporäre Verdeckung

A

0 dB

20 dB

40 dB

60 dB

-50 0 50 100 150 0 50 100 150mst

Maskierungssignal

Vor-verdeckung

Nach-verdeckung

Simultan-verdeckung

Multimedia-Analyse-Techniken3. Audiokodierung

Montag, 17. Mai 2010

Page 97: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

74 MP3 Audiokodierung•MPEG 1 – Layer 3

•Motion Pictures Expert Group - MP3 = MPEG 1 - Layer 3

•Standard für Video Compact Disc (VCD)

•entwickelt vom Fraunhofer Institut für Integrierte Schaltkreise in Erlangen mit AT&T Bell Labs und Thompson (ab 1987)

•basiert auf Subband-Coding mit eigenem psycho-akustischen Modell

•ISO-Standard

•standardisiert lediglich Dekoder und Datenformat

•Kodierer nicht standardisiert

•MP3-Datei besitzt keinen expliziten Header, sondern ist eine Aneinanderreihung einzelner Datenblöcke mit jeweils eigenem Header + Audioinformationen (→ Streaming)

Multimedia-Analyse-Techniken3. Audiokodierung

Montag, 17. Mai 2010

Page 98: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

75 MP3 Audiokodierung•Predictive Coding

•Wissen über bereits kodiertes Signal wird zur Vorhersage des Folgesignals benutzt (nur Differenz wird kodiert)

•Spektral-/Transform Coding

•Fourier-Transformation des Wellensignals (Überführung von Ortsraum in Frequenzraum)

•Sub-Band Coding

•psycho-akustisches Modell

•Audio-Spektrum wird in Frequenzbänder aufgeteilt(fast alle Bänder haben gegenüber dem lautesten Band weniger relevante Information)

Multimedia-Analyse-Techniken3. Audiokodierung

Montag, 17. Mai 2010

Page 99: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

76 MP3 Audiokodierung•!"#$%

&$'()'(

*$+,-./)'0

1!')+23-4

5"//6'#-.

73289%)0"3,$389-3:;%#-++

**<=-.#-80"'(3>

389?-++-'

@-$3,"'(3>:"'#:=-.A-.."'(3>

3,-"-."'(3389+-$B-

50)+$-."'(:"'#

C")',$3$-."'(

D"BBE)'>

F%#$-."'(

G

HI

G

JKJ

F%-BB$A$-',-'

F%#$-."'(:#-.

L"3),A$'B%.E),$%'

;"+,$M+-N-.

O$($,)+-.:F)')+

HP>HQR:0/M3

O-E"+,$M+-N-.D"BBE)'>

O-0%#$-."'(

O-0%#$-."'(:#-.

L"3),A$'B%.E),$%'

O-30)+$-."'(:"'#

O-S")',$3$-."'(

T'U-.3-:;OV<:E$,

#2')E$389-.

*-'3,-.)'M)33"'(

*$+,-./)'0

152',9-3-4

!"#$%

!"3()'(

G

JKJ

F%-BB$A$-',-'5"//6'#-.

G

HI

HP>HQR:0/M3

;7H:F%#$-."'(

;7H:O-0%#$-."'(

;OV<:E$,

#2')E$389-.

*-'3,-.)'M)33"'(

Multimedia-Analyse-Techniken3. Audiokodierung

Montag, 17. Mai 2010

Page 100: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

77

Multimedia-Analyse-Techniken

1. Multimedia und Kodierung

2. Bild- und Videokodierung

3. Audiokodierung

4. Kurzer Exkurs: Maschinelles Lernen

5. Aufgabenstellung und Werkzeuge

Montag, 17. Mai 2010

Page 101: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

78

Multimedia-Analyse-Techniken5. Kurzer Exkurs: maschinelles Lernen

Was ist Lernen?•Zentrale Fähigkeit von „intelligenten Systemen“ in der Natur und der Wissenschaft

der ,Künstlichen Intelligenz‘

•Zielgerichtete Veränderung von Wissen und/oder Verhaltensweisen durch Erfahrung

•Es existieren viele Formen des Lernens:

•motorisches Lernen, Regellernen, Sprachlernen, Lernen mit Lehrern, Lernen in der Entwicklung, ...

•Was ist kein Lernen?

•Einfaches Speichern von Daten (keine Veränderung)

•festes Programmieren von Lösungen (keine Erfahrung)

Montag, 17. Mai 2010

Page 102: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

79

Multimedia-Analyse-Techniken5. Kurzer Exkurs: maschinelles Lernen

Warum maschinelles Lernen?•bedeutend für eine Vielzahl neuer Anwendungen

•Data Mining: Extraktion von Wissen aus Daten

•Selbst-adaptierende Programme/Filter: Anpassung an Nutzer und Situationen

•Aktionslernen: Robotik, Steuerungen, Unterstützung bei Entscheidungen

•allgemein: Anwendungen, die schwer programmierbar sind (explizites Modell nicht verfügbar oder zu teuer), z.B.: Sprachverarbeitung, Fahrzeugsteuerung

•Besseres Verständnis des menschlichen Lernens und Lehrens

•Kognitionswissenschaften: Theorien des Wissenserwerbs (z.B. durch Übung)

•Technische Umsetzung: in Lernsysteme, Recommender Systeme etc.

•Maschinelles Lernen ist im Trend

•Wachsender Markt und Industrie für Nutzung des maschinellen Lernens (z.B. Data Mining, Sprachsysteme, Bioinformatik)

Montag, 17. Mai 2010

Page 103: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

80

Multimedia-Analyse-Techniken5. Kurzer Exkurs: maschinelles Lernen

Maschinelles Lernen zur Klassifikation•Klassifikationsproblem:

•Zuweisung eines Objektes oder Ereignisses zu einer gegebenen, endlichen Menge von Kategorien (Klassen)

•Typischer Einsatz:

•Medizinische Diagnose

•Erkennung fragwürdiger Kreditkartentransaktionen – “Fraud Detection”

•Spam-Erkennung (E-Mail)

•Empfehlung von Nachrichtenmeldungen/ Büchern / Musik / Videos / ...

•Finanzinvestitionen / Kreditwürdigkeit / DNA Sequenzierung / Erkennung handgeschriebener Worte / Analyse von astronomischen Bilddaten

•Computerlinguistik:

•NLP Worterkennung, Named Entity Recognition, POS Tagging, ...

Montag, 17. Mai 2010

Page 104: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

81

Multimedia-Analyse-Techniken5. Kurzer Exkurs: maschinelles Lernen

Maschinelles Lernen zur Planung / Kontrolle•Problemlöse-, Planungs- und Kontrollaufgaben:

•Aufgaben bei denen eine (optimale) Aktion ausgeführt werden muss

•in einer bestimmten Umgebung

•um ein gewisses Ziel zu erreichen

•Beispiele:

•Brettspiele (Damen, Schach, Backgammon)

•Balancieren eines Stabes

•Fahren eines Autos / Fliegen eines Flugzeugs

•Steuern eines Aufzugs

•Steuern einer Figur in einem Videospiel

•Steuern eines Roboters

Montag, 17. Mai 2010

Page 105: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

82

Multimedia-Analyse-Techniken5. Kurzer Exkurs: maschinelles Lernen

Lernen von Beispielen•Gegeben: Trainingsbeispiele <x, f(x)> einer unbekannten Funktion f(x)

•Gesucht: Gute Approximation von f

•Art des Lernproblems: überwachtes Lernen/Mustererkennung

Montag, 17. Mai 2010

Page 106: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

83

Multimedia-Analyse-Techniken5. Kurzer Exkurs: maschinelles Lernen

Lernen von Beispielen

Montag, 17. Mai 2010

Page 107: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

84

Multimedia-Analyse-Techniken5. Kurzer Exkurs: maschinelles Lernen

Lernen von Beispielen•Gegeben: Trainingsbeispiele <x, f(x)> einer unbekannten Funktion f(x)

•Gesucht: Gute Approximation von f

•Art des Lernproblems: überwachtes Lernen/Mustererkennung

•Findet Anwendung in:

•Diagnose von Krankheiten:

•x = Patientendaten (Geschlecht, Alter, Erkrankung, ...)

•f = Krankheit (oder vorgeschlagene Therapie)

•Risikobewertung :

•x = Eigenschaften von Kunden (Demographie, Unfälle, Vorgeschichte, ...)

•f = Risikoeinschätzung

•Videosegmentierung, Audiosegmentierung, Gesichtsdetektion, Genredetektion...

Montag, 17. Mai 2010

Page 108: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

85

Multimedia-Analyse-Techniken5. Kurzer Exkurs: maschinelles Lernen

Formen des maschinellen Lernens•Formen maschinellen Lernens

•überwachtes Lernen (supervised learning): Lernen aus Beispielen mit vorgegebenen Lösungen

•Induktives Lernen, Entscheidungsbäume, Bayessche Netze, Perceptron, ...

•unüberwachtes Lernen (unsupervised learning): Algorithmus erzeugt ein Modell, dass die Beispiele beschreibt (und kategorisiert)

•Künstliche neuronale Netze, Clustering, ...

•partiell überwachtes Lernen (partially supervised learning): Lernen aus Beispielen mit Lösungen unter Zuhilfenahme von zusätzlichen Beispielen ohne Lösungen

•Lernen durch Verstärkung (reinforcement learning): Erlernen einer Taktik durch Belohnung und Bestrafung

•Genetische Algorithmen

Montag, 17. Mai 2010

Page 109: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

86

Multimedia-Analyse-Techniken5. Kurzer Exkurs: maschinelles Lernen

Lernen von Begriffen•Aggregation (Extension von Begriffen)

•Gruppieren von Objekten in Kategorien

•Sinnvolle Begriffe → Vorhersage von Objektverhalten

•Charakterisierung (Intension von Begriffen)

•Gemeinsame Eigenschaften aller Instanzen eines Begriffs

•Welche Merkmale? kultureller/sprachlicher Kontext

•Klassifikation

•Zuordnen eines Objekts zu ”seiner“ Kategorie

•Einordnen in eine Hierarchie von Unter- und Oberbegriffen

Montag, 17. Mai 2010

Page 110: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

87

Multimedia-Analyse-Techniken5. Kurzer Exkurs: maschinelles Lernen

Lernen von Begriffen•Deduktion

•Vom Allgemeinen zum Speziellen schließen

•Formallogisch korrekte Schlussweise

•Induktion

•Vom Speziellen auf das Allgemeine schließen

•Formallogisch nicht beweisbar, aber trotzdem oft (lebens-)notwendig

•Abduktion

•Ausgehend von einer Folgerung (Hypothese) auf dazu notwendige hinreichende Bedingungen (Voraussetzungen) schließen

•Formallogisch nicht beweisbarer Schluss

Montag, 17. Mai 2010

Page 111: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

88

Multimedia-Analyse-Techniken5. Kurzer Exkurs: maschinelles Lernen

Induktives Lernen •Die Verallgemeinerung auf Basis von Einzelfällen, ist eine unverzichtbare,

gleichwohl unbeweisbare Schlusstechnik.

•In der Philosophie eines der wichtigsten Themen des letzten Jahrtausends

•William von Ockham (1285–1347) Occams Rasiermesser: Pluralitas non est ponenda sine necessitate

•Francis Bacon (1561–1626) Relevanz positiver und negativer Lernbeispiele

•John Stuart Mill (1806–1873) Vier Methoden für den praktischen Induktionsschluss

•Bertrand Russell (1872–1970) Induktionsschluss ist Grundlage jeglicher Vorhersage, nicht beweisbar und essentiell probabilistischer Natur

•Ludwig Wittgenstein (1889–1951)!Tractatus Logico-Philosophicus ”Suche das einfachste Gesetz, das mit den Fakten harmoniert“

Montag, 17. Mai 2010

Page 112: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

89

Multimedia-Analyse-Techniken5. Kurzer Exkurs: maschinelles Lernen

Induktives Lernen = Lernen aus Beispielen •Beispiele, Gegenbeispiele und Beinahetreffer eines Begriffs

Montag, 17. Mai 2010

Page 113: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

90

Multimedia-Analyse-Techniken5. Kurzer Exkurs: maschinelles Lernen

Repräsentationsformen der Zielfunktion•Numerische Funktionen

•Lineare Regression

•Neuronale Netzwerke

•Hyperebenen (Support Vector Machines)

•Symbolische Funktionen

•Entscheidungsbäume

•Regeln in propositionaler Logik (Aussagenlogik)

•Regeln in Prädikatenlogik erster Stufe

•Beispiel-basierte Repräsentationen

•Nearest-neighbor / Instance-based Learning (IBL)

•Case-based

•Probablistische / Graphische Repräsentationen

•Naïve Bayes

•Bayesian networks

•Hidden-Markov Models (HMMs)

•Probabilistic Context Free Grammars (PCFGs)

•Markov Networks

Montag, 17. Mai 2010

Page 114: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

91

Multimedia-Analyse-Techniken5. Kurzer Exkurs: maschinelles Lernen

Suchalgorithmen zur Bestimmung der Zielfunktionen•Gradientenabstieg

•Perceptron

•Backpropagation

•Dynamische Programmierung

•HMM (Hidden Markov Modelle)

•PCFG (Probabilistic Context-Free Grammars)

•Divide and Conquer

• Induktion von Entscheidungsbäumen

•Regelinduktion

•Evolutionary Computation

•Genetische Algorithmen (GAs)

•Genetische Programmierung (GP)

•...

Montag, 17. Mai 2010

Page 115: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

92

Multimedia-Analyse-Techniken5. Kurzer Exkurs: maschinelles Lernen

Beispiel: Entscheidungsbaum-Induktion•Entscheidungsbaum-Induktion ist eines der einfachsten Lernverfahren

•Eingabe: Logische Objekt- oder Situationsbeschreibung

•Ausgabe: Ja/Nein-Entscheidung

•Knoten: Tests: Hat ein Objekt eine bestimmte Eigenschaft (Attribut)?

•Kanten: Mögliche Attributwerte

•Blätter: Nullstellige Prädikate: Yes (T) bzw. No (F)

•Ein Entscheidungsbaum stellt die Ausfü̈hrungskomponente eines lernenden Systems dar.

Montag, 17. Mai 2010

Page 116: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

93

Multimedia-Analyse-Techniken5. Kurzer Exkurs: maschinelles Lernen

Entscheidungsbaum-Induktion•Bsp.: Restaurantbesuch

•Mögliche Attribute:

•Alternate: Gibt es ein anderes Restaurant in der Nähe?

•Bar: Gibt es eine Bar für die Wartezeit?

•Fri/Sat: Ist Freitag oder Samstag?

•Hungry: Sind wir hungrig?

•Patrons: Wieviele Gäste sind schon da? → (none, some, full)

•Price: Zu welcher Preiskategorie zählt das Restaurant? → ($, $$, $$$)

•Raining: Regnet es?

•Reservation: Haben wir eine Reservierung?

•Type: Art des Restaurants → (French, Italian, Thai, Burger)

•WaitEstimate: Geschätzte Wartezeit → (0–10, 10–30, 30–60, > 60) Minuten

Montag, 17. Mai 2010

Page 117: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

94

Multimedia-Analyse-Techniken5. Kurzer Exkurs: maschinelles Lernen

Entscheidungsbaum-Induktion•Bsp.: Restaurantbesuch - sollen wir warten (yes/no)?

Montag, 17. Mai 2010

Page 118: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

95

Multimedia-Analyse-Techniken5. Kurzer Exkurs: maschinelles Lernen

Entscheidungsbaum-Induktion•Bsp.: Restaurantbesuch

•Beispiel = Werte der verwendeten Attribute und Wert des Testprädikats.

•Klassifikation eines Beispiels = Wert des Testprädikats für das Beispiel. Entsprechend gibt es positive und negative Beispiele.

•Trainingsmenge = Menge der fü̈r das Lernen verfügbaren Beispiele.

Montag, 17. Mai 2010

Page 119: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

96

Multimedia-Analyse-Techniken

1. Multimedia und Kodierung

2. Bild- und Videokodierung

3. Audiokodierung

4. Kurzer Exkurs: Maschinelles Lernen

5. Aufgabenstellung und Werkzeuge

Montag, 17. Mai 2010

Page 120: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

97

Multimedia-Analyse-Techniken5. Aufgabenstellung und Werkzeuge

Generelles Vorgehen•Ziel ist, die Aufgaben wissenschaftlich und prototypisch zu lösen.

•Aufgabenschritte:

(1) Literatur Recherche

(2) Anfertigen eines Testdatensatzes, der zur Evaluation verwendet wird

•manuelles Annotieren des Testdatensatzes mit den relevanten Informationen

(3) Implementieren des Analysealgorithmus

(4) Anwenden des Analysealgorithmus auf den Testdatensatz

(5) Evaluation der analytischen Ergebnisse

•Vergleich der Ergebnisse mit der manuell erstellten Annotation

•Anpassen des Analysealgorithmus und weiter mit (4)

Montag, 17. Mai 2010

Page 121: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Seminar: Multimedia-Analyse-Techniken, Jörg Waitelonis, Hasso-Plattner-Institut, Universität Potsdam

985.1 Evaluation

5.2 Aufgabenstellungen

5.3 Tools/Libs

5.4 Sonstiges

Multimedia-Analyse-Techniken5. Aufgabenstellung und Werkzeuge

Montag, 17. Mai 2010

Page 122: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Seminar: Multimedia-Analyse-Techniken, Jörg Waitelonis, Hasso-Plattner-Institut, Universität Potsdam

99

Multimedia Analysetechniken5.1 Evaluationsverfahren

Warum Evaluation?

■ IR ist eine empirische Disziplin

■ Vergleich von IR-Systemen / Klassifikatoren

■ Verbesserung von Algorithmen (Optimierung)

■ Wie effizient arbeitet das IR-System / der Klassifikator?

■ Was ist ein Maß für die Wirksamkeit des Systems?

IDEE:

■ Vergleiche das Ergebnis eines Testlaufs mit dem idealen Ergebnis.

■ Sammlung von Dokumenten

■ Relevanz Urteil (i.A. relevant vs. nicht relevant)

■ (manuell) vorgegebene Klassifikation “Gold Standard” (test set)

Montag, 17. Mai 2010

Page 123: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Multimedia Analysetechniken5.1 Evaluationsverfahren

Seminar: Multimedia-Analyse-Techniken, Jörg Waitelonis, Hasso-Plattner-Institut, Universität Potsdam

100

Testdaten

Montag, 17. Mai 2010

Page 124: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Multimedia Analysetechniken5.1 Evaluationsverfahren

Seminar: Multimedia-Analyse-Techniken, Jörg Waitelonis, Hasso-Plattner-Institut, Universität Potsdam

100

Testdaten

Automatische Klassifikation

Montag, 17. Mai 2010

Page 125: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Multimedia Analysetechniken5.1 Evaluationsverfahren

Seminar: Multimedia-Analyse-Techniken, Jörg Waitelonis, Hasso-Plattner-Institut, Universität Potsdam

100

Testdaten

Automatische Klassifikation

Montag, 17. Mai 2010

Page 126: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Multimedia Analysetechniken5.1 Evaluationsverfahren

Seminar: Multimedia-Analyse-Techniken, Jörg Waitelonis, Hasso-Plattner-Institut, Universität Potsdam

100

Testdaten

Testergebnis

Automatische Klassifikation

Montag, 17. Mai 2010

Page 127: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Multimedia Analysetechniken5.1 Evaluationsverfahren

Seminar: Multimedia-Analyse-Techniken, Jörg Waitelonis, Hasso-Plattner-Institut, Universität Potsdam

100

Testdaten

Testergebnis

Manuelle KlassifikationAutomatische Klassifikation

Montag, 17. Mai 2010

Page 128: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Multimedia Analysetechniken5.1 Evaluationsverfahren

Seminar: Multimedia-Analyse-Techniken, Jörg Waitelonis, Hasso-Plattner-Institut, Universität Potsdam

100

Testdaten

“Gold Standard”Testergebnis

Manuelle KlassifikationAutomatische Klassifikation

Montag, 17. Mai 2010

Page 129: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Multimedia Analysetechniken5.1 Evaluationsverfahren

Seminar: Multimedia-Analyse-Techniken, Jörg Waitelonis, Hasso-Plattner-Institut, Universität Potsdam

100

Testdaten

“Gold Standard”Testergebnis

Manuelle Klassifikation

= ?

Automatische Klassifikation

Montag, 17. Mai 2010

Page 130: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Multimedia Analysetechniken5.1 Evaluationsverfahren

Seminar: Multimedia-Analyse-Techniken, Jörg Waitelonis, Hasso-Plattner-Institut, Universität Potsdam

100

Testdaten

“Gold Standard”Testergebnis

Manuelle Klassifikation

= ?

Automatische Klassifikation

Montag, 17. Mai 2010

Page 131: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Seminar: Multimedia-Analyse-Techniken, Jörg Waitelonis, Hasso-Plattner-Institut, Universität Potsdam

101

• Trefferquote ist die Wahrscheinlichkeit, mit der ein relevantes Dokument gefunden wird.

• Genauigkeit ist die Wahrscheinlichkeit, mit der ein gefundenes Dokument relevant ist.

Multimedia Analysetechniken5.1 Evaluationsverfahren

Montag, 17. Mai 2010

Page 132: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Seminar: Multimedia-Analyse-Techniken, Jörg Waitelonis, Hasso-Plattner-Institut, Universität Potsdam

101

relevant unrelevant

• Trefferquote ist die Wahrscheinlichkeit, mit der ein relevantes Dokument gefunden wird.

• Genauigkeit ist die Wahrscheinlichkeit, mit der ein gefundenes Dokument relevant ist.

Multimedia Analysetechniken5.1 Evaluationsverfahren

Montag, 17. Mai 2010

Page 133: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Seminar: Multimedia-Analyse-Techniken, Jörg Waitelonis, Hasso-Plattner-Institut, Universität Potsdam

101

relevant unrelevant

Ergebnis

• Trefferquote ist die Wahrscheinlichkeit, mit der ein relevantes Dokument gefunden wird.

• Genauigkeit ist die Wahrscheinlichkeit, mit der ein gefundenes Dokument relevant ist.

Multimedia Analysetechniken5.1 Evaluationsverfahren

Montag, 17. Mai 2010

Page 134: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Seminar: Multimedia-Analyse-Techniken, Jörg Waitelonis, Hasso-Plattner-Institut, Universität Potsdam

101

relevant unrelevant

Ergebnis

Trefferquote: Mit welcher Wahrscheinlichkeit finden wir überhaupt einen Apfel?Genauigkeit: Mit welcher Wahrscheinlichkeit ist im gefundenen Obst ein Apfel?

• Trefferquote ist die Wahrscheinlichkeit, mit der ein relevantes Dokument gefunden wird.

• Genauigkeit ist die Wahrscheinlichkeit, mit der ein gefundenes Dokument relevant ist.

Multimedia Analysetechniken5.1 Evaluationsverfahren

Montag, 17. Mai 2010

Page 135: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Seminar: Multimedia-Analyse-Techniken, Jörg Waitelonis, Hasso-Plattner-Institut, Universität Potsdam

101

relevant unrelevant

Ergebnis

Trefferquote: Mit welcher Wahrscheinlichkeit finden wir überhaupt einen Apfel?Genauigkeit: Mit welcher Wahrscheinlichkeit ist im gefundenen Obst ein Apfel?

true positve (TP)false positve (FP)

• Trefferquote ist die Wahrscheinlichkeit, mit der ein relevantes Dokument gefunden wird.

• Genauigkeit ist die Wahrscheinlichkeit, mit der ein gefundenes Dokument relevant ist.

Multimedia Analysetechniken5.1 Evaluationsverfahren

Montag, 17. Mai 2010

Page 136: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Seminar: Multimedia-Analyse-Techniken, Jörg Waitelonis, Hasso-Plattner-Institut, Universität Potsdam

101

relevant unrelevant

Ergebnis

Trefferquote: Mit welcher Wahrscheinlichkeit finden wir überhaupt einen Apfel?Genauigkeit: Mit welcher Wahrscheinlichkeit ist im gefundenen Obst ein Apfel?

true positve (TP)false positve (FP)

false negative (FN) true negative (TN)

• Trefferquote ist die Wahrscheinlichkeit, mit der ein relevantes Dokument gefunden wird.

• Genauigkeit ist die Wahrscheinlichkeit, mit der ein gefundenes Dokument relevant ist.

Multimedia Analysetechniken5.1 Evaluationsverfahren

Montag, 17. Mai 2010

Page 137: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Seminar: Multimedia-Analyse-Techniken, Jörg Waitelonis, Hasso-Plattner-Institut, Universität Potsdam

101

relevant unrelevant

Ergebnis

Trefferquote: Mit welcher Wahrscheinlichkeit finden wir überhaupt einen Apfel?Genauigkeit: Mit welcher Wahrscheinlichkeit ist im gefundenen Obst ein Apfel?

true positve (TP)false positve (FP)

false negative (FN) true negative (TN)

Recall = TP / (TP + FN)

• Trefferquote ist die Wahrscheinlichkeit, mit der ein relevantes Dokument gefunden wird.

• Genauigkeit ist die Wahrscheinlichkeit, mit der ein gefundenes Dokument relevant ist.

Multimedia Analysetechniken5.1 Evaluationsverfahren

Montag, 17. Mai 2010

Page 138: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Seminar: Multimedia-Analyse-Techniken, Jörg Waitelonis, Hasso-Plattner-Institut, Universität Potsdam

101

relevant unrelevant

Ergebnis

Trefferquote: Mit welcher Wahrscheinlichkeit finden wir überhaupt einen Apfel?Genauigkeit: Mit welcher Wahrscheinlichkeit ist im gefundenen Obst ein Apfel?

true positve (TP)false positve (FP)

false negative (FN) true negative (TN)

Recall = TP / (TP + FN)

Precision = TP / (TP + FP)

• Trefferquote ist die Wahrscheinlichkeit, mit der ein relevantes Dokument gefunden wird.

• Genauigkeit ist die Wahrscheinlichkeit, mit der ein gefundenes Dokument relevant ist.

Multimedia Analysetechniken5.1 Evaluationsverfahren

Montag, 17. Mai 2010

Page 139: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Seminar: Multimedia-Analyse-Techniken, Jörg Waitelonis, Hasso-Plattner-Institut, Universität Potsdam

102

Evaluation von Information Retrieval Systemen

• Recall und Precision müssen für jeden Testlauf neu berechnet werden

• Optimierung:

• Anpassen des Algorithmus, so dass P und R maximiert werden.

• Kombiniertes Maß: F-Measure = 2 * (P * R) / (P + R)

• Grafische Darstellung:

0

0,25

0,5

0,75

1

Testlauf

RecallPrecision

Multimedia Analysetechniken5.1 Evaluationsverfahren

Montag, 17. Mai 2010

Page 140: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Seminar: Multimedia-Analyse-Techniken, Jörg Waitelonis, Hasso-Plattner-Institut, Universität Potsdam

103

FAZIT:

1. Testdaten manuell analysieren und “Gold Standard” erstellen

2. Parameter für Algorithmus initialisieren

3. Algorithmus mit Testdaten ausführen

4. Ergebnis mit Gold Standard vergleichen

5. Falls Ergebnis “gut” fertig, ansonsten Parameter anpassen, weiter mit 3.

Multimedia Analysetechniken5.1 Evaluationsverfahren

Montag, 17. Mai 2010

Page 141: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Seminar: Multimedia-Analyse-Techniken, Jörg Waitelonis, Hasso-Plattner-Institut, Universität Potsdam

1045.1 Evaluation

5.2 Aufgabenstellungen

5.3 Tools/Libs

5.4 Sonstiges

Multimedia-Analyse-Techniken5. Aufgabenstellung und Werkzeuge

Montag, 17. Mai 2010

Page 142: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Seminar: Multimedia-Analyse-Techniken, Jörg Waitelonis, Hasso-Plattner-Institut, Universität Potsdam

105

Multimedia-Analyse-Techniken5.2. Aufgabenstellung

Voice/Speaker Detection•Ziel:

•Audio Segmentierung anhand von Pausen

•In einem beliebigen Audiostrom ermitteln, wann eine Stimme zu hören ist.

•Gruppierung ähnlicher Audio-Segmente.

•Ermitteln von Anzahl von Sprechern

•Ermitteln des Geschlechts des Sprechers

•Werkzeuge:

•Praat: “Free software for acoustic analysis”

•http://www.fon.hum.uva.nl/praat/

•Weiteres Vorgehen:

•Praat kennenlernen (vor allem Scripting)

•Literaturrecherche nach Verfahren zur Voice/Speaker Detection

•Wissen über Maschinenlernverfahren/Klassifikation (NeuralNet, kNN) auffrischen.

•Testdaten vorbereiten (hören und manuell annotieren)

Spektogrammanalyse

Thiel, Sandbrink, BurhenneMontag, 17. Mai 2010

Page 143: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Seminar: Multimedia-Analyse-Techniken, Jörg Waitelonis, Hasso-Plattner-Institut, Universität Potsdam

106 OCR-Preprocessing•Ziel:

•Textvorkommen im Videobild lokalisieren und freistellen

•Textvorkommen entzerren, drehen

•OCR anwenden

•Werkzeuge:

•OpenCV, ocropus

•Weiteres Vorgehen:

•OpenCV kennenlernen

•Literaturrecherche nach Verfahren zur Text-Detektion in Video

•Wissen über Diskrete Cosinus Transformation und Bildbearbeitung auffrischen

•Testdaten vorbereiten (sichten und manuell annotieren)

•Workflow planenSchneider, Schulze, Kunz, Yao

Multimedia-Analyse-Techniken5.2. Aufgabenstellung

Montag, 17. Mai 2010

Page 144: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Seminar: Multimedia-Analyse-Techniken, Jörg Waitelonis, Hasso-Plattner-Institut, Universität Potsdam

107 Genre-Detection•Ziel:

•Segmentierung nach unterschiedlichen Genre-Klassen (Tag/Nacht, Innen/Außen, ...)

•Werkzeuge:

•OpenCV

•Weiteres Vorgehen:

•OpenCV kennenlernen

•Literaturrecherche nach Verfahren zur Genre-Detection in Video

•Wissen über Low-Level-Feature Extraction, Maschinenlernverfahren/Klassifikation (NeuralNet, kNN) auffrischen / aneignen.

•Testdaten vorbereiten (sichten und manuell annotieren)

•Workflow planen

Nacht / Outdoor

Nacht / OutdoorDaytime / Indoor

?? / ??

Rieck, Eckard, Wieschalla

Multimedia-Analyse-Techniken5.2. Aufgabenstellung

Montag, 17. Mai 2010

Page 145: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Seminar: Multimedia-Analyse-Techniken, Jörg Waitelonis, Hasso-Plattner-Institut, Universität Potsdam

108 Face-Detection•Ziel:

•In welchen Segmenten werden Personen gezeigt?

•Wieviele Personen werden angezeigt?

•Welche Personen werden gezeigt?

•Werkzeuge:

•OpenCV

•Weiteres Vorgehen:

•Face-Detection von OpenCV kennenlernen

•Literaturrecherche nach Verfahren zur Face-Detection in Video

•Wissen über Maschinenlernverfahren (Haar-Klassifikation), Clustering auffrischen / aneignen.

•Testdaten vorbereiten (sichten und manuell annotieren)

•Workflow planenLose, Gebhardt, Licker

Multimedia-Analyse-Techniken5.2. Aufgabenstellung

Montag, 17. Mai 2010

Page 146: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Seminar: Multimedia-Analyse-Techniken, Jörg Waitelonis, Hasso-Plattner-Institut, Universität Potsdam

109 Shot-Boundary-Detection (analytisch)•Ziel:

•Erkennen von harten und weichen Schnitten im Videosignal

•Erkennen von Kamerabewegung

•Werkzeuge:

•OpenCV

•Weiteres Vorgehen:

•OpenCV kennenlernen

•Literaturrecherche nach Verfahren zur Shot-Boundary-Detection, die nicht auf Manschinenlernverfahren basieren (TREC).

•Testdaten vorbereiten (sichten und manuell annotieren) (Kooperation)

•Workflow planen

Wieschner, Borchart, Richter

Multimedia-Analyse-Techniken5.2. Aufgabenstellung

Montag, 17. Mai 2010

Page 147: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Seminar: Multimedia-Analyse-Techniken, Jörg Waitelonis, Hasso-Plattner-Institut, Universität Potsdam

110 Shot-Boundary-Detection (Maschinenlernverfahren)•Ziel:

•Erkennen von harten und weichen Schnitten im Videosignal

•Erkennen von Kamerabewegung

•Werkzeuge:

•OpenCV

•Weiteres Vorgehen:

•OpenCV kennenlernen

•Literaturrecherche nach Maschinenlernverfahren zur Shot-Boundary-Detection (TREC)

•Testdaten vorbereiten (sichten und manuell annotieren) (Kooperation)

•Workflow planen

Metzke, Büttner, Niemeier

Multimedia-Analyse-Techniken5.2. Aufgabenstellung

Montag, 17. Mai 2010

Page 148: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Seminar: Multimedia-Analyse-Techniken, Jörg Waitelonis, Hasso-Plattner-Institut, Universität Potsdam

1115.1 Evaluation

5.2 Aufgabenstellungen

5.3 Tools/Libs

5.4 Sonstiges

Multimedia-Analyse-Techniken5. Aufgabenstellung und Werkzeuge

Montag, 17. Mai 2010

Page 149: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Seminar: Multimedia-Analyse-Techniken, Jörg Waitelonis, Hasso-Plattner-Institut, Universität Potsdam

OpenCV =

■ image/video IO +

■ image/video manipulation +

■ computer vision algorithms +

■ machine learning algorithms = :-)

112

Multimedia Analysetechniken5.3 Tools / Libs - Werkzeuge: OpenCV

Montag, 17. Mai 2010

Page 150: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Seminar: Multimedia-Analyse-Techniken, Jörg Waitelonis, Hasso-Plattner-Institut, Universität Potsdam

11313 •OpenCV = Open Source Computer Vision Library

•Entwickelt von Intel 1999

•C/C++, mit mehr als 500 Funktionen

•Windows, Linux, MacOSX

•http://sourceforge.net/projects/opencvlibrary/

CVImage Processing

and Vision AlgorithmsHighGUI

GUI, Image and Video I/O

CXCOREBasic Structures and Algorithms,

XML Support, Drawing Functions

Multimedia Analysetechniken5.3 Tools / Libs - Werkzeuge: OpenCV

Montag, 17. Mai 2010

Page 151: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Seminar: Multimedia-Analyse-Techniken, Jörg Waitelonis, Hasso-Plattner-Institut, Universität Potsdam

11413Beispiel: Bild laden und anzeigen.

#include <cxcore.h>#include <highgui.h>#include <math.h>int main(int argc, char** argv){! // Bild laden! IplImage* image = cvLoadImage("lenna.gif", 1);!! // Bild manipulieren!! // ...!! // Bild im Fenster anzeigen cvNamedWindow("test", 1);! cvShowImage("test", image);! cvWaitKey(0);!! // Bild abspeichern! cvSaveImage("copy.png", image, 0);! return 0;}

Multimedia Analysetechniken5.3 Tools / Libs - Werkzeuge: OpenCV

Montag, 17. Mai 2010

Page 152: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Seminar: Multimedia-Analyse-Techniken, Jörg Waitelonis, Hasso-Plattner-Institut, Universität Potsdam

11513Beispiel: Video anzeigen.

#include <cxcore.h>#include <highgui.h>#include <math.h>int main(int argc, char** argv){!! CvCapture *video = 0;! IplImage *frame = 0;! int key = 0;! // Video laden! video = cvCreateFileCapture("1007.avi");! if (!video){return 1;}!! cvNamedWindow("origin", 1);! while (key !='q'){! ! frame = cvQueryFrame(video); // Frame holen! ! if (!frame) break; // Exit bei Error! !! ! // Bild manipulieren! ! // ...! !! ! cvShowImage("origin", frame);! ! key = cvWaitKey(33);! }! cvReleaseCapture(&video);! return 0;}

Multimedia Analysetechniken5.3 Tools / Libs - Werkzeuge: OpenCV

Montag, 17. Mai 2010

Page 153: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Seminar: Multimedia-Analyse-Techniken, Jörg Waitelonis, Hasso-Plattner-Institut, Universität Potsdam

116Beispiel: Image manipulation.

#include <cv.h>

IplImage *input = 0;IplImage *output = 0;

// Smoothingoutput = cvCreateImage( cvGetSize(input), IPL_DEPTH_8U, 3 );cvSmooth(input, output, CV_GAUSSIAN, 11, 11);

Multimedia Analysetechniken5.3 Tools / Libs - Werkzeuge: OpenCV

Montag, 17. Mai 2010

Page 154: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Beispiel: Machine Learning mit OpenCV

• Trainieren eines k-nearest-neighbour Klassifikators

• 3 Klassen,

• 2 Features,

• 300 Samples (100 je Klasse)

• http://blog.damiles.com/?p=84

Seminar: Multimedia-Analyse-Techniken, Jörg Waitelonis, Hasso-Plattner-Institut, Universität Potsdam

11713

Multimedia Analysetechniken5.3 Tools / Libs - Werkzeuge: OpenCV

Montag, 17. Mai 2010

Page 155: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Seminar: Multimedia-Analyse-Techniken, Jörg Waitelonis, Hasso-Plattner-Institut, Universität Potsdam

11813

Sonstiges:

• Resize, Morphologische Operationen, Fills, (Adaptive)Threshold

• Convolution, Hough Transformation, Affine Transformationen, ...

• DCT, FFT, Histogramm Equalization, ...

• Contour Finding, Segmentierung, Triangulation, ...

• Tracking and Motion: Corner Finding, Optical Flow, , ...

• Mouse Events, Buttons, Sliders / Trackbars, ...

• Machine Learning: Mahalanobis, K-means, Bayes, Decision Trees, Boosting, NN/MLP, SVM, K-NN, Haar, ...

• uvm.

Multimedia Analysetechniken5.3 Tools / Libs - Werkzeuge: OpenCV

Montag, 17. Mai 2010

Page 156: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Seminar: Multimedia-Analyse-Techniken, Jörg Waitelonis, Hasso-Plattner-Institut, Universität Potsdam

11913

Praat: doing phonetics by computer

• http://www.fon.hum.uva.nl/praat/

• entwickelt amInstitute of Phonetic SciencesUniversity of AmsterdamThe Netherlands

• Universalwerkzeug für Phonetische Analyse: Editieren, Segmentieren, Annotieren, Prosodie Manipulation, ...

• Windows, Macintosh, Unix, Linux

• Scripting Language

Multimedia Analysetechniken5.3 Tools / Libs - Werkzeuge: Praat

Montag, 17. Mai 2010

Page 157: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Seminar: Multimedia-Analyse-Techniken, Jörg Waitelonis, Hasso-Plattner-Institut, Universität Potsdam

Demo120

Multimedia Analysetechniken5.3 Tools / Libs - Werkzeuge: Praat

Montag, 17. Mai 2010

Page 158: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Seminar: Multimedia-Analyse-Techniken, Jörg Waitelonis, Hasso-Plattner-Institut, Universität Potsdam

• Spektrogramm (Sonagramm)

• Intensität (Lautstärke)

• Formaten (Lautqualität)

• Grundfrequenz (F0) (Pitch)

• Pulses (Glottisschläge/Stimmqualität)

• Neuronale Netze

• kNN Klassifikator

• Dokumentation: auf der Webseite und im Programm• Ein Tutorial: http://www.uni-leipzig.de/~siebenh/subfolder/PraatEinfuehrung/index.html

121

Multimedia Analysetechniken5.3 Tools / Libs - Werkzeuge: Praat

Montag, 17. Mai 2010

Page 159: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Seminar: Multimedia-Analyse-Techniken, Jörg Waitelonis, Hasso-Plattner-Institut, Universität Potsdam

Beispiel: Ermittle F0 Statistiken für alle Intervalle von 50 Millisekunden des Sounds.

startTime = Get start timeendTime = Get end timenumberOfTimeSteps = (endTime - startTime) / 0.05echo tmin tmax mean fmin fmax stdev

for step to numberOfTimeSteps tmin = startTime + (step - 1) * 0.05 tmax = tmin + 0.05 mean = Get mean... tmin tmax Hertz minimum = Get minimum... tmin tmax Hertz Parabolic maximum = Get maximum... tmin tmax Hertz Parabolic stdev = Get standard deviation... tmin tmax Hertz printline 'tmin:6' 'tmax:6' 'mean:2' ... 'minimum:2' 'maximum:2' 'stdev:2'endfor

122 Praat Scripts

Multimedia Analysetechniken5.3 Tools / Libs - Werkzeuge: Praat

Montag, 17. Mai 2010

Page 160: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Seminar: Multimedia-Analyse-Techniken, Jörg Waitelonis, Hasso-Plattner-Institut, Universität Potsdam

Weitere Beispiele für Praat Scripts

http://www.icp.inpg.fr/~welby/PAGES/praat.html (Pauline Welby, in French and English)

http://www.cavi.univ-paris3.fr/ilpga/ED/student/stcg/#E (Cedric Gendrot, in French)

http://www.helsinki.fi/~lennes/praat-scripts(Mietta Lennes, in English)

http://www.icp.inpg.fr/%7Eloeven/ScriptsPraat.html(Hélène Loevenbruck, in French)

http://www.cphling.dk/pers/johtnd/praat/my_praat.htm(John Tøndering, in English)

http://www.ling.ohio-state.edu/~kyoon/scripts/praat(Kyuchul Yoon, in English)

123

Multimedia Analysetechniken5.3 Tools / Libs - Werkzeuge: Praat

Montag, 17. Mai 2010

Page 161: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Seminar: Multimedia-Analyse-Techniken, Jörg Waitelonis, Hasso-Plattner-Institut, Universität Potsdam

1245.1 Evaluation

5.2 Aufgabenstellungen

5.3 Tools/Libs

5.4 Sonstiges

Multimedia-Analyse-Techniken5. Aufgabenstellung und Werkzeuge

Montag, 17. Mai 2010

Page 162: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Seminar: Multimedia-Analyse-Techniken, Jörg Waitelonis, Hasso-Plattner-Institut, Universität Potsdam

125

Multimedia-Analyse-Techniken5.4 Sonstiges - Werkzeuge: ffmpeg

• ffmpeg: open source video transcoder

• Linux, Mac, Windows

• http://www.ffmpeg.org/

Beispiel:# extrahiere ein Frame an Sekunde 10 aus dem Video und speichere es als Bild.ffmpeg -ss 00:00:10.000 -i video.mov -t 0.008 -f image2 foo-%03d.jpeg

(Achtung: die Reihenfolge der Parameter ist bei ffmpeg wichtig)

• Weitere Beispiele: http://www.ffmpeg.org/ffmpeg-doc.html

deinterlace

Montag, 17. Mai 2010

Page 163: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Seminar: Multimedia-Analyse-Techniken, Jörg Waitelonis, Hasso-Plattner-Institut, Universität Potsdam

ocropus - The OCRopus(tm) open source document analysis and OCR system

• http://code.google.com/p/ocropus/

• pluggable layout analysis, • pluggable character recognition, • statistical natural language modeling, and • multi-lingual capabilities

• Entwicklung finanziert von Google• Deutschen Forschungszentrum für Künstliche Intelligenz (DFKI) in Kaiserslautern

• http://de.wikipedia.org/wiki/OCRopus

126

Multimedia-Analyse-Techniken5.4 Sonstiges - Werkzeuge: ocropus

Montag, 17. Mai 2010

Page 164: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

• ImageMagick: Convert, Edit, and Compose Images

• http://www.imagemagick.org/

• Batch Processing

• Resize, Sharpen, Adjust, ...

Seminar: Multimedia-Analyse-Techniken, Jörg Waitelonis, Hasso-Plattner-Institut, Universität Potsdam

127

$magick> convert label.gif +matte \ \( +clone -shade 110x90 -normalize -negate +clone -compose Plus -composite \) \\( -clone 0 -shade 110x50 -normalize -channel BG -fx 0 +channel -matte \) \-delete 0 +swap -compose Multiply -composite button.gif

Multimedia-Analyse-Techniken5.4 Sonstiges - Werkzeuge: ImageMagick

Montag, 17. Mai 2010

Page 165: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

• Gnuplot: Visualisierung von Daten

• http://www.gnuplot.info/

Seminar: Multimedia-Analyse-Techniken, Jörg Waitelonis, Hasso-Plattner-Institut, Universität Potsdam

128

Daten + Gnuplot Script = schöne Grafik

22 116 115 18614 7713 9712 8811 11510 2029 3188 4357 5866 7375 8784 12783 21972 48731 13255

Multimedia-Analyse-Techniken5.4 Sonstiges - Werkzeuge: gnuplot

Montag, 17. Mai 2010

Page 166: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

• Gnuplot: Visualisierung von Daten

• http://www.gnuplot.info/

Seminar: Multimedia-Analyse-Techniken, Jörg Waitelonis, Hasso-Plattner-Institut, Universität Potsdam

128

Daten + Gnuplot Script = schöne Grafik

22 116 115 18614 7713 9712 8811 11510 2029 3188 4357 5866 7375 8784 12783 21972 48731 13255

set terminal postscript portrait "Arial" colorset size 1.0,0.3

set ylabel 'no. of terms'set xlabel 'no. of related resources per term'

plot "data.txt" using 1:2 with lines lw 3 title "without properties"

Multimedia-Analyse-Techniken5.4 Sonstiges - Werkzeuge: gnuplot

Montag, 17. Mai 2010

Page 167: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

• Gnuplot: Visualisierung von Daten

• http://www.gnuplot.info/

Seminar: Multimedia-Analyse-Techniken, Jörg Waitelonis, Hasso-Plattner-Institut, Universität Potsdam

128

Daten + Gnuplot Script = schöne Grafik

22 116 115 18614 7713 9712 8811 11510 2029 3188 4357 5866 7375 8784 12783 21972 48731 13255

set terminal postscript portrait "Arial" colorset size 1.0,0.3

set ylabel 'no. of terms'set xlabel 'no. of related resources per term'

plot "data.txt" using 1:2 with lines lw 3 title "without properties"

Multimedia-Analyse-Techniken5.4 Sonstiges - Werkzeuge: gnuplot

Montag, 17. Mai 2010

Page 168: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

129

Multimedia-Analyse-Techniken

1. Multimedia und Kodierung

2. Bild- und Videokodierung

3. Audiokodierung

4. Kurzer Exkurs: Maschinelles Lernen

5. Aufgabenstellung und Werkzeuge

Montag, 17. Mai 2010

Page 169: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

130

Literatur (1/2)

• Meinel, Ch., Sack, H.: Digitale Kommunikation - Vernetzen, Multimedia, Sicherheit, Springer, 2009.

• Gibbon, D. ; Liu, Z. : Introduction to Video Search Engines. Berlin : Springer, 2008

• Bradski, G. ; Kaehler, A. : Learning OpenCV. Beijing : O'Reilly, 2008

Multimedia-Analyse-Techniken

Montag, 17. Mai 2010

Page 170: Multimedia-Analysetechnik - Kickoff02 - Maschinelles Lernen und Tools

Seminar: Multimedia-Analyse-Techniken, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

131

Literatur (2/2)

• Christopher D. Manning, Prabhakar Raghavan and Hinrich Schütze: Introduction to Information Retrieval, Cambridge University Press. 2008.

Online verfügbar: http://nlp.stanford.edu/IR-book/information-retrieval-book.html

• Thomas Mitchell:Machine Learning, McGraw-Hill, 1997

Online: http://www.cs.cmu.edu/~tom/mlbook.html http://robotics.stanford.edu/~nilsson/mlbook.html

Multimedia-Analyse-Techniken

Montag, 17. Mai 2010