datenanalyse und musik katharina morik lehrstuhl informatik viii universität dortmund ...
TRANSCRIPT
![Page 1: Datenanalyse und Musik Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund morik@ls8.cs.uni-dortmund.e](https://reader036.vdocuments.net/reader036/viewer/2022062622/55204d6649795902118bbfcb/html5/thumbnails/1.jpg)
Datenanalyse und Musik
Katharina Morik
Lehrstuhl Informatik VIII
Universität Dortmund
www-ai.cs.uni-dortmund.de
![Page 2: Datenanalyse und Musik Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund morik@ls8.cs.uni-dortmund.e](https://reader036.vdocuments.net/reader036/viewer/2022062622/55204d6649795902118bbfcb/html5/thumbnails/2.jpg)
Überblick
Motivation– Technische Grundlagen– Arbeitsfelder
Merkmalsextraktion für Audiodaten Unterstützung der Vorverarbeitung – Yale
– Lernen der geeigneten Merkmalstransformation Lernen aus heterogenen verteilten Audiobeständen
NemOz– Verteiltes kollaboratives Clustering
Zusammenfassung
![Page 3: Datenanalyse und Musik Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund morik@ls8.cs.uni-dortmund.e](https://reader036.vdocuments.net/reader036/viewer/2022062622/55204d6649795902118bbfcb/html5/thumbnails/3.jpg)
Motivation – technische Grundlagen
Moving Pictures Expert Group Audio Layer 3Karlheinz Brandenburg, TU Ilmenau, Fraunhofer Inst.1987 – 89 Fraunhofer Erlangen u.a.Standard für Musik und Filme, min. 1/12 komprimiert
Tauschbörsen für Musik:– Napster 80 Mio. Benutzer
Nachfolger: Morpheus, Gnutella, KaZaA
– KaZaA 500 Mio. Musikstücke
– Privatsammlungen oft mehr als 10 000 Musikstücke Speichern, Abspielen, GUI zum Anbieten von Musik
![Page 4: Datenanalyse und Musik Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund morik@ls8.cs.uni-dortmund.e](https://reader036.vdocuments.net/reader036/viewer/2022062622/55204d6649795902118bbfcb/html5/thumbnails/4.jpg)
Motivation -- Arbeitsfelder Wissenschaftliche Untersuchung von Musik
Computer Music Journal– Komposition– Interpretation (Gerhard Widmer)
Der "Performance Worm": Eine Bewegung des Wurms nach rechts oben beschreibt ein gleichzeitiges Beschleunigen und Lauterwerden. Der dunkelste Punkt repräsentiert den gegenwärtigen Zeitpunkt, die Vergangenheit erscheint blasser. Typische Muster für Künstler finden.
![Page 5: Datenanalyse und Musik Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund morik@ls8.cs.uni-dortmund.e](https://reader036.vdocuments.net/reader036/viewer/2022062622/55204d6649795902118bbfcb/html5/thumbnails/5.jpg)
Motivation -- Arbeitsfelder
Untersuchung menschlichen Hörens, Akustik Noten erkennen (Audio Midi) Music Information Retrieval (MIS)
– Anfragen (über ID3 tags, query by humming)
– Indexierung (semantic web über Metadaten, automatisch über Audiodaten)
– Navigation gemäß Ähnlichkeit
– Musikempfehlungen Organisation von Musiksammlungen
– Persönliche Taxonomien
– Abspiellisten (persönliche, automatic DJ)
![Page 6: Datenanalyse und Musik Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund morik@ls8.cs.uni-dortmund.e](https://reader036.vdocuments.net/reader036/viewer/2022062622/55204d6649795902118bbfcb/html5/thumbnails/6.jpg)
Intelligente Systeme für Musik
Automatische Annotation von Musik Lernen von Metadaten
Klassifikation von Musik nach– Genre (nur noch als benchmark)– Benutzerpräferenzen– Gelegenheiten
Automatische Organisation von Sammlungen Empfehlungen
z.B. EU-Projekt SIMAChttp://www.semanticaudio.org/
![Page 7: Datenanalyse und Musik Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund morik@ls8.cs.uni-dortmund.e](https://reader036.vdocuments.net/reader036/viewer/2022062622/55204d6649795902118bbfcb/html5/thumbnails/7.jpg)
Technischer Kern
Audiodaten sind Zeitreihenunivariat: Elongation
Wir müssen Ähnlichkeiten von Zeitreihen erkennen– Indexing
– Clustering
![Page 8: Datenanalyse und Musik Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund morik@ls8.cs.uni-dortmund.e](https://reader036.vdocuments.net/reader036/viewer/2022062622/55204d6649795902118bbfcb/html5/thumbnails/8.jpg)
Clustering von Zeitreihen – Standard
Database C
Query Q(template)
Given a Query Q, a reference database C and a distance measure, find the location that best matches Q.
The best matching subsection.
Note that we can always convert subsequence matching to whole matching by sliding a window across the long sequence, and copying the window contents.
So passen ähnliche Musikstücke nicht!
![Page 9: Datenanalyse und Musik Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund morik@ls8.cs.uni-dortmund.e](https://reader036.vdocuments.net/reader036/viewer/2022062622/55204d6649795902118bbfcb/html5/thumbnails/9.jpg)
Dynamic Time Warping
C
QC
Q
(i,j) = d(qi,cj) + min{ (i-1,j-1) , (i-1,j ) , (i,j-1) }
Warping path w
So auch nicht!
![Page 10: Datenanalyse und Musik Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund morik@ls8.cs.uni-dortmund.e](https://reader036.vdocuments.net/reader036/viewer/2022062622/55204d6649795902118bbfcb/html5/thumbnails/10.jpg)
Technischer Kern
Merkmalsextraktion ist notwendig für– Annotation
– Indexierung
– Clustering
– Klassifikation Je Aufgabe unterschiedliche Merkmale nötig!
– Klangähnlichkeit, Liedtexte, Kulturelle Metadaten (MPEER, Stephan Baumann)
– Verschiedene Benutzer verwenden andere Merkmale(Klassifikation von Benutzerpräferenzen, Ingo Mierswa)
![Page 11: Datenanalyse und Musik Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund morik@ls8.cs.uni-dortmund.e](https://reader036.vdocuments.net/reader036/viewer/2022062622/55204d6649795902118bbfcb/html5/thumbnails/11.jpg)
Merkmalsextraktion
Paul-Taiwo, A. Sandler, M. B. Davies, M. E. 2004. Feature extractors for Music Information Retrieval: Noise Robustness. AES Convention
Gómez, E. Herrera, P. 2004. Automatic Extraction of Tonal Metadata from Polyphonic Audio Recordings. AES Conference
Pohle,T. Pampalk, E. Widmer, G. 2005. Evaluation of Frequently Used Audio Features. Workshop Content-Based Multimedia Indexing.
![Page 12: Datenanalyse und Musik Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund morik@ls8.cs.uni-dortmund.e](https://reader036.vdocuments.net/reader036/viewer/2022062622/55204d6649795902118bbfcb/html5/thumbnails/12.jpg)
Low Level Descriptors
Lautstärke Spectral Centroid (Cepstral) Mel Frequency Cepstral Coefficient (MFCC) Zero Crossing Rate Peaks: Amplitude, Zweithöchster/ Höchsten, Intervall
zwischen Zweithöchstem und Höchstem
![Page 13: Datenanalyse und Musik Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund morik@ls8.cs.uni-dortmund.e](https://reader036.vdocuments.net/reader036/viewer/2022062622/55204d6649795902118bbfcb/html5/thumbnails/13.jpg)
High-Level Descriptors
Genre Stimmung: glücklich, traurig, neutral Tempo: sehr langsam – sehr schnell, variierend Komplexität: gering, mittel, hoch Gefühl: sanft, neutral, aggressiv Fokus: Gesang, beides, Instrument
Lernaufgabe:
Klassifikation nach HLD, gegeben LLD
Ergebnis: klappt nicht!
Pohle et al. 2005
![Page 14: Datenanalyse und Musik Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund morik@ls8.cs.uni-dortmund.e](https://reader036.vdocuments.net/reader036/viewer/2022062622/55204d6649795902118bbfcb/html5/thumbnails/14.jpg)
Merkmalsextraktion lernen lassen!
Zils, A. Pachet, F. 2004. Automatic Extraction of Music Descriptors from Acoustic Signals. ISMIR
Mierswa, I. Morik, K. 2005. Automatic Feature Extraction for Classifying Audio Data. Machine Learning Journal, 58, 127 - 149.
Genetische Programmierung zur Optimierung der Merkmalsextraktion für eine Lernaufgabe!
Einzelbestandteile der LLD kombinieren lassen zu einem Merkmalsbaum, der ein Merkmal extrahiert.
![Page 15: Datenanalyse und Musik Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund morik@ls8.cs.uni-dortmund.e](https://reader036.vdocuments.net/reader036/viewer/2022062622/55204d6649795902118bbfcb/html5/thumbnails/15.jpg)
LLD Merkmale genauer -- Zeit
Merkmale in der Zeitdimension – mittlere Lautstärke
– Extrema extrahieren und andere Werte null setzen Differenz zwischen den Extrema
– Tempobestimmung (Autokorrelation verschobener Reihe)• Phasenverschiebung des Musikstückes um einen Takt.• Bestimmung der Autokorrelation durch Berechnung der
gemittelten Differenz zum Original.• Iteriere Berechnung für alle Geschwindigkeiten im Intervall
zwischen 90 und 170 bpm. IngoMierswa
n
iixn
xLS1
||1
)~(
![Page 16: Datenanalyse und Musik Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund morik@ls8.cs.uni-dortmund.e](https://reader036.vdocuments.net/reader036/viewer/2022062622/55204d6649795902118bbfcb/html5/thumbnails/16.jpg)
LLD genauer -- Frequenz
Merkmale in der Frequenzdimension (Fast Fourier Transform.)– Peaks– Stärkste Frequenz in Zeitfenstern:
• Bei einer vollständigen FT geht die Information verloren, wann genau die Frequenzen auftreten.
• Verschieben eines Zeitfensters der Breite w mit Schrittweite s und Berechnung der Frequenz des stärksten Peaks nach einer FT liefert die Zeitreihe:
))))(((max( },...,{ wsjsjiij xFTindexy
![Page 17: Datenanalyse und Musik Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund morik@ls8.cs.uni-dortmund.e](https://reader036.vdocuments.net/reader036/viewer/2022062622/55204d6649795902118bbfcb/html5/thumbnails/17.jpg)
Frequenz -- Peaks
![Page 18: Datenanalyse und Musik Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund morik@ls8.cs.uni-dortmund.e](https://reader036.vdocuments.net/reader036/viewer/2022062622/55204d6649795902118bbfcb/html5/thumbnails/18.jpg)
Frequenz -- Stärkste Frequenz
![Page 19: Datenanalyse und Musik Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund morik@ls8.cs.uni-dortmund.e](https://reader036.vdocuments.net/reader036/viewer/2022062622/55204d6649795902118bbfcb/html5/thumbnails/19.jpg)
Intervalle im Frequenzbereich
IngoMierswa
![Page 20: Datenanalyse und Musik Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund morik@ls8.cs.uni-dortmund.e](https://reader036.vdocuments.net/reader036/viewer/2022062622/55204d6649795902118bbfcb/html5/thumbnails/20.jpg)
Neue LLD -- Phasenraum
Merkmale im Phasenraum– Winkel
– Länge von Teilstücken
![Page 21: Datenanalyse und Musik Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund morik@ls8.cs.uni-dortmund.e](https://reader036.vdocuments.net/reader036/viewer/2022062622/55204d6649795902118bbfcb/html5/thumbnails/21.jpg)
Phasenraum )1ty,t(yyt
Zeitreihe Ny,...,1y
Deter-ministicProcess
yt
time t yt
yt+1
AR(1)-process with outlier (AO)
yt
timet yt
yt+1
Heart rate
HRt
time t yt
yt+1
U.Gather, M. Bauer
Phasenraum
Deterministischer Prozess
AR(1) Prozessmit Ausreißer
Herzrate
![Page 22: Datenanalyse und Musik Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund morik@ls8.cs.uni-dortmund.e](https://reader036.vdocuments.net/reader036/viewer/2022062622/55204d6649795902118bbfcb/html5/thumbnails/22.jpg)
Audiodaten: Phasenraum Pop
![Page 23: Datenanalyse und Musik Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund morik@ls8.cs.uni-dortmund.e](https://reader036.vdocuments.net/reader036/viewer/2022062622/55204d6649795902118bbfcb/html5/thumbnails/23.jpg)
Audiodaten: Phasenraum Klassik
![Page 24: Datenanalyse und Musik Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund morik@ls8.cs.uni-dortmund.e](https://reader036.vdocuments.net/reader036/viewer/2022062622/55204d6649795902118bbfcb/html5/thumbnails/24.jpg)
Darstellung der geeigneten Transformationen für eine Aufgabe
Methodenbaum:– Reihe von Transformationen, durch ein Funktional
abgeschlossen• Transformationen von Wertereihen in Wertereihen• Transformation in einen anderen Raum
– Fensterung ist eine Transformation, die selbst wieder ein Methodenbaum ist
Aufbau eines Methodenbaums:– Dynamische Fensterung erzeugt neue Teilbäume
Anwendung eines Methodenbaums erzeugt Merkmale für eine gegebene Wertereihe Ingo
Mierswa
![Page 25: Datenanalyse und Musik Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund morik@ls8.cs.uni-dortmund.e](https://reader036.vdocuments.net/reader036/viewer/2022062622/55204d6649795902118bbfcb/html5/thumbnails/25.jpg)
Methodenbaum
T: FFT F: MaxIndexT: Hanning
T: Fensterung
Wertereihe Merkmale
F: Avg + Var
Wurzel
T: EMA
IngoMierswa
![Page 26: Datenanalyse und Musik Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund morik@ls8.cs.uni-dortmund.e](https://reader036.vdocuments.net/reader036/viewer/2022062622/55204d6649795902118bbfcb/html5/thumbnails/26.jpg)
Lernen eines Methodenbaums für eine Aufgabe mit genetischer Programmierung Training der Merkmalsextraktion auf Teilmenge der
Daten. Anwendung der Merkmalsextraktion auf alle Daten
für die Lösung einer Lernaufgabe. Genetische Programmierung:
– Individuen: Methodenbäume
– Fitness durch Kreuzvalidierung der jeweiligen Lernaufgabe nach Vorverarbeitung durch das zu evaluierende Individuum.
IngoMierswa
![Page 27: Datenanalyse und Musik Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund morik@ls8.cs.uni-dortmund.e](https://reader036.vdocuments.net/reader036/viewer/2022062622/55204d6649795902118bbfcb/html5/thumbnails/27.jpg)
Jede Aufgabe verlangt andere Merkmale
Pop vs. Klassik: durchschnittliche Länge nach einer Phasenraumtransformation bestes Merkmal; korrekte Klassifikation von 184 der 200 Instanzen
Pop vs. Techno: Varianz der Extremadifferenz als bestes Merkmal; korrekte Klassifikation von 132 der 160 Instanzen.
Benutzerpräferenzen: jeder Benutzer braucht andere Merkmale! 84,5 -- 95,2 accuracy85,9 – 98,3 precision83,7 – 99,0 recall
![Page 28: Datenanalyse und Musik Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund morik@ls8.cs.uni-dortmund.e](https://reader036.vdocuments.net/reader036/viewer/2022062622/55204d6649795902118bbfcb/html5/thumbnails/28.jpg)
Systemunterstützung durch Yale
Experimente sind (geschachtelte) Ketten von Operatoren für Vorverarbeitung, maschinelles Lernen und Evaluation.
Abspeichern der Ketten erlaubt ihre Wiederverwendung mit anderen Parametern:– Daten:
• Datenformat in XML beschrieben• Datei
– Lernparameter
![Page 29: Datenanalyse und Musik Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund morik@ls8.cs.uni-dortmund.e](https://reader036.vdocuments.net/reader036/viewer/2022062622/55204d6649795902118bbfcb/html5/thumbnails/29.jpg)
Yale
Ralf Klinkenberg,Ingo Mierswa,Simon Fischer
![Page 30: Datenanalyse und Musik Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund morik@ls8.cs.uni-dortmund.e](https://reader036.vdocuments.net/reader036/viewer/2022062622/55204d6649795902118bbfcb/html5/thumbnails/30.jpg)
Lernergebnis einer Analyseaufgabe
![Page 31: Datenanalyse und Musik Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund morik@ls8.cs.uni-dortmund.e](https://reader036.vdocuments.net/reader036/viewer/2022062622/55204d6649795902118bbfcb/html5/thumbnails/31.jpg)
Experimente zum Lernen mit Merkmalstransformation
Lernen des Methodenbaums für eine Aufgabe:Ergebnis diese Lernlaufs ist ein Yale-Experiment.
Durchführung des gelernten Yale-Experiments. Lernen der Analyseaufgabe mit den gelernten
Merkmalen.
![Page 32: Datenanalyse und Musik Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund morik@ls8.cs.uni-dortmund.e](https://reader036.vdocuments.net/reader036/viewer/2022062622/55204d6649795902118bbfcb/html5/thumbnails/32.jpg)
Wertereihen
![Page 33: Datenanalyse und Musik Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund morik@ls8.cs.uni-dortmund.e](https://reader036.vdocuments.net/reader036/viewer/2022062622/55204d6649795902118bbfcb/html5/thumbnails/33.jpg)
Lernen der Merkmalsextraktion
![Page 34: Datenanalyse und Musik Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund morik@ls8.cs.uni-dortmund.e](https://reader036.vdocuments.net/reader036/viewer/2022062622/55204d6649795902118bbfcb/html5/thumbnails/34.jpg)
Lernverlauf
![Page 35: Datenanalyse und Musik Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund morik@ls8.cs.uni-dortmund.e](https://reader036.vdocuments.net/reader036/viewer/2022062622/55204d6649795902118bbfcb/html5/thumbnails/35.jpg)
Lernergebnis
![Page 36: Datenanalyse und Musik Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund morik@ls8.cs.uni-dortmund.e](https://reader036.vdocuments.net/reader036/viewer/2022062622/55204d6649795902118bbfcb/html5/thumbnails/36.jpg)
Methodenbäume in Yale
![Page 37: Datenanalyse und Musik Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund morik@ls8.cs.uni-dortmund.e](https://reader036.vdocuments.net/reader036/viewer/2022062622/55204d6649795902118bbfcb/html5/thumbnails/37.jpg)
37
Allgemein: Funktionsapproximation
Approximiert wird die zu Grunde liegende Funktion.
Diese ist oft nichtlinear.
Die Güte der Approximation wird anhand neuer, vorher nicht gesehener Daten bewertet.
![Page 38: Datenanalyse und Musik Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund morik@ls8.cs.uni-dortmund.e](https://reader036.vdocuments.net/reader036/viewer/2022062622/55204d6649795902118bbfcb/html5/thumbnails/38.jpg)
Merkmalstransformation und Kernfunktionen SVM optimiert gemäß strukturellem Risiko:
– empirisches Risiko und
– Komplexitätsmaß des Hypothesenraums SVM separiert Klassen linear. Kernfunktion transformiert Beispiele in einen anderen
Raum, in dem sie linear separierbar sind.
x1
x2
(x1)2
x2
(x1,x2) = (x12,x2)
![Page 39: Datenanalyse und Musik Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund morik@ls8.cs.uni-dortmund.e](https://reader036.vdocuments.net/reader036/viewer/2022062622/55204d6649795902118bbfcb/html5/thumbnails/39.jpg)
Kernfunktionen für Wertereihen?
Skalarprodukt Abbildung in Raum mit Skalarprodukt
definiert eine Abbildung in einen Hilbert-Raum von Sinus- und Kosinusschwingungen, die bei geeignetem Skalarprodukt folgende Kernfunktion ergibt:
2121021 coscossinsin),( xxxxxxk ii
iiii
ii
jiji xxxxk ,),(
)(),(),( jiji xxxxk
m ,...,1
![Page 40: Datenanalyse und Musik Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund morik@ls8.cs.uni-dortmund.e](https://reader036.vdocuments.net/reader036/viewer/2022062622/55204d6649795902118bbfcb/html5/thumbnails/40.jpg)
Nemoz
NEtwork Media OrganiZer:
Collaborative clustering in P2P networks
Einbindung von Yale
Kopieren
Clustering
Klassifikation
Stöberngemäß eigener Präferen
zen
![Page 41: Datenanalyse und Musik Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund morik@ls8.cs.uni-dortmund.e](https://reader036.vdocuments.net/reader036/viewer/2022062622/55204d6649795902118bbfcb/html5/thumbnails/41.jpg)
Grundlage der Prozesse
Taxonomie: hierarchisches clustering Ci.Jeder Teilbaum ist natürlich auch eine Taxonomie.
Anfrage an peers, dass Xq zu clustern ist. Bestimme einige Ci die am besten zu Xq passen.
Klassifiziere Objekte in Xq gemäß Ci, modifiziere Ci.Präsentiere alle Ci dem Benutzer, der das beste wählt.
Annahme: Benutzer-gemachte Taxonomien sind besser als ‘reines’ clustering.
![Page 42: Datenanalyse und Musik Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund morik@ls8.cs.uni-dortmund.e](https://reader036.vdocuments.net/reader036/viewer/2022062622/55204d6649795902118bbfcb/html5/thumbnails/42.jpg)
Kollaboratives Filtern -- Amazon
Einkäufe eines Kunden als cluster interpretiert Ähnlichkeit: co-occurrence von Objekten Neuer Einkauf eines (anderen) Kunden: Xq
Finden des maximal ähnlichen clusters zu Xq
Also: keine (hierarchische) Struktur als Ergebniskeine Berücksichtigung der Struktur bei der Suche
nach ähnlichem cluster
Für die Organisation von Daten nicht geeignet.
![Page 43: Datenanalyse und Musik Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund morik@ls8.cs.uni-dortmund.e](https://reader036.vdocuments.net/reader036/viewer/2022062622/55204d6649795902118bbfcb/html5/thumbnails/43.jpg)
Verteiltes kollaboratives Clustering
Die n besten Taxonomien werden ausgegeben. Nicht nur Merkmale, auch Taxonomien (der peers) werden
berücksichtigt.
Gegeben eine Menge von Taxonomien CM = {C0,C1,…,Ck} und eine Menge von Objekten Xq
Finde Taxonomien {Cres1,Cres2,…,Cresn} so dass cluster Bedingungen für alle xi in Xq gelten und es gibt irgendein Ci in CM und Cresj wobei entweder
ext(Ci ) ext(Cresj) – jetzt mehr einsortiert -- oder
ext(Ci ) = ext(Cresj) und |{ci in Cresj }| > |{ci in Ci }| – jetzt feiner strukturiert
Wurst, Morik 2005
![Page 44: Datenanalyse und Musik Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund morik@ls8.cs.uni-dortmund.e](https://reader036.vdocuments.net/reader036/viewer/2022062622/55204d6649795902118bbfcb/html5/thumbnails/44.jpg)
Ähnlichkeit von Anfrage zu Teilbaum
Repräsentation eines clusters durch ausgewählte Punkte.
Abstand zwischen den Punkten eines clusters und allen Punkten in Xq.
Bottom-up Kombination der Ähnlichkeit von Teilbäumen Ci‘ zur Ähnlichkeit des direkt übergeordneten Baums C.
Xq
c1 c2 c3
c
...
![Page 45: Datenanalyse und Musik Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund morik@ls8.cs.uni-dortmund.e](https://reader036.vdocuments.net/reader036/viewer/2022062622/55204d6649795902118bbfcb/html5/thumbnails/45.jpg)
Sequenzielles Abdecken
Elemente von Xq werden in den ähnlichsten Teilbaum einsortiert, sofern sie ähnlich genug sind.
Für die restlichen wird wieder verteiltes kollaboratives clustering aufgerufen. Das Ergebnis wird als Teilbaum eingehängt.
Xq
c1 c2 c3
ci
...
c4 c5
ck
c4 c5
ck
![Page 46: Datenanalyse und Musik Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund morik@ls8.cs.uni-dortmund.e](https://reader036.vdocuments.net/reader036/viewer/2022062622/55204d6649795902118bbfcb/html5/thumbnails/46.jpg)
Ergebnisse
39 Taxonomien von Liedern. Alle Objekte einer Taxonomie
herausnehmen als Xq
Clustering durch– Kollaboratives clustering,– K-means clustering,– Single link clustering
Method Correlation Absolute distance
Collabor. clustering
0.44 0.68
K-means 0.23 1.9
Single-link 0.1 10.8
random 0.09 1.8
Tatsächlich verbessern die Taxonomien der andern das Ergebnis.
![Page 47: Datenanalyse und Musik Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund morik@ls8.cs.uni-dortmund.e](https://reader036.vdocuments.net/reader036/viewer/2022062622/55204d6649795902118bbfcb/html5/thumbnails/47.jpg)
Was wissen Sie jetzt?
Musiksammlungen stellen viele Aufgaben– Klassifikation– Clustering– Organisation der Sammlung in Taxonomien
Musikdaten sind der Härtetest für Merkmalsextraktion– Merkmalsextraktion– Verschiedene Merkmalsextraktion je konkreter
Lernaufgabe– Komplizierte Ähnlichkeitsmaße
Lernen der Merkmalsextraktion– LLD dekomponieren zu einfachen Bausteinen– HLD als Methodenbaum
![Page 48: Datenanalyse und Musik Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund morik@ls8.cs.uni-dortmund.e](https://reader036.vdocuments.net/reader036/viewer/2022062622/55204d6649795902118bbfcb/html5/thumbnails/48.jpg)
Credo
Vorverarbeitung ist entscheidend für die Qualität der Wissensentdeckung.
Vorverarbeitung ist aufwändig und schwierig, daher Wiederverwendung wichtig.– Abstraktion durch Metadaten (MiningMart) bzw.
Experimente (Yale)