folien zu data mining von i. h. witten und e. frank übersetzt von n. fuhr
TRANSCRIPT
![Page 1: Folien zu Data Mining von I. H. Witten und E. Frank übersetzt von N. Fuhr](https://reader035.vdocuments.net/reader035/viewer/2022070310/55204d6149795902118b57e6/html5/thumbnails/1.jpg)
Folien zu “Data Mining”von
I. H. Witten und E. Frank
übersetzt von N. Fuhr
![Page 2: Folien zu Data Mining von I. H. Witten und E. Frank übersetzt von N. Fuhr](https://reader035.vdocuments.net/reader035/viewer/2022070310/55204d6149795902118b57e6/html5/thumbnails/2.jpg)
2
Zuverlässigkeit:Evaluierung des Gelernten
Aspekte: Training, Testen, Tuning Vorhersage der Qualität: Vertrauensintervalle Holdout, Kreuzvalidierung, Bootstrap Vergleich von Verfahren: der t-Test Schätzung von Wahrscheinlichkeiten:
Kostenfunktionen Kosten-basierte Maße Evaluierung nummerischer Vorhersagen Das Prinzip der minimalen Beschreibungslänge
5
![Page 3: Folien zu Data Mining von I. H. Witten und E. Frank übersetzt von N. Fuhr](https://reader035.vdocuments.net/reader035/viewer/2022070310/55204d6149795902118b57e6/html5/thumbnails/3.jpg)
3
Evaluierung: der Schlüssel zum Erfolg
Wie gut sind die Vorhersagen des Gelernten?
Fehler in den Trainingsdaten ist kein guter Indikator für die Qualität bei neuen Daten Sonst wäre 1-NN der optimale Klassifikator!
Einfache Lösung, wenn ausreichend viele Lerndaten (mit Klassenzugehörigkeit) verfügbar: Aufteilung der Daten in Trainings- und
Testmenge
Aber: meist nur begrenzte Lerndatenmenge verfügbar Ausgefeiltere Techniken müssen angewendet
werden
![Page 4: Folien zu Data Mining von I. H. Witten und E. Frank übersetzt von N. Fuhr](https://reader035.vdocuments.net/reader035/viewer/2022070310/55204d6149795902118b57e6/html5/thumbnails/4.jpg)
4
Aspekte der Evaluierung
Statistische Zuverlässigkeit von beobachteten Qualitätsunterschieden ( Signifikanztests)
Wahl des Qualitätsmaßes: Anzahl korrekter Klassifikationen Genauigkeit der
Wahrscheinlichkeitsschätzungen Fehler in nummerischen Vorhersagen
Kosten für verschiedene Arten von Fehlern Für viele praktische Anwendungen sind
die Kosten relevant
![Page 5: Folien zu Data Mining von I. H. Witten und E. Frank übersetzt von N. Fuhr](https://reader035.vdocuments.net/reader035/viewer/2022070310/55204d6149795902118b57e6/html5/thumbnails/5.jpg)
5
Training und Testen I
Naheliegendes Qualitätsmaß für Klassifikationsprobleme: Fehlerrate Erfolg: Die Klasse einer Instanz wird korrekt
vorhergesagt Fehler: Die Klasse wird falsch vorhergesagt Fehlerrate: Anteil der Fehler an den
Entscheidungen für eine Menge von Instanzen
Resubstitutions-Fehler: Fehlerrate auf den Trainingsdaten
Resubstitutions-Fehler ist extrem optimistisch!
![Page 6: Folien zu Data Mining von I. H. Witten und E. Frank übersetzt von N. Fuhr](https://reader035.vdocuments.net/reader035/viewer/2022070310/55204d6149795902118b57e6/html5/thumbnails/6.jpg)
6
Training und Testen II
Testmenge: unabhängige Instanzen, die nicht zum Erlernen des Klassifikators benutzt wurden Annahme: Sowohl Trainings- als auch Test-
menge sind repräsentative Stichproben für das zugrundeliegende Problem
Test- und Trainingsmenge können sich grundsätzlich unterscheiden Beispiel: Klassifikator, der mit
Kundendaten von zwei verschiedenen Städten A und B entwickelt wurde Um die Qualität eines Klassifikators aus A für
eine neue Stadt zu schätzen, teste ihn mit Daten aus B
![Page 7: Folien zu Data Mining von I. H. Witten und E. Frank übersetzt von N. Fuhr](https://reader035.vdocuments.net/reader035/viewer/2022070310/55204d6149795902118b57e6/html5/thumbnails/7.jpg)
7
Anmerkung zum Parameter-Tuning
Die Testdaten dürfen in keiner Weise zum Lernen des Klassifikators benutzt werden!
Einige Lernverfahren arbeiten mit 2 Stufen: Stufe 1: Aufbau der grundlegenden Struktur Stufe 2: Optimierung der Parameter
Die Testdaten dürfen nicht zum Parameter-Tuning benutzt werden!
Ordentliches Vorgehen arbeitet mit drei Mengen: Trainingsdaten, Validierungsdaten, Testdaten Validierungsdaten werden zur
Parameteroptimierung benutzt
![Page 8: Folien zu Data Mining von I. H. Witten und E. Frank übersetzt von N. Fuhr](https://reader035.vdocuments.net/reader035/viewer/2022070310/55204d6149795902118b57e6/html5/thumbnails/8.jpg)
8
Optimale Ausnutzung der Daten
Nach der Evaluierung können alle Daten zum Lernen des endgültigen Klassifikators benutzt werden
Allgemein: je mehr Trainingsdaten, desto besser der Klassifikator (aber der Qualitätszuwachs nimmt ab)
Je umfangreicher die Testdaten, desto genauer die Schätzung der Fehlerrate
Holdout-Prozedur: Methode zum Aufteilen der Originaldaten in Lern- und TestdatenDilemma: idealerweise sollten sowohl Trainings-
als auch Testmenge möglichst groß sein!
![Page 9: Folien zu Data Mining von I. H. Witten und E. Frank übersetzt von N. Fuhr](https://reader035.vdocuments.net/reader035/viewer/2022070310/55204d6149795902118b57e6/html5/thumbnails/9.jpg)
9
Vorhersage der Qualität
Angenommen, die Fehlerrate beträgt 25%. Wie nahe ist dieser Wert an der wahren Fehlerrate? Hängt von der Größe der Testmenge ab
Vorhersage ist wie der Wurf einer (unfairen!) Münze “Kopf” ist ein “Erfolg”, “Zahl” ist ein “Fehler”
In der Statistik wird eine Folge solcher unabhängiger Ereignisse als Bernoulli-Prozess bezeichnet Statistik-Theorie liefert Vertrauensintervalle
für den wahren zugrundeliegenden Fehleranteil
![Page 10: Folien zu Data Mining von I. H. Witten und E. Frank übersetzt von N. Fuhr](https://reader035.vdocuments.net/reader035/viewer/2022070310/55204d6149795902118b57e6/html5/thumbnails/10.jpg)
10
Vertrauensintervalle
Man kann sagen: p liegt innerhalb eines bestimmten Intervalls mit einer gewissen vorgegebenen Konfidenz
Beispiel: S=750 Erfolge bei N=1000 Versuchen Geschätzte Erfolgsquote: 75% Wie nahe ist dies an der wahren
Erfolgswahrscheinlichkeit p? Antwort: mit 80%iger Wahrscheinlichkeit ist p[73.2,76.7]
Anderes Beispiel: S=75 und N=100 Geschätzte Erfolgsquote: 75% Mit 80%iger Konfidenz p[69.1,80.1]
![Page 11: Folien zu Data Mining von I. H. Witten und E. Frank übersetzt von N. Fuhr](https://reader035.vdocuments.net/reader035/viewer/2022070310/55204d6149795902118b57e6/html5/thumbnails/11.jpg)
11
Mittelwert und Varianz Mittelwert und Varianz für einen Bernoulli-
Prozess:p, p (1–p)
Erwartete Erfolgsquote f=S/N Mittelwert und Varianz für f : p, p (1–p)/N Für ausreichend große N folgt f einer
Normalverteilung c%-Vertrauensintervall [–z X z] für
Zufallsvariable mit Mittelwert 0:Pr[–z X z]=c
Mit einer symmetrischen Verteilung:Pr[–z X z]=1-2xPr[ X ≥ z]
![Page 12: Folien zu Data Mining von I. H. Witten und E. Frank übersetzt von N. Fuhr](https://reader035.vdocuments.net/reader035/viewer/2022070310/55204d6149795902118b57e6/html5/thumbnails/12.jpg)
12
Vertrauensintervalle Vertrauensintervalle für die Normalverteilung
mit Mittelwert 0 und Varianz 1:
Also gilt z.B.:
Pr[–1.65 X 1.65]=90% Um diese Beziehung anzuwenden, müssen
wir die Zufallsvariable f so transformieren, dass sie Mittelwert 0 und Varianz 1 hat
0.2540%
0.8420%
1.2810%
1.655%
2.33
2.58
3.09
z
1%
0.5%
0.1%
Pr[X z]
–1 0 1 1.65
![Page 13: Folien zu Data Mining von I. H. Witten und E. Frank übersetzt von N. Fuhr](https://reader035.vdocuments.net/reader035/viewer/2022070310/55204d6149795902118b57e6/html5/thumbnails/13.jpg)
13
Transformation von f
• Transformierter Wert von f :
(d.h. subtrahiere den Mittelwert und dividiere durch die Standardabweichung)
• Resultierende Gleichung:
• Auflösen nach p :
Npppf
/)1(
czNpp
pfz
/)1(Pr
Nz
Nz
Nf
Nf
zN
zfp
2
2
222
142
![Page 14: Folien zu Data Mining von I. H. Witten und E. Frank übersetzt von N. Fuhr](https://reader035.vdocuments.net/reader035/viewer/2022070310/55204d6149795902118b57e6/html5/thumbnails/14.jpg)
14
Beispiele
• f = 75%, N = 1000, c = 80% (so dass z = 1.28):
• f = 75%, N = 100, c = 80% (so dass z = 1.28):
• Anm.: Die Annahme einer Normalverteilung gilt nur für große N (d.h. N > 100)
• f = 75%, N = 10, c = 80% (so dass z = 1.28):
(nur grobe Näherung)
]767.0,732.0[p
]801.0,691.0[p
]881.0,549.0[p
![Page 15: Folien zu Data Mining von I. H. Witten und E. Frank übersetzt von N. Fuhr](https://reader035.vdocuments.net/reader035/viewer/2022070310/55204d6149795902118b57e6/html5/thumbnails/15.jpg)
15
Holdout-Schätzung
Was tun, wenn nur wenige Lerndaten zur Verfügung stehen?
Die holdout-Methode reserviert eine Teilmenge zum Testen und nutzt den Rest zum Trainieren Meist: ein Drittel zum Testen, der Rest für das
Training Problem: die Stichproben sind evtl. nicht
repräsentativ Beispiel: eine Klasse kommt in den Testdaten nicht
vor Fortgeschrittene Version nutzt Stratifikation
Stellt sicher, dass jede Klasse mit annähernd gleicher relativer Häufigkeit in beiden Teilmengen vorkommt
![Page 16: Folien zu Data Mining von I. H. Witten und E. Frank übersetzt von N. Fuhr](https://reader035.vdocuments.net/reader035/viewer/2022070310/55204d6149795902118b57e6/html5/thumbnails/16.jpg)
16
Wiederholte holdout-Methode
Holdout-Schätzung kann zuverlässiger gemacht werden, indem der Prozess mit verschiedenen Teilstichproben wiederholt wird In jeder Iteration wird ein bestimmter Anteil der
Daten zufällig zum Trainieren ausgewählt (evtl. mit Stratifikation)
Die Fehlerquoten der verschiedenen Iterationen werden gemittelt, um eine Gesamt-Fehlerquote zu berechnen
Dies wird repeated holdout-Methode genannt Immer noch nicht optimal: die verschiedenen
Testmengen überlappen sich Können Überlappungen ganz vermieden werden?
![Page 17: Folien zu Data Mining von I. H. Witten und E. Frank übersetzt von N. Fuhr](https://reader035.vdocuments.net/reader035/viewer/2022070310/55204d6149795902118b57e6/html5/thumbnails/17.jpg)
17
Kreuzvalidierung
Kreuzvalidierung vermeidet überlappende Testmengen1. Teile Daten in k Teilmengen gleicher Größe auf2. Benuze reihum jede Teilmenge zum Testen, den
Rest jeweils zum Trainieren
Wird k-fache Kreuzvalidierung genannt Oft sind die Teilmengen stratifiziert, bevor
die Kreuzvalidierung durchgeführt wird Die Fehlerquoten werden gemittelt, um die
Gesamt-Fehlerrate zu berechnen
![Page 18: Folien zu Data Mining von I. H. Witten und E. Frank übersetzt von N. Fuhr](https://reader035.vdocuments.net/reader035/viewer/2022070310/55204d6149795902118b57e6/html5/thumbnails/18.jpg)
18
Mehr zu Kreuzvalidierung Standard-Methode zur Evaluierung:
stratifizierte 10fache Kreuzvalidierung Warum 10?
Umfangreiche Experiments haben gezeigt, dass dies die beste Wahl ist, um zuverlässige Schätzungen zu bekommen
Ferner gibt es theoretische Begründungen hierzu
Stratifikation reduziert die Varianz der Schätzungen
Noch besser: wiederholte stratifizierte Kreuzvalidierung Z.B.: 10fache Kreuzvalidierung wird 10mal
wiederholt und die Ergebnisse gemittelt (reduziert die Varianz)
![Page 19: Folien zu Data Mining von I. H. Witten und E. Frank übersetzt von N. Fuhr](https://reader035.vdocuments.net/reader035/viewer/2022070310/55204d6149795902118b57e6/html5/thumbnails/19.jpg)
19
Leave-One-Out Kreuzvalidierung
Leave-One-Out:spezielle Form der Kreuzvalidierung: Anzahl der Durchführungen = Anzahl der
Trainingsinstanzen D.h., für n Trainingsinstanzen wird der
Klassifikator n-mal gelernt
Nutzt die Daten optimal aus Keine zufällige Stichprobenauswahl! Aber: großer Rechenaufwand
(Ausnahme: NN)
![Page 20: Folien zu Data Mining von I. H. Witten und E. Frank übersetzt von N. Fuhr](https://reader035.vdocuments.net/reader035/viewer/2022070310/55204d6149795902118b57e6/html5/thumbnails/20.jpg)
20
Leave-One-Out-KV und Stratifikation
Nachteil von Leave-One-Out-KV: Stratifikation ist nicht möglich Verfahren garantiert eine nicht-
stratifizierte Stichprobe, da die Testmenge nur eine einzige Instanz enthält!
Extrembeispiel: Datenmenge, in der zwei Klassen gleich häufig auftreten Einfacher Lerner sagt jeweils die
Mehrheitsklasse voraus 50% Genauigkeit auf frischen Daten Leave-One-Out-KV würde aber 100%
Fehlerquote liefern
![Page 21: Folien zu Data Mining von I. H. Witten und E. Frank übersetzt von N. Fuhr](https://reader035.vdocuments.net/reader035/viewer/2022070310/55204d6149795902118b57e6/html5/thumbnails/21.jpg)
21
Die Bootstrap-MethodeKV zieht Stichproben ohne Ersetzung
Eine Instanz, die einmal ausgewählt wurde, kann nicht nochmals für eine spezielle Trainings- oder testmenge ausgewählt werden
Bootstrap zieht Stichproben mit Ersetzen, um die Trainingsmenge zu bildenZiehe n-mal mit Ersetzung aus einer
Datenmenge mit n Instanzen, um eine Stichprobe mit n Instanzen zu bilden
Benutze diese Daten als TrainingsmengeDie Instanzen aus der ursprünglichen
Datenmenge, die nicht in der Trainingsmenge vorkommen, werden als Testmenge verwendet
![Page 22: Folien zu Data Mining von I. H. Witten und E. Frank übersetzt von N. Fuhr](https://reader035.vdocuments.net/reader035/viewer/2022070310/55204d6149795902118b57e6/html5/thumbnails/22.jpg)
22
Der 0.632-Bootstrap
• Verfahren wird auch 0.632-Bootstrap genannt– Die Wahrscheinlichkeit, dass eine bestimmte
Instanz beim einmaligen Ziehen nicht ausgewählt wird, ist 1–1/n
– Daraus ergibt sich die Wahrscheinlichkeit, dass die Instanz in den Testdaten landet:
– Somit wird die Trainingsmenge ungefähr 63.2% aller Instanzen enthalten
368.01
1 1
e
n
n
![Page 23: Folien zu Data Mining von I. H. Witten und E. Frank übersetzt von N. Fuhr](https://reader035.vdocuments.net/reader035/viewer/2022070310/55204d6149795902118b57e6/html5/thumbnails/23.jpg)
23
Schätzung der Fehlerquote beim Bootstrap
Die Fehlerschätzung aus den Testdaten ist sehr pessimistisch Trainiert wurde auf nur ~63% aller Instanzen
Daher wird die Fehlerquote mit dem Resubstitutions-Fehler verrechnet:
Der Resubstitutions-Fehler bekommt ein geringeres Gewicht als der Fehler auf den Testdaten
Der Vorgang wird mehrfach wiederholt und der Mittelwert der Fehlerraten berechnet
err= 0 .632 etest instances 0 . 368 etraining instances
![Page 24: Folien zu Data Mining von I. H. Witten und E. Frank übersetzt von N. Fuhr](https://reader035.vdocuments.net/reader035/viewer/2022070310/55204d6149795902118b57e6/html5/thumbnails/24.jpg)
24
Mehr zu Bootstrap
Wahrscheinlich die beste Methode, um die Qualität bei sehr kleinen Datenmengen zu schätzen
Allerdings gibt es einige Probleme Betrachte die zufällige Datenmenge von
vorhin Ein perfekter Lerner erzielt
0% Resubstitutionsfehler und ~50% Fehler auf den Testdaten
Bootstrap-Schätzung für diesen Klassifikator:
Tatsächlich erwarteter Fehler: 50%
err= 0 .632 50 0 .368 0 31 .6
![Page 25: Folien zu Data Mining von I. H. Witten und E. Frank übersetzt von N. Fuhr](https://reader035.vdocuments.net/reader035/viewer/2022070310/55204d6149795902118b57e6/html5/thumbnails/25.jpg)
25
Vergleich von Data-Mining-Verfahren
Häufige Frage: Welches von zwei Lernverfahren ist besser?
Anm.: Dies ist anwendungsabhängig! Naheliegende Mathode: Vergleich der
10fach-KV-Schätzungen Problem: Varianz in der Schätzung Varianz kann durch wiederholte KV
reduziert werden Aber: Wir wissen immer noch nicht, ob
die Ergebnisse statistisch signifikant sind
![Page 26: Folien zu Data Mining von I. H. Witten und E. Frank übersetzt von N. Fuhr](https://reader035.vdocuments.net/reader035/viewer/2022070310/55204d6149795902118b57e6/html5/thumbnails/26.jpg)
26
Signifikanztests
Signifikanztests sagen uns, wie sicher wir sein können, dass ein Unterschied wirklich existiert
Nullhypothese: es gibt keinen “wirklichen” Unterschied
Alternative Hypothese: Es gibt einen Unterschied
Ein Signifikanztest misst, wieviel Evidenz es dafür gibt, die Nullhypothese zu verwerfen
Beispiel: Wir benutzen 10fache KVFrage: ist die Differenz bei den Mittelwerten
der zwei 10KV-Schätzer signifikant?
![Page 27: Folien zu Data Mining von I. H. Witten und E. Frank übersetzt von N. Fuhr](https://reader035.vdocuments.net/reader035/viewer/2022070310/55204d6149795902118b57e6/html5/thumbnails/27.jpg)
27
Paarweiser t-Test Der Student- oder t-Test sagt aus, ob die
Mittelwerte zweier Stichproben signifikant differieren
Nehme individuelle Stichproben bei der Kreuzvalidierung
Benutzung von paarweisem t-Test, da die einzelnen Stichprobenelemente paarweise auftreten Dieselbe KV wird zweimal angewendet
William GossetBorn: 1876 in Canterbury; Died: 1937 in Beaconsfield, England
Obtained a post as a chemist in the Guinness brewery in Dublin in 1899. Invented the t-test to handle small samples for quality control in brewing. Wrote under the name "Student".
![Page 28: Folien zu Data Mining von I. H. Witten und E. Frank übersetzt von N. Fuhr](https://reader035.vdocuments.net/reader035/viewer/2022070310/55204d6149795902118b57e6/html5/thumbnails/28.jpg)
28
Verteilung der Mittelwerte
• x1 x2 … xk und y1 y2 … yk sind die 2k Stichprobenwerte für k-fache KV
• mx und my sind die Mittelwerte• Mit ausreichend vielen Werten ist der Mittelwert der
unabhängigen Stichprobenwerte normalverteilt• Schätzungen für die Varianzen der Mittelwerte sind
x2/k und y
2/k • Wenn x und y die wahren Mittelwerte sind, dann sind
annähernd normalverteilt mit Mittelwert 0 und Varianz 1
k
m
x
xx
/2
k
m
y
yy
/2
![Page 29: Folien zu Data Mining von I. H. Witten und E. Frank übersetzt von N. Fuhr](https://reader035.vdocuments.net/reader035/viewer/2022070310/55204d6149795902118b57e6/html5/thumbnails/29.jpg)
29
Die Student-Verteilung
Bei kleinen Stichproben (k < 100) folgt der Mittelwert der Student-Verteilung mit k–1 Freiheitsgraden
Vertrauensintervalle:
0.8820%
1.3810%
1.835%
2.82
3.25
4.30
z
1%
0.5%
0.1%
Pr[X z]
0.8420%
1.2810%
1.655%
2.33
2.58
3.09
z
1%
0.5%
0.1%
Pr[X z]
9 Freiheitsgrade Normalverteilung
![Page 30: Folien zu Data Mining von I. H. Witten und E. Frank übersetzt von N. Fuhr](https://reader035.vdocuments.net/reader035/viewer/2022070310/55204d6149795902118b57e6/html5/thumbnails/30.jpg)
30
Verteilung der Differenzen
• Sei md = mx – my
• Die Differenzen der Mittelwerte (md) folgen ebenfalls der Student-Verteilung mit k–1 Freiheitsgraden
• Sei d2 die Varianz der Differenzen
• Die standardisierte Version von md wird t-Statistik genannt:
• Wir benutzen t zur Durchführung des t-Tests
k
mt
d
d
/2
![Page 31: Folien zu Data Mining von I. H. Witten und E. Frank übersetzt von N. Fuhr](https://reader035.vdocuments.net/reader035/viewer/2022070310/55204d6149795902118b57e6/html5/thumbnails/31.jpg)
31
Test-Durchführung
• Lege ein Signifikanzniveau fest • Wenn die Differenz signifikant ist auf dem %
Niveau,dann beträgt die Wahrscheinlichkeit, dass tatsächlich ein Unterschied vorliegt (100-)%
• Dividiere das Signifikanz-Niveau durch zwei, da der Test zweiseitig ist• D.h. Die wahre Differenz ist entweder +ve oder – ve
• Schlage den Wert für z nach, der zu /2 gehört• Falls t –z oder t z, dann ist der Unterschied
signifikant• D.h., die Nullhypothese kann verworfen werden
![Page 32: Folien zu Data Mining von I. H. Witten und E. Frank übersetzt von N. Fuhr](https://reader035.vdocuments.net/reader035/viewer/2022070310/55204d6149795902118b57e6/html5/thumbnails/32.jpg)
32
Unabhängige Stichproben
• Falls die KV-Schätzungen zu verschiedenen Randomisierungen gehören, sind sie nicht verbunden, sondern unabhängig
• (oder wie benutzten k -fache KV für ein Verfahren und j -fache KV für das andere)
• Dann müssen wir den t-Test für unabhängige Stichproben mit min(k , j) – 1 Freiheitsgraden anwenden
• Die t-Statistik wird dann zu:
k
mt
d
d
/2
jk
mmt
yx
yx
22
![Page 33: Folien zu Data Mining von I. H. Witten und E. Frank übersetzt von N. Fuhr](https://reader035.vdocuments.net/reader035/viewer/2022070310/55204d6149795902118b57e6/html5/thumbnails/33.jpg)
33
Interpretation des Ergebnisses
All unsere KV-Schätzer basieren auf der gleichen Datenmenge
Die Stichproben sind nicht unabhängig Besser wäre es, für jeden der k
Schätzwerte eine andere Datenmenge zu benutzen, um die Qualität für andere Datenbestände vorhersagen zu können
Oder: Benutze heuristischen Test, z.B. korrigierten t-Test mit neu gebildeten Stichproben
![Page 34: Folien zu Data Mining von I. H. Witten und E. Frank übersetzt von N. Fuhr](https://reader035.vdocuments.net/reader035/viewer/2022070310/55204d6149795902118b57e6/html5/thumbnails/34.jpg)
34
Vorhersage von Wahrscheinlichkeiten
• Bisheriges Qualitätsmaß: Erfolgsquote• Wird auch als 0-1 loss function bezeichnet :
• Die meisten Klassifikatoren liefern Klassen-Wahrscheinlichkeiten
• Bei manchen Anwendungen möchte man die Genauigkeit der Wahrscheinlichkeitsschätzungen messen
• 0-1 loss ist nicht das passende Maß hierfür
i incorrect is prediction if 1
correct is prediction if 0
![Page 35: Folien zu Data Mining von I. H. Witten und E. Frank übersetzt von N. Fuhr](https://reader035.vdocuments.net/reader035/viewer/2022070310/55204d6149795902118b57e6/html5/thumbnails/35.jpg)
35
Quadratische Verlustfunktion
• p1 … pk sind die Wahrscheinlichkeitsschätzungen für eine Instanz
• c ist der Klassenindex der aktuellen Instanz
• ac=1, sonst a1 … ak = 0• Quadratischer Fehler ist:
• Wir wollen minimieren:
• Man kann zeigen, dass dies minimal ist wenn jeweils pj = pj
*, der wahren Wahrscheinlichkeit
222 )1()( ccj
jj
jj ppap
jjj apE 2)(
![Page 36: Folien zu Data Mining von I. H. Witten und E. Frank übersetzt von N. Fuhr](https://reader035.vdocuments.net/reader035/viewer/2022070310/55204d6149795902118b57e6/html5/thumbnails/36.jpg)
36
Informationelle Verlustfunktion
Die informationelle Verlustfunktion ist –log(pc),wobei c den Index der aktuellen Klasse bezeichnet
Anzahl der erforderlichen Bits, um die aktuelle Klasse mitzuteilen
Seien p1* … pk
* die wahren
KlassenwahrscheinlichkeitenDann ist der Erwartungswert der Verlustfunktion:
Rechtfertigung: minimal wenn pj = pj*
Problem: Klassen mit Häufigkeit 0
p1 log 2 p1 .. . pk log 2 pk
![Page 37: Folien zu Data Mining von I. H. Witten und E. Frank übersetzt von N. Fuhr](https://reader035.vdocuments.net/reader035/viewer/2022070310/55204d6149795902118b57e6/html5/thumbnails/37.jpg)
37
Diskussion• Welche Verlustfunktion wählen?
– Beide belohnen gute Schätzungen– Quadratische Verlustfunktion berücksichtigt alle
Schätzungen von Klassenwahrscheinlichkeiten für eine Instanz
– Informationelle Verlustfunktion betrachtet nur die Wahrscheinlichkeitsschätzung für die tatsächliche Klasse
– Quadratischer Verlust ist beschränkt: er kann nicht größer als 2 werden
– Informationeller Verlust kann beliebig groß werden
• Informationeller Verlust ist verwandt mit dem MDL-Prinzip [später]
j
jp21
![Page 38: Folien zu Data Mining von I. H. Witten und E. Frank übersetzt von N. Fuhr](https://reader035.vdocuments.net/reader035/viewer/2022070310/55204d6149795902118b57e6/html5/thumbnails/38.jpg)
38
Berücksichtigung der Kosten
Bei praktischen Anwendungen führen verschiedene Arten von Fehlern oft zu unterschiedlichen Kosten
Beispiele: Aufspüren von Terroristen
“Kein Terrorist” korrekt bei 99.99% aller Fälle
Kredit-Entscheidungen Erkennen von Ölflecken Fehlerdiagnosen Werbesendungen
![Page 39: Folien zu Data Mining von I. H. Witten und E. Frank übersetzt von N. Fuhr](https://reader035.vdocuments.net/reader035/viewer/2022070310/55204d6149795902118b57e6/html5/thumbnails/39.jpg)
39
Berücksichtigung der Kosten
Die Fall-Matrix:
Es kann noch weitere Arten von Kosten geben!Z.B.: Kosten zum Sammeln der Trainingsdaten
Actual class True
negativeFalse
positiveNo
False negative
True positiveYes
NoYes
Predicted class
![Page 40: Folien zu Data Mining von I. H. Witten und E. Frank übersetzt von N. Fuhr](https://reader035.vdocuments.net/reader035/viewer/2022070310/55204d6149795902118b57e6/html5/thumbnails/40.jpg)
40
Steigerungsdiagramm
In der Praxis sind die Kosten oft unbekannt Entscheidungen werden gefällt, indem
verschiedene mögliche Szenarien verglichen werden
Beispiel: Werbesendung an 1.000.000 Haushalte• Versand an alle; 0.1% antworten (1000)• Data mining Tool identifiziert Teilmenge von 100,000
Aussichtsreichen, 0.4% davon antworten (400)40% der Antworten für 10% der Kosten kann sich lohnen
• Identifiziere Teilmenge von 400,000 Aussichtsreichen, 0.2% davon antworten (800)
Ein Steigerungsdiagramm erlaubt den visuellen Vergleich
![Page 41: Folien zu Data Mining von I. H. Witten und E. Frank übersetzt von N. Fuhr](https://reader035.vdocuments.net/reader035/viewer/2022070310/55204d6149795902118b57e6/html5/thumbnails/41.jpg)
41
Generierung eines Steigerungsdiagramms
Sortiere Instanzen nach der geschätzten Erfolgswahrscheinlichkeit :
x-Achse: Stichprobengrößey-Achse: Anzahl Erfolgsfälle
………
Yes0.884
No0.933
Yes0.932
Yes0.951
Actual classPredicted probability
![Page 42: Folien zu Data Mining von I. H. Witten und E. Frank übersetzt von N. Fuhr](https://reader035.vdocuments.net/reader035/viewer/2022070310/55204d6149795902118b57e6/html5/thumbnails/42.jpg)
42
Eine hypothetisches Steigerungsdiagramm
40% der Antworten für 10% der Kosten
80% der Antwortenfür 40% der Kosten
![Page 43: Folien zu Data Mining von I. H. Witten und E. Frank übersetzt von N. Fuhr](https://reader035.vdocuments.net/reader035/viewer/2022070310/55204d6149795902118b57e6/html5/thumbnails/43.jpg)
43
ROC-Kurven
ROC-Kurven sind ähnlich zu Steigerungsdiagrammen Steht für “receiver operating characteristic” Wird in der Signaltheorie benutzt, um den Tradeoff
zwischen Erfolgsquote und Fehlerrate in einem verrauschten Übertragungskanal darzustellen
Unterschiede zu Steigerungsdiagramm: y-Achse zeigt den Prozentsatz positiver Elemente in der
Stichprobe im Gegensatz zur deren absoluter Anzahl
x –Achse zeigt den Prozentsatz von falschen positiven in der Stichprobeim Gegensatz zur Stichprobengröße
![Page 44: Folien zu Data Mining von I. H. Witten und E. Frank übersetzt von N. Fuhr](https://reader035.vdocuments.net/reader035/viewer/2022070310/55204d6149795902118b57e6/html5/thumbnails/44.jpg)
44
Beispiel einer ROC-Kurve
Gezackte Kurve: eine TestdatenmengeGlatte Kurve: Resultat von Kreuzvalidierung
![Page 45: Folien zu Data Mining von I. H. Witten und E. Frank übersetzt von N. Fuhr](https://reader035.vdocuments.net/reader035/viewer/2022070310/55204d6149795902118b57e6/html5/thumbnails/45.jpg)
45
Kreuzvalidierung und ROC-Kurven
Einfache Methode zur Erstellung einer ROC-Kurve mittels Kreuzvalidierung: Sammle Wahrscheinlichkeiten für die Instanzen
in den Testmengen Sortiere Instanzen nach Wahrscheinlichkeiten
Methode ist in WEKA implementiert Es gibt aber noch andere Möglichkeiten
Die im Buch beschriebene Methode generiert eine ROC-Kurve für jede Testmenge und mittelt dann
![Page 46: Folien zu Data Mining von I. H. Witten und E. Frank übersetzt von N. Fuhr](https://reader035.vdocuments.net/reader035/viewer/2022070310/55204d6149795902118b57e6/html5/thumbnails/46.jpg)
46
ROC-Kurven für zwei Verfahren
Für eine kleine, ausgewählte Menge, benutze Methode A Für größere Mengen, benutze Methode B Dazwischen: wähle zwischen A und B mit geeigneten Wahrscheinlichkeiten
![Page 47: Folien zu Data Mining von I. H. Witten und E. Frank übersetzt von N. Fuhr](https://reader035.vdocuments.net/reader035/viewer/2022070310/55204d6149795902118b57e6/html5/thumbnails/47.jpg)
47
Die konvexe Hülle
Für zwei Verfahren kann man jeden Punkt auf der konvexen Hülle errreichen!
TP und FP-Quoten für Verfahren 1: t1 und f1
TP und FP-Quoten für Verfahren 2: t2 und f2
Wenn Methode 1 für 100q % der Fälle benutzt wird und Methode 2 für den rest, dann TP-Rate für das kombinierte Verfahren:
q t1+(1-q) t2
FP-Rate für das kombinierte Verfahren:q f2+(1-q) f2
![Page 48: Folien zu Data Mining von I. H. Witten und E. Frank übersetzt von N. Fuhr](https://reader035.vdocuments.net/reader035/viewer/2022070310/55204d6149795902118b57e6/html5/thumbnails/48.jpg)
48
Kosten-sensitives Lernen
Die meisten Lernverfahren unterstützen kein Kosten-sensitives LernenSie generieren denselben Klassifikator unabhängig
davon, welche Kosten den einzelnen Klassen zugeordnet werden
Beispiel: Standard-Lerner für EntscheidungsbäumeEinfache Methoden für Kosten-sensitives
Lernen:Resampling der Instanzen entsprechend den Kosten Gewichtung der Instanzen entsprechend den Kosten
Einige Verfahren können Kosten berücksichtigen, indem sie bestimmte Parameter variieren, z.B. naiver Bayes
![Page 49: Folien zu Data Mining von I. H. Witten und E. Frank übersetzt von N. Fuhr](https://reader035.vdocuments.net/reader035/viewer/2022070310/55204d6149795902118b57e6/html5/thumbnails/49.jpg)
49
Maße im Information Retrieval
Anteil der gefundenen Dokumente, die relevant sind: Precision=TP/(TP+FP)
Anteil der relevanten Dokumente, die gefunden wurden: Recall =TP/(TP+FN)
Precision/Recall-Kurven sind meist ähnlich zu hyperbolischen Kurven
Globale Maße: Mittelwert der Precision bei 20%, 50% und 80% Recall (three-point average recall)
F-Maß=(2RecallPrecision)/(Recall+Precision)
![Page 50: Folien zu Data Mining von I. H. Witten und E. Frank übersetzt von N. Fuhr](https://reader035.vdocuments.net/reader035/viewer/2022070310/55204d6149795902118b57e6/html5/thumbnails/50.jpg)
50
Zusammenfassung der Maße
ErklärungAchsenDomäne
TP/(TP+FN)
TP/(TP+FP)
Recall
Precision
Information retrieval
Recall-Precision- Kurve
TP/(TP+FN)
FP/(FP+TN)
TP-Quote
FP-Quote
SignaltheorieROC-Kurve
TP(TP+FP)/(TP+FP+TN+FN)
TP
Größe d. Teilm.
MarketingSteigerungsdiagramm
![Page 51: Folien zu Data Mining von I. H. Witten und E. Frank übersetzt von N. Fuhr](https://reader035.vdocuments.net/reader035/viewer/2022070310/55204d6149795902118b57e6/html5/thumbnails/51.jpg)
51
Evaluierung nummerischer Vorhersagen
• Gleiche Strategien: unabhängige Testmenge, Kreuzvalidierung, Signifikanztests, usw.
• Unterschied: Fehlermaße
• Tatsächliche Werte: a1 a2 …an
• Vorhergesagte Werte: p1 p2 … pn
• Populärstes Maß: mittlerer quadratischer Fehler
– Einfache mathematische Manipulationn
apap nn22
11 )(...)(
![Page 52: Folien zu Data Mining von I. H. Witten und E. Frank übersetzt von N. Fuhr](https://reader035.vdocuments.net/reader035/viewer/2022070310/55204d6149795902118b57e6/html5/thumbnails/52.jpg)
52
Andere MaßeDie Wurzel aus dem mittleren quadratischen Fehler :
Der mittlere absolute Fehler ist weniger sensitiv gegenüber Ausreißern als der mittlere quadratische Fehler:
Manchmal ist der relative Fehler angemessener (z.B. 10% für einen Fehler von 50 beim Vorhersagewert 500)
napap nn ||...|| 11
n
apap nn22
11 )(...)(
![Page 53: Folien zu Data Mining von I. H. Witten und E. Frank übersetzt von N. Fuhr](https://reader035.vdocuments.net/reader035/viewer/2022070310/55204d6149795902118b57e6/html5/thumbnails/53.jpg)
53
Verbesserung des Mittelwerts
Wie stark verbessert sich ein Verfahren, wenn es den Mittelwert korrekt vorhersagt?
Der relative quadratische Fehler ist ( ):
Der relative absolute Fehler ist:
221
2211
)(...)(
)(...)(
n
nn
aaaa
apap
average theis a
||...||||...||
1
11
n
nn
aaaaapap
![Page 54: Folien zu Data Mining von I. H. Witten und E. Frank übersetzt von N. Fuhr](https://reader035.vdocuments.net/reader035/viewer/2022070310/55204d6149795902118b57e6/html5/thumbnails/54.jpg)
54
Korrelationskoeffizient
Misst die statistische Korrelation zwischen den Vorhersagewerten und den tatsächlichen Werten
Skalierungs-unabhängig, zwischen –1 and +1Gute Qualität drückt sich in größeren Werten aus!
AP
PA
SS
S
1
))((
n
aapp
S iii
PA 1
)( 2
n
pp
S ii
P 1
)( 2
n
aa
S ii
A
![Page 55: Folien zu Data Mining von I. H. Witten und E. Frank übersetzt von N. Fuhr](https://reader035.vdocuments.net/reader035/viewer/2022070310/55204d6149795902118b57e6/html5/thumbnails/55.jpg)
55
Welches Maß verwenden?
Am besten alle betrachten Oft ist es egal Beispiel:
A B C D
Wurzel d. quadr. Fehlers 67.8 91.7 63.3 57.4
Mittlere absoluter Fehler 41.3 38.5 33.4 29.2
Wurzel d. rel. quadr. Fehlers 42.2% 57.2% 39.4% 35.8%
Relativer absoluter Fehler 43.1% 40.1% 34.8% 30.4%
Korrelationskoefficient 0.88 0.88 0.89 0.91
D am besten C zweiter A, B hängt vom Standpunkt ab
![Page 56: Folien zu Data Mining von I. H. Witten und E. Frank übersetzt von N. Fuhr](https://reader035.vdocuments.net/reader035/viewer/2022070310/55204d6149795902118b57e6/html5/thumbnails/56.jpg)
56
Das MDL-Prinzip
MDL steht für minimum description lengthDie Beschreibungslänge ist definiert als:
Speicherplatz zur Beschreibung einer Theorie
+
Speicherplatz zur Beschreibung der Fehler der Theorie
In unserem Fall ist die Theorie der Klassifikator und die Fehler die auf den Trainingsdaten
Gesucht: Klassifikator mit minimaler MDLMDL-Prinzip ist ein Kriterium zur Modellauswahl
![Page 57: Folien zu Data Mining von I. H. Witten und E. Frank übersetzt von N. Fuhr](https://reader035.vdocuments.net/reader035/viewer/2022070310/55204d6149795902118b57e6/html5/thumbnails/57.jpg)
57
Modellauswahl-Kriterien Modellauswahl-Kriterien versuchen, einen
guten Kompromiss zu finden zwischen:• Der Komplexität eines Modells• Seiner Vorhersagequalität auf den
Trainingsdaten Idee: Ein gutes Modell ist ein einfaches
Modell, das eine hohe Genauigkeit auf den vorhandenen Daten erzielt
Auch bekannt als Occam’s Razor :die beste Theorie ist die kleinste,die alle Fakten beschreibt
William of Ockham, born in the village of Ockham in Surrey (England) about 1285, was the most influential philosopher of the 14th century and a controversial theologian.
![Page 58: Folien zu Data Mining von I. H. Witten und E. Frank übersetzt von N. Fuhr](https://reader035.vdocuments.net/reader035/viewer/2022070310/55204d6149795902118b57e6/html5/thumbnails/58.jpg)
58
Eleganz vs. Fehler
Theorie 1: sehr einfache, elegante Theorie die die Daten beinahe perfekt beschreibt
Theorie 2: deutlich komplexere Theorie, die die Daten fehlerfrei reproduziert
Theorie 1 ist zu bevorzugen Klassisches Beispiel: Keplers drei Gesetze
zu der Planetenbewegung Weniger genau als Kopernikus’ letzte
Verfeinerung der Ptolemäischen Theorie der Epizyklen
![Page 59: Folien zu Data Mining von I. H. Witten und E. Frank übersetzt von N. Fuhr](https://reader035.vdocuments.net/reader035/viewer/2022070310/55204d6149795902118b57e6/html5/thumbnails/59.jpg)
59
MDL und Komprimierung
Das MDL-Prinzip hängt mit der Datenkomprimierung zusammen:Die beste Theorie ist diejenige, die die Daten am stärksten
komprimiertD.h. um eine Datenmenge zu komprimieren, generieren wir
ein Modell und speichern dann das Modell und seine Fehler
Dazu müssen wir berechnen(a) die Größe des Modells, und(b) den Speicherplatz für die Fehler
(b) einfach: benutze den Informationsverlust(a) erfordert eine Methode zur Codierung des Modells
![Page 60: Folien zu Data Mining von I. H. Witten und E. Frank übersetzt von N. Fuhr](https://reader035.vdocuments.net/reader035/viewer/2022070310/55204d6149795902118b57e6/html5/thumbnails/60.jpg)
60
MDL und Bayes’ Theorem
L[T]=“Länge” einer Theorie L[E|T]=Codierung der Trainingsmenge in
Bezug auf die Theorie Beschreibungslänge= L[T] + L[E|T] Bayes’ Theorem schätzt die a-posteriori
Wahrscheinlichkeit einer Theorie bei gegebenen Daten:
Äquivalent zu: ]Pr[
]Pr[]|Pr[]|Pr[
E
TTEET
]Pr[log]Pr[log]|Pr[log]|Pr[log ETTEET
konstant
![Page 61: Folien zu Data Mining von I. H. Witten und E. Frank übersetzt von N. Fuhr](https://reader035.vdocuments.net/reader035/viewer/2022070310/55204d6149795902118b57e6/html5/thumbnails/61.jpg)
61
MDL und MAP
MAP steht für maximum a posteriori probability Finden der MAP-Theorie korrespondiert zum Finden
der MDL Theorie Schwierigkeit bei der Anwendung des MAP-Prinzips:
Bestimmung der a-priori-Wahrscheinlichkeit Pr[T] der Theorie
Korrespondiert zum schwierigen Teil bei der Anwendung des MDL-Prinzips: Codierungsschema für die Theorie
D.h. wenn wir vorher wissen, dass eine bestimmte Theorie wahrscheinlicher ist, dann benötigen wir weniger Bits, um sie zu codieren
![Page 62: Folien zu Data Mining von I. H. Witten und E. Frank übersetzt von N. Fuhr](https://reader035.vdocuments.net/reader035/viewer/2022070310/55204d6149795902118b57e6/html5/thumbnails/62.jpg)
62
Diskussion des MDL-Prinzips
Vorteil: nutzt die Trainigsdaten voll aus bei der Auswahl eines Modells
Nachteil 1: passendes Codierungsschema/a-priori-Wahrscheinlichkeiten sind entscheidend
Nachteil 2: es gibt keine Garantie, dass die MDL-Theorie den erwarteten Fehler minimiert
Anmerkung: Occam’s Razor ist ein Axiom! Epicurus’ Prinzip der multiplen Erklärungen:
behalte alle Theorien, die konsistent mit den Daten sind
![Page 63: Folien zu Data Mining von I. H. Witten und E. Frank übersetzt von N. Fuhr](https://reader035.vdocuments.net/reader035/viewer/2022070310/55204d6149795902118b57e6/html5/thumbnails/63.jpg)
63
Bayes’sche Modell-Mittelung Basiert auf Epicurus’ Prinzip: alle Theorien werden
zur Vorhersage genutzt, entsprechend P[T|E] Sei I eine neue Instanz, deren Klasse vorhergesagt
werden soll Sei C die Zufallsvariable für die Klasse Dann Schätzt BMM die Wahrscheinlichkeit von C
unter Berücksichtigung von I den Trainingsdaten E den möglichen Theorien Tj
]|Pr[],|[Pr],|Pr[ ETTICEIC jjj
![Page 64: Folien zu Data Mining von I. H. Witten und E. Frank übersetzt von N. Fuhr](https://reader035.vdocuments.net/reader035/viewer/2022070310/55204d6149795902118b57e6/html5/thumbnails/64.jpg)
64
MDL und Clustering
Beschreibungslänge einer Theorie:Benötigte Bits zur Codierung der Cluster z.B. Zentroiden
Beschreibungslänge der Daten bei gegebener Theorie: codiere Clusterzugehörigkeit und relative Position im Cluster z.B. Distanz zum Zentroiden
Funktioniert, wenn das Codierungsschema für kleine Zahlen weniger Bits benötigt als für große
Bei nominalen Attributen müssen die Wahrscheinlichkeitsverteilungen für jedes Cluster codiert werden