statistisches und maschinelles lernen - einführung › sml-ws2019 › ... · 2019-10-29 ·...

Statistisches und maschinelles Lernen - Einfuhrung

Dr. Stefan Richter

29. Oktober 2019

Dr. Stefan Richter Maschinelles Lernen 29. 10. 2019 1 / 37

Beispiele fur Anwendungen: Entwicklung

Verbrauch (mpg - miles per gallon) von verschiedenen Autos:

Frage: Welche Faktoren haben den großten Einfluss auf den Verbrauch?

Beispiele fur Anwendungen: Schrifterkennung

Erkenne handgeschriebene Zahlen:

→ 0 → 3

Beispiele fur Anwendungen: Unerwunschte Werbung

→ spam

→ kein spam

Beispiele fur Anwendungen:Gesichtserkennung/Komprimierung

Eigenfaces: Welche Eigenschaften zeichnen ein Gesicht aus? Speicherung vonGesichtern unter Nutzung von moglichst wenig Speicherplatz.

Beispiele fur Anwendungen:Gesichtserkennung/Komprimierung

Eigenfaces: Welche Eigenschaften zeichnen ein Gesicht aus? Speicherung vonGesichtern unter Nutzung von moglichst wenig Speicherplatz.

Einleitung

Maschinelles Lernen entwickelt Algorithmen, die aus Daten lernen konnen.

D.h.: Der Algorithmus lernt aus Beispielen und kann das Gelernte nachBeendigung der Lernphase verallgemeinern und auf unbekannte Eingabenanwenden.

Statistisches Lernen ist die ’Antwort’ aus der Statistik auf maschinellesLernen:

Die in maschinellem Lernen entwickelten Algorithmen werden in statistischeModelle uberfuhrt und die Unsicherheit der Entscheidungen quantifiziert.

Einleitung

Maschinelles Lernen entwickelt Algorithmen, die aus Daten lernen konnen.

D.h.: Der Algorithmus lernt aus Beispielen und kann das Gelernte nachBeendigung der Lernphase verallgemeinern und auf unbekannte Eingabenanwenden.

Statistisches Lernen ist die ’Antwort’ aus der Statistik auf maschinellesLernen:

Die in maschinellem Lernen entwickelten Algorithmen werden in statistischeModelle uberfuhrt und die Unsicherheit der Entscheidungen quantifiziert.

Einleitung

Was haben alle Beispiele gemeinsam?Es gibt:

Eingabedaten X

Ausgabedaten Y

X ∈ Rd mit d sehr groß! → feature vector / input (Elemente: features)

Y ∈ R → label / outputEntweder Y ∈ R (’Regressionsproblem’) oder Y ∈ 0, ...,K − 1(’Klassifikationsproblem’)

Beispiel

Verbrauch (mpg - miles per gallon) von verschiedenen Autos:

Y = mpg ∈ R → RegressionsproblemX = (cyl , disp, hp, drat,wt, qsec , vs, am, gear , carb) ∈ R10

Beispiel

Erkenne handgeschriebene Zahlen:

→ 0 → 3

Y ∈ 0, ..., 9 → KlassifikationsproblemX ∈ R20·20 = R400 (20x20 Pixel-Bild, jedes Pixel hat Graustufen-Wert 0-256)

Beispiel

Oft werden die Daten X vor der Eingabe in den Algorithmus noch etwas reduziertund vereinheitlicht durch intelligente Vorbearbeitung:

→ spam

→ kein spam

Y ∈ 0, 1 (0 = kein spam, 1 = spam)

X = (f1, ..., f48, c1, ..., c6, a1, a2, a3) ∈ R57, wobei

fi : Misst die Anzahl bestimmter Worte in der Email, z.B. f1 = Anzahl ’gratis’,f2 = Anzahl ’kaufen’, ...ci : Misst die Anzahl bestimmter Buchstaben, z.B. c1 = Anzahl ’ !’, c2 =Anzahl ’ ’, ...a1: Misst die Anzahl der langsten Zeichenkette in Großbuchstaben

Beispiel

→ spam

→ kein spam

Y ∈ 0, 1 (0 = kein spam, 1 = spam)Statt X =’gesamter Text der Email’ verwende eine einheitliche Zusammenfassung:

X = (f1, ..., f48, c1, ..., c6, a1, a2, a3) ∈ R57, wobeifi : Misst die Anzahl bestimmter Worte in der Email, z.B. f1 = Anzahl ’gratis’,f2 = Anzahl ’kaufen’, ...ci : Misst die Anzahl bestimmter Buchstaben, z.B. c1 = Anzahl ’ !’, c2 =Anzahl ’ ’, ...a1: Misst die Anzahl der langsten Zeichenkette in Großbuchstaben

Beispiel

→ spam

→ kein spam

Y ∈ 0, 1 (0 = kein spam, 1 = spam)X = (f1, ..., f48, c1, ..., c6, a1, a2, a3) ∈ R57, wobei

fi : Misst die Anzahl bestimmter Worte in der Email, z.B. f1 = Anzahl ’gratis’,f2 = Anzahl ’kaufen’, ...ci : Misst die Anzahl bestimmter Buchstaben, z.B. c1 = Anzahl ’ !’, c2 =Anzahl ’ ’, ...a1: Misst die Anzahl der langsten Zeichenkette in Großbuchstaben

Ermittlung von Algorithmen

Ausgangslage:

X ∈ X = Rd mit d sehr groß!

Y ∈ Y = R

Gegeben:

Gegeben sind n Beobachtungen (Xi ,Yi ), i = 1, ..., n (Trainingsdaten)

Ziel (Supervised machine learning):

Ermittlung eines Algorithmus fn = fn(X1,Y1, ...,Xn,Yn) : X → Y, der neuenEingabedaten X die ’richtigen’ Ausgabedaten Y zuordnet

Vorgehen:

Modelliere Y durch X und evtl. weitere unbekannte Großen (z.B. zufalligeFehler), d.h. treffe eine Modellannahme an die gemeinsame Verteilung P(X ,Y ).

Nutze die Modellannahme zur Herleitung von fn.

Unsupervised machine learning (spater):

Gegeben sind nur Trainingsdaten Xi , i ∈ N (keine Yi ): Ziel ist dann,Strukturen in Xi zu erkennen und die Daten Xi zu komprimieren

Ausgangslage:

Y ∈ Y = RGegeben:

Vorgehen:

Ausgangslage:

X ∈ X = Rd mit d sehr groß!Y ∈ Y = R

Gegeben:Gegeben sind n Beobachtungen (Xi ,Yi ), i = 1, ..., n (Trainingsdaten)z.B. X1 = (6, 160, 110, 3.9, 2.620, 16.46, 0, 1, 4, 4), Y1 = 21.0X2 = (6, 160, 110, 3.9, 2.875, 17.02, 0, 1, 4, 4), Y2 = 21.0, ...

Vorgehen:Modelliere Y durch X und evtl. weitere unbekannte Großen (z.B. zufalligeFehler), d.h. treffe eine Modellannahme an die gemeinsame Verteilung P(X ,Y ).Nutze die Modellannahme zur Herleitung von fn.

Unsupervised machine learning (spater):Gegeben sind nur Trainingsdaten Xi , i ∈ N (keine Yi ): Ziel ist dann,Strukturen in Xi zu erkennen und die Daten Xi zu komprimieren

Ausgangslage:

Y ∈ Y = RGegeben:

Vorgehen:

Ausgangslage:

Y ∈ Y = RGegeben:

Vorgehen:

Ausgangslage:

Y ∈ Y = RGegeben:

Vorgehen:

Supervised Learning

Gegeben sind n Trainingsdaten (Xi ,Yi ), i = 1, ..., n mit Xi ∈ X ⊂ Rd , Yi ∈ YWesentliche Entwicklung uber die letzten Jahrzehnte:

Bis ca. 1995: Experten arbeiten sehr lange, um gute features zu lernen (d.h.die wesentlichen Einflussfaktoren auf Y durch Experimente etc. zu ermitteln)→ X ∈ Rd mit d klein, d n

Heute: Data Scientist bekommen Datensatz mit (sehr) hochdimensionalenX ∈ Rd (z.B. d/n ≈ 0.3 oder sogar d n), nur wenige Komponenten von Xoder nur wenige Kombinationen der Komponenten von X sind wichtig fur dieVorhersage von Y .

Ein Algorithmus fn aus dem Maschinellem Lernen soll die fur Y wichtigenKomponenten von X bzw. Kombinationen davon selbst bestimmen!

Data Scientist braucht kein detailliertes Wissen mehr uber das unterliegendeProblem zu haben!

Supervised Learning

Heute: Data Scientist bekommen Datensatz mit (sehr) hochdimensionalenX ∈ Rd (z.B. d/n ≈ 0.3 oder sogar d n), nur wenige Komponenten von Xoder nur wenige Kombinationen der Komponenten von X sind wichtig fur dieVorhersage von Y .Ein Algorithmus fn aus dem Maschinellem Lernen soll die fur Y wichtigenKomponenten von X bzw. Kombinationen davon selbst bestimmen!Data Scientist braucht kein detailliertes Wissen mehr uber das unterliegendeProblem zu haben!

Supervised Learning

Bewertung von Algorithmen

Bewertung von Algorithmen fn = fn(X1,Y1, ...,Xn,Yn) nach 2 wesentlichenGesichtspunkten:

(1) Interpretierbarkeit (qualitativ): Kann der gelernte Algorithmus fn (bzw.dessen Formel) genutzt werden, um tieferes Verstandnis uber denZusammenhang zwischen X und Y zu gewinnen?

(2) Vorhersagefahigkeit (quantitativ): Sagt fn(X ) das ’richtige’ Y voraus?

Dilemma:

Aktuell entwickelte Algorithmen (z.B. neuronale Netzwerke), die sehr gut in(2) sind, sind außerst schlecht in (1).

D.h.: Algorithmen funktionieren sehr gut zum Vorhersagen, aber man weißnicht, welche Komponenten(-kombinationen) von X wichtig sind!

Bewertung von Algorithmen

Bewertung von Algorithmen fn = fn(X1,Y1, ...,Xn,Yn) nach 2 wesentlichenGesichtspunkten:

(1) Interpretierbarkeit (qualitativ): Kann der gelernte Algorithmus fn (bzw.dessen Formel) genutzt werden, um tieferes Verstandnis uber denZusammenhang zwischen X und Y zu gewinnen?

(2) Vorhersagefahigkeit (quantitativ): Sagt fn(X ) das ’richtige’ Y voraus?

Dilemma:

Aktuell entwickelte Algorithmen (z.B. neuronale Netzwerke), die sehr gut in(2) sind, sind außerst schlecht in (1).

D.h.: Algorithmen funktionieren sehr gut zum Vorhersagen, aber man weißnicht, welche Komponenten(-kombinationen) von X wichtig sind!

Formalisierung

Formalisierung: Statistische Entscheidungstheorie

Statistische Entscheidungstheorie

Annahme im Folgenden: (Xi ,Yi )iid∼ P(X ,Y ), i = 1, ..., n sind i.i.d.

P(X ,Y ) ist eine Wahrscheinlichkeitsverteilung auf X × Y.

DefinitionEine messbare Abbildung f : X → Y heißt Entscheidungsregel.

Eine messbare Abbildung L : Y × Y → R≥0 heißt Verlustfunktion.

L(Y , f (X )) heißt der von f erzeugte Verlust.

R(f ) := EL(Y , f (X )) heißt Risiko von f .

f ∗ :∈ arg minf :X→Y messbar R(f ) heißt Bayes-Regel.

Beispiel - Regressionsproblem Y = RL(y , s) = (y − s)2. Dann ist

R(f ) = E[(Y − f (X ))2] =

(y − f (x))2dPY |X=x(y)dPX (x),

und f ∗(x) = E[Y |X = x ].

Beispiel - Klassifikationsproblem Y = 1, ...,KL(y , s) = 1y 6=s. Dann ist

R(f ) = P(Y 6= f (X )) =

∫XP(Y 6= f (X )|X = x)dPX (x),

und f ∗(x)= arg mink∈1,...,K P(Y 6= k |X = x) .

Problem in der Praxis: Genau wie P(X ,Y ) ist f ∗ unbekannt.

Ziel: Finde f auf Basis von (Xi ,Yi ), i = 1, ..., n, das moglichst ’nah’ an f ∗

Algorithmus

(Xi ,Yi )iid∼ P(X ,Y ), i = 1, ..., n sind i.i.d. ZV auf W-Raum Ω und

Tn := ((Xi ,Yi ))i=1,...,n.

fn : Ω×X → Y heißt Algorithmus, falls es eine messbare Abbildung A gibt mit

fn(ω, x) = A(Tn(ω), x).

ER(fn) heißt Generalisierungsfehler, wobei

R(fn) := E[L(Y , fn(X ))|Tn]

und (X ,Y ) ∼ P(X ,Y ) unabhangig von Tn.

ER(fn)− R(f ∗) ≥ 0 heißt Excess Bayes Risk.

fn lernt im Durchschnitt mit Konvergenzrate ψd(n), falls eine von d , nunabhangiges C > 0 existiert mit

∀n ∈ N : ER(fn)− R(f ∗) ≤ C · ψd(n).

fn lernt mit hoher Wahrscheinlichkeit mit Konvergenzrate ψd(n), falls

lim supc→∞

lim supd,n→∞

P(|R(fn)− R(f ∗)| ≥ c · ψd(n)) = 0.

Algorithmus

Tn := ((Xi ,Yi ))i=1,...,n.

fn(ω, x) = A(Tn(ω), x).

R(fn) := E[L(Y , fn(X ))|Tn]

∀n ∈ N : ER(fn)− R(f ∗) ≤ C · ψd(n).

lim supc→∞

lim supd,n→∞

P(|R(fn)− R(f ∗)| ≥ c · ψd(n)) = 0.

Algorithmus

Tn := ((Xi ,Yi ))i=1,...,n.

fn(ω, x) = A(Tn(ω), x).

R(fn) := E[L(Y , fn(X ))|Tn]

∀n ∈ N : ER(fn)− R(f ∗) ≤ C · ψd(n).

lim supc→∞

lim supd,n→∞

P(|R(fn)− R(f ∗)| ≥ c · ψd(n)) = 0.

Erzeugung von Algorithmen

Naheliegende Forderung an Konstruktion von fn:

∀i ∈ 1, ..., n : L(fn(Xi ),Yi ) = 0 bzw. fn(Xi ) = Yi

’Overfitting’, zufallige Einflusse und Schwankungen von Y gehen direkt in fnein. Falls Xi = Xi ′ , aber Yi 6= Yi ′ , unerfullbar. Keine Info uber fn(x) furx 6∈ X1, ...,Xn.Losung: Suche fn nur noch in einer kleineren MengeF ⊂ f : X → Y messbar.

Ist F ⊂ f : X → Y messbar, so heißt die Bedingung f ∗ ∈ F Modellannahme anf ∗.

Fur fn ∈ F :

ER(fn)− R(f ∗) =[ER(fn)− inf

f∈FR(f )

]︸︷︷︸

Schatzfehler

inff∈F

R(f )− R(f ∗)]

︸︷︷︸Approximationsfehler

Trade-off zwischen Schatzfehler und Approximationsfehler!

’Overfitting’, zufallige Einflusse und Schwankungen von Y gehen direkt in fnein. Falls Xi = Xi ′ , aber Yi 6= Yi ′ , unerfullbar. Keine Info uber fn(x) furx 6∈ X1, ...,Xn.

Losung: Suche fn nur noch in einer kleineren MengeF ⊂ f : X → Y messbar.

Fur fn ∈ F :

f∈FR(f )

]︸︷︷︸

Schatzfehler

inff∈F

R(f )− R(f ∗)]

Fur fn ∈ F :

f∈FR(f )

]︸︷︷︸

Schatzfehler

inff∈F

R(f )− R(f ∗)]

Fur fn ∈ F :

f∈FR(f )

]︸︷︷︸

Schatzfehler

inff∈F

R(f )− R(f ∗)]

Fur fn ∈ F :

f∈FR(f )

]︸︷︷︸

Schatzfehler

inff∈F

R(f )− R(f ∗)]

Trade-off zwischen Schatzfehler und Approximationsfehler!Dr. Stefan Richter Maschinelles Lernen 29. 10. 2019 17 / 37

Diskussion: Bayes Excess Risk fur quadratischeVerlustfunktion

F ⊂ f : X → Y messbar, L(y , s) = (y − s)2 Verlustfunktion. Annahme:f ∗ ∈ F .

Bias-Varianz-Zerlegung

ER(fn)− R(f ∗) = E MSE(fn(X )),

MSE(fn(x)) := E[(fn(x)− f ∗(x))2] = Var(fn(x)) +∣∣Efn(x)− f ∗(x)︸︷︷︸

∣∣2Tafel: Dreifach-Zerlegung Excess Bayes Risk.

f ∗ ∈ F ⊂ f : X → Y messbar, L Verlustfunktion. (Xi ,Yi ), i = 1, ..., n i.i.d.Trainingsdaten

Standard-Ansatz 1

fn ∈ argminf∈F Rn(f ), Rn(f ) :=1

n∑i=1

L(Yi , f (Xi )).

Falls F ’groß’ (viele Parameter), gibt es keine eindeutige Losung und fn istuberangepasst an die Trainingsdaten.

Losung: Fuhre Bestrafungsterm J(f ) ein, der f ∈ F mit unerwunschtenEigenschaften bestraft.

Standard-Ansatz 2

fn ∈ argminf∈FRn(f ) + λ · J(f )

λ ≥ 0 heißt Bestrafungsparameter.

Standard-Ansatz 1

n∑i=1

L(Yi , f (Xi )).

Standard-Ansatz 2

Standard-Ansatz 1

n∑i=1

L(Yi , f (Xi )).

Standard-Ansatz 2

Standard-Ansatz 1

n∑i=1

L(Yi , f (Xi )).

Standard-Ansatz 2

, (∗)

Unter geeigneten Annahmen kann man zeigen: (*) ist aquivalent zu

fn ∈ argminf∈Fn,λRn(f ),

wobei Fn,λ := f ∈ F : J(f ) ≤ cn(λ).

Einfuhrung eines Bestrafungsterms ist aquivalent zur Erzeugung einesBias-Terms.

Standard-Ansatz 2

, (∗)

Unter geeigneten Annahmen kann man zeigen: (*) ist aquivalent zu

fn ∈ argminf∈Fn,λRn(f ),

wobei Fn,λ := f ∈ F : J(f ) ≤ cn(λ).Einfuhrung eines Bestrafungsterms ist aquivalent zur Erzeugung einesBias-Terms.

Wahl des Bestrafungsparameters

f ∗ ∈ F ⊂ f : X → Y messbar, L Verlustfunktion. Tn := (Xi ,Yi )i=1,...,n i.i.d.Trainingsdaten

Testfehler / Trainingsfehler

Sind (Xi , Yi )iid∼ P(X ,Y ), i = 1, ...,m von Tn unabhangig, so gilt (SGGZ):

empRT(fn) :=1

m∑i=1

L(Yi , fn(Xi ))→ E[L(Y , fn(X ))|Tn] = R(fn) ≈ ER(fn).

empRT(fn) heißt Testfehler.

Rn(fn) = 1n

∑ni=1 L(Yi , f (Xi )) heißt Trainingsfehler.

empRT(fn) ist Schatzer fur ER(fn), aber Rn(fn) nicht!

Ansatz zur Wahl von λ: Berechne empRT(fn,λ) ≈ ER(fn,λ) fur verschiedene

λ und wahle das λ mit dem kleinsten empRT(fn,λ).

empRT(fn) :=1

m∑i=1

Rn(fn) = 1n

empRT(fn) :=1

m∑i=1

Rn(fn) = 1n

empRT(fn) :=1

m∑i=1

Rn(fn) = 1n

Wahl von λ

Sind (Xi , Yi )iid∼ P(X ,Y ), i = 1, ...,m von Tn unabhangig, so wahle

λstd :∈ arg minλ≥0

m∑i=1

L(Yi , fn,λ(Xi )).

Cross Validation funktioniert ahnlich; es werden jedoch nur die ursprunglichenTrainingsdaten genutzt und aufgeteilt.

Wahl von λ

Sind (Xi , Yi )iid∼ P(X ,Y ), i = 1, ...,m von Tn unabhangig, so wahle

λstd :∈ arg minλ≥0

m∑i=1

L(Yi , fn,λ(Xi )).

Cross Validation funktioniert ahnlich; es werden jedoch nur die ursprunglichenTrainingsdaten genutzt und aufgeteilt.

Formalisierung

Formalisierung: Begriffe und Vorgehen beiKlassifikationsproblemen

Klassifikationsprobleme

L(y , s) = 1y 6=s, X ⊂ Rd , Y = 1, ...,Kf ∗(x) = arg max

k∈1,...,KP(Y = k |X = x).

Sei f : X → Y eine Entscheidungsregel.

Ωk = Ωk(f ) := x ∈ X : f (x) = k heißt die von f induzierteEntscheidungsregion.

Ω∗k = Ωk(f ∗) heißt optimale Entscheidungsregion.

∂Ωk , ∂Ω∗k : (optimale) Entscheidungsrander.

δk = δk(f ) : X → R (k = 1, ...,K ) heißen Diskriminantenfunktionen zu f ,falls f (x) = arg maxk∈1,...,K δk(x).

δ∗k = δk(f ∗) heißen optimale Diskriminantenfunktionen.

Ublicher Ansatz bei Klassifikationsproblemen: Verlagere Schatzung von f ∗

auf (stetige) δ∗k .Beispiel: δ∗k (x) = P(Y = k|X = x) sind optimale Diskriminantenfunktionen.Vorteil: Es gibt auch andere δ∗k !

k∈1,...,KP(Y = k |X = x).

auf (stetige) δ∗k .Beispiel: δ∗k (x) = P(Y = k |X = x) sind optimale Diskriminantenfunktionen.Vorteil: Es gibt auch andere δ∗k !

L(y , s) = 1y 6=s, X ⊂ Rd , Y = 1, ...,K

f ∗(x) = arg maxk∈1,...,K

P(Y = k |X = x).

Die folgenden δ∗k sind auch optimale Diskriminantenfunktionen:

Ist gk(x) die bedingte Dichte von X gegeben Y = k , so setzeδ∗k (x) = gk(x) · P(Y = k) (Satz von Bayes)

Ist h monoton wachsend in der ersten Komponente, so setzeδ∗k (x) = h(P(Y = k|X = x), x).

Ermittlung von Algorithmen fn - Moglichkeit 1

L(y , s) = 1y 6=s, X ⊂ Rd , Y = 1, ...,K

P(Y = k |X = x).

Ansatz: Finde Schatzer fur δ∗k (x) mit Hilfe statistischer Schatzer und geeigneterModellannahmen.

Beispiel: Lineare Diskriminanzanalyse

Modellannahme: X |Y = k ∼ N(µk ,Σ) (k = 1, ...,K ).

Dann: gk(x) = 1(2π)d/2(det Σ)1/2 exp(− 1

2 (x − µk)TΣ−1(x − µk)).

δ∗k (x) = log(gk(x)·P(Y = k)) = xTΣ−1µk−1

2µTk Σ−1µk+log(P(Y = k))+const.

ist optimale Diskriminantenfunktion.

Nur Schatzer fur Σ, µk und P(Y = k) aus den Trainingsdaten werdenbenotigt!

L(y , s) = 1y 6=s, X ⊂ Rd , Y = 1, ...,K

P(Y = k |X = x).

2 (x − µk)TΣ−1(x − µk)).

L(y , s) = 1y 6=s, X ⊂ Rd , Y = 1, ...,K

P(Y = k |X = x).

2 (x − µk)TΣ−1(x − µk)).

L(y , s) = 1y 6=s, X ⊂ Rd , Y = 1, ...,K

P(Y = k |X = x).

2 (x − µk)TΣ−1(x − µk)).

Klassifikationsprobleme: Reduktion auf zwei Klassen

Oft: Verfahren werden theoretisch nur fur K = 2 Klassen definiert, undY = −1,+1.Falls mehr als 2 Klassen: Nutze z.B. one-vs.-rest-Strategie.

one-vs.-restFur κ = 1, ...,K ,

Y(κ)i :=

1, Yi = κ,

−1, Yi 6= κ.

Berechne f(κ)n bzw. zugehorige Diskriminantenfunktionen δ

(κ)k , k = −1, 1

basierend auf (Xi , Y(κ)i ), i = 1, ..., n.

fn(x) := arg maxκ∈1,...,K

δ(κ)1 (x).

Fur x ∈ X wird die Klasse ausgewahlt, welche beim gleichzeitigen Vergleich mitallen anderen Klassen die hochste Diskriminantenfunktion besitzt.

Y(κ)i :=

1, Yi = κ,

−1, Yi 6= κ.

(κ)k , k = −1, 1

δ(κ)1 (x).

Y(κ)i :=

1, Yi = κ,

−1, Yi 6= κ.

(κ)k , k = −1, 1

δ(κ)1 (x).

Ermittlung von Algorithmen fn - Moglichkeit 1 /Risikoabschatzung

L(y , s) = 1y 6=s, X ⊂ Rd , Y = 1, ...,K

P(Y = k |X = x).

Fall K = 2 Klassen: Schreibe

f ∗(x) =

1, η(x) ≥ 1

2, η(x) < 12

, η(x) := P(Y = 1|X = x).

Annahme:

fn(x) =

1, η(x) ≥ 1

2, η(x) < 12

ER(fn)− R(f ∗) ≤ 2E|η(X )− η(X )|.

L(y , s) = 1y 6=s, X ⊂ Rd , Y = 1, ...,K

P(Y = k |X = x).

f ∗(x) =

1, η(x) ≥ 1

2, η(x) < 12

, η(x) := P(Y = 1|X = x).

Annahme:

fn(x) =

1, η(x) ≥ 1

2, η(x) < 12

ER(fn)− R(f ∗) ≤ 2E|η(X )− η(X )|.

L(y , s) = 1y 6=s, X ⊂ Rd , Y = 1, ...,K

P(Y = k |X = x).

f ∗(x) =

1, η(x) ≥ 1

2, η(x) < 12

, η(x) := P(Y = 1|X = x).

Annahme:

fn(x) =

1, η(x) ≥ 1

2, η(x) < 12

ER(fn)− R(f ∗) ≤ 2E|η(X )− η(X )|.

k∈1,...,KP(Y = k |X = x).

Fall K = 2 Klassen: Ist g die Dichte von X und ηk(x) := P(Y = k)gk(x), sogilt

f ∗(x) =

1, η(x) = η1(x)

η1(X )+η2(X ) ≥12 ,

2, η(x) < 12

Annahme:

fn(x) = arg maxk∈1,2

ηk(x) =

1, η(x) := η1(x)

η2(x)+η2(x) ≥12 ,

2, η(x) < 12

ER(fn)− R(f ∗) ≤ 22∑

E∣∣∣ ηk(X )

g(X )− ηk(X )

∣∣∣.

k∈1,...,KP(Y = k |X = x).

f ∗(x) =

1, η(x) = η1(x)

η1(X )+η2(X ) ≥12 ,

2, η(x) < 12

Annahme:

ηk(x) =

1, η(x) := η1(x)

η2(x)+η2(x) ≥12 ,

2, η(x) < 12

ER(fn)− R(f ∗) ≤ 22∑

E∣∣∣ ηk(X )

g(X )− ηk(X )

∣∣∣.

k∈1,...,KP(Y = k |X = x).

f ∗(x) =

1, η(x) = η1(x)

η1(X )+η2(X ) ≥12 ,

2, η(x) < 12

Annahme:

ηk(x) =

1, η(x) := η1(x)

η2(x)+η2(x) ≥12 ,

2, η(x) < 12

ER(fn)− R(f ∗) ≤ 22∑

E∣∣∣ ηk(X )

g(X )− ηk(X )

∣∣∣.Dr. Stefan Richter Maschinelles Lernen 29. 10. 2019 29 / 37

Ermittlung von Algorithmen - Moglichkeit 2

L(y , s) = 1y 6=s, X ⊂ Rd , Y = −1,+1Basisansatz: Mit geeigneter Klasse F ⊂ f : X → Y messbar:

fn ∈ arg minf∈F

Rn(f ), Rn(f ) =1

n∑i=1

L(Yi , f (Xi )) =1

n∑i=1

1Yi 6=f (Xi ).

Haufig: F ist graphisch motiviert. D.h. wir erwarten: Jedes f ∈ F liefertEntscheidungsrand der Form

∂Ω1 = x ∈ X : δ(x) = 0mit δ ∈ F = δ : X → R messbar.Es gilt der Zusammenhang

f (x) = sign(δ(x)), sign(z) :=

1, z ≥ 0,

−1, z < 0.

δ besitzt Interpretation als Diskriminantenfunktion von f : Mit δ1(x) := δ(x),δ−1(x) := 0 gilt:

f (x) = arg maxk∈−1,+1

δk(x).

fn ∈ arg minf∈F

Rn(f ), Rn(f ) =1

n∑i=1

L(Yi , f (Xi )) =1

n∑i=1

1Yi 6=f (Xi ).

∂Ω1 = x ∈ X : δ(x) = 0mit δ ∈ F = δ : X → R messbar.

Es gilt der Zusammenhang

1, z ≥ 0,

−1, z < 0.

δk(x).

fn ∈ arg minf∈F

Rn(f ), Rn(f ) =1

n∑i=1

L(Yi , f (Xi )) =1

n∑i=1

1Yi 6=f (Xi ).

∂Ω1 = x ∈ X : δ(x) = 0mit δ ∈ F = δ : X → R messbar.Beispiel: Lineare Entscheidungsrander

F = δ(x) = βT x + β0|β ∈ Rd , β0 ∈ R.

Es gilt der Zusammenhang

1, z ≥ 0,

−1, z < 0.

δk(x).

fn ∈ arg minf∈F

Rn(f ), Rn(f ) =1

n∑i=1

L(Yi , f (Xi )) =1

n∑i=1

1Yi 6=f (Xi ).

1, z ≥ 0,

−1, z < 0.

δk(x).

fn ∈ arg minf∈F

Rn(f ), Rn(f ) =1

n∑i=1

L(Yi , f (Xi )) =1

n∑i=1

1Yi 6=f (Xi ).

1, z ≥ 0,

−1, z < 0.

Anschaulich: δ ’erweitert’ den Wertebereich von f sinnvoll auf ganz R.

δk(x).

fn ∈ arg minf∈F

Rn(f ), Rn(f ) =1

n∑i=1

L(Yi , f (Xi )) =1

n∑i=1

1Yi 6=f (Xi ).

1, z ≥ 0,

−1, z < 0.

δk(x).

fn ∈ arg minf∈F

Rn(f ), Rn(f ) =1

n∑i=1

L(Yi , f (Xi )) =1

n∑i=1

1Yi 6=f (Xi ).!!!!!

1, z ≥ 0,

−1, z < 0.

δk(x).

fn ∈ arg minf∈F

Rn(f ), Rn(f ) =1

n∑i=1

1Yi 6=f (Xi ). (∗)

Schreibef (x) = sign(δ(x))

Aquivalente Darstellung von (*) (falls F = sign(δ) : δ ∈ F):

fn(x) = sign(δn(x)),

δn ∈ arg minδ∈F

Rn(δ), Rn(δ) :=1

n∑i=1

1Yi 6=sign(δ(Xi ))

L(y , s) = 1y 6=s = 1−ys≥0 =: L0(y , s)

fn ∈ arg minf∈F

Rn(f ), Rn(f ) =1

n∑i=1

1Yi 6=f (Xi ). (∗)

Rn(δ), Rn(δ) :=1

n∑i=1

1Yi 6=sign(δ(Xi ))

L(y , s) = 1y 6=s = 1−ys≥0 =: L0(y , s)

fn ∈ arg minf∈F

Rn(f ), Rn(f ) =1

n∑i=1

1Yi 6=f (Xi ). (∗)

Rn(δ), Rn(δ) :=1

n∑i=1

1Yi 6=sign(δ(Xi )) ≈1

n∑i=1

1Yi 6=δ(Xi )

L(y , s) = 1y 6=s = 1−ys≥0 =: L0(y , s)

fn ∈ arg minf∈F

Rn(f ), Rn(f ) =1

n∑i=1

1Yi 6=f (Xi ). (∗)

Rn(δ), Rn(δ) :=1

n∑i=1

1Yi 6=δ(Xi )

L(y , s) = 1y 6=s = 1−ys≥0 =: L0(y , s)

fn ∈ arg minf∈F

Rn(f ), Rn(f ) =1

n∑i=1

1Yi 6=f (Xi ). (∗)

Rn(δ), Rn(δ) :=1

n∑i=1

1−Yiδ(Xi )≥0

L(y , s) = 1y 6=s = 1−ys≥0 =: L0(y , s)

L(y , s) = 1y 6=s, X ⊂ Rd , Y = −1,+1, f (x) = sign(δ(x))

R0n (δ), R0

n (δ) :=1

n∑i=1

L0(Yi , δ(Xi )). (∗∗)

Approximiere L0 durch glatte, konvexe Funktion (Ziel: Bessere Losbarkeit desMinimierungsproblems in der Praxis und moglicherweise explizite Darstellungvon δn). Ublich: Mit φ : R→ [0,∞) konvex, monoton wachsend:

L0(y , s) = 1−ys≥0 ≈ φ(−ys) =: L(y , s).

Approximation von (**):

Rn(δ), Rn(δ) :=1

n∑i=1

L(Yi , δ(Xi )).

R0n (δ), R0

n (δ) :=1

n∑i=1

L0(Yi , δ(Xi )). (∗∗)

L0(y , s) = 1−ys≥0 ≈ φ(−ys) =: L(y , s).

Rn(δ), Rn(δ) :=1

n∑i=1

L(Yi , δ(Xi )).

R0n (δ), R0

n (δ) :=1

n∑i=1

L0(Yi , δ(Xi )). (∗∗)

L0(y , s) = 1−ys≥0 ≈ φ(−ys) =: L(y , s).

Rn(δ), Rn(δ) :=1

n∑i=1

L(Yi , δ(Xi )).

L(y , s) = 1y 6=s, X ⊂ Rd , Y = −1,+1, f (x) = sign(δ(x)), L(y , s) = φ(−ys)

Ermittlung von Algorithmen fn - Mgl. 2

fn(x) := sign(δn(x)), wobei

Rn(δ), Rn(δ) :=1

n∑i=1

L(Yi , δ(Xi )). (∗ ∗ ∗)

Aus (***) erwarten wir: δn ≈ δ∗, wobei

δ∗ :∈ argminδ∈F R(δ), R(δ) := EL(Y , δ(X )).

Falls f ∗ = sign(δ∗), folgt

fn = sign(δn)→ sign(δ∗)!

= f ∗.

Kalibrierungsbedingung

f ∗ = sign(δ∗)

Rn(δ), Rn(δ) :=1

n∑i=1

L(Yi , δ(Xi )). (∗ ∗ ∗)

Typische φ: φ(z) = (1− z)+, φ(z) = ez , φ(z) = log(1 + ez).

= f ∗.

f ∗ = sign(δ∗)

Rn(δ), Rn(δ) :=1

n∑i=1

L(Yi , δ(Xi )). (∗ ∗ ∗)

= f ∗.

f ∗ = sign(δ∗)

Rn(δ), Rn(δ) :=1

n∑i=1

L(Yi , δ(Xi )). (∗ ∗ ∗)

= f ∗.

f ∗ = sign(δ∗)

Rn(δ), Rn(δ) :=1

n∑i=1

L(Yi , δ(Xi )). (∗ ∗ ∗)

= f ∗.

f ∗ = sign(δ∗)

Ermittlung von Algorithmen - NachrechnenKalibrierungsbedingung

f ∗ = sign(δ∗), wobei δ∗ :∈ argminδ∈F R(δ), R(δ) := EL(Y , δ(X )).

Es gilt δ∗(x) = argminz∈RΦη(x)(z), wobei η(x) = P(Y = 1|X = x) und

Φη(z) := φ(−z)η + φ(z)(1− η).

Ermittlung von Algorithmen - NachrechnenKalibrierungsbedingung

f ∗ = sign(δ∗), wobei δ∗ :∈ argminδ∈F R(δ), R(δ) := EL(Y , δ(X )).

Es gilt δ∗(x) = argminz∈RΦη(x)(z), wobei η(x) = P(Y = 1|X = x) und

Φη(z) := φ(−z)η + φ(z)(1− η).

Ermittlung von Algorithmen - Risikoubertragung

Rn(δ), Rn(δ) :=1

n∑i=1

L(Yi , δ(Xi )). (∗ ∗ ∗)

Wollen: Aussage uber R(fn)− R(f ∗). Brauchen Formel, die den Term durchR(δn)− R(δ∗) abschatzt.

Risikoubertragungsformel

Es gebe eine Ungleichung, so dass fur jedes δ : X → R und f = sign(δ) gilt:

R(f )− R(f ∗) ≤ Term mit R(δ)− R(δ∗)

Ermittlung von Algorithmen - Risikoubertragung

Rn(δ), Rn(δ) :=1

n∑i=1

L(Yi , δ(Xi )). (∗ ∗ ∗)

Wollen: Aussage uber R(fn)− R(f ∗). Brauchen Formel, die den Term durchR(δn)− R(δ∗) abschatzt.

Ermittlung von Algorithmen - NachrechnenRisikoubertragung

Es gebe Konstanten c ≥ 0, s ≥ 1, so dass fur alle η ∈ [0, 1]:∣∣∣12− η∣∣∣s ≤ cs(1−H(η)), H(η) := min

z∈RΦη(z), Φη(z) := φ(−z)η+φ(z)(1− η).

Dann gilt fur alle δ : X → R und f = sign(δ):

R(f )− R(f ∗) ≤ 2c[R(δ)− R(δ∗)

Ermittlung von Algorithmen - NachrechnenRisikoubertragung

Es gebe Konstanten c ≥ 0, s ≥ 1, so dass fur alle η ∈ [0, 1]:∣∣∣12− η∣∣∣s ≤ cs(1−H(η)), H(η) := min

z∈RΦη(z), Φη(z) := φ(−z)η+φ(z)(1− η).

Dann gilt fur alle δ : X → R und f = sign(δ):

R(f )− R(f ∗) ≤ 2c[R(δ)− R(δ∗)

Das wars.

statistisches und maschinelles lernen - einführung › sml-ws2019 › ... · 2019-10-29 ·...

Documents