maschinelles lernen zur modellbildung in den ... · geomatik kolloquium - niels landwehr 23...

47
Geomatik Kolloquium - Niels Landwehr 1 Maschinelles Lernen zur Modellbildung in den Naturwissenschaften Niels Landwehr Institut für Informatik, Universität Potsdam

Upload: duongnga

Post on 13-Aug-2019

223 views

Category:

Documents


0 download

TRANSCRIPT

Geomatik Kolloquium - Niels Landwehr 1

Maschinelles Lernen zur Modellbildung in den Naturwissenschaften

Niels Landwehr

Institut für Informatik, Universität Potsdam

Geomatik Kolloquium - Niels Landwehr 2

Vorstellung Forschungsgruppe

• Nachwuchsgruppe „Machine Learning and Scientific Data Analysis“

– Emmy Noether-Programm der DFG, seit Februar 2013

– Forschungsprogramm: Fragestellungen des maschinellen Lernens im Zusammenhang mit naturwissenschaftlicher Modellbildung

– Kooperation mit Wissenschaftlern aus der Geophysik (AG Frank Scherbaum) und der kognitiven Psychologie (AG Reinhold Kliegl)

– Angegliedert an die Arbeitsgruppe „Maschinelles Lernen“ (Tobias Scheffer), Institut für Informatik, Universität Potsdam

• Heute: Überblick über Forschungsprogramm und Vorarbeiten

Geomatik Kolloquium - Niels Landwehr 3

Modellbildung aus Beobachtungsdaten

Beobachtung

Natürliches Phänomen: Erdbeben

Modell

Daten

Geomatik Kolloquium - Niels Landwehr 4

Modellbildung aus Beobachtungsdaten

Beobachtung

Natürliches Phänomen: Erdbeben

Modell

Daten

Installation von Beschleunigungssensoren.

Geomatik Kolloquium - Niels Landwehr 5

Modellbildung aus Beobachtungsdaten

Beobachtung

Natürliches Phänomen: Erdbeben

Modell

Daten

Lernen eines Vorhersagemodells:

Bodenbeschleunigung Magnitude, Entfernung zum Epizentrum, Herdmechanismus, …

Geomatik Kolloquium - Niels Landwehr 6

Modellbildung aus Beobachtungsdaten

Beobachtung

Natürliches Phänomen: Erdbeben

Modell

Daten

• Einsicht in natürliche Prozesse.

• Vorhersagen lokaler Bodenbeschleunigung:

seismische Risikoanalyse, Auslegung von Gebäuden.

Geomatik Kolloquium - Niels Landwehr 7

Modellbildung aus Experimentaldaten

Beobachtung

Modell

Daten Natürliches Phänomen: Blickbewegungen

Aufnahme der Blickbewegung im Labor.

Geomatik Kolloquium - Niels Landwehr 8

Modellbildung aus Experimentaldaten

Beobachtung

Modell

Daten Natürliches Phänomen: Blickbewegungen

Lernen eines Vorhersagemodells:

Blickbewegung Syntax und Semantik des Textes

Geomatik Kolloquium - Niels Landwehr 9

Modellbildung aus Experimentaldaten

Beobachtung

Modell

Daten Natürliches Phänomen: Blickbewegungen

• Blickbewegungen zentrales Forschungsobjekt zum Verständnis des Zusammenspiels von Kognition und Motorsteuerung.

• Biometrische Anwendungen.

Geomatik Kolloquium - Niels Landwehr 10

Maschinelles Lernen

• Maschinelles Lernen: Schätzen von Vorhersagemodellen aus Beobachtungen

+ + + + +

+ + +

Beobachtungen Vorhersage

+

?

Geomatik Kolloquium - Niels Landwehr 11

Maschinelles Lernen

• Maschinelles Lernen: Schätzen von Vorhersagemodellen aus Beobachtungen

+ + + + +

+ + +

Beobachtungen Vorhersage

+

?

( ), n nyx

Abhängige Variable: Bodenbeschleunigung

1 1( ), yx

2 2( ), yx

...

Unabhängige Variablen: beschreiben Erdbeben

Geomatik Kolloquium - Niels Landwehr 12

Maschinelles Lernen

• Maschinelles Lernen: Schätzen von Vorhersagemodellen aus Beobachtungen

+ + + + +

+ + +

Beobachtungen Vorhersage

+

?

( ), n nyx

1 1( ), yx

2 2( ), yx

...

:f

Vorhersagemodell

Parametervektor

Unabhängige Variablen: beschreiben Erdbeben

Abhängige Variable: Bodenbeschleunigung

Geomatik Kolloquium - Niels Landwehr 13

Maschinelles Lernen

• Maschinelles Lernen: Schätzen von Vorhersagemodellen aus Beobachtungen

+ + + + +

+ + +

Beobachtungen Vorhersage

+

?

( ), n nyx

1 1( ), yx

2 2( ), yx

...

:f yxf

Neues Erdbeben Vorhersage

Vorhersagemodell

Parametervektor

Unabhängige Variablen: beschreiben Erdbeben

Abhängige Variable: Bodenbeschleunigung

Geomatik Kolloquium - Niels Landwehr 14

Maschinelles Lernen: Modellinferenz

• Zentraler Schritt: Inferenz eines geeigneten Modells gegeben Daten

• Viele Modellklassen und Verfahren

– Probabilistische Modelle mit max likelihood /max aposteriori / Bayes‘scher Inferenz

– parametrische / nichtparametrische (kernelisierte) Modelle

• Lösen eines Optimierungsproblems

– Suchproblem über komplexen Raum möglicher Modelle

– Algorithmisch aufwendig

– Approximative numerische Verfahren

Geomatik Kolloquium - Niels Landwehr 15

Modellbildung: statistische Annahmen

• I.I.D. Annahme:

– Alle Datenpunkte folgen einer einheitlichen Verteilung .

– Datenpunkte sind unabhängige Stichproben aus .

Beobachtung

Natürliches Phänomen: Erdbeben

Daten

Geomatik Kolloquium - Niels Landwehr 16

Abhängige Datenpunkte

• Abhängige Datenpunkte: Verschiedene Sensoren registrieren dasselbe Ereignis (beispielsweise verschiedene Messstationen eine seismische Welle).

Widerspruch zur Unabhängigkeitsannahme.

Beobachtung

Natürliches Phänomen: Erdbeben

Daten

+ +

Geomatik Kolloquium - Niels Landwehr 17

Abhängige Datenpunkte

• Nicht berücksichtigte Datenabhängigkeiten führen zu einer Unterschätzung der nach der Modellbildung verbleibenden Unsicherheit.

• Falsche Schlussfolgerungen: beispielsweise Unterschätzung der Wahrscheinlichkeit extremer Ereignisse.

A-posteriori Verteilung über Modellparameter Seismische Risikoanalyse

Risiko

Geomatik Kolloquium - Niels Landwehr 18

Natürliches Phänomen: Erdbeben

Verteilungsverschiebungen

• Verteilungsverschiebungen: Verteilung der Daten abhängig vom Ort der Messung (Aufnahme seismischer Daten in unterschiedlichen Regionen).

Widerspruch zur Annahme einer einheitlichen Datenverteilung.

Beobachtung

Daten

+ +

Geomatik Kolloquium - Niels Landwehr 19

• Bildung von Modellen für seismisches Risiko in Deutschland:

– In Deutschland stehen nur Beobachtungen niedriger Intensität zur Verfügung.

– Extrapolation zu Erdbeben höherer Intensität mit Daten aus anderen Regionen.

• Verteilungsunterschiede können zu falschen Vorhersagen führen.

Verteilungsverschiebungen

+ +

+ + +

+

+ +

+

+ + +

+ + +

+

+

Magnitude

P

GA

Geomatik Kolloquium - Niels Landwehr 20

Übersicht

• Einleitung & Motivation

• Lernen unter Datenabhängigkeiten

• Lernen unter Verteilungsverschiebungen

• Modellevaluierung

Geomatik Kolloquium - Niels Landwehr 21

Abhängigkeiten: Stand der Forschung

• Stand der Forschung zur Modellierung abhängiger Daten: Mixed Models.

• Bei der Parameterschätzung wird über die versteckten Variablen integriert

(seismische Welle) (Messung)

Einfluss des gemeinsamen Faktors, beispielsweise seismischer Welle: versteckte Variable.

Geomatik Kolloquium - Niels Landwehr 22

Abhängigkeiten: Ziele

• Mixed Models nur bekannt für einfache Ausgabevariablen, in Anwendungen ist Ausgabevariable aber oft komplex strukturiert.

• Ziel: Modelle für komplexe Ausgaben unter Datenabhängigkeiten.

• Aufwendige Optimierungsprobleme bei Modellbildung und Vorhersage.

Seismisches Modell:

Eingabe: Attribute des Erdbebens

Ausgabe: Antwortspektrum (Intensität über Frequenz)

Geomatik Kolloquium - Niels Landwehr 23

Abhängigkeiten: Ziele

• Mixed Models nur bekannt für einfache Ausgabevariablen, in Anwendungen ist Ausgabevariable aber oft komplex strukturiert.

• Ziel: Modelle für komplexe Ausgaben unter Datenabhängigkeiten.

• Aufwendige Optimierungsprobleme bei Modellbildung und Vorhersage.

Blickbewegungsmodell:

Eingabe: Text Ausgabe: Blickbewegung

LONDON. Um eine Operation für seine erkrank-

te kleine Tochter zahlen zu können, bot ein Brite

seine Niere im Internet zur Versteigerung an. Der

verzweifelte Vater offeriert sein Organ im Rah-

men einer Online-Auktion. Er hoffte auf einen Erlös

von 100.000 Pfund, wie eine englische Zeitung be-

richtete.

Geomatik Kolloquium - Niels Landwehr 24

• Ziel: gemeinsame Modelle von Blickbewegungen, Textinhalt und Attributen des Lesers.

Blickbewegungsmodelle

LONDON. Um eine Operation für seine erkrank-

te kleine Tochter zahlen zu können, bot ein Brite

seine Niere im Internet zur Versteigerung an. Der

verzweifelte Vater offeriert sein Organ im Rah-

men einer Online-Auktion. Er hoffte auf einen Erlös

von 100.000 Pfund, wie eine englische Zeitung be-

richtete.

Geomatik Kolloquium - Niels Landwehr 25

Blickbewegungsmodelle

• Ziel: gemeinsame Modelle von Blickbewegungen, Textinhalt und Attributen des Lesers.

• Vorhersage der Blickbewegung (Psychologie).

Geomatik Kolloquium - Niels Landwehr 26

Blickbewegungsmodelle

• Ziel: gemeinsame Modelle von Blickbewegungen, Textinhalt und Attributen des Lesers.

• Rückschlüsse auf die Identität des Lesers (Biometrie).

• Inferenz von Eigenschaften des Lesers: Muttersprache, Alter, Kompetenz (Textpersonalisierung, Kompetenztests).

Geomatik Kolloquium - Niels Landwehr 27

Blickbewegungsmodelle

• Ziel: gemeinsame Modelle von Blickbewegungen, Textinhalt und Attributen des Lesers.

• Rückschluss auf die Lesbarkeit von Texten, durch Vorhersage der zu erwartenden Blickbewegungen (Werkzeuge zur Textanalyse).

LONDON. Um eine Operation für seine erkrank-

te kleine Tochter zahlen zu können, bot ein Brite

seine Niere im Internet zur Versteigerung an. Der

verzweifelte Vater offeriert sein Organ im Rah-

men einer Online-Auktion. Er hoffte auf einen Erlös

von 100.000 Pfund, wie eine englische Zeitung be-

richtete.

Geomatik Kolloquium - Niels Landwehr 28

Übersicht

• Einleitung & Motivation

• Lernen unter Datenabhängigkeiten

• Lernen unter Verteilungsverschiebungen

• Modellevaluierung

Geomatik Kolloquium - Niels Landwehr 29

• Messungen an unterschiedlichen Orten: Verteilungsverschiebungen.

• Standardansatz: Verteilungsunterschiede ignorieren und Daten poolen.

• Transferlernen: Verteilungsunterschiede zwischen Teilmengen der Daten korrigieren.

Transferlernen

+ +

Geomatik Kolloquium - Niels Landwehr 30

• Vorstudie zum Transferlernen, mit AG Frank Scherbaum, Geophysik.

• Ansatz der Verteilungskorrektur [Bickel, Sawade, Scheffer; 2008]

– Annahme: jeweils einheitliche Verteilung für Daten aus Kalifornien, Japan.

– Explizites Modell des Verteilungsunterschieds aus Daten lernen.

+ +

Transferlernen: Vorstudie

Verteilung Kalifornien

Verteilung Japan + + +

+ + + +

Geomatik Kolloquium - Niels Landwehr 31

Erdbebendaten Japan/Kalifornien

• Bodenbeschleunigungsdaten aus Kalifornien (841) und aus Japan (3542)

• Ziel: Modell für Kalifornien („Zielverteilung“/“Zieldaten“)

• Zusätzlich können Daten aus Japan verwendet werden („Hilfsdaten“)

Leicht unterschiedliche Verteilung über Daten aus Kalifornien und Japan

Geomatik Kolloquium - Niels Landwehr 32

Vergleich “Nur Zieldaten”, “Pooling”

• Baseline 1: “Nur Zieldaten” (ignoriert Hilfsdaten)

• Baseline 2: “Pooling” (ignoriert Verteilungsunterschied)

Fehler in Abhängigkeit der zum Training verfügbaren Zieldaten: Bias vs Varianz

Nur Zieldaten Pooling

Menge verfügbarer Zieldaten

Geomatik Kolloquium - Niels Landwehr 33

Verteilungskorrektur

• Transferlernen (Verteilungskorrektur)

• Idee: Umgewichten der Daten, so dass zu korrigiert wird.

Zieldaten (Kalifornien , ) ~): ( ( , | 1)y p y t x x

( , | 1)p y t x

Hilfsdaten (Japan): ( (, ) ~ , | 0)y p y t x x

( , | 0)p y t x

Geomatik Kolloquium - Niels Landwehr 34

Verteilungskorrektur

• Verteilungskorrektur formal – Pool folgt Mischverteilung

– Wir hätten gerne alle Daten aus Zielverteilung

– Daten umgewichten mit

• Umgewichtungsfaktoren mit Modell schätzen

Anteil Zieldaten Hilfsdaten Anteil HilZieldaten fsdaten

, ) , | 1) ( 1) , | 0) ( )( ( ( 0p y p y t p t p y t p t x x x

, | )( 1p y t x

, | 1), )

(

((

, )r

p y ty

p y

x

xx

, | 1) 1| , ) (( , ), ) 1| , )

( , ) ( , ) (

(r (

1(

)

p y t p t y p yy p t y

p y p y p t

x x xx x

xx

Diskriminatives Modell: Zieldaten gegen Hilfsdaten

(hier: logistische Regression, Poly-Kernel)

Geomatik Kolloquium - Niels Landwehr 35

Ergebnisse: Testfehler

• Vergleich “Nur Zieldaten”, “Pooling”, und “Transferlernen”

Nur Zieldaten Pooling Transferlernen

Menge verfügbarer Zieldaten

Geomatik Kolloquium - Niels Landwehr 36

• Aufteilung in Teilmengen Vereinfachung: Verteilung ändert sich kontinuierlich mit dem Ort der Messung.

• Ziel: Modelle, die eine kontinuierliche Verteilungsänderung abbilden.

Transferlernen: Ziele

+

+

+

+

+

+

+

+

Vorhersage für Standort: Aufwendige Inferenzprobleme, approximative Inferenzalgorithmen.

Geomatik Kolloquium - Niels Landwehr 37

• Aufteilung in Teilmengen Vereinfachung: Verteilung ändert sich kontinuierlich mit dem Ort der Messung.

• Ziel: Modelle, die geophysikalisches Vorwissen berücksichtigen.

Transferlernen: Ziele

+

+

+

+

+

+

+

+ Bekannte seismische Bruchlinie: stärkere Verteilungsänderung erwartet.

Geomatik Kolloquium - Niels Landwehr 38

Übersicht

• Einleitung & Motivation

• Lernen unter Datenabhängigkeiten

• Lernen unter Verteilungsverschiebungen

• Modellevaluierung

Geomatik Kolloquium - Niels Landwehr 39

Evaluierung: Abhängigkeiten

• Existierende Evaluierungsverfahren basieren auf der Annahme unabhängiger und einheitlich verteilter Beobachtungen.

+

Modell

Trainingsmenge

Testmenge

Lernen

Evaluieren

Geomatik Kolloquium - Niels Landwehr 40

Modell

Evaluierung: Abhängigkeiten

• Abhängige Datenpunkte verfälschen das Ergebnis bekannter Evaluierungs- verfahren in verschiedener Weise.

+ +

Lernen

Evaluieren

Trainingsmenge

Testmenge

Geomatik Kolloquium - Niels Landwehr 41

Modell

Evaluierung: Abhängigkeiten

+ +

• Abhängige Datenpunkte verfälschen das Ergebnis bekannter Evaluierungs- verfahren in verschiedener Weise.

Lernen

Evaluieren

Trainingsmenge

Testmenge

Abhängigkeiten zwischen Trainings- und Testdatenpunkten: optimistische Schätzungen der Vorhersagequalität.

Geomatik Kolloquium - Niels Landwehr 42

Modell

Evaluierung: Abhängigkeiten

• Abhängige Datenpunkte verfälschen das Ergebnis bekannter Evaluierungs- verfahren in verschiedener Weise.

+ +

Lernen

Evaluieren

Trainingsmenge

Testmenge

Abhängigkeiten zwischen Testbeobachtungen: Unterschätzung der nach der Evaluierung verbleibenden Unsicherheit. [

]

Geomatik Kolloquium - Niels Landwehr 43

Evaluierung: Verteilungsverschiebungen

Beobachtung

Modell

Daten Blickbewegungen: Studenten

Geomatik Kolloquium - Niels Landwehr 44

Beobachtung

Evaluierung: Verteilungsverschiebungen

Modell

Daten Blickbewegungen: Studenten

Beschreibung, Vorhersage

Blickbewegungen: Gesamtbevölkerung

Wie gut beschreibt das mit studentischen Probanden gelernte Modell die Blickbewegungen der Gesamtbevölkerung?

Geomatik Kolloquium - Niels Landwehr 45

Übersicht

• Einleitung & Motivation

• Lernen unter Datenabhängigkeiten

• Lernen unter Verteilungsverschiebungen

• Modellevaluierung

Geomatik Kolloquium - Niels Landwehr 46

Zusammenfassung

• Maschinelles Lernen zur Modellbildung aus Beobachtungsdaten in den Naturwissenschaften.

• Besondere Verteilungseigenschaften, insbesondere Abhängigkeiten und Verteilungsverschiebungen.

• Zusammenarbeit mit Arbeitsgruppen aus der Geophysik und der kognitiven Psychologie.

Geomatik Kolloquium - Niels Landwehr 47