probabilistic graphical models · 2019. 1. 24. · vu 840.042 machine learning in der medizin...

VU 840.042 Machine Learning in der Medizin 1WS2018/19, 17.1.2018

Probabilistic Graphical Models

Machine Learning in der Medizin, VU 840.042

Bernhard Jung, [email protected]


Motivation

“Klassisches” Machine Learning

y = f(x)

Probabilistisches Machine Learning

p(y, x)


Wahrscheinlichkeitsrechnung

Bedingte Wahrscheinlichkeit

𝑝 𝑥, 𝑦 = 𝑝 𝑥 𝑦)𝑝(𝑦)

Kettenregel

𝑝 𝑥1, 𝑥2, … , 𝑥𝑛 = 𝑝 𝑥1 𝑝 𝑥2 𝑥1 𝑝 𝑥3 𝑥1, 𝑥2 …𝑝(𝑥𝑛|𝑥1, … , 𝑥𝑛−1)

Satz von Bayes

𝑝 𝑦 𝑥 =𝑝 𝑥 𝑦 𝑝(𝑦)

𝑝(𝑥)

Unabhängigkeit

𝑝(𝑥, 𝑦) = 𝑝 𝑥 𝑝(𝑦)

Bedingte Unabhängigkeit

𝑝 𝑥, 𝑦 𝑧 = 𝑝 𝑥 𝑧 𝑝(𝑦|𝑧)


Entscheidungstheorie

cpredicted = argmax𝑐𝑖∈ 𝐶

𝑝 𝑐𝑖 𝑥1, … , 𝑥𝑛

= argmax𝑐𝑖∈ 𝐶

𝑝 𝑥1, … , 𝑥𝑛 𝑐𝑖 𝑝(𝑐𝑖)𝑝(𝑥

1,…,𝑥𝑛)

= argmax𝑐𝑖∈ 𝐶

𝑝 𝑥1, … , 𝑥𝑛 𝑐𝑖 𝑝(𝑐𝑖)


Beispiel: SPAM

y … 0=no-spam, 1=no-spam

xi … 1/0 = Worti kommt in Text vor/nicht vor

Entscheidung ob Spam oder nicht Spam?

p(y=1|x1,...,xn)

“Größe” der Funktion p(y, x1,...,xn) ?

2n+1 verschiedene Werte

y

x1 x2 xn…


Bedingte Unabhängigkeit

P(xi,xj|y) = p(xi|y)p(xj|y)

Naïve Bayes

𝑝 𝑦, 𝑥1, … 𝑥𝑛 = 𝑝 𝑦 ෑ

𝑖=1

𝑛

𝑝 𝑥𝑖 𝑦)

Graphische Repräsentation


Probabilistic Graphical Models (PGM)

⚫ Kombination aus

⚫ Wahrscheinlichkeitstheorie, Entscheidungstheorie

⚫ Graphentheorie

⚫ Stellt allgemeine Frameworks zur Verfügung, subsumiert u.a.:

⚫ Kalman filters

⚫ Hidden Markov models

⚫ Ising models

⚫ Bolzmann Maschine

⚫ ...



D

G

I

S

L

A

C

BD


Anwendungsbereiche

Medizinische Diagnose

Fehleranalyse

Sprachverarbeitung

Spracherkennung

Verkehrsanalyse

Soziale Netzwerkanalyse

Nachrichtendekodierung

Computer Vision

Bildsegmentation

3D Rekonstruktion

Szenenanalyse

Roboter Lokalisierung

...


Beispiel: Bildsegmentierung


Beispiel: Sprachverarbeitung


Beispiel: Protein-Signaling Network


Themen bei PGMs

⚫ Repräsentation

⚫ Gerichtete, ungerichtete Modelle

⚫ Temporale Modelle

⚫ „Plate“ Modelle

⚫ Inferenz, Schlussfolgern

⚫ Art der Fragestellung

⚫ Exakt vs. Approximativ

⚫ Entscheidungsfindung

⚫ Lernen

⚫ Parameter vs. Struktur

⚫ Vollständige vs. Unvollständige Daten


2 Arten von PGMs

⚫ Bayesian networks(auch Belief networks oder kausale Netzwerke genannt)

⚫ Gerichtete graphische Modelle

⚫ Markov networks(auch Markov random fields (MRFs) genannt).

⚫ Ungerichtete graphische Modelle


Bayes Network

Gerichteter azyklischer Graph (directed acyclic graph – DAG)

⚫ Knoten von G sind Zufallsvariablen Xi

⚫ Kanten: direkter Einfluss von einem Knoten auf den anderen

⚫ Jeder Zufallsvariable Xiist eine bedingte

Wahrscheinlichkeitsverteilung (conditional probabilitydistribution – CPD) zugeordnet.

⚫ Die CPD für Xigegeben die Elternknoten (Pa

Xi) ist P(X

i| Pa

Xi).

⚫ Reduktion der Komplexität durch bedingte Unabhängigkeit

𝑝 𝑥1, … , 𝑥𝑥𝑛 = ෑ

𝑖=1

𝑛

𝑝(𝑥𝑖|𝑃𝑎𝑥𝑖)

⚫ O(dn) reduziert auf O(ndk) … k = max. Anzahl an Elternknoten


Bayes Network mit CPDs


Wahrscheinlichkeitsverteilung

I D G P(I,D,G)

i0 d0 g1 0.126

i0 d0 g2 0.168

i0 d0 g3 0.126

i0 d1 g1 0.009

i0 d1 g2 0.045

i0 d1 g3 0.126

i1 d0 g1 0.252

i1 d0 g2 0.0224

i1 d0 g3 0.0056

i1 d1 g1 0.06

i1 d1 g2 0.036

i1 d1 g3 0.024

D

G

I


Konditionierung auf g1

P(I,D,g1) I D G P(I,D,G)

i0 d0 g1 0.126

i0 d1 g1 0.009

i1 d0 g1 0.252

i1 d1 g1 0.06


Reduktion und Normalisierung

P(I,D,g1)→P(I,D|g1)

I D G P(I,D,g1)

i0 d0 g1 0.126

i0 d1 g1 0.009

i1 d0 g1 0.252

i1 d1 g1 0.06

0.447

I D P(I,D|g1)

i0 d0 0.282

i0 d1 0.02

i1 d0 0.564

i1 d1 0.134

1.000


Marginalisierung

P(I,D|g1)→P(I|g1)

I D P(I,D)

i0 d0 0.282

i0 d1 0.02

i1 d0 0.564

i1 d1 0.134

1.000

I P(I)

i0 0.282+0.02 = 0.302

i1 0.564+0.134 = 0.698

1.000


Darstellung von CPDs

⚫ Tabellarische CPDs

⚫ Baum-strukturierte CPDs

⚫ Lokale Wahrscheinlichkeitsmodelle

⚫ Logistische CPDs & Generalisierungen

⚫ Noisy OR / AND

⚫ Lineare Gauss Verteilungen & Generalisierungen

⚫ ...


Baum CPD

P( J | L, A, S)

L

J

SA A

L

(0.4, 0.6)

S

(0.9, 0.1)

(0.1, 0.9)

(0.8, 0.2)

a0 a1

s0 s1

l0 l1


Multiplexer CPD

A = {1,k} A = a ⇒Y = Za

P(Y | A, Z1, …, Z

k) = 1 ….. Y = Z

0 ….. ansonsten

Z1 Z

2Z

k

YA

. . .


Schlussfolgern in BN

⚫ Bestimmung der Wahrscheinlichkeit einer Variable P(Y | E = e)

⚫ Suche nach wahrscheinlichsten Erklärungmost probable explanation (MPE)

⚫ Bestimmung der Variablenbelegung zur Maximierung der a posteriori (MAP) Wahrscheinlichkeit

𝑝 𝑥𝑖 = σ𝑥1σ𝑥

2…σ𝑥

𝑛𝑝 𝑥1, … , 𝑥𝑛 … marginal inference

max𝑥1,…,𝑥𝑛

𝑝(𝑥1, , … 𝑥𝑖 = 𝑒𝑖 , 𝑥𝑗 = 𝑒𝑗 , … , 𝑥𝑛) maximum aposteriori inference

max𝑥1,…,𝑥𝑛

𝑝 𝑥1, … , 𝑥𝑛 𝐸) … most probable explanation


Schlussfolgern in BN

D

G

I

S

L

d0 d1

0.6 0.4

i0 i1

0.7 0.3

s0 s1

i0 0.95 0.05

i1 0.2 0.8

l0 l1

g1 0.1 0.9

g2 0.4 0.6

g3 0.99 0.01

g1 g2 g3

i0,d0 0.3 0.4 0.3

i0,d1 0.05 0.25 0.7

i1,d0 0.9 0.08 0.02

i1,d1 0.5 0.3 0.2


Kausalität

P(l1) ≈ 0.5

P(I1 | i0) ≈ 0.39

P(l1 | i0, d0) ≈ 0.51

D

G

I

S

L


Evidenz

P(d1) = 0.4

P(d1 | g3) ≈ 0.63

P(i1) = 0.3

P(i1 | g3) ≈ 0.08

D

G

I

S

L


Interkausalität

P(d1)=0.4

P(d1|g3)≈0.63

P(i1)=0.3

P(i1|g3)≈0.08

P(i1|g3,d1)≈0.11

D

G

I

S

L


Explaining away

P(x2=1 | y=1) = 2/3 vs.

P(x2=1 | y=1, x1=1) = 1/2

x1 x2 y P

0 0 0 0.25

0 1 1 0.25

1 0 1 0.25

1 1 1 0.25

x1 x

2

y


Interkausalität (2)

D

G

I

S

L


Flow of Influence

Verändert die Konditionierung auf X die Wahrscheinlichkeit von Y?

⚫ X → Y

⚫ X ← Y

⚫ X → W → Y

⚫ X ← W ← Y

⚫ X ← W → Y

⚫ X → W ← Y (v-structure)

ja

ja

ja

ja

ja

nein


Flow of Influence

Verändert die Konditionierung auf X die Wahrscheinlichkeit von Y, gegeben Evidenz Z?

Evidence Z W nicht in Z W in Z

⚫ X → W → Y

⚫ X ← W ← Y

⚫ X ← W → Y

⚫ X → W ← Y

ja nein

ja nein

ja nein

? ?

v-structure: ja, wenn W oder ein Nachkomme von W in Zansonsten nein


d-Separierbarkeit

d (=directed)-Separierbarkeit. Definition von aktiven Pfaden:

⚫ Kausaler Pfad X → Z → Y: aktiv ⇔ Z nicht beobachtet

⚫ Evidenz Pfad X ← Z ← Y : aktiv ⇔ Z nicht beobachtet

⚫ Gemeinsamer Ursache X ← Z → Y : aktiv ⇔ Z nicht beobachtet

⚫ Gemeinsamer Effekt X → Z ← Y : aktiv ⇔ Z oder einer seiner Nachkommen beobachtet


d-Separierbarkeit

Ein Pfad X1— ... —X

nist aktiv gegeben Evidenz E

⚫ Wenn für jede v-Struktur Xi−1

→ Xi← X

i+1entweder X

ioder ein

Nachkomme von Xiin E ist;

⚫ Kein anderer Knoten entlang des Pfades in E ist.

Für drei Mengen X, Y, Z von Knoten aus G gilt. X und Y sind d-separiert gegeben Z d-sep(X; Y | Z), wenn es keine aktiven Pfaden zwischen zwei Knoten x ∈ X und y ∈ Y gegeben Z gibt.

I(G)={(X⊥Y∣Z):X,Y sind d-sep gegeben Z} (Independence Map)

Wenn p über G faktorisiert, dann gilt I(G)⊆I(p)


Konstruktion von BN

Jeder vollständig vernetzte Graph repräsentiert P, weil I(G)=∅

und damit auch I(G)⊆I(p)

Existiert immer in ein perfekter Graph mit I(p) = I(G)?

Nein, vgl. noisy XOR Problem.

Sind perfekte Graphen eindeutig, wenn sie existieren?

Nein, vgl. X → Y und X ← Y

Zwei equivalente Betrachtungsweisen der Graphenstruktur

⚫ Faktorisierung: G ermöglicht die Representation von P

⚫ I-map: In G kodierte Unabhängigkeiten halten in P


Lernen

Mehrere Lernansätze

• Maximal likelihood estimation (MLE)

• Bayesian estimation

• Maximal conditional likelihood

• Maximal "Margin“

• Maximum entropy

Lernen von

• Struktur (Structural Search)

• Parametern


Parameterlernen unter MLE

Annahme: die Parameter für alle CPDs sind unabhängig

-> log likelihood wird zur Summe über Terme, lokal für jeden Knoten


Faktoren

Faktor Φ(X1,...X

n)

Funktion Φ : Val(X1,...X

n) → R

Scope = {X1,...X

n}

⚫ Jede JPD und CPD ist ein Faktor

⚫ Unnormalisierte Funktion P(I,D,g1) ist Faktor über {I,D}

I D P(I,D,g1)

i0 d0 g1 0.126

i0 d1 g1 0.009

i1 d0 g1 0.252

i1 d1 g1 0.06

0.447


Allgemeine Faktoren

A B Φ

a0 b0 30

a0 b1 5

a1 b0 1

a1 b1 30


Faktor Produkt

A B Φ(A,B)

a0 b0 0.5

a0 b1 0.8

a1 b0 0.1

a1 b1 0

a2 b0 0.3

a2 b1 0.9

B C Φ(B,C)

b0 c0 0.5

b0 c1 0.7

b1 c0 0.1

b1 c1 0.2

A B C Φ(A,B,C)

a0 b0 c0 0.5*0.5=0.25

a0 b0 c1 0.5*0.7=0.35

a0 b1 c0 0.8*0.1=0.08

a0 b1 c1 0.8*0.2=0.16

a1 b0 c0 0.1*0.5=0.05

a1 b0 c1 0.1*0.7=0.07

a1 b1 c0 0*0.1=0

a1 b1 c1 0*0.2=0

a2 b0 c0 0.3*0.5=0.15

a2 b0 c1 0.3*0.7=0.21

a2 b1 c0 0.9*0.1=0.09

a2 b1 c1 0.9*0.2=0.18


Faktor Marginalisierung

A B C Φ(A,B,C)

a0 b0 c0 0.25

a0 b0 c1 0.35

a0 b1 c0 0.08

a0 b1 c1 0.16

a1 b0 c0 0.05

a1 b0 c1 0.07

a1 b1 c0 0

a1 b1 c1 0

a2 b0 c0 0.15

a2 b0 c1 0.21

a2 b1 c0 0.09

a2 b1 c1 0.18

A C Φ(A,C)

a0 c0 0.33

a0 c1 0.51

a1 c0 0.05

a1 c1 0.07

a2 c0 0.3

a2 c1 0.9


Faktor Reduktion

A B C Φ(A,B,C)

a0 b0 c0 0.25

a0 b0 c1 0.35

a0 b1 c0 0.08

a0 b1 c1 0.16

a1 b0 c0 0.05

a1 b0 c1 0.07

a1 b1 c0 0

a1 b1 c1 0

a2 b0 c0 0.15

a2 b0 c1 0.21

a2 b1 c0 0.09

a2 b1 c1 0.18

A B C Φ(A,B)

a0 b0 c0 0.25

a0 b1 c0 0.08

a1 b0 c0 0.05

a1 b1 c0 0

a2 b0 c0 0.15

a2 b1 c0 0.09


Warum Faktoren?

⚫ Grundlegende Bestandteile zur Definition von Wahrscheinlichkeitsverteilungen

⚫ Menge von grundlegenden Operationen zur Manipulation der Wahrscheinlichkeitsverteilungen


Markov Field

auch Markov Network oder Markov Random Field genannt.

Graph ähnlich Bayes'sche Netzwerk, aber mit ungerichteten Kanten, die eine Form von probabilistischer Interaktion zwischen benachbarten Variablen darstellen.


Pairwise Markov Network

Ein paarweises Markov Netzwerk ist ein ungerichteter Graph, dessen Knoten die Zufallsvariablen X

1, …, X

nsind und jede Kante X

i-

Xjist mit einem Faktor Φ(X

i,X

j) versehen



A

C

BD

D A Φ(D,A)

d0 a0 100

d0 a1 1

d1 a0 1

d1 a1 100

A B Φ(A,B)

a0 b0 30

a0 b1 5

a1 b0 1

a1 b1 10

B C Φ(B,C)

b0 c0 100

b0 c1 1

b1 c0 1

b1 c1 100

C D Φ(C,D)

c0 d0 1

c0 d1 100

c1 d0 100

c1 d1 1

Affinität

Kompatabilität

Soft Constraint



PΦ (A,B,C,D) = Φ1(A,B) x Φ

2(B,C) x Φ

3(C,D) x Φ

4(A,D) …. unnormalized measure

P(A,B,C,D) =(1 / Z) * PΦ (A,B,C,D) Z … partition function

a0 b0 c0 d0 300000

a0 b0 c0 d1 300000

a0 b0 c1 d0 300000

a0 b0 c1 d1 30

a0 b1 c0 d0 500

a0 b1 c0 d1 500

a0 b1 c1 d0 5000000

a0 b1 c1 d1 500

a1 b0 c0 d0 100

a1 b0 c0 d1 1000000

a1 b0 c1 d0 100

a1 b0 c1 d1 100

a1 b1 c0 d0 10

a1 b1 c0 d1 100000

a1 b1 c1 d0 100000

a1 b1 c1 d1 100000



P(A, B)

A B Prob

a0 b0 0.13

a0 b1 0.69

a1 b0 0.14

a1 b1 0.04

A

C

BD

D A Φ(D,A)

d0 a0 100

d0 a1 1

d1 a0 1

d1 a1 100

A B Φ(A,B)

a0 b0 30

a0 b1 5

a1 b0 1

a1 b1 10

B C Φ(B,C)

b0 c0 100

b0 c1 1

b1 c0 1

b1 c1 100

C D Φ(C,D)

c0 d0 1

c0 d1 100

c1 d0 100

c1 d1 1


Markov Network

𝑝 𝑥1, … , 𝑥𝑛 =1

𝑍ෑ

𝑐∈𝐶

𝜙𝑐(𝑥𝑐)

C … Menge der Cliquen im Graph

Normalisierungsfaktor, Partition Function

𝑍 =

𝑥1,…,𝑥𝑛

ෑ

𝑐∈𝐶

𝜙𝑐(𝑥𝑐)

Netzwerk HΦ

hat eine Kante Xi-X

j,wenn ein Φ

mexistiert für das gilt

xi, x

j∈D

m


Faktorisierung

P faktorisiert über H wenn ein Φ existiert mit

Φ = {Φ1(D

1), …, Φ

k(D

k)}

so dass gilt: P = 1/Z * PΦ


Variante: Conditional Random Fields


Unabhängigkeit in MRF

X⊥({X1,…,Xn}−{X}−U) ∣ U

U = Markov blanket

Minimale Menge an Knoten, deren Beobachtung X unabhängig von allen anderen Knoten macht


Lernen in MRF

Aufwendig, weil Z ist im Normalfall immer über alle Variablen zuberechnen(Ausnahme: Subgraphen sind maximale Cliquen)

Üblicherweise in der Praxis:Approximative Algorithmen, Inferenz mittels Sampling


Zusammenfassung

⚫ Φ repräsentiert Verteilungen als Produkt von Faktoren.Normalisiert mit der Partitionfunktion Z als Wahrscheinlichkeit interpretierbar

⚫ Das erzeugte Markov Netzwerk verbindet Paare von Knoten, die im selben Faktor sind

⚫ Die Markov Netzwerkstruktur spezifiziert nicht eindeutig die Faktorisierung von P


MRF vs. BN

Vorteile

MRFs können auf eine breitere Klasse von Problemen angewendetwerden, bei denen keine natürliche Richtung von Abhängigkeiten zwischen Variablen existiert.

MRFs können bestimmte Abhängigkeiten sehr prägnant abbilden, die BN nicht so einfach abbilden können, wobei das Gegenteilauch gilt.


BN vs. MRF

Nachteile

Berechnung der Normalisierungkonstante Z (Partitionfunktion) erfordert die Summation über eine potentiell exponentielleAnzahl an Variablenbelegungen. Im Allgemeinen Fall ist dieses Problem NP hart.In der Praxis sind viele ungerichtete Modelle exakt unlösbar und werden mit Approximationsverfahren gelöst.

Ungerichtete Modelle sind schwieriger zu interpretieren.

Zur Datengenerierung eignet sich ein BN mehr als ein MRF.


BN - MRF Konvertierung?


BN -> MRF


PGMs in der Medizin

Pathfinder Project, Heckerman D., et al. (1992-)

Elvira project http://www.ia.uned.es/~elvira/index-en.html

A Bayesian Network Model for Diagnosis of Liver Disorders. Agnieszka Onisko, Marek J. Druzdzel, and Hanna Wasyluk, 1999.

Inferring Cellular Networks Using Probabilistic Graphical Models. Nir Friedman. Science 06 Feb 2004. 2004.

http://www.ia.uned.es/~elvira/index-en.html


Weiterführende Materialen

Coursera Kurs, Daphne Koller

https://www.coursera.org/learn/probabilistic-graphical-models

Probabilistic Graphical Models: Principles and Techniques

Book by Daphne Koller and Nir Friedman

R-package bnlearn

https://www.coursera.org/learn/probabilistic-graphical-models

probabilistic graphical models · 2019. 1. 24. · vu 840.042 machine learning in der medizin...

Documents