probabilistic graphical models · 2019. 1. 24. · vu 840.042 machine learning in der medizin...
TRANSCRIPT
VU 840.042 Machine Learning in der Medizin 1WS2018/19, 17.1.2018
Probabilistic Graphical Models
Machine Learning in der Medizin, VU 840.042
Bernhard Jung, [email protected]
VU 840.042 Machine Learning in der Medizin 2WS2018/19, 17.1.2018
Motivation
“Klassisches” Machine Learning
y = f(x)
Probabilistisches Machine Learning
p(y, x)
VU 840.042 Machine Learning in der Medizin 3WS2018/19, 17.1.2018
Wahrscheinlichkeitsrechnung
Bedingte Wahrscheinlichkeit
𝑝 𝑥, 𝑦 = 𝑝 𝑥 𝑦)𝑝(𝑦)
Kettenregel
𝑝 𝑥1, 𝑥2, … , 𝑥𝑛 = 𝑝 𝑥1 𝑝 𝑥2 𝑥1 𝑝 𝑥3 𝑥1, 𝑥2 …𝑝(𝑥𝑛|𝑥1, … , 𝑥𝑛−1)
Satz von Bayes
𝑝 𝑦 𝑥 =𝑝 𝑥 𝑦 𝑝(𝑦)
𝑝(𝑥)
Unabhängigkeit
𝑝(𝑥, 𝑦) = 𝑝 𝑥 𝑝(𝑦)
Bedingte Unabhängigkeit
𝑝 𝑥, 𝑦 𝑧 = 𝑝 𝑥 𝑧 𝑝(𝑦|𝑧)
VU 840.042 Machine Learning in der Medizin 4WS2018/19, 17.1.2018
Entscheidungstheorie
cpredicted = argmax𝑐𝑖∈ 𝐶
𝑝 𝑐𝑖 𝑥1, … , 𝑥𝑛
= argmax𝑐𝑖∈ 𝐶
𝑝 𝑥1, … , 𝑥𝑛 𝑐𝑖 𝑝(𝑐𝑖)𝑝(𝑥
1,…,𝑥𝑛)
= argmax𝑐𝑖∈ 𝐶
𝑝 𝑥1, … , 𝑥𝑛 𝑐𝑖 𝑝(𝑐𝑖)
VU 840.042 Machine Learning in der Medizin 5WS2018/19, 17.1.2018
Beispiel: SPAM
y … 0=no-spam, 1=no-spam
xi … 1/0 = Worti kommt in Text vor/nicht vor
Entscheidung ob Spam oder nicht Spam?
p(y=1|x1,...,xn)
“Größe” der Funktion p(y, x1,...,xn) ?
2n+1 verschiedene Werte
y
x1 x2 xn…
VU 840.042 Machine Learning in der Medizin 6WS2018/19, 17.1.2018
Bedingte Unabhängigkeit
P(xi,xj|y) = p(xi|y)p(xj|y)
Naïve Bayes
𝑝 𝑦, 𝑥1, … 𝑥𝑛 = 𝑝 𝑦 ෑ
𝑖=1
𝑛
𝑝 𝑥𝑖 𝑦)
Graphische Repräsentation
VU 840.042 Machine Learning in der Medizin 7WS2018/19, 17.1.2018
Probabilistic Graphical Models (PGM)
⚫ Kombination aus
⚫ Wahrscheinlichkeitstheorie, Entscheidungstheorie
⚫ Graphentheorie
⚫ Stellt allgemeine Frameworks zur Verfügung, subsumiert u.a.:
⚫ Kalman filters
⚫ Hidden Markov models
⚫ Ising models
⚫ Bolzmann Maschine
⚫ ...
VU 840.042 Machine Learning in der Medizin 8WS2018/19, 17.1.2018
Probabilistic Graphical Models (PGM)
VU 840.042 Machine Learning in der Medizin 9WS2018/19, 17.1.2018
Probabilistic Graphical Models (PGM)
VU 840.042 Machine Learning in der Medizin 10WS2018/19, 17.1.2018
Probabilistic Graphical Models (PGM)
D
G
I
S
L
A
C
BD
VU 840.042 Machine Learning in der Medizin 11WS2018/19, 17.1.2018
Anwendungsbereiche
Medizinische Diagnose
Fehleranalyse
Sprachverarbeitung
Spracherkennung
Verkehrsanalyse
Soziale Netzwerkanalyse
Nachrichtendekodierung
Computer Vision
Bildsegmentation
3D Rekonstruktion
Szenenanalyse
Roboter Lokalisierung
...
VU 840.042 Machine Learning in der Medizin 12WS2018/19, 17.1.2018
Beispiel: Bildsegmentierung
VU 840.042 Machine Learning in der Medizin 13WS2018/19, 17.1.2018
Beispiel: Sprachverarbeitung
VU 840.042 Machine Learning in der Medizin 14WS2018/19, 17.1.2018
Beispiel: Protein-Signaling Network
VU 840.042 Machine Learning in der Medizin 15WS2018/19, 17.1.2018
Themen bei PGMs
⚫ Repräsentation
⚫ Gerichtete, ungerichtete Modelle
⚫ Temporale Modelle
⚫ „Plate“ Modelle
⚫ Inferenz, Schlussfolgern
⚫ Art der Fragestellung
⚫ Exakt vs. Approximativ
⚫ Entscheidungsfindung
⚫ Lernen
⚫ Parameter vs. Struktur
⚫ Vollständige vs. Unvollständige Daten
VU 840.042 Machine Learning in der Medizin 16WS2018/19, 17.1.2018
2 Arten von PGMs
⚫ Bayesian networks(auch Belief networks oder kausale Netzwerke genannt)
⚫ Gerichtete graphische Modelle
⚫ Markov networks(auch Markov random fields (MRFs) genannt).
⚫ Ungerichtete graphische Modelle
VU 840.042 Machine Learning in der Medizin 17WS2018/19, 17.1.2018
Bayes Network
Gerichteter azyklischer Graph (directed acyclic graph – DAG)
⚫ Knoten von G sind Zufallsvariablen Xi
⚫ Kanten: direkter Einfluss von einem Knoten auf den anderen
⚫ Jeder Zufallsvariable Xiist eine bedingte
Wahrscheinlichkeitsverteilung (conditional probabilitydistribution – CPD) zugeordnet.
⚫ Die CPD für Xigegeben die Elternknoten (Pa
Xi) ist P(X
i| Pa
Xi).
⚫ Reduktion der Komplexität durch bedingte Unabhängigkeit
𝑝 𝑥1, … , 𝑥𝑥𝑛 = ෑ
𝑖=1
𝑛
𝑝(𝑥𝑖|𝑃𝑎𝑥𝑖)
⚫ O(dn) reduziert auf O(ndk) … k = max. Anzahl an Elternknoten
VU 840.042 Machine Learning in der Medizin 18WS2018/19, 17.1.2018
Bayes Network mit CPDs
VU 840.042 Machine Learning in der Medizin 19WS2018/19, 17.1.2018
Wahrscheinlichkeitsverteilung
I D G P(I,D,G)
i0 d0 g1 0.126
i0 d0 g2 0.168
i0 d0 g3 0.126
i0 d1 g1 0.009
i0 d1 g2 0.045
i0 d1 g3 0.126
i1 d0 g1 0.252
i1 d0 g2 0.0224
i1 d0 g3 0.0056
i1 d1 g1 0.06
i1 d1 g2 0.036
i1 d1 g3 0.024
D
G
I
VU 840.042 Machine Learning in der Medizin 20WS2018/19, 17.1.2018
Konditionierung auf g1
P(I,D,g1) I D G P(I,D,G)
i0 d0 g1 0.126
i0 d1 g1 0.009
i1 d0 g1 0.252
i1 d1 g1 0.06
VU 840.042 Machine Learning in der Medizin 21WS2018/19, 17.1.2018
Reduktion und Normalisierung
P(I,D,g1)→P(I,D|g1)
I D G P(I,D,g1)
i0 d0 g1 0.126
i0 d1 g1 0.009
i1 d0 g1 0.252
i1 d1 g1 0.06
0.447
I D P(I,D|g1)
i0 d0 0.282
i0 d1 0.02
i1 d0 0.564
i1 d1 0.134
1.000
VU 840.042 Machine Learning in der Medizin 22WS2018/19, 17.1.2018
Marginalisierung
P(I,D|g1)→P(I|g1)
I D P(I,D)
i0 d0 0.282
i0 d1 0.02
i1 d0 0.564
i1 d1 0.134
1.000
I P(I)
i0 0.282+0.02 = 0.302
i1 0.564+0.134 = 0.698
1.000
VU 840.042 Machine Learning in der Medizin 23WS2018/19, 17.1.2018
Darstellung von CPDs
⚫ Tabellarische CPDs
⚫ Baum-strukturierte CPDs
⚫ Lokale Wahrscheinlichkeitsmodelle
⚫ Logistische CPDs & Generalisierungen
⚫ Noisy OR / AND
⚫ Lineare Gauss Verteilungen & Generalisierungen
⚫ ...
VU 840.042 Machine Learning in der Medizin 24WS2018/19, 17.1.2018
Baum CPD
P( J | L, A, S)
L
J
SA A
L
(0.4, 0.6)
S
(0.9, 0.1)
(0.1, 0.9)
(0.8, 0.2)
a0 a1
s0 s1
l0 l1
VU 840.042 Machine Learning in der Medizin 25WS2018/19, 17.1.2018
Multiplexer CPD
A = {1,k} A = a ⇒Y = Za
P(Y | A, Z1, …, Z
k) = 1 ….. Y = Z
0 ….. ansonsten
Z1 Z
2Z
k
YA
. . .
VU 840.042 Machine Learning in der Medizin 26WS2018/19, 17.1.2018
Faktorisierung
⚫ KettenregelP(L,G,S,D,I) = P(L|G,S,D,I)*P(G|S,D,I)*P(S|D,I)*P(D|I)*P(I)
⚫ Kettenregel für Bayes'sche NetzeP(L,G,S,D,I) = P(L|G)*P(G|D,I )*P(S | I )*P(D)*P(I)
P(X1,…,X
n) = П
iP(X
i| Par
G(X
i))
Wahrscheinlichtkeitsfunktion = Produkt von Faktoren
⚫ Bedingte Unabhängigkeitsannahme, lokale Markov Annahme: X
i⊥ NonDescendantsX
i | Par
G(X
i)
⚫ P faktorisiert über G, wennP(X
1,…,X
n) = П
iP(X
i| Par
G(X
i))
D
G
I
S
L
VU 840.042 Machine Learning in der Medizin 27WS2018/19, 17.1.2018
Schlussfolgern in BN
⚫ Bestimmung der Wahrscheinlichkeit einer Variable P(Y | E = e)
⚫ Suche nach wahrscheinlichsten Erklärungmost probable explanation (MPE)
⚫ Bestimmung der Variablenbelegung zur Maximierung der a posteriori (MAP) Wahrscheinlichkeit
𝑝 𝑥𝑖 = σ𝑥1σ𝑥
2…σ𝑥
𝑛𝑝 𝑥1, … , 𝑥𝑛 … marginal inference
max𝑥1,…,𝑥𝑛
𝑝(𝑥1, , … 𝑥𝑖 = 𝑒𝑖 , 𝑥𝑗 = 𝑒𝑗 , … , 𝑥𝑛) maximum aposteriori inference
max𝑥1,…,𝑥𝑛
𝑝 𝑥1, … , 𝑥𝑛 𝐸) … most probable explanation
VU 840.042 Machine Learning in der Medizin 28WS2018/19, 17.1.2018
Schlussfolgern in BN
D
G
I
S
L
d0 d1
0.6 0.4
i0 i1
0.7 0.3
s0 s1
i0 0.95 0.05
i1 0.2 0.8
l0 l1
g1 0.1 0.9
g2 0.4 0.6
g3 0.99 0.01
g1 g2 g3
i0,d0 0.3 0.4 0.3
i0,d1 0.05 0.25 0.7
i1,d0 0.9 0.08 0.02
i1,d1 0.5 0.3 0.2
VU 840.042 Machine Learning in der Medizin 29WS2018/19, 17.1.2018
Kausalität
P(l1) ≈ 0.5
P(I1 | i0) ≈ 0.39
P(l1 | i0, d0) ≈ 0.51
D
G
I
S
L
VU 840.042 Machine Learning in der Medizin 30WS2018/19, 17.1.2018
Evidenz
P(d1) = 0.4
P(d1 | g3) ≈ 0.63
P(i1) = 0.3
P(i1 | g3) ≈ 0.08
D
G
I
S
L
VU 840.042 Machine Learning in der Medizin 31WS2018/19, 17.1.2018
Interkausalität
P(d1)=0.4
P(d1|g3)≈0.63
P(i1)=0.3
P(i1|g3)≈0.08
P(i1|g3,d1)≈0.11
D
G
I
S
L
VU 840.042 Machine Learning in der Medizin 32WS2018/19, 17.1.2018
Explaining away
P(x2=1 | y=1) = 2/3 vs.
P(x2=1 | y=1, x1=1) = 1/2
x1 x2 y P
0 0 0 0.25
0 1 1 0.25
1 0 1 0.25
1 1 1 0.25
x1 x
2
y
VU 840.042 Machine Learning in der Medizin 33WS2018/19, 17.1.2018
Interkausalität (2)
D
G
I
S
L
VU 840.042 Machine Learning in der Medizin 34WS2018/19, 17.1.2018
Flow of Influence
Verändert die Konditionierung auf X die Wahrscheinlichkeit von Y?
⚫ X → Y
⚫ X ← Y
⚫ X → W → Y
⚫ X ← W ← Y
⚫ X ← W → Y
⚫ X → W ← Y (v-structure)
ja
ja
ja
ja
ja
nein
VU 840.042 Machine Learning in der Medizin 35WS2018/19, 17.1.2018
Flow of Influence
Verändert die Konditionierung auf X die Wahrscheinlichkeit von Y, gegeben Evidenz Z?
Evidence Z W nicht in Z W in Z
⚫ X → W → Y
⚫ X ← W ← Y
⚫ X ← W → Y
⚫ X → W ← Y
ja nein
ja nein
ja nein
? ?
v-structure: ja, wenn W oder ein Nachkomme von W in Zansonsten nein
VU 840.042 Machine Learning in der Medizin 36WS2018/19, 17.1.2018
d-Separierbarkeit
d (=directed)-Separierbarkeit. Definition von aktiven Pfaden:
⚫ Kausaler Pfad X → Z → Y: aktiv ⇔ Z nicht beobachtet
⚫ Evidenz Pfad X ← Z ← Y : aktiv ⇔ Z nicht beobachtet
⚫ Gemeinsamer Ursache X ← Z → Y : aktiv ⇔ Z nicht beobachtet
⚫ Gemeinsamer Effekt X → Z ← Y : aktiv ⇔ Z oder einer seiner Nachkommen beobachtet
VU 840.042 Machine Learning in der Medizin 37WS2018/19, 17.1.2018
d-Separierbarkeit
Ein Pfad X1— ... —X
nist aktiv gegeben Evidenz E
⚫ Wenn für jede v-Struktur Xi−1
→ Xi← X
i+1entweder X
ioder ein
Nachkomme von Xiin E ist;
⚫ Kein anderer Knoten entlang des Pfades in E ist.
Für drei Mengen X, Y, Z von Knoten aus G gilt. X und Y sind d-separiert gegeben Z d-sep(X; Y | Z), wenn es keine aktiven Pfaden zwischen zwei Knoten x ∈ X und y ∈ Y gegeben Z gibt.
I(G)={(X⊥Y∣Z):X,Y sind d-sep gegeben Z} (Independence Map)
Wenn p über G faktorisiert, dann gilt I(G)⊆I(p)
VU 840.042 Machine Learning in der Medizin 38WS2018/19, 17.1.2018
Konstruktion von BN
Jeder vollständig vernetzte Graph repräsentiert P, weil I(G)=∅
und damit auch I(G)⊆I(p)
Existiert immer in ein perfekter Graph mit I(p) = I(G)?
Nein, vgl. noisy XOR Problem.
Sind perfekte Graphen eindeutig, wenn sie existieren?
Nein, vgl. X → Y und X ← Y
Zwei equivalente Betrachtungsweisen der Graphenstruktur
⚫ Faktorisierung: G ermöglicht die Representation von P
⚫ I-map: In G kodierte Unabhängigkeiten halten in P
VU 840.042 Machine Learning in der Medizin 39WS2018/19, 17.1.2018
Lernen
Mehrere Lernansätze
• Maximal likelihood estimation (MLE)
• Bayesian estimation
• Maximal conditional likelihood
• Maximal "Margin“
• Maximum entropy
Lernen von
• Struktur (Structural Search)
• Parametern
VU 840.042 Machine Learning in der Medizin 40WS2018/19, 17.1.2018
Parameterlernen unter MLE
Annahme: die Parameter für alle CPDs sind unabhängig
-> log likelihood wird zur Summe über Terme, lokal für jeden Knoten
VU 840.042 Machine Learning in der Medizin 41WS2018/19, 17.1.2018
Faktoren
Faktor Φ(X1,...X
n)
Funktion Φ : Val(X1,...X
n) → R
Scope = {X1,...X
n}
⚫ Jede JPD und CPD ist ein Faktor
⚫ Unnormalisierte Funktion P(I,D,g1) ist Faktor über {I,D}
I D P(I,D,g1)
i0 d0 g1 0.126
i0 d1 g1 0.009
i1 d0 g1 0.252
i1 d1 g1 0.06
0.447
VU 840.042 Machine Learning in der Medizin 42WS2018/19, 17.1.2018
Allgemeine Faktoren
A B Φ
a0 b0 30
a0 b1 5
a1 b0 1
a1 b1 30
VU 840.042 Machine Learning in der Medizin 43WS2018/19, 17.1.2018
Faktor Produkt
A B Φ(A,B)
a0 b0 0.5
a0 b1 0.8
a1 b0 0.1
a1 b1 0
a2 b0 0.3
a2 b1 0.9
B C Φ(B,C)
b0 c0 0.5
b0 c1 0.7
b1 c0 0.1
b1 c1 0.2
A B C Φ(A,B,C)
a0 b0 c0 0.5*0.5=0.25
a0 b0 c1 0.5*0.7=0.35
a0 b1 c0 0.8*0.1=0.08
a0 b1 c1 0.8*0.2=0.16
a1 b0 c0 0.1*0.5=0.05
a1 b0 c1 0.1*0.7=0.07
a1 b1 c0 0*0.1=0
a1 b1 c1 0*0.2=0
a2 b0 c0 0.3*0.5=0.15
a2 b0 c1 0.3*0.7=0.21
a2 b1 c0 0.9*0.1=0.09
a2 b1 c1 0.9*0.2=0.18
VU 840.042 Machine Learning in der Medizin 44WS2018/19, 17.1.2018
Faktor Marginalisierung
A B C Φ(A,B,C)
a0 b0 c0 0.25
a0 b0 c1 0.35
a0 b1 c0 0.08
a0 b1 c1 0.16
a1 b0 c0 0.05
a1 b0 c1 0.07
a1 b1 c0 0
a1 b1 c1 0
a2 b0 c0 0.15
a2 b0 c1 0.21
a2 b1 c0 0.09
a2 b1 c1 0.18
A C Φ(A,C)
a0 c0 0.33
a0 c1 0.51
a1 c0 0.05
a1 c1 0.07
a2 c0 0.3
a2 c1 0.9
VU 840.042 Machine Learning in der Medizin 45WS2018/19, 17.1.2018
Faktor Reduktion
A B C Φ(A,B,C)
a0 b0 c0 0.25
a0 b0 c1 0.35
a0 b1 c0 0.08
a0 b1 c1 0.16
a1 b0 c0 0.05
a1 b0 c1 0.07
a1 b1 c0 0
a1 b1 c1 0
a2 b0 c0 0.15
a2 b0 c1 0.21
a2 b1 c0 0.09
a2 b1 c1 0.18
A B C Φ(A,B)
a0 b0 c0 0.25
a0 b1 c0 0.08
a1 b0 c0 0.05
a1 b1 c0 0
a2 b0 c0 0.15
a2 b1 c0 0.09
VU 840.042 Machine Learning in der Medizin 46WS2018/19, 17.1.2018
Warum Faktoren?
⚫ Grundlegende Bestandteile zur Definition von Wahrscheinlichkeitsverteilungen
⚫ Menge von grundlegenden Operationen zur Manipulation der Wahrscheinlichkeitsverteilungen
VU 840.042 Machine Learning in der Medizin 47WS2018/19, 17.1.2018
Markov Field
auch Markov Network oder Markov Random Field genannt.
Graph ähnlich Bayes'sche Netzwerk, aber mit ungerichteten Kanten, die eine Form von probabilistischer Interaktion zwischen benachbarten Variablen darstellen.
VU 840.042 Machine Learning in der Medizin 48WS2018/19, 17.1.2018
Pairwise Markov Network
Ein paarweises Markov Netzwerk ist ein ungerichteter Graph, dessen Knoten die Zufallsvariablen X
1, …, X
nsind und jede Kante X
i-
Xjist mit einem Faktor Φ(X
i,X
j) versehen
VU 840.042 Machine Learning in der Medizin 49WS2018/19, 17.1.2018
Pairwise Markov Network
A
C
BD
D A Φ(D,A)
d0 a0 100
d0 a1 1
d1 a0 1
d1 a1 100
A B Φ(A,B)
a0 b0 30
a0 b1 5
a1 b0 1
a1 b1 10
B C Φ(B,C)
b0 c0 100
b0 c1 1
b1 c0 1
b1 c1 100
C D Φ(C,D)
c0 d0 1
c0 d1 100
c1 d0 100
c1 d1 1
Affinität
Kompatabilität
Soft Constraint
VU 840.042 Machine Learning in der Medizin 50WS2018/19, 17.1.2018
Pairwise Markov Network
PΦ (A,B,C,D) = Φ1(A,B) x Φ
2(B,C) x Φ
3(C,D) x Φ
4(A,D) …. unnormalized measure
P(A,B,C,D) =(1 / Z) * PΦ (A,B,C,D) Z … partition function
a0 b0 c0 d0 300000
a0 b0 c0 d1 300000
a0 b0 c1 d0 300000
a0 b0 c1 d1 30
a0 b1 c0 d0 500
a0 b1 c0 d1 500
a0 b1 c1 d0 5000000
a0 b1 c1 d1 500
a1 b0 c0 d0 100
a1 b0 c0 d1 1000000
a1 b0 c1 d0 100
a1 b0 c1 d1 100
a1 b1 c0 d0 10
a1 b1 c0 d1 100000
a1 b1 c1 d0 100000
a1 b1 c1 d1 100000
VU 840.042 Machine Learning in der Medizin 51WS2018/19, 17.1.2018
Pairwise Markov Network
P(A, B)
A B Prob
a0 b0 0.13
a0 b1 0.69
a1 b0 0.14
a1 b1 0.04
A
C
BD
D A Φ(D,A)
d0 a0 100
d0 a1 1
d1 a0 1
d1 a1 100
A B Φ(A,B)
a0 b0 30
a0 b1 5
a1 b0 1
a1 b1 10
B C Φ(B,C)
b0 c0 100
b0 c1 1
b1 c0 1
b1 c1 100
C D Φ(C,D)
c0 d0 1
c0 d1 100
c1 d0 100
c1 d1 1
VU 840.042 Machine Learning in der Medizin 52WS2018/19, 17.1.2018
Markov Network
𝑝 𝑥1, … , 𝑥𝑛 =1
𝑍ෑ
𝑐∈𝐶
𝜙𝑐(𝑥𝑐)
C … Menge der Cliquen im Graph
Normalisierungsfaktor, Partition Function
𝑍 =
𝑥1,…,𝑥𝑛
ෑ
𝑐∈𝐶
𝜙𝑐(𝑥𝑐)
Netzwerk HΦ
hat eine Kante Xi-X
j,wenn ein Φ
mexistiert für das gilt
xi, x
j∈D
m
VU 840.042 Machine Learning in der Medizin 53WS2018/19, 17.1.2018
Faktorisierung
P faktorisiert über H wenn ein Φ existiert mit
Φ = {Φ1(D
1), …, Φ
k(D
k)}
so dass gilt: P = 1/Z * PΦ
VU 840.042 Machine Learning in der Medizin 54WS2018/19, 17.1.2018
Variante: Conditional Random Fields
VU 840.042 Machine Learning in der Medizin 55WS2018/19, 17.1.2018
Unabhängigkeit in MRF
X⊥({X1,…,Xn}−{X}−U) ∣ U
U = Markov blanket
Minimale Menge an Knoten, deren Beobachtung X unabhängig von allen anderen Knoten macht
VU 840.042 Machine Learning in der Medizin 56WS2018/19, 17.1.2018
Lernen in MRF
Aufwendig, weil Z ist im Normalfall immer über alle Variablen zuberechnen(Ausnahme: Subgraphen sind maximale Cliquen)
Üblicherweise in der Praxis:Approximative Algorithmen, Inferenz mittels Sampling
VU 840.042 Machine Learning in der Medizin 57WS2018/19, 17.1.2018
Zusammenfassung
⚫ Φ repräsentiert Verteilungen als Produkt von Faktoren.Normalisiert mit der Partitionfunktion Z als Wahrscheinlichkeit interpretierbar
⚫ Das erzeugte Markov Netzwerk verbindet Paare von Knoten, die im selben Faktor sind
⚫ Die Markov Netzwerkstruktur spezifiziert nicht eindeutig die Faktorisierung von P
VU 840.042 Machine Learning in der Medizin 58WS2018/19, 17.1.2018
MRF vs. BN
Vorteile
MRFs können auf eine breitere Klasse von Problemen angewendetwerden, bei denen keine natürliche Richtung von Abhängigkeiten zwischen Variablen existiert.
MRFs können bestimmte Abhängigkeiten sehr prägnant abbilden, die BN nicht so einfach abbilden können, wobei das Gegenteilauch gilt.
VU 840.042 Machine Learning in der Medizin 59WS2018/19, 17.1.2018
BN vs. MRF
Nachteile
Berechnung der Normalisierungkonstante Z (Partitionfunktion) erfordert die Summation über eine potentiell exponentielleAnzahl an Variablenbelegungen. Im Allgemeinen Fall ist dieses Problem NP hart.In der Praxis sind viele ungerichtete Modelle exakt unlösbar und werden mit Approximationsverfahren gelöst.
Ungerichtete Modelle sind schwieriger zu interpretieren.
Zur Datengenerierung eignet sich ein BN mehr als ein MRF.
VU 840.042 Machine Learning in der Medizin 60WS2018/19, 17.1.2018
BN - MRF Konvertierung?
VU 840.042 Machine Learning in der Medizin 61WS2018/19, 17.1.2018
BN -> MRF
VU 840.042 Machine Learning in der Medizin 62WS2018/19, 17.1.2018
PGMs in der Medizin
Pathfinder Project, Heckerman D., et al. (1992-)
Elvira project http://www.ia.uned.es/~elvira/index-en.html
A Bayesian Network Model for Diagnosis of Liver Disorders. Agnieszka Onisko, Marek J. Druzdzel, and Hanna Wasyluk, 1999.
Inferring Cellular Networks Using Probabilistic Graphical Models. Nir Friedman. Science 06 Feb 2004. 2004.
VU 840.042 Machine Learning in der Medizin 63WS2018/19, 17.1.2018
Weiterführende Materialen
Coursera Kurs, Daphne Koller
https://www.coursera.org/learn/probabilistic-graphical-models
Probabilistic Graphical Models: Principles and Techniques
Book by Daphne Koller and Nir Friedman
R-package bnlearn