estimation bayesienne - i3s.unice.frrendas/esinsa/content/slidesbayesem.pdf · l’estimation...
TRANSCRIPT
Bayes
M. J. Rendas
ApprocheBayesienne àl’estimationparamétrique
Paramètresde nuisance
Mélanges
Estimation Bayesienne
θ ∈ Θ ⊂ <p : paramètre aléatoire inconnu. La connaissancea priori sur θ est exprimée par une loi de probabitlité p(θ).
Critères Bayesiens
R(θ) = Er ,θ
[C(θ, θ(r))
]Usuellement
C(θ, θ(r)) = C(θ − θ(r)) (fonction uniquement del’erreur d’estimation)
C(θ, θ(r)) =(θ − θ(r)
)2: erreur quadratique noyenne
Bayes
M. J. Rendas
ApprocheBayesienne àl’estimationparamétrique
Paramètresde nuisance
Mélanges
MMSE: la moyenne a posteriori
Pour C(θ, θ(r)) =(θ − θ(r)
)2
θMSE(r) = arg minθ
Er ,θ
[(θ − θ(r)
)2]
= E [θ|r ]
Démonstration
R(θ) = Er ,θ
[(θ − θ(r)
)2]
=
∫ ∫ (θ − θ(r)
)2p(r , θ) dr dθ
=
∫ [p(r)
∫ (θ − θ(r)
)2p(θ|r) dθ
]dr
p(r) ≥ 0 ⇒ maxθR⇔ max
θ
∫ (θ − θ(r)
)2p(θ|r) dθ
Bayes
M. J. Rendas
ApprocheBayesienne àl’estimationparamétrique
Paramètresde nuisance
Mélanges
∂/∂θ = 0 ⇔
2∫ (
θ − θ(r))
p(θ|r) dθ = 0∫θ(r)p(θ|r) dθ =
∫θp(θ|r) dθ
θ(r) =
∫θp(θ|r) dθ = E [θ|r ]
Bayes
M. J. Rendas
ApprocheBayesienne àl’estimationparamétrique
Paramètresde nuisance
Mélanges
Estimation récursive
Intégration progréssive des observations
p(θ)↑r1
→ θ(r1)↑r2
→ θ(r1, r2)↑r3
→ · · ·
Condition : observations sans mémoire.
Bayes
M. J. Rendas
ApprocheBayesienne àl’estimationparamétrique
Paramètresde nuisance
Mélanges
Estimation de signalProcessus de Markov
X1, X2, . . . est un processus de Markov si
p(Xn|X n−11 ) = p(Xn|Xn−1) X n
1 = X1, . . . Xn
Sachant le présent, le futur est statistiquement indépendentdu passé
La probabilité d’une séquence X0, X1, . . . , Xn est factorisée
p(X0, X1, . . . , Xn) = p(X0)n∏
i=1
p(Xi |Xi−1)
Bayes
M. J. Rendas
ApprocheBayesienne àl’estimationparamétrique
Paramètresde nuisance
Mélanges
Estimation de signalObservations sans mémoire
Observations sans mémoire
p(rn|Xn, rn−11 ) = p(rn|Xn)
Problème de filtrage
Déterminer Xn sachant les observations rn1 .
L’estimateur d’erreur quadratique minimal est
Xn(rn1 ) = E [Xn|rn
1 ]
Il faut donc déterminer p(Xn|rn1 ).
Pour des processus Xn de Markov, et des observations rnsans mémoire, p(Xn|rn
1 ) peut être déterminée récursivement
p(X0) → p(X1)lr1
→ p(X1|r1) → p(X2|r1)lr2
→ p(X2|r1, r2) → · · ·
Bayes
M. J. Rendas
ApprocheBayesienne àl’estimationparamétrique
Paramètresde nuisance
Mélanges
Décomposition Prédiction/Filtrage
p(X0) −→
(prédiction)
p(X1|X0)↑r1
−→
(filtrage)
p(X1|r1)
p(X1|r1) −→
(prédiction)
p(X2|r1)↑r2
−→
(filtrage)
p(X2|r1, r2)
p(X2|r1, r2) −→
(prédiction)
p(X3|r1, r2)↑r3
−→
(filtrage)
· · ·
Bayes
M. J. Rendas
ApprocheBayesienne àl’estimationparamétrique
Paramètresde nuisance
Mélanges
Prédiction
p(Xn+1|rn1 ) =
∫p(Xn+1, Xn|rn
1 ) dXn
=
∫p(Xn+1|Xn, rn
1 ) p(Xn|rn1 )dXn
=
∫p(Xn+1|Xn)p(Xn|rn
1 ) dXn
Intégration dans l’espace de Xn : opération de “convolution”.Transporte l’incertitude à propos de Xn sur la valeursuivante (Xn+1) du signal. Utilise le modèle de Markov dusignal (son noyau de transition p(Xn|Xn−1))
p(Xn|rn1 ) → p(Xn+1|rn
1 )
Bayes
M. J. Rendas
ApprocheBayesienne àl’estimationparamétrique
Paramètresde nuisance
Mélanges
Filtrage
p(xn+1|rn+11 ) = p(Xn+1|rn+1, rn
1 )
=p(Xn+1, rn+1|rn
1 )
p(rn+1|rn1 )
=p(rn+1|Xn+1, rn
1 )p(Xn+1|rn1 )
p(rn+1|rn1 )
=p(rn+1|Xn+1)p(Xn+1|rn
1 )
p(rn+1|rn1 )
∝ p(rn+1|Xn+1)p(Xn+1|rn1 )
Multiplication point à point de fonctions de Xn+1.
p(Xn+1|rn1 ) → p(Xn+1|rn+1
1 )
Bayes
M. J. Rendas
ApprocheBayesienne àl’estimationparamétrique
Paramètresde nuisance
Mélanges
Réalisation
Réalisation exacte des pas de prédiction et de filtrage pourChaînes de Markov (espace d’état fini)Processus de Gauss-Markov (toutes les densités sontGaussiennes, les observations sont linéaires et sansmémoire) → Filtre de Kalman
Dans le cas général, besoin d’approximer les équations deprédiction et filtrage.
Approximation fonctionnelle : le filtre de Kalman ÉtenduApproximation numérique : les filtres particulaires(utilisent des techniques de Monte-Carlo)
Bayes
M. J. Rendas
ApprocheBayesienne àl’estimationparamétrique
Paramètresde nuisance
Mélanges
Estimation en présence de paramètres denuisance
p(r |θ, Y ) modèle statistique connu
r : observations.θ : paramètres à estimerY : paramètres inconnus
But
Maximiser la probabilité a posterior marginale
p(θ|r) =
∫p(θ, Y |r)dy .
Bayes
M. J. Rendas
ApprocheBayesienne àl’estimationparamétrique
Paramètresde nuisance
Mélanges
Bayes
p(θ|r) =p(r , θ)p(r)
∝ p(r |θ)p(θ) = p(r , θ)
Si p(θ) = C,∀θ ∈ Θ⇒
maximiser p(θ|r) ⇔ maximiser p(r , θ)
θ = arg maxθ∈Θ
p(θ|r)
= arg maxθ∈Θ
log p(r , θ) = arg maxθ∈Θ
log∫Y
p(r , y , θ) dy
Difficulté: logarithme d’un integral (somme)
Bayes
M. J. Rendas
ApprocheBayesienne àl’estimationparamétrique
Paramètresde nuisance
Mélanges
Présentation intuitive
Alterner entredéterminer des estimés des paramètres désirés, θk , etdéterminer les estimés yk (θk ) des paramètres cachésY
θ0 → y0(θ0) → θ1(y0) → y1(θ1) → · · ·
Bayes
M. J. Rendas
ApprocheBayesienne àl’estimationparamétrique
Paramètresde nuisance
Mélanges
Algorithme E-M (Expectation-Maximization)
E-M : propage une distribution de probabilité sur Y :
θ0 → p0(y) → θ1 → p1(y) → θ2 · · ·
Bayes
M. J. Rendas
ApprocheBayesienne àl’estimationparamétrique
Paramètresde nuisance
Mélanges
E-M
étape de Expectation : borne inférieure (fonctionelle)Bk (θ) pour la densité a posteriori marginale p(θ|r)
Bk (θ) = B(θ, θk ) ≤ log p(θ|r)
étape de Maximization : maximise Bk (θ) :
θk+1 = arg maxθ
Bk (θ)
Nous allons voir que, ∀k
p(r , θk+1) ≥ p(r , θk )
⇒ convergence vers un maximum local de p(r , θ).
Bayes
M. J. Rendas
ApprocheBayesienne àl’estimationparamétrique
Paramètresde nuisance
Mélanges
log p(r , θ) = log∫Y
p(r , y , θ) dy
= log∫Y
pk (y)p(r , y , θ)
pk (y), ∀pk (y) > 0
= log Epk (y)
{p(r , y , θ)
pk (y)
}Inégalité de Jensen (fonctions concaves)
E {f (X )} ≤ f (E {X}) ,
Bayes
M. J. Rendas
ApprocheBayesienne àl’estimationparamétrique
Paramètresde nuisance
Mélanges
Définition de la borne Inférieure
B(θ, θk ) = Epk (y)
{log
p(r , y , θ)
pk (y)
}=
∫Y
pk (y) logp(r , y , θ)
pk (y)
≤ log Epk (y)
{p(r , y , θ)
pk (y)
}= log p(r , θ)
Note : pk (y) est fonction de θk .
Bayes
M. J. Rendas
ApprocheBayesienne àl’estimationparamétrique
Paramètresde nuisance
Mélanges
Expectation: calcul de B(θ, θn)
E-M : choisir pk (y) de façon que
B(θk , θk ) = B(θ, θk )∣∣∣θ=θk
=
∫Y
pk (y) logp(r , y , θk )
pk (y)
= log p(r , θk )
sous la contrainte ∫Y
pk (y) dy = 1
Bayes
M. J. Rendas
ApprocheBayesienne àl’estimationparamétrique
Paramètresde nuisance
Mélanges
Choix de pk(y)Multiplicateurs de Lagrange
G(pk (y)
)= λ
(1−
∫Y pk (y) dy
)+∫Y pk (y) log p(r , y , θk ) dy −
∫Y pk (y) log pk (y) dy
∂G/∂pk (y) = 0
⇒ − λ + log p(r , y , θk )− log pk (y)− 1 = 0
⇒ pk (y) = c(λ)p(r , y , θk )
⇒ pk (y) = p(r ,y ,θk )∫Y p(r ,y ,θk )
= p(y |r , θk )
densité a posteriori des paramètres de nuisance, sachantles observations, et pour θ = θk ,
Bayes
M. J. Rendas
ApprocheBayesienne àl’estimationparamétrique
Paramètresde nuisance
Mélanges
Exercice
Vérifier que pour ce choix de pk (y) nous avonseffectivement
B(θ, θk )∣∣∣θ=θk
= log p(r , θk )
Bayes
M. J. Rendas
ApprocheBayesienne àl’estimationparamétrique
Paramètresde nuisance
Mélanges
Maximization (1)
Déterminer θ qui maximise B(θ, θk ) :
B(θ, θk ) = Epk (y) {log p(r , y , θ)}+ H= Epk (y) {log p(r , y |θ)}+ log p(θ) + H
= Qk (θ) + log p(θ) + H
où
H = −Epk (y)
{log pk (y)
}entropie de Shanon
Qk (θ) = Epk (y) {log p(r , y |θ)} espérance de la vraisemblance
Bayes
M. J. Rendas
ApprocheBayesienne àl’estimationparamétrique
Paramètresde nuisance
Mélanges
Maximization (2)
θk+1 = arg maxθ∈Θ
B(θ, θk ) = arg maxθ
Qk (θ) + log p(θ)
Bayes
M. J. Rendas
ApprocheBayesienne àl’estimationparamétrique
Paramètresde nuisance
Mélanges
Algorithme E-M
Initialiser θ0Pour k = 0, 1, . . .
(pas ”E”): calculer : pk (y) = p(y |r , θk )Qk (θ) = Epk (y) {log p(r , y |θ)}
(pas ”M”): actualiser θk+1 = arg maxθ Qk (θ) + log p(θ)
Bayes
M. J. Rendas
ApprocheBayesienne àl’estimationparamétrique
Paramètresde nuisance
Mélanges
illustration graphique
Méhode locale : convergence vers un maximum local.
Bayes
M. J. Rendas
ApprocheBayesienne àl’estimationparamétrique
Paramètresde nuisance
Mélanges
estimation des paramètres cachés
θ0 → p0(y)↓y0
→ θ1 → p1(y)↓y1
→ θ2 · · ·
yk = arg maxy
pk (y) = arg maxy
p(y |r , θk ) .
yk : estimateur MAP (Maximum a Posterior) des paramètrescachés, sachant les observations, et admettant que θ = θk .
Bayes
M. J. Rendas
ApprocheBayesienne àl’estimationparamétrique
Paramètresde nuisance
Mélanges
Estimation d’un modèle de mélange
Bayes
M. J. Rendas
ApprocheBayesienne àl’estimationparamétrique
Paramètresde nuisance
Mélanges
Modèle de mélange
r = r1, . . . , ri (iid)
p(r |θ) =N∏
i=1
p(
ri |θ = {αk , βk}Kk=1
)=
N∏i=1
K∑k=1
αkp(ri |βk )
K : nombre de termes du mélange (connu)αk ∈ [0, 1],
∑k αk = 1 : coefficients de mélange (poids)
βk : paramètres de forme
Bayes
M. J. Rendas
ApprocheBayesienne àl’estimationparamétrique
Paramètresde nuisance
Mélanges
Vraisemblance
log p(r |θ) =N∑
i=1
log∑
k
αkp(ri |βk )
θ = (θ1 · · · θK ) = (α1 β1 · · · αK βK ) ,
θk = (αk , βk )
Bayes
M. J. Rendas
ApprocheBayesienne àl’estimationparamétrique
Paramètresde nuisance
Mélanges
Variables cachées : les étiquettes des données
`i ∈ {1, . . . , L}, i = 1, . . . , N `i = k ⇔ ri ∼ pk = p(r |βk )
log p(r , `|θ) =N∑
i=1
log p(ri |θ, `i)p(`i |θ) =N∑
i=1
p(ri |β`i )p(`i |θ)
p(`i = k |θ) = αk : probabilité de choisir le terme (la loi deprobabilité) k
Bayes
M. J. Rendas
ApprocheBayesienne àl’estimationparamétrique
Paramètresde nuisance
Mélanges
Expectation(1)
θk →
pk (`) = p(`|r , θk ) =N∏
i=1
p(`i |ri , θk ) ,
Loi de Bayes ⇒
p(`i |ri , θ) =p(ri |`i , θ)p(`i |θ)
p(ri |θ)=
α`i p(ri |β`i )∑Kk=1 αkp(ri |βk )
Bayes
M. J. Rendas
ApprocheBayesienne àl’estimationparamétrique
Paramètresde nuisance
Mélanges
Expectation(2)
Qn(θ) = Epn(`) {log p(r , `|θ)}
=
∫LN
N∑i=1
log (α`i p(ri |β`i ))N∏
j=1
p(`j |rj , θn) d`1 · · ·d`N
=N∑
i=1
∫L
K∑k=1
δk ,`i log (αkp(ri |βk )) p(`i |ri , θn) d`i
=N∑
i=1
K∑k=1
log (αkp(ri |βk ))
∫L
δk ,`i p(`i |ri , θn) d`i
comme ∫L
δk ,`i p(`i |ri , θn) d`i = p(k |ri , θn)
Bayes
M. J. Rendas
ApprocheBayesienne àl’estimationparamétrique
Paramètresde nuisance
Mélanges
Expectation(3)
⇒
Qn(θ) =K∑
k=1
N∑i=1
log (αkp(ri |βk )) p(k |ri , θn)
=K∑
k=1
N∑i=1
log αkp(k |ri , θn)
+K∑
k=1
N∑i=1
log p(ri |βk )p(k |ri , θn)
Bayes
M. J. Rendas
ApprocheBayesienne àl’estimationparamétrique
Paramètresde nuisance
Mélanges
Remarque
Le calcul de Qn(θ) dans les deux derniers slides estsimplifié si nous utilisons le fait que `i est une variablealéatoire discrète,
`i ∈ {1, . . . , K}, pn(`i = k) = p(`i = k |ri , θm)
et que, par définition
Qn(θ) = Epn(`)
[N∑
i=1
log (α`i p(ri |β`i ))
]
=N∑
i=1
Epn(`i ) [log (α`i p(ri |β`i ))]
=N∑
i=1
K∑`i=1
log (α`i p(ri |β`i )) p(`i |ri , θn)
qui est l’expression trouvée si nous faisons `i ↔ k .
Bayes
M. J. Rendas
ApprocheBayesienne àl’estimationparamétrique
Paramètresde nuisance
Mélanges
Maximisation sur αkRésultat général
Avec la contrainte de somme unitaire
K∑k=1
N∑i=1
log αkp(k |ri , θn) + λ
(1−
∑k
αk
)
∂/∂αj ⇒N∑
i=1
1αj
p(`i = j |ri , θn)− λ = 0
∑` ⇒ λ = N ⇒
αj,n+1 =1N
N∑i=1
p(`i = j |ri , θn) ,
Bayes
M. J. Rendas
ApprocheBayesienne àl’estimationparamétrique
Paramètresde nuisance
Mélanges
Maximisation sur βkDensités gaussiennes
Pour des densités Gaussiennes
pk = N (µk ,Σk )
=1
(2π)d/2|Σk |1/2 exp{−1
2(r − µk )T Σ−1
k (r − µk )
}la solution est
µk ,(n+1) =
∑i rip(`i = k |ri , θn)∑i p(`i = k |ri , θn)
moyenne pondérée des données
et
Σk ,(n+1) =
∑i(ri − µk ,(n+1))(ri − µk ,(n+1))
T p(`i = k |ri , θn)∑i p(`i = k |ri , θn)
variance empirique
Bayes
M. J. Rendas
ApprocheBayesienne àl’estimationparamétrique
Paramètresde nuisance
Mélanges
Segmentation d’images
Trouver les régions “homogènes” (les pixels à l’intérieur sontdes réalizations de la même loi de probabilité).