Download - Introduction à la modélisation bayésienne
Julien Diard — LPNC-CNRSCours M2R Psychologie Cognitive — UE18S3 — 2010
Introduction à la modélisation bayésienne
Julien DiardLaboratoire de Psychologie et NeuroCognition – CNRS
UE18S3 Psychophysique et analyse des signaux30/11/2010
http://diard.wordpress.com [email protected]
Julien Diard — LPNC-CNRSCours M2R Psychologie Cognitive — UE18S3 — 2010
2
Bayésien, un mot à la mode ?
Julien Diard — LPNC-CNRSCours M2R Psychologie Cognitive — UE18S3 — 2010
3
Google scholar trend miner
Julien Diard — LPNC-CNRSCours M2R Psychologie Cognitive — UE18S3 — 2010
4
Êtes-vous « Bayésien » ?• I’m a bayesian if I use the word “probability”.• I’m a bayesian if I use the word “conditional probability”.• I’m a bayesian if I use Bayes’ rule.• I’m a bayesian if I use Bayes’ rule in order to make inference.• I’m a bayesian if I think that probabilities represent states of
knowledge.• I’m a bayesian if I think that probabilities represent states of
knowledge and I also consider my parameters as random variables.• I’m a bayesian if I think that probabilities represent states of
knowledge and I use priors (no MaxLikelihood).• I’m a bayesian if I think that probabilities represent states of
knowledge and I use priors and I use priors on priors (hierarchical models).
• I’m a bayesian if I think that probabilities represent states of knowledge and I use subjective priors.
• I’m a bayesian if I think that probabilities represent states of knowledge and I use priors and I never use MAP.
Blog de Pierre Dangauthier
Julien Diard — LPNC-CNRSCours M2R Psychologie Cognitive — UE18S3 — 2010
Quelques définitions du mot « bayésien »
– En Intelligence Artificielle
– En robotique
– En sciences (physiques)
– En sciences cognitives
5
Julien Diard — LPNC-CNRSCours M2R Psychologie Cognitive — UE18S3 — 2010
Plan
• Introduction à la modélisation bayésienne– En Intelligence Artificielle
• Historique
– En robotique• Exemple de Programme Bayésien
– En sciences (physiques) • Méthodologie de sélection de modèles• Exemples de « bayésien caché »
– En sciences cognitives • Modélisation de la perception et de l’action
6
Julien Diard — LPNC-CNRSCours M2R Psychologie Cognitive — UE18S3 — 2010
Plan
• Introduction à la modélisation bayésienne– En Intelligence Artificielle
• Historique
– En robotique• Exemple de Programme Bayésien
– En sciences (physiques) • Méthodologie de sélection de modèles• Exemples de « bayésien caché »
– En sciences cognitives • Modélisation de la perception et de l’action
7
Julien Diard — LPNC-CNRSCours M2R Psychologie Cognitive — UE18S3 — 2010
Intelligence Artificielle
• Construire des systèmes qui – pensent / agissent – comme des humains / rationnellement
• IA vs. Psychologie– IA ≅ psychologie où on construit le sujet– Psychologie ≅ IA où on tente de deviner
comment fonctionne un robot ou programme construit par un autre
8
Julien Diard — LPNC-CNRSCours M2R Psychologie Cognitive — UE18S3 — 2010
9
IntelligenceArtificielle
• 50s-70s– IA Symbolique – Systèmes experts– Blocks World
Julien Diard — LPNC-CNRSCours M2R Psychologie Cognitive — UE18S3 — 2010
Prolog : programmation logique
• Exemple : système expert en généalogie
• Programme =– Base de faits– Base de règles
• Requêtes– Inférence logique : principe de Robinson
10
etre_mere(X) -> mere(X,Y);parent(X,Y) -> mere(X,Y);parent(X,Y) -> pere(X,Y);etre_fils(X) -> parent(Y,X); frere_ou_soeur(X,Y) -> pere(P,X) pere(P,Y);soeur_de(X,Y) -> frere_ou_soeur(X,Y) femme(X);grand_pere_de(X,Y) -> pere(X,Z) parent(Z,Y);cousin(X,Y) -> grand_pere_de(Z,X) grand_pere_de(Z,Y);tante(X,Y) -> parent(Z,Y) soeur_de(X,Z);ancetre(X,Y) -> parent(X,Y);
/* cas de base, ancetre direct */ancetre(X,Y) -> parent(Z,Y) ancetre(X,Z);
/* ancetre indirect: X est un ancetre du pere de Y */descendant(X,Y) -> ancetre(Y,X);
louis therese gedeon aglae |__________| |_________________| | | | isabelle pierre xavier claire |___________________| |________________| | | | | | gaelle axel catherine johan gwenael
mere(aglae, xavier) ->;pere(gedeon, xavier) ->;mere(aglae, pierre) ->;pere(gedeon, pierre) ->;mere(therese, isabelle) ->;pere(louis, isabelle) ->;...
ancetre(louis, johan);
Julien Diard — LPNC-CNRSCours M2R Psychologie Cognitive — UE18S3 — 2010
11
Problème
• 1966– Marvin Minsky (MIT) donne un projet
d’été de maîtrise à Gerald Sussman. – Sujet : « la vision par ordinateur »
• Le monde réel n’est pas le « blocks world »– Modèle nécessairement incomplet– Ex : partie d’échecs (Deep Blue) vs.
partie de football
Julien Diard — LPNC-CNRSCours M2R Psychologie Cognitive — UE18S3 — 2010
12
Intelligence Artificielle et monde réel
• 80s-00s : L’IA symbolique devient la GOFAI– Good old fashioned AI
• Méthodes numériques– Réseaux de neurones artificiels– Algorithmes génétiques– Modélisation Bayésienne (probabiliste)
• Transforme l’incomplétude du modèle en incertitude, manipulable mathématiquement
• Extension de la logique
Julien Diard — LPNC-CNRSCours M2R Psychologie Cognitive — UE18S3 — 2010
13
Modèles de raisonnement humain
• Raisonnement déductif (logique)– modus ponens
• A implique B, A est vrai : B est vrai
– modus tollens• A implique B, B est faux : A est faux
• Raisonnement plausible– S’il pleut, alors Jean a son parapluie– Jean a son parapluie– Il pleut, vraisemblablement
Julien Diard — LPNC-CNRSCours M2R Psychologie Cognitive — UE18S3 — 2010
14
Représentation et règles de calcul
• Desiderata– Représentation de degrés de plausibilité par
des nombres réels– Correspondance qualitative avec le sens
commun– Consistance
• Si une conclusion peut être atteinte par plusieurs chemins d’inférence, le résultat doit être indépendant du chemin
• Toutes les évidences sont utilisées pour une inférence• Des états de connaissances équivalents amènent à
des plausibilités équivalentes
Probabilités Règle du produit et règle de la somme
Julien Diard — LPNC-CNRSCours M2R Psychologie Cognitive — UE18S3 — 2010
15
• Soient A, B, C, des propositions logiques
• Règle du produit
• Règle de la somme (de normalisation)
Règles de calcul
Julien Diard — LPNC-CNRSCours M2R Psychologie Cognitive — UE18S3 — 2010
Règles de calcul• Règle du produit
Théorème de Bayes
• Règle de la somme
Règle de marginalisation
16
Reverend Thomas Bayes(~1702-1761)
Julien Diard — LPNC-CNRSCours M2R Psychologie Cognitive — UE18S3 — 2010
Probability Theory As Extended Logic
• Probabilités « subjectives »– Référence à un état de
connaissance d’un sujet
• P(« il pleut » | Jean), P(« il pleut » | Pierre)
• Pas de référence à la limite d’occurrence d’un événement (fréquence)
• Probabilités conditionnelles
– P(A | π) et jamais P(A)
• Probabilités « fréquentistes »– Une probabilité est
une propriété physique d’un objet
– Axiomatique de Kolmogorov, théorie des ensembles
–
17
E.T. Jaynes (1922-1998)
Julien Diard — LPNC-CNRSCours M2R Psychologie Cognitive — UE18S3 — 2010
Inférence probabiliste
• Théorème– Si on connaît la distribution conjointe
P(X1 X2 … Xn | π)
– Alors on peut calculer n’importe quelle « question »
P(X1 | [Xn = xn] π)
P(X2 X4 | [X3 = x3] π)
18
Julien Diard — LPNC-CNRSCours M2R Psychologie Cognitive — UE18S3 — 2010
19
Preuve
Julien Diard — LPNC-CNRSCours M2R Psychologie Cognitive — UE18S3 — 2010
20
Êtes-vous « Bayésien » ?• I’m a bayesian if I use the word “probability”.• I’m a bayesian if I use the word “conditional probability”.• I’m a bayesian if I use Bayes’ rule.• I’m a bayesian if I use Bayes’ rule in order to make inference.• I’m a bayesian if I think that probabilities represent states of
knowledge.• I’m a bayesian if I think that probabilities represent states of
knowledge and I also consider my parameters as random variables.• I’m a bayesian if I think that probabilities represent states of
knowledge and I use priors (no MaxLikelihood).• I’m a bayesian if I think that probabilities represent states of
knowledge and I use priors and I use priors on priors (hierarchical models).
• I’m a bayesian if I think that probabilities represent states of knowledge and I use subjective priors.
• I’m a bayesian if I think that probabilities represent states of knowledge and I use priors and I never use MAP.
Blog de Pierre Dangauthier
Julien Diard — LPNC-CNRSCours M2R Psychologie Cognitive — UE18S3 — 2010
Plan
• Introduction à la modélisation bayésienne– En Intelligence Artificielle
• Historique
– En robotique• Exemple de Programme Bayésien
– En sciences (physiques) • Méthodologie de sélection de modèles• Exemples de « bayésien caché »
– En sciences cognitives • Modélisation de la perception et de l’action
21
Julien Diard — LPNC-CNRSCours M2R Psychologie Cognitive — UE18S3 — 2010
22
Logical Paradigm in robotics
AvoidObstacle
Environment
O1begin......end
AvoidObs(01)
P
A
=?
O1
Incompleteness
(Bessière, 03)
Julien Diard — LPNC-CNRSCours M2R Psychologie Cognitive — UE18S3 — 2010
23
Bayesian Paradigm in robotics
Avoid Obstacle
ConnaissancesPréalables
R ( S , M)
M
SDonnées Expérimentales
Environment
=P(M | SDC)
P(MS | DC)
Julien Diard — LPNC-CNRSCours M2R Psychologie Cognitive — UE18S3 — 2010
24
Probability as LogicIncompleteness
Uncertainty
Preliminary Knowledge+
Experimental Data=
Probabilistic Representation
Maximum EntropyPrinciple
− Pi log Pi( )∑
Decision
Bayesian InferenceP(AB|C)=P(A|C)P(B|AC)=P(B|C)P(A|BC)
P(A|C)+P(¬A|C) = 1
Julien Diard — LPNC-CNRSCours M2R Psychologie Cognitive — UE18S3 — 2010
25
Programme
Description
P(X1 … Xn | C)
Questions : P(Xi … Xj | Xk … Xl C)
Spécification
Identification
VariablesDécompositionFormes paramétriques
Programmation Bayésienne des Robots
(PBR)
(Lebeltel, 99)
Julien Diard — LPNC-CNRSCours M2R Psychologie Cognitive — UE18S3 — 2010
Sensor Fusion
• Objective• Find the position of a light
source
• Difficulty – No sensor
to directly measure the position of a light source.
• Solution– Model of each sensor
– Fusion of the 8 models
26
Source lumineuse
ThetaL
DistL
Lmi
Julien Diard — LPNC-CNRSCours M2R Psychologie Cognitive — UE18S3 — 2010
27
Model of a Light Sensor
– A priori specification
Utilization
Des
crip
tion
Des
crip
tion
Que
stio
nQ
uest
ion
Pro
gram
Pro
gram
SpecificationSpecification
IdentificationIdentification
– Variables
Preliminary Knowledge sensor
– Decomposition
€
P ThetaL∧DistL∧Lmi |δ i ∧π Sensor( )
= P ThetaL∧DistL | π Sensor( ) × P Lmi | ThetaL∧DistL∧δi ∧π Sensor( )
€
P ThetaL | Lmi = li[ ]∧δ i ∧π Sensor( ),P DistL | Lmi = li[ ]∧δi ∧π Sensor( )
– Parametrical Forms
€
P ThetaL∧DistL | π Sensor( ) ← Uniform
P Lmi | ThetaL∧DistL∧δ i ∧π Sensor( ) ← Gaussians
ThetaL, DistL, Lmi
0
100
200
300
400
500
0
-90
90
-180
180
ThetaL
0
10
20
30
DistL
Lmi
Julien Diard — LPNC-CNRSCours M2R Psychologie Cognitive — UE18S3 — 2010
28
Model of a Light Sensor (2)Bayesian Inference: Inverse Problem
Description:
Question 1:
Question 2:
€
P ThetaL∧DistL∧Lmi |δ i ∧π Sensor( )
= P ThetaL∧DistL | π Sensor( ) × P Lmi | ThetaL∧DistL∧δi ∧π Sensor( )
€
P ThetaL | lmi∧δi ∧π Sensor( )
=1
Z× P lmi | ThetaL∧DistL∧δi ∧π Sensor( )
Distl
∑
€
P DistL | lmi∧δ i ∧π Sensor( )
=1
Z× P lmi | ThetaL∧DistL∧δi ∧π Sensor( )
ThetaL
∑
Julien Diard — LPNC-CNRSCours M2R Psychologie Cognitive — UE18S3 — 2010
29
Model of a Light Sensor (3)P(ThetaL | Lmi )
(Lmi = 15)
P(ThetaL | Lmi Cp_li)
0. 00
0. 12
0. 25
0. 37
0. 50
-180-135 -90 -45 0 45 90 135 170
P(DistL | Lmi Cp_li)
0. 00
0. 12
0. 25
0. 37
0. 50
0 5 10 15 20 25
(Lmi = 45)
P(ThetaL | Lmi Cp_li)
0. 00
0. 12
0. 25
0. 37
0. 50
-180-135 -90 -45 0 45 90 135 170
P(DistL | Lmi Cp_li)
0. 00
0. 12
0. 25
0. 37
0. 50
0 5 10 15 20 25
(Lmi = 100)
P(ThetaL | Lmi Cp_li)
0. 00
0. 12
0. 25
0. 37
0. 50
-180-135 -90 -45 0 45 90 135 170
P(DistL | Lmi Cp_li)
0. 00
0. 12
0. 25
0. 37
0. 50
0 5 10 15 20 25
(Lmi = 200)
P(ThetaL | Lmi Cp_li)
0. 00
0. 12
0. 25
0. 37
0. 50
-180-135 -90 -45 0 45 90 135 170
P(DistL | Lmi Cp_li)
0. 00
0. 12
0. 25
0. 37
0. 50
0 5 10 15 20 25
(Lmi = 300)
P(ThetaL | Lmi Cp_li)
0. 00
0. 12
0. 25
0. 37
0. 50
-180-135 -90 -45 0 45 90 135 170
P(DistL | Lmi Cp_li)
0. 00
0. 12
0. 25
0. 37
0. 50
0 5 10 15 20 25
(Lmi = 450)
P(ThetaL | Lmi Cp_li)
0. 00
0. 12
0. 25
0. 37
0. 50
-180-135 -90 -45 0 45 90 135 170
P(DistL | Lmi Cp_li)
0. 00
0. 12
0. 25
0. 37
0. 50
0 5 10 15 20 25
(Lmi = 475)
P(ThetaL | Lmi Cp_li)
0. 00
0. 12
0. 25
0. 37
0. 50
-180-135 -90 -45 0 45 90 135 170
P(DistL | Lmi Cp_li)
0. 00
0. 12
0. 25
0. 37
0. 50
0 5 10 15 20 25
(Lmi = 500)
P(ThetaL | Lmi Cp_li)
0. 00
0. 12
0. 25
0. 37
0. 50
-180-135 -90 -45 0 45 90 135 170
P(DistL | Lmi Cp_li)
0. 00
0. 12
0. 25
0. 37
0. 50
0 5 10 15 20 25
P(DistL | Lmi )
Notion of ambiguity
Julien Diard — LPNC-CNRSCours M2R Psychologie Cognitive — UE18S3 — 2010
30
Sensor Fusion Model
– No free parameters
Utilization
Des
crip
tion
Des
crip
tion
Que
stio
nQ
uest
ion
Pro
gram
Pro
gram
SpecificationSpecification
IdentificationIdentification
– Variables
– Decomposition (Conditional Independance Hypothesis)
€
P ThetaL∧DistL∧Lm0∧...∧Lm7 | π Fusion( )
= P ThetaL∧DistL | π Fusion( ) × P Lmi | ThetaL∧DistL∧π Fusion( )i= 0
7
∏
€
P ThetaL | lm0∧...∧lm7∧π Fusion( ),P Lm3 | lm2∧lm4∧ThetaL∧π Fusion( )
– Parametrical Forms
€
P ThetaL∧DistL | π Fusion( ) ← Uniform
P Lmi | ThetaL∧DistL∧π Fusion( ) ← P Lmi | ThetaL∧DistL∧δ i ∧π Sensor( )
ThetaL, DistL, Lm0, …, Lm7
Julien Diard — LPNC-CNRSCours M2R Psychologie Cognitive — UE18S3 — 2010
31
L m 2 = 3 9 1 ( c a p t e u r l u m - 1 0 ° )
P ( T h e t a L | L m 2 C p _ l 2 )
0 . 0 0
0 . 1 2
0 . 2 5
0 . 3 7
0 . 5 0
- 1 8 0 - 9 0 - 4 5 0 4 5 9 0 1 7 0
L m 3 = 3 7 9 ( c a p t e u r l u m 1 0 ° )
P ( T h e t a L | L m 3 C p _ l 3 )
0 . 0 0
0 . 1 2
0 . 2 5
0 . 3 7
0 . 5 0
- 1 8 0 - 9 0 - 4 5 0 4 5 9 0 1 7 0
L m 1 = 4 8 0 ( c a p t e u r l u m - 5 0 ° )
P ( T h e t a L | L m 1 C p _ l 1 )
0 . 0 0
0 . 1 2
0 . 2 5
0 . 3 7
0 . 5 0
- 1 8 0 - 9 0 - 4 5 0 4 5 9 0 1 7 0
L m 4 = 4 3 0 ( c a p t e u r l u m 5 0 ° )
P ( T h e t a L | L m 4 C p _ l 4 )
0 . 0 0
0 . 1 2
0 . 2 5
0 . 3 7
0 . 5 0
- 1 8 0 - 9 0 - 4 5 0 4 5 9 0 1 7 0
L m 0 = 5 0 9 ( c a p t e u r l u m - 9 0 ° )
P ( T h e t a L | L m 0 C p _ l 0 )
0 . 0 0
0 . 1 2
0 . 2 5
0 . 3 7
0 . 5 0
- 1 8 0 - 9 0 - 4 5 0 4 5 9 0 1 7 0
L m 5 = 5 0 3 ( c a p t e u r l u m 9 0 ° )
P ( T h e t a L | L m 5 C p _ l 5 )
0 . 0 0
0 . 1 2
0 . 2 5
0 . 3 7
0 . 5 0
- 1 8 0 - 9 0 - 4 5 0 4 5 9 0 1 7 0
L m 7 = 5 1 1 ( c a p t e u r l u m - 1 7 0 ° )
P ( T h e t a L | L m 7 C p _ l 7 )
0 . 0 0
0 . 1 2
0 . 2 5
0 . 3 7
0 . 5 0
- 1 8 0 - 9 0 - 4 5 0 4 5 9 0 1 7 0
L m 6 = 5 1 1 ( c a p t e u r l u m 1 7 0 ° )
P ( T h e t a L | L m 6 C p _ l 6 )
0 . 0 0
0 . 1 2
0 . 2 5
0 . 3 7
0 . 5 0
- 1 8 0 - 9 0 - 4 5 0 4 5 9 0 1 7 0
T e t h a = 1 0 , D i s t = 2 0
P ( T h e t a L | L m 0 . . L m 7 C p _ S o u r c e L )
0 . 0 0
0 . 2 5
0 . 5 0
0 . 7 5
1 . 0 0
- 1 8 0 - 9 0 - 5 0 - 1 01 0 5 0 9 0 1 7 0
€
P ThetaL Lm0...Lm7 Cp_SL( ) =1
ZP Lmi ThetaL DistL Cp_li( )
i= 0
7
∏DistL
∑ .
Julien Diard — LPNC-CNRSCours M2R Psychologie Cognitive — UE18S3 — 2010
Classes de modèles probabilistes
• Réseaux bayésiens• Réseaux bayésiens
dynamiques• Filtres bayésiens• Modèles de
Markov Cachés• Filtres de Kalman• Processus de
décision markovien (partiellement observable)
• …
32
Julien Diard — LPNC-CNRSCours M2R Psychologie Cognitive — UE18S3 — 2010
Plan
• Introduction à la modélisation bayésienne– En Intelligence Artificielle
• Historique
– En robotique• Exemple de Programme Bayésien
– En sciences (physiques) • Méthodologie de sélection de modèles• Exemples de « bayésien caché »
– En sciences cognitives • Modélisation de la perception et de l’action
33
Julien Diard — LPNC-CNRSCours M2R Psychologie Cognitive — UE18S3 — 2010
Notation probabiliste• Soient
– M = {m1, m2, …} ensemble de modèles
– Θ = {θ1, θ2, …} paramètres des modèles
– Δ = {δ1, δ2, …, δn} données expérimentales
– δi = {x, y} une donnée
• Un modèle– P(δi) = P(y | x) P(x)
– P(δi | θ1) = P(y | x θ1) P(x | θ1)
– P(δi | θ1 m1) = P(y | x θ1 m1) P(x | θ1 m1)
34
Julien Diard — LPNC-CNRSCours M2R Psychologie Cognitive — UE18S3 — 2010
Notation probabiliste
• Un modèle – P(δi | [Θ = θ1] [M = m1])
• Plusieurs modèles– Méta-modèle, modèle hiérarchique–
35
Julien Diard — LPNC-CNRSCours M2R Psychologie Cognitive — UE18S3 — 2010
Version « simplifiée »
• Une seule classe de modèles M = m1
• Un modèle – P(δi | [Θ = θ1])
• Méta-modèle–
36
Julien Diard — LPNC-CNRSCours M2R Psychologie Cognitive — UE18S3 — 2010
Sélection de modèle
• Quel est le modèle le plus probable, au vu des données ?– Question ubiquitaire en sciences !– Trouver θ qui maximise
37
Julien Diard — LPNC-CNRSCours M2R Psychologie Cognitive — UE18S3 — 2010
38
• Si P() = uniforme–
• Modèle de maximum de vraisemblance• Maximum Likelihood (MLE)
• Si P() uniforme– Modèle = prior vraisemblance
• Modèle de maximum a posteriori (MAP)• Méthode bayésienne
Posterior Prior Vraisemblance
Julien Diard — LPNC-CNRSCours M2R Psychologie Cognitive — UE18S3 — 2010
39
data set
set of models set of parameters
Sélection de modèleMachine learningIdentification de paramètres
Active learningDesign optimizationDistinguabilité des modèles
Julien Diard — LPNC-CNRSCours M2R Psychologie Cognitive — UE18S3 — 2010
40
Êtes-vous « Bayésien » ?• I’m a bayesian if I use the word “probability”.• I’m a bayesian if I use the word “conditional probability”.• I’m a bayesian if I use Bayes’ rule.• I’m a bayesian if I use Bayes’ rule in order to make inference.• I’m a bayesian if I think that probabilities represent states of
knowledge.• I’m a bayesian if I think that probabilities represent states of
knowledge and I also consider my parameters as random variables.• I’m a bayesian if I think that probabilities represent states of
knowledge and I use priors (no MaxLikelihood).• I’m a bayesian if I think that probabilities represent states of
knowledge and I use priors and I use priors on priors (hierarchical models).
• I’m a bayesian if I think that probabilities represent states of knowledge and I use subjective priors.
• I’m a bayesian if I think that probabilities represent states of knowledge and I use priors and I never use MAP.
Blog de Pierre Dangauthier
Julien Diard — LPNC-CNRSCours M2R Psychologie Cognitive — UE18S3 — 2010
Plan
• Introduction à la modélisation bayésienne– En Intelligence Artificielle
• Historique
– En robotique• Exemple de Programme Bayésien
– En sciences (physiques) • Méthodologie de sélection de modèles• Exemples de « bayésien caché »
– En sciences cognitives • Modélisation de la perception et de l’action
41
Julien Diard — LPNC-CNRSCours M2R Psychologie Cognitive — UE18S3 — 2010
42
Tel monsieur Jourdain…
• Un phénomène génère des couples x,y• Un modèle
– prédit y = F(x), F linéaire, F = ax + b– autorise du « bruit » dans les mesures
• On observe D = {dx1, …, dxn}• Question
– Quels sont les paramètres a, b les plus probables ?
€
p(di Θ) =1
2πσexp −
(di − F(Θ))2
2σ 2
⎛
⎝ ⎜
⎞
⎠ ⎟
Julien Diard — LPNC-CNRSCours M2R Psychologie Cognitive — UE18S3 — 2010
43
Tel monsieur Jourdain…
€
P Θ | D( )∝ P Θ( ) P di | Θ( )i=1
n
∏
€
p(di Θ) =1
2πσexp −
(di − F(Θ))2
2σ 2
⎛
⎝ ⎜
⎞
⎠ ⎟
Julien Diard — LPNC-CNRSCours M2R Psychologie Cognitive — UE18S3 — 2010
44
Tel monsieur Jourdain…
€
* = argmaxP Θ | D( )
= argmaxP Θ( )P D | Θ( )
= argmax P di | Θ( )i=1
n
∏
= argmax log P di | Θ( )( )i=1
n
∑ ⎡
⎣ ⎢
⎤
⎦ ⎥
= argmin(di − F(Θ))2
2σ i2
i=1
n
∑ ⎡
⎣ ⎢
⎤
⎦ ⎥
= argmin (di − F(Θ))2
i=1
n
∑ ⎡
⎣ ⎢
⎤
⎦ ⎥
€
P Θ | D( )∝ P Θ( ) P di | Θ( )i=1
n
∏
€
p(di Θ) =1
2π σexp −
(di − F(Θ))2
2σ 2
⎛
⎝ ⎜
⎞
⎠ ⎟
Julien Diard — LPNC-CNRSCours M2R Psychologie Cognitive — UE18S3 — 2010
45
Least square fitting sur Mathworldhttp://mathworld.wolfram.com
Julien Diard — LPNC-CNRSCours M2R Psychologie Cognitive — UE18S3 — 2010
46
Pour aller plus loin…
• Inférence dans les cas non-linéaires
• Moindres carrés Bayésien
• Espace de modèles = {3x+2, 4x3-
2x2+4}
• Priors hiérarchiques– P( | )
• Rasoir d’Occam automatique…
€
P Θ( ) =1
2π σ Θ
exp −(Θ − μ Θ )2
2σ Θ2
⎛
⎝ ⎜
⎞
⎠ ⎟
€
* = arg max P Θ | D( )
= arg max P Θ( )P D | Θ( )
= arg max P Θ( ) P di | Θ( )i =1
n
∏
= arg max log P Θ( )( ) + log P di | Θ( )( )i =1
n
∑ ⎡
⎣ ⎢
⎤
⎦ ⎥
= arg min(Θ − μ Θ )2
2σ Θ2 +
(di − F(Θ))2
2σ i2
i =1
n
∑ ⎡
⎣ ⎢
⎤
⎦ ⎥
= arg min(Θ − μ Θ )2
σ Θ2 +
(di − F(Θ))2
σ i2
i =1
n
∑ ⎡
⎣ ⎢
⎤
⎦ ⎥
Julien Diard — LPNC-CNRSCours M2R Psychologie Cognitive — UE18S3 — 2010
• Modélisation bayésienne et mesures d’erreurs
47
Julien Diard — LPNC-CNRSCours M2R Psychologie Cognitive — UE18S3 — 2010
Plan
• Introduction à la modélisation bayésienne– En Intelligence Artificielle
• Historique
– En robotique• Exemple de Programme Bayésien
– En sciences (physiques) • Méthodologie de sélection de modèles• Exemples de « bayésien caché »• Bonus : importance des variables cachées
48
Julien Diard — LPNC-CNRSCours M2R Psychologie Cognitive — UE18S3 — 2010
Importance des variables cachées
49
Julien Diard — LPNC-CNRSCours M2R Psychologie Cognitive — UE18S3 — 2010
Modélisation d’une série temporelle
t y delta_y dy seuillé81 1,982 1,98 0,08 183 2,01 0,03 184 2,1 0,09 185 2,15 0,05 186 2,14 -0,01 087 2,18 0,04 188 2,18 0 089 2,24 0,06 190 2,33 0,09 191 2,33 0 092 2,33 0 093 2,38 0,05 194 2,32 -0,06 -195 2,28 -0,04 -196 2,26 -0,02 -197 2,19 -0,07 -198 2,14 -0,05 -199 2,16 0,02 1100 2,19 0,03 1101 2,2 0,01 0102 2,23 0,03 1103 2,17 -0,06 -1104 2,14 -0,03 -1105 2,13 -0,01 0
50
Julien Diard — LPNC-CNRSCours M2R Psychologie Cognitive — UE18S3 — 2010
-1 7,00 0,290 6,00 0,251 11,00 0,46
t y delta_y dy seuillé81 1,982 1,98 0,08 183 2,01 0,03 184 2,1 0,09 185 2,15 0,05 186 2,14 -0,01 087 2,18 0,04 188 2,18 0 089 2,24 0,06 190 2,33 0,09 191 2,33 0 092 2,33 0 093 2,38 0,05 194 2,32 -0,06 -195 2,28 -0,04 -196 2,26 -0,02 -197 2,19 -0,07 -198 2,14 -0,05 -199 2,16 0,02 1100 2,19 0,03 1101 2,2 0,01 0102 2,23 0,03 1103 2,17 -0,06 -1104 2,14 -0,03 -1105 2,13 -0,01 0
P(y)
51
Julien Diard — LPNC-CNRSCours M2R Psychologie Cognitive — UE18S3 — 2010
Variable cachée V1 = {Bleu, Rouge}
V1=R V1=B
52
Julien Diard — LPNC-CNRSCours M2R Psychologie Cognitive — UE18S3 — 2010
t y delta_y dy seuillé81 1,982 1,98 0,08 183 2,01 0,03 184 2,1 0,09 185 2,15 0,05 186 2,14 -0,01 087 2,18 0,04 188 2,18 0 089 2,24 0,06 190 2,33 0,09 191 2,33 0 092 2,33 0 093 2,38 0,05 194 2,32 -0,06 -195 2,28 -0,04 -196 2,26 -0,02 -197 2,19 -0,07 -198 2,14 -0,05 -199 2,16 0,02 1100 2,19 0,03 1101 2,2 0,01 0102 2,23 0,03 1103 2,17 -0,06 -1104 2,14 -0,03 -1105 2,13 -0,01 0
-1 2,00 0,140 4,00 0,291 8,00 0,57
P(y | [V1=R])
-1 5,00 0,500 2,00 0,201 3,00 0,30
P(y | [V1=B])
53
Julien Diard — LPNC-CNRSCours M2R Psychologie Cognitive — UE18S3 — 2010
V2 = {Bleu, Rouge}t y delta_y dy seuillé
81 1,982 1,98 0,08 183 2,01 0,03 184 2,1 0,09 185 2,15 0,05 186 2,14 -0,01 087 2,18 0,04 188 2,18 0 089 2,24 0,06 190 2,33 0,09 191 2,33 0 092 2,33 0 093 2,38 0,05 194 2,32 -0,06 -195 2,28 -0,04 -196 2,26 -0,02 -197 2,19 -0,07 -198 2,14 -0,05 -199 2,16 0,02 1100 2,19 0,03 1101 2,2 0,01 0102 2,23 0,03 1103 2,17 -0,06 -1104 2,14 -0,03 -1105 2,13 -0,01 0
[V1
=R
][V
1=
B]
P(y | [V1=R] [V2=R])
P(y | [V1=R] [V2=B])
P(y | [V1=B] [V2=R])
P(y | [V1=B] [V2=B])
54
Julien Diard — LPNC-CNRSCours M2R Psychologie Cognitive — UE18S3 — 2010
Digression : entropie
• Déf :
• Exemple :
[Shannon, 1948]
55
Julien Diard — LPNC-CNRSCours M2R Psychologie Cognitive — UE18S3 — 2010
• Exemple 2 : P(X), X = {-1, 0, 1}
56
Julien Diard — LPNC-CNRSCours M2R Psychologie Cognitive — UE18S3 — 2010
Variables cachées, connaissance et entropie
• Théorème :Les variables cachées apportent de l’information
P(y | [V1=B] [V2=B])P(y)
57
Julien Diard — LPNC-CNRSCours M2R Psychologie Cognitive — UE18S3 — 2010
Prédiction de la prochaine valeur ?
P(y)
P(y | [V1=B] [V2=B])t y delta_y dy seuillé
81 1,982 1,98 0,08 183 2,01 0,03 184 2,1 0,09 185 2,15 0,05 186 2,14 -0,01 087 2,18 0,04 188 2,18 0 089 2,24 0,06 190 2,33 0,09 191 2,33 0 092 2,33 0 093 2,38 0,05 194 2,32 -0,06 -195 2,28 -0,04 -196 2,26 -0,02 -197 2,19 -0,07 -198 2,14 -0,05 -199 2,16 0,02 1100 2,19 0,03 1101 2,2 0,01 0102 2,23 0,03 1103 2,17 -0,06 -1104 2,14 -0,03 -1105 2,13 -0,01 0
58
Julien Diard — LPNC-CNRSCours M2R Psychologie Cognitive — UE18S3 — 2010
Pour 2005-2010, [V1=B] et [V2=B]
59
Julien Diard — LPNC-CNRSCours M2R Psychologie Cognitive — UE18S3 — 2010
Merci de votre attention !
Questions ?
Julien Diard — LPNC-CNRSCours M2R Psychologie Cognitive — UE18S3 — 2010
Timing
• Préambule 15 min– En Intelligence Artificielle 30 min
• Historique
– En robotique 30 min• Exemple de Programme Bayésien
• Pause 15 min– En sciences (physiques)
• Méthodologie de sélection de modèles 30 min• Exemples de « bayésien caché » 45 min• Bonus : importance des variables cachées 15 min
61