Download - Introduction à la modélisation bayésienne

Julien Diard — LPNC-CNRSCours M2R Psychologie Cognitive — UE18S3 — 2010

Introduction à la modélisation bayésienne

Julien DiardLaboratoire de Psychologie et NeuroCognition – CNRS

UE18S3 Psychophysique et analyse des signaux30/11/2010

http://diard.wordpress.com [email protected]


2

Bayésien, un mot à la mode ?


3

Google scholar trend miner


4

Êtes-vous « Bayésien » ?• I’m a bayesian if I use the word “probability”.• I’m a bayesian if I use the word “conditional probability”.• I’m a bayesian if I use Bayes’ rule.• I’m a bayesian if I use Bayes’ rule in order to make inference.• I’m a bayesian if I think that probabilities represent states of

knowledge.• I’m a bayesian if I think that probabilities represent states of

knowledge and I also consider my parameters as random variables.• I’m a bayesian if I think that probabilities represent states of

knowledge and I use priors (no MaxLikelihood).• I’m a bayesian if I think that probabilities represent states of

knowledge and I use priors and I use priors on priors (hierarchical models).

• I’m a bayesian if I think that probabilities represent states of knowledge and I use subjective priors.

• I’m a bayesian if I think that probabilities represent states of knowledge and I use priors and I never use MAP.

Blog de Pierre Dangauthier


Quelques définitions du mot « bayésien »

– En Intelligence Artificielle

– En robotique

– En sciences (physiques)

– En sciences cognitives

5


Plan

• Introduction à la modélisation bayésienne– En Intelligence Artificielle

• Historique

– En robotique• Exemple de Programme Bayésien

– En sciences (physiques) • Méthodologie de sélection de modèles• Exemples de « bayésien caché »

– En sciences cognitives • Modélisation de la perception et de l’action

6


Plan


• Historique




7


Intelligence Artificielle

• Construire des systèmes qui – pensent / agissent – comme des humains / rationnellement

• IA vs. Psychologie– IA ≅ psychologie où on construit le sujet– Psychologie ≅ IA où on tente de deviner

comment fonctionne un robot ou programme construit par un autre

8


9

IntelligenceArtificielle

• 50s-70s– IA Symbolique – Systèmes experts– Blocks World


Prolog : programmation logique

• Exemple : système expert en généalogie

• Programme =– Base de faits– Base de règles

• Requêtes– Inférence logique : principe de Robinson

10

etre_mere(X) -> mere(X,Y);parent(X,Y) -> mere(X,Y);parent(X,Y) -> pere(X,Y);etre_fils(X) -> parent(Y,X); frere_ou_soeur(X,Y) -> pere(P,X) pere(P,Y);soeur_de(X,Y) -> frere_ou_soeur(X,Y) femme(X);grand_pere_de(X,Y) -> pere(X,Z) parent(Z,Y);cousin(X,Y) -> grand_pere_de(Z,X) grand_pere_de(Z,Y);tante(X,Y) -> parent(Z,Y) soeur_de(X,Z);ancetre(X,Y) -> parent(X,Y);

/* cas de base, ancetre direct */ancetre(X,Y) -> parent(Z,Y) ancetre(X,Z);

/* ancetre indirect: X est un ancetre du pere de Y */descendant(X,Y) -> ancetre(Y,X);

louis therese gedeon aglae |__________| |_________________| | | | isabelle pierre xavier claire |___________________| |________________| | | | | | gaelle axel catherine johan gwenael

mere(aglae, xavier) ->;pere(gedeon, xavier) ->;mere(aglae, pierre) ->;pere(gedeon, pierre) ->;mere(therese, isabelle) ->;pere(louis, isabelle) ->;...

ancetre(louis, johan);


11

Problème

• 1966– Marvin Minsky (MIT) donne un projet

d’été de maîtrise à Gerald Sussman. – Sujet : « la vision par ordinateur »

• Le monde réel n’est pas le « blocks world »– Modèle nécessairement incomplet– Ex : partie d’échecs (Deep Blue) vs.

partie de football


12

Intelligence Artificielle et monde réel

• 80s-00s : L’IA symbolique devient la GOFAI– Good old fashioned AI

• Méthodes numériques– Réseaux de neurones artificiels– Algorithmes génétiques– Modélisation Bayésienne (probabiliste)

• Transforme l’incomplétude du modèle en incertitude, manipulable mathématiquement

• Extension de la logique


13

Modèles de raisonnement humain

• Raisonnement déductif (logique)– modus ponens

• A implique B, A est vrai : B est vrai

– modus tollens• A implique B, B est faux : A est faux

• Raisonnement plausible– S’il pleut, alors Jean a son parapluie– Jean a son parapluie– Il pleut, vraisemblablement


14

Représentation et règles de calcul

• Desiderata– Représentation de degrés de plausibilité par

des nombres réels– Correspondance qualitative avec le sens

commun– Consistance

• Si une conclusion peut être atteinte par plusieurs chemins d’inférence, le résultat doit être indépendant du chemin

• Toutes les évidences sont utilisées pour une inférence• Des états de connaissances équivalents amènent à

des plausibilités équivalentes

Probabilités Règle du produit et règle de la somme


15

• Soient A, B, C, des propositions logiques

• Règle du produit

• Règle de la somme (de normalisation)

Règles de calcul


Règles de calcul• Règle du produit

Théorème de Bayes

• Règle de la somme

Règle de marginalisation

16

Reverend Thomas Bayes(~1702-1761)


Probability Theory As Extended Logic

• Probabilités « subjectives »– Référence à un état de

connaissance d’un sujet

• P(« il pleut » | Jean), P(« il pleut » | Pierre)

• Pas de référence à la limite d’occurrence d’un événement (fréquence)

• Probabilités conditionnelles

– P(A | π) et jamais P(A)

• Probabilités « fréquentistes »– Une probabilité est

une propriété physique d’un objet

– Axiomatique de Kolmogorov, théorie des ensembles

–

17

E.T. Jaynes (1922-1998)


Inférence probabiliste

• Théorème– Si on connaît la distribution conjointe

P(X1 X2 … Xn | π)

– Alors on peut calculer n’importe quelle « question »

P(X1 | [Xn = xn] π)

P(X2 X4 | [X3 = x3] π)

18


19

Preuve


20










Plan


• Historique




21


22

Logical Paradigm in robotics

AvoidObstacle

Environment

O1begin......end

AvoidObs(01)

P

A

=?

O1

Incompleteness

(Bessière, 03)


23

Bayesian Paradigm in robotics

Avoid Obstacle

ConnaissancesPréalables

R ( S , M)

M

SDonnées Expérimentales

Environment

=P(M | SDC)

P(MS | DC)


24

Probability as LogicIncompleteness

Uncertainty

Preliminary Knowledge+

Experimental Data=

Probabilistic Representation

Maximum EntropyPrinciple

− Pi log Pi( )∑

Decision

Bayesian InferenceP(AB|C)=P(A|C)P(B|AC)=P(B|C)P(A|BC)

P(A|C)+P(¬A|C) = 1


25

Programme

Description

P(X1 … Xn | C)

Questions : P(Xi … Xj | Xk … Xl C)

Spécification

Identification

VariablesDécompositionFormes paramétriques

Programmation Bayésienne des Robots

(PBR)

(Lebeltel, 99)


Sensor Fusion

• Objective• Find the position of a light

source

• Difficulty – No sensor

to directly measure the position of a light source.

• Solution– Model of each sensor

– Fusion of the 8 models

26

Source lumineuse

ThetaL

DistL

Lmi


27

Model of a Light Sensor

– A priori specification

Utilization

Des

crip

tion

Des

crip

tion

Que

stio

nQ

uest

ion

Pro

gram

Pro

gram

SpecificationSpecification

IdentificationIdentification

– Variables

Preliminary Knowledge sensor

– Decomposition

€

P ThetaL∧DistL∧Lmi |δ i ∧π Sensor( )

= P ThetaL∧DistL | π Sensor( ) × P Lmi | ThetaL∧DistL∧δi ∧π Sensor( )

€

P ThetaL | Lmi = li[ ]∧δ i ∧π Sensor( ),P DistL | Lmi = li[ ]∧δi ∧π Sensor( )

– Parametrical Forms

€

P ThetaL∧DistL | π Sensor( ) ← Uniform

P Lmi | ThetaL∧DistL∧δ i ∧π Sensor( ) ← Gaussians

ThetaL, DistL, Lmi

0

100

200

300

400

500

0

-90

90

-180

180

ThetaL

0

10

20

30

DistL

Lmi


28

Model of a Light Sensor (2)Bayesian Inference: Inverse Problem

Description:

Question 1:

Question 2:

€

P ThetaL∧DistL∧Lmi |δ i ∧π Sensor( )

= P ThetaL∧DistL | π Sensor( ) × P Lmi | ThetaL∧DistL∧δi ∧π Sensor( )

€

P ThetaL | lmi∧δi ∧π Sensor( )

=1

Z× P lmi | ThetaL∧DistL∧δi ∧π Sensor( )

Distl

∑

€

P DistL | lmi∧δ i ∧π Sensor( )

=1

Z× P lmi | ThetaL∧DistL∧δi ∧π Sensor( )

ThetaL

∑


29

Model of a Light Sensor (3)P(ThetaL | Lmi )

(Lmi = 15)

P(ThetaL | Lmi Cp_li)

0. 00

0. 12

0. 25

0. 37

0. 50

-180-135 -90 -45 0 45 90 135 170

P(DistL | Lmi Cp_li)

0. 00

0. 12

0. 25

0. 37

0. 50

0 5 10 15 20 25

(Lmi = 45)


0. 00

0. 12

0. 25

0. 37

0. 50

-180-135 -90 -45 0 45 90 135 170


0. 00

0. 12

0. 25

0. 37

0. 50

0 5 10 15 20 25

(Lmi = 100)


0. 00

0. 12

0. 25

0. 37

0. 50

-180-135 -90 -45 0 45 90 135 170


0. 00

0. 12

0. 25

0. 37

0. 50

0 5 10 15 20 25

(Lmi = 200)


0. 00

0. 12

0. 25

0. 37

0. 50

-180-135 -90 -45 0 45 90 135 170


0. 00

0. 12

0. 25

0. 37

0. 50

0 5 10 15 20 25

(Lmi = 300)


0. 00

0. 12

0. 25

0. 37

0. 50

-180-135 -90 -45 0 45 90 135 170


0. 00

0. 12

0. 25

0. 37

0. 50

0 5 10 15 20 25

(Lmi = 450)


0. 00

0. 12

0. 25

0. 37

0. 50

-180-135 -90 -45 0 45 90 135 170


0. 00

0. 12

0. 25

0. 37

0. 50

0 5 10 15 20 25

(Lmi = 475)


0. 00

0. 12

0. 25

0. 37

0. 50

-180-135 -90 -45 0 45 90 135 170


0. 00

0. 12

0. 25

0. 37

0. 50

0 5 10 15 20 25

(Lmi = 500)


0. 00

0. 12

0. 25

0. 37

0. 50

-180-135 -90 -45 0 45 90 135 170


0. 00

0. 12

0. 25

0. 37

0. 50

0 5 10 15 20 25

P(DistL | Lmi )

Notion of ambiguity


30

Sensor Fusion Model

– No free parameters

Utilization

Des

crip

tion

Des

crip

tion

Que

stio

nQ

uest

ion

Pro

gram

Pro

gram

SpecificationSpecification

IdentificationIdentification

– Variables

– Decomposition (Conditional Independance Hypothesis)

€

P ThetaL∧DistL∧Lm0∧...∧Lm7 | π Fusion( )

= P ThetaL∧DistL | π Fusion( ) × P Lmi | ThetaL∧DistL∧π Fusion( )i= 0

7

∏

€

P ThetaL | lm0∧...∧lm7∧π Fusion( ),P Lm3 | lm2∧lm4∧ThetaL∧π Fusion( )

– Parametrical Forms

€

P ThetaL∧DistL | π Fusion( ) ← Uniform

P Lmi | ThetaL∧DistL∧π Fusion( ) ← P Lmi | ThetaL∧DistL∧δ i ∧π Sensor( )

ThetaL, DistL, Lm0, …, Lm7


31

L m 2 = 3 9 1 ( c a p t e u r l u m - 1 0 ° )

P ( T h e t a L | L m 2 C p _ l 2 )

0 . 0 0

0 . 1 2

0 . 2 5

0 . 3 7

0 . 5 0

- 1 8 0 - 9 0 - 4 5 0 4 5 9 0 1 7 0

L m 3 = 3 7 9 ( c a p t e u r l u m 1 0 ° )

P ( T h e t a L | L m 3 C p _ l 3 )

0 . 0 0

0 . 1 2

0 . 2 5

0 . 3 7

0 . 5 0

- 1 8 0 - 9 0 - 4 5 0 4 5 9 0 1 7 0

L m 1 = 4 8 0 ( c a p t e u r l u m - 5 0 ° )

P ( T h e t a L | L m 1 C p _ l 1 )

0 . 0 0

0 . 1 2

0 . 2 5

0 . 3 7

0 . 5 0

- 1 8 0 - 9 0 - 4 5 0 4 5 9 0 1 7 0

L m 4 = 4 3 0 ( c a p t e u r l u m 5 0 ° )

P ( T h e t a L | L m 4 C p _ l 4 )

0 . 0 0

0 . 1 2

0 . 2 5

0 . 3 7

0 . 5 0

- 1 8 0 - 9 0 - 4 5 0 4 5 9 0 1 7 0

L m 0 = 5 0 9 ( c a p t e u r l u m - 9 0 ° )

P ( T h e t a L | L m 0 C p _ l 0 )

0 . 0 0

0 . 1 2

0 . 2 5

0 . 3 7

0 . 5 0

- 1 8 0 - 9 0 - 4 5 0 4 5 9 0 1 7 0

L m 5 = 5 0 3 ( c a p t e u r l u m 9 0 ° )

P ( T h e t a L | L m 5 C p _ l 5 )

0 . 0 0

0 . 1 2

0 . 2 5

0 . 3 7

0 . 5 0

- 1 8 0 - 9 0 - 4 5 0 4 5 9 0 1 7 0

L m 7 = 5 1 1 ( c a p t e u r l u m - 1 7 0 ° )

P ( T h e t a L | L m 7 C p _ l 7 )

0 . 0 0

0 . 1 2

0 . 2 5

0 . 3 7

0 . 5 0

- 1 8 0 - 9 0 - 4 5 0 4 5 9 0 1 7 0

L m 6 = 5 1 1 ( c a p t e u r l u m 1 7 0 ° )

P ( T h e t a L | L m 6 C p _ l 6 )

0 . 0 0

0 . 1 2

0 . 2 5

0 . 3 7

0 . 5 0

- 1 8 0 - 9 0 - 4 5 0 4 5 9 0 1 7 0

T e t h a = 1 0 , D i s t = 2 0

P ( T h e t a L | L m 0 . . L m 7 C p _ S o u r c e L )

0 . 0 0

0 . 2 5

0 . 5 0

0 . 7 5

1 . 0 0

- 1 8 0 - 9 0 - 5 0 - 1 01 0 5 0 9 0 1 7 0

€

P ThetaL Lm0...Lm7 Cp_SL( ) =1

ZP Lmi ThetaL DistL Cp_li( )

i= 0

7

∏DistL

∑ .


Classes de modèles probabilistes

• Réseaux bayésiens• Réseaux bayésiens

dynamiques• Filtres bayésiens• Modèles de

Markov Cachés• Filtres de Kalman• Processus de

décision markovien (partiellement observable)

• …

32


Plan


• Historique




33


Notation probabiliste• Soient

– M = {m1, m2, …} ensemble de modèles

– Θ = {θ1, θ2, …} paramètres des modèles

– Δ = {δ1, δ2, …, δn} données expérimentales

– δi = {x, y} une donnée

• Un modèle– P(δi) = P(y | x) P(x)

– P(δi | θ1) = P(y | x θ1) P(x | θ1)

– P(δi | θ1 m1) = P(y | x θ1 m1) P(x | θ1 m1)

34


Notation probabiliste

• Un modèle – P(δi | [Θ = θ1] [M = m1])

• Plusieurs modèles– Méta-modèle, modèle hiérarchique–

35


Version « simplifiée »

• Une seule classe de modèles M = m1

• Un modèle – P(δi | [Θ = θ1])

• Méta-modèle–

36


Sélection de modèle

• Quel est le modèle le plus probable, au vu des données ?– Question ubiquitaire en sciences !– Trouver θ qui maximise

37


38

• Si P() = uniforme–

• Modèle de maximum de vraisemblance• Maximum Likelihood (MLE)

• Si P() uniforme– Modèle = prior vraisemblance

• Modèle de maximum a posteriori (MAP)• Méthode bayésienne

Posterior Prior Vraisemblance


39

data set

set of models set of parameters

Sélection de modèleMachine learningIdentification de paramètres

Active learningDesign optimizationDistinguabilité des modèles


40










Plan


• Historique




41


42

Tel monsieur Jourdain…

• Un phénomène génère des couples x,y• Un modèle

– prédit y = F(x), F linéaire, F = ax + b– autorise du « bruit » dans les mesures

• On observe D = {dx1, …, dxn}• Question

– Quels sont les paramètres a, b les plus probables ?

€

p(di Θ) =1

2πσexp −

(di − F(Θ))2

2σ 2

⎛

⎝ ⎜

⎞

⎠ ⎟


43


€

P Θ | D( )∝ P Θ( ) P di | Θ( )i=1

n

∏

€

p(di Θ) =1

2πσexp −

(di − F(Θ))2

2σ 2

⎛

⎝ ⎜

⎞

⎠ ⎟


44


€

* = argmaxP Θ | D( )

= argmaxP Θ( )P D | Θ( )

= argmax P di | Θ( )i=1

n

∏

= argmax log P di | Θ( )( )i=1

n

∑ ⎡

⎣ ⎢

⎤

⎦ ⎥

= argmin(di − F(Θ))2

2σ i2

i=1

n

∑ ⎡

⎣ ⎢

⎤

⎦ ⎥

= argmin (di − F(Θ))2

i=1

n

∑ ⎡

⎣ ⎢

⎤

⎦ ⎥

€

P Θ | D( )∝ P Θ( ) P di | Θ( )i=1

n

∏

€

p(di Θ) =1

2π σexp −

(di − F(Θ))2

2σ 2

⎛

⎝ ⎜

⎞

⎠ ⎟


45

Least square fitting sur Mathworldhttp://mathworld.wolfram.com


46

Pour aller plus loin…

• Inférence dans les cas non-linéaires

• Moindres carrés Bayésien

• Espace de modèles = {3x+2, 4x3-

2x2+4}

• Priors hiérarchiques– P( | )

• Rasoir d’Occam automatique…

€

P Θ( ) =1

2π σ Θ

exp −(Θ − μ Θ )2

2σ Θ2

⎛

⎝ ⎜

⎞

⎠ ⎟

€

* = arg max P Θ | D( )

= arg max P Θ( )P D | Θ( )

= arg max P Θ( ) P di | Θ( )i =1

n

∏

= arg max log P Θ( )( ) + log P di | Θ( )( )i =1

n

∑ ⎡

⎣ ⎢

⎤

⎦ ⎥

= arg min(Θ − μ Θ )2

2σ Θ2 +

(di − F(Θ))2

2σ i2

i =1

n

∑ ⎡

⎣ ⎢

⎤

⎦ ⎥

= arg min(Θ − μ Θ )2

σ Θ2 +

(di − F(Θ))2

σ i2

i =1

n

∑ ⎡

⎣ ⎢

⎤

⎦ ⎥


• Modélisation bayésienne et mesures d’erreurs

47


Plan


• Historique


– En sciences (physiques) • Méthodologie de sélection de modèles• Exemples de « bayésien caché »• Bonus : importance des variables cachées

48


Importance des variables cachées

49


Modélisation d’une série temporelle

t y delta_y dy seuillé81 1,982 1,98 0,08 183 2,01 0,03 184 2,1 0,09 185 2,15 0,05 186 2,14 -0,01 087 2,18 0,04 188 2,18 0 089 2,24 0,06 190 2,33 0,09 191 2,33 0 092 2,33 0 093 2,38 0,05 194 2,32 -0,06 -195 2,28 -0,04 -196 2,26 -0,02 -197 2,19 -0,07 -198 2,14 -0,05 -199 2,16 0,02 1100 2,19 0,03 1101 2,2 0,01 0102 2,23 0,03 1103 2,17 -0,06 -1104 2,14 -0,03 -1105 2,13 -0,01 0

50


-1 7,00 0,290 6,00 0,251 11,00 0,46


P(y)

51


Variable cachée V1 = {Bleu, Rouge}

V1=R V1=B

52



-1 2,00 0,140 4,00 0,291 8,00 0,57

P(y | [V1=R])

-1 5,00 0,500 2,00 0,201 3,00 0,30

P(y | [V1=B])

53


V2 = {Bleu, Rouge}t y delta_y dy seuillé

81 1,982 1,98 0,08 183 2,01 0,03 184 2,1 0,09 185 2,15 0,05 186 2,14 -0,01 087 2,18 0,04 188 2,18 0 089 2,24 0,06 190 2,33 0,09 191 2,33 0 092 2,33 0 093 2,38 0,05 194 2,32 -0,06 -195 2,28 -0,04 -196 2,26 -0,02 -197 2,19 -0,07 -198 2,14 -0,05 -199 2,16 0,02 1100 2,19 0,03 1101 2,2 0,01 0102 2,23 0,03 1103 2,17 -0,06 -1104 2,14 -0,03 -1105 2,13 -0,01 0

[V1

=R

][V

1=

B]

P(y | [V1=R] [V2=R])

P(y | [V1=R] [V2=B])

P(y | [V1=B] [V2=R])

P(y | [V1=B] [V2=B])

54


Digression : entropie

• Déf :

• Exemple :

[Shannon, 1948]

55


• Exemple 2 : P(X), X = {-1, 0, 1}

56


Variables cachées, connaissance et entropie

• Théorème :Les variables cachées apportent de l’information

P(y | [V1=B] [V2=B])P(y)

57


Prédiction de la prochaine valeur ?

P(y)

P(y | [V1=B] [V2=B])t y delta_y dy seuillé

81 1,982 1,98 0,08 183 2,01 0,03 184 2,1 0,09 185 2,15 0,05 186 2,14 -0,01 087 2,18 0,04 188 2,18 0 089 2,24 0,06 190 2,33 0,09 191 2,33 0 092 2,33 0 093 2,38 0,05 194 2,32 -0,06 -195 2,28 -0,04 -196 2,26 -0,02 -197 2,19 -0,07 -198 2,14 -0,05 -199 2,16 0,02 1100 2,19 0,03 1101 2,2 0,01 0102 2,23 0,03 1103 2,17 -0,06 -1104 2,14 -0,03 -1105 2,13 -0,01 0

58


Pour 2005-2010, [V1=B] et [V2=B]

59


Merci de votre attention !

Questions ?


Timing

• Préambule 15 min– En Intelligence Artificielle 30 min

• Historique

– En robotique 30 min• Exemple de Programme Bayésien

• Pause 15 min– En sciences (physiques)

• Méthodologie de sélection de modèles 30 min• Exemples de « bayésien caché » 45 min• Bonus : importance des variables cachées 15 min

61

Download - Introduction à la modélisation bayésienne

Top Related