pierre-louis gonzalez 1 - le site web des …maths.cnam.fr/img/pdf/donnees_cat_part_ie1.pdf · 4...
TRANSCRIPT
![Page 1: Pierre-Louis Gonzalez 1 - Le site web des …maths.cnam.fr/IMG/pdf/Donnees_cat_Part_ie1.pdf · 4 Plus de deux variables qualitatives. Tris croisés pour tous les couples de variables](https://reader031.vdocuments.net/reader031/viewer/2022020205/5b95ba0609d3f2c2678ca511/html5/thumbnails/1.jpg)
1
MODELISATION DE DONNÉES
QUALITATIVES
PREMIÈRE PARTIE
Pierre-Louis Gonzalez
![Page 2: Pierre-Louis Gonzalez 1 - Le site web des …maths.cnam.fr/IMG/pdf/Donnees_cat_Part_ie1.pdf · 4 Plus de deux variables qualitatives. Tris croisés pour tous les couples de variables](https://reader031.vdocuments.net/reader031/viewer/2022020205/5b95ba0609d3f2c2678ca511/html5/thumbnails/2.jpg)
2
I INTRODUCTION
. Tri à plat
.
.
Représentations graphiques
Modélisation : loi binomiale
1 variable qualitative
loi multinomiale
![Page 3: Pierre-Louis Gonzalez 1 - Le site web des …maths.cnam.fr/IMG/pdf/Donnees_cat_Part_ie1.pdf · 4 Plus de deux variables qualitatives. Tris croisés pour tous les couples de variables](https://reader031.vdocuments.net/reader031/viewer/2022020205/5b95ba0609d3f2c2678ca511/html5/thumbnails/3.jpg)
3
2 variables qualitatives
. Tri croisé
. Indépendance ?
. Khi-deux ...
. Description du tableau de contingence par analyse des
correspondances simples.
xx x
x
x xx x
x x
x
xx x
![Page 4: Pierre-Louis Gonzalez 1 - Le site web des …maths.cnam.fr/IMG/pdf/Donnees_cat_Part_ie1.pdf · 4 Plus de deux variables qualitatives. Tris croisés pour tous les couples de variables](https://reader031.vdocuments.net/reader031/viewer/2022020205/5b95ba0609d3f2c2678ca511/html5/thumbnails/4.jpg)
4
Plus de deux variables qualitatives
. Tris croisés pour tous les couples de variables(tableau de Burt)
. Analyse des correspondances multiples
But de l’étude ?
. Modélisation
.. Expliquer une variable à l’aide d’autres variables ...
![Page 5: Pierre-Louis Gonzalez 1 - Le site web des …maths.cnam.fr/IMG/pdf/Donnees_cat_Part_ie1.pdf · 4 Plus de deux variables qualitatives. Tris croisés pour tous les couples de variables](https://reader031.vdocuments.net/reader031/viewer/2022020205/5b95ba0609d3f2c2678ca511/html5/thumbnails/5.jpg)
5
Effets de structure
Le recours à l’utilisation de modèles ( linéaires, logistiques )est nécessaire pour isoler les effets propres.
Séparation des effets
Effet d’une variable toutes choses égales par ailleurs
Effet d’une variable conditionnellement aux variables introduites dans le modèle
![Page 6: Pierre-Louis Gonzalez 1 - Le site web des …maths.cnam.fr/IMG/pdf/Donnees_cat_Part_ie1.pdf · 4 Plus de deux variables qualitatives. Tris croisés pour tous les couples de variables](https://reader031.vdocuments.net/reader031/viewer/2022020205/5b95ba0609d3f2c2678ca511/html5/thumbnails/6.jpg)
6
Exemple Vocations spécifiques de deux approches : descriptionmodélisation
Correspondances multiples(DESCRIPTION)
Modèle log linéaire (EXPLORATION DEL’UNIVERS DES MODÈLES)
Description des liaisons entre les variables prises deux à deux sous forme essentiellement graphique.
Description des interactions entre plus de deux variables dans un cadre inférentiel.
N’impose aucune hypothèse sur les liaisons, mais impose une certaine homogénéité de l’ensemble des variables actives.
Des hypothèses sur les liaisons doivent être formulées au préalable.
N’est pas limitée dans le nombre de variables.
Est limité à peu de variables (en pratique moins de 5).
![Page 7: Pierre-Louis Gonzalez 1 - Le site web des …maths.cnam.fr/IMG/pdf/Donnees_cat_Part_ie1.pdf · 4 Plus de deux variables qualitatives. Tris croisés pour tous les couples de variables](https://reader031.vdocuments.net/reader031/viewer/2022020205/5b95ba0609d3f2c2678ca511/html5/thumbnails/7.jpg)
7
Correspondances multiples(DESCRIPTION)
Modèle log linéaire (EXPLORATION DEL’UNIVERS DES MODELES)
Met seulement en jeu les faces del’hypercube représentées par le tableau de Burt.
Met en jeu toutes les cases d’unhypercube de contingence.
Les individus peuvent jouer un rôle central. L’analyse sert à
Les individus n’apparaissent pas.
kij kil
kjl
i j l
i
j
l
lkjl
kijlkil
i
j
kij
produire des typologies d’individus.
![Page 8: Pierre-Louis Gonzalez 1 - Le site web des …maths.cnam.fr/IMG/pdf/Donnees_cat_Part_ie1.pdf · 4 Plus de deux variables qualitatives. Tris croisés pour tous les couples de variables](https://reader031.vdocuments.net/reader031/viewer/2022020205/5b95ba0609d3f2c2678ca511/html5/thumbnails/8.jpg)
8
II LES MÉTHODES EXPLICATIVES
VARIABLE ÀEXPLIQUER VARIABLES EXPLICATIVES X1, ... , XK
Y Numériques Nominales Mixte
Numérique Régressionmultiple
REGGLM
Analyse dela variance
Analyse dela covariance
GLMANOVA
GLM
Qualitative AnalysediscriminanteCANDISCSTEPDISCDISCRIM
DISQUALAnalyse
discriminantesur variablesqualitatives
![Page 9: Pierre-Louis Gonzalez 1 - Le site web des …maths.cnam.fr/IMG/pdf/Donnees_cat_Part_ie1.pdf · 4 Plus de deux variables qualitatives. Tris croisés pour tous les couples de variables](https://reader031.vdocuments.net/reader031/viewer/2022020205/5b95ba0609d3f2c2678ca511/html5/thumbnails/9.jpg)
9
VARIABLE ÀEXPLIQUER VARIABLES EXPLICATIVES X1, ... , XK
Y Numériques Nominales Mixte
Nominale àdeux
modalités
RÉGRESSION LOGISTIQUE
LOGISTIC GENMOD
NominaleMODÈLE LINÉAIRE GÉNÉRALISÉ
LOGISTIC CATMOD GENMOD
Ordinale RÉGRESSION LOGISTIQUEou
MODÈLE LINÉAIRE GÉNÉRALISÉ
LOGISTICCATMOD
![Page 10: Pierre-Louis Gonzalez 1 - Le site web des …maths.cnam.fr/IMG/pdf/Donnees_cat_Part_ie1.pdf · 4 Plus de deux variables qualitatives. Tris croisés pour tous les couples de variables](https://reader031.vdocuments.net/reader031/viewer/2022020205/5b95ba0609d3f2c2678ca511/html5/thumbnails/10.jpg)
10
III VARIABLE QUALITATIVE À EXPLIQUER
1 Variable dichotomique : { }Y ∈ 0 1,
Exemple 1 Soit P la population des ménages :
Yi =⎧⎨⎪
⎩⎪
1
0
si le ménage P , possède un bien durablei ∈
sinon
( )Xi = AGE, CSP, SALAIRE, HABITAT, ... régresseurs
![Page 11: Pierre-Louis Gonzalez 1 - Le site web des …maths.cnam.fr/IMG/pdf/Donnees_cat_Part_ie1.pdf · 4 Plus de deux variables qualitatives. Tris croisés pour tous les couples de variables](https://reader031.vdocuments.net/reader031/viewer/2022020205/5b95ba0609d3f2c2678ca511/html5/thumbnails/11.jpg)
11
Exemple 2 Soit P la population des clients potentiels d’une banque :
«CREDIT SCORING»
Yi =⎧⎨⎪
⎩⎪
1
0
si un crédit est accordé au client i
sinon
( )X i = AGE, REVENU, PRODUIT BANCAIRE, LIEU DE NAISSANCE, ...
![Page 12: Pierre-Louis Gonzalez 1 - Le site web des …maths.cnam.fr/IMG/pdf/Donnees_cat_Part_ie1.pdf · 4 Plus de deux variables qualitatives. Tris croisés pour tous les couples de variables](https://reader031.vdocuments.net/reader031/viewer/2022020205/5b95ba0609d3f2c2678ca511/html5/thumbnails/12.jpg)
12
Exemple 3 Soit P la population des sujets testés à une dose «DOSAGE LEVEL»
( )X i = NIVEAU DE LA DOSE, POIDS, AGE, . . .
Yi =⎧⎨⎪
⎩⎪
1
0
si le sujet P réagit au stimulus
sinon
i ∈
La variable réponse à expliquer Y est une variable de Bernoulli de paramètre pi.
( ) ( )p Y X E Y Xi i i i i= = =Pr 1
( )i i iY X B 1 , p→
OBJECTIF
Exprimer pi en fonction de Xi
![Page 13: Pierre-Louis Gonzalez 1 - Le site web des …maths.cnam.fr/IMG/pdf/Donnees_cat_Part_ie1.pdf · 4 Plus de deux variables qualitatives. Tris croisés pour tous les couples de variables](https://reader031.vdocuments.net/reader031/viewer/2022020205/5b95ba0609d3f2c2678ca511/html5/thumbnails/13.jpg)
13
2 Variable polytomique
Polytomique ordonnée
Exemple 1 Soit P la population d’étudiants :
i
1 i P
Y 2 i P
3 i P
si l'étudiant pratique du sport tous les jourssi l'étudiant pratique du sport une ou plusieurs fois par semainesi l'étudiant pratique du sport plus rarement
⎧ ∈⎪⎪= ∈⎨⎪
∈⎩⎪
La variable réponse Y : «pratique du sport» est codée
( )Xi = AGE, SEXE, TYPE D' ETUDES, ...
![Page 14: Pierre-Louis Gonzalez 1 - Le site web des …maths.cnam.fr/IMG/pdf/Donnees_cat_Part_ie1.pdf · 4 Plus de deux variables qualitatives. Tris croisés pour tous les couples de variables](https://reader031.vdocuments.net/reader031/viewer/2022020205/5b95ba0609d3f2c2678ca511/html5/thumbnails/14.jpg)
14
si l’individu P est toujours au chômage à la date
Exemple 2 Soit P la population de chômeurs à la date t :
Yi =
⎧
⎨⎪⎪
⎩⎪⎪
1234
i ∈ t + δsi l’individu P est en formation (stage)i ∈si l’individu P a un contrat CDDi ∈
si l’individu P a un contrat CDIi∈
( )Xi = AGE, SEXE, DIPLOME, QUALIFICATION ...
![Page 15: Pierre-Louis Gonzalez 1 - Le site web des …maths.cnam.fr/IMG/pdf/Donnees_cat_Part_ie1.pdf · 4 Plus de deux variables qualitatives. Tris croisés pour tous les couples de variables](https://reader031.vdocuments.net/reader031/viewer/2022020205/5b95ba0609d3f2c2678ca511/html5/thumbnails/15.jpg)
15
Polytomique non ordonnée
Yi «distraction du samedi soir»
Yi =
=
=
=
=
⎧
⎨⎪⎪
⎩⎪⎪
1234
télévision
théatre
cinéma
visite amis
( )Xi = AGE, SEXE, CSP, HABITAT, ...
OBJECTIF
Exprimer ( )p P Y j Xij i i= =
en fonction de X ji pour = 1 2 3, , . . .
![Page 16: Pierre-Louis Gonzalez 1 - Le site web des …maths.cnam.fr/IMG/pdf/Donnees_cat_Part_ie1.pdf · 4 Plus de deux variables qualitatives. Tris croisés pour tous les couples de variables](https://reader031.vdocuments.net/reader031/viewer/2022020205/5b95ba0609d3f2c2678ca511/html5/thumbnails/16.jpg)
16
IV POURQUOI DES MODÈLES PARTICULIERS ?
1 Cas de la régression linéaire classique
Y xi i i = +β ε
variablealéatoire
quantitative
prédicteurlinéaire(élément
déterminé)
variablealéatoire
1
![Page 17: Pierre-Louis Gonzalez 1 - Le site web des …maths.cnam.fr/IMG/pdf/Donnees_cat_Part_ie1.pdf · 4 Plus de deux variables qualitatives. Tris croisés pour tous les couples de variables](https://reader031.vdocuments.net/reader031/viewer/2022020205/5b95ba0609d3f2c2678ca511/html5/thumbnails/17.jpg)
17
( )E X xi i iε = = 0
Par la suite, on notera les espérances sans conditionnement X xi i=
ce qui revient à considérer Xi est non aléatoire. On notera
indifféremment Xi ou xi.
( )V iε σ= 2
Si de plus est supposée gaussienne, l’estimateur des moindres
carrés ordinaire :
ε i
( )β = ′ ′−X X X y1
est l’estimateur du maximum de vraisemblance.
![Page 18: Pierre-Louis Gonzalez 1 - Le site web des …maths.cnam.fr/IMG/pdf/Donnees_cat_Part_ie1.pdf · 4 Plus de deux variables qualitatives. Tris croisés pour tous les couples de variables](https://reader031.vdocuments.net/reader031/viewer/2022020205/5b95ba0609d3f2c2678ca511/html5/thumbnails/18.jpg)
18
2 Cas de la régression d’une variable dichotomique
Si on modélise par , on obtient un résidu qui est une v.a.r.
discrète prenant deux valeurs :
1
1( )
⇒= − = =
= − −
⎧⎨⎩
avec la probalilité
avec la probalilité
εε
β
βi i i i
i i i
x p P Yx p
1 11
Si on modélise par l’estimateur n’est plus efficace. 1 β
1 ( )⇒ =E Y xi iβ
( ) ( )i i i iY B 1,p E Y pOr → ⇒ =
⎫⎬⎭⇒ = p xi iβ
une valeur qui n’est pasforcément entre 0 et 1
Le modèle est donc inapproprié !1
![Page 19: Pierre-Louis Gonzalez 1 - Le site web des …maths.cnam.fr/IMG/pdf/Donnees_cat_Part_ie1.pdf · 4 Plus de deux variables qualitatives. Tris croisés pour tous les couples de variables](https://reader031.vdocuments.net/reader031/viewer/2022020205/5b95ba0609d3f2c2678ca511/html5/thumbnails/19.jpg)
19
V NIVEAU D’UTILITÉ, VARIABLE LATENTE
1 Cas de variable latente
Zi «intensité du désir de posséder le bien» pour le ménage i caractérisé par xi
Zi nonobservable
( )Y Z sY Z s
i i
i i
= ⇔ < →
= ⇔ ≥
⎧⎨⎩
01
seuil thérorique
c’est-à-dire ( )Y Ii Z si= ≥1
![Page 20: Pierre-Louis Gonzalez 1 - Le site web des …maths.cnam.fr/IMG/pdf/Donnees_cat_Part_ie1.pdf · 4 Plus de deux variables qualitatives. Tris croisés pour tous les couples de variables](https://reader031.vdocuments.net/reader031/viewer/2022020205/5b95ba0609d3f2c2678ca511/html5/thumbnails/20.jpg)
20
2 Fonction d’utilité
( )Soit u xi1, le niveau d’utilité procuré par la possession du bien
( )u xi0, le niveau d’utilité procuré par la non possession du bien
( ) ( )( ) ( )
Y u x u xY u x u x
i i i
i i i
= ⇔ >
= ⇔ ≥
⎧⎨⎩
0 0 11 1 0
, ,, ,
c’est-à-dire :
( ) ( )Z u x u xi i i= −1 0, ,
( )Y Ii Zi= ≥1 0
![Page 21: Pierre-Louis Gonzalez 1 - Le site web des …maths.cnam.fr/IMG/pdf/Donnees_cat_Part_ie1.pdf · 4 Plus de deux variables qualitatives. Tris croisés pour tous les couples de variables](https://reader031.vdocuments.net/reader031/viewer/2022020205/5b95ba0609d3f2c2678ca511/html5/thumbnails/21.jpg)
21
Dans ces deux cas, on peut exprimer la probabilité
( )p P Y xi i i= = 1 comme :
( )p P Z si i= ≥
![Page 22: Pierre-Louis Gonzalez 1 - Le site web des …maths.cnam.fr/IMG/pdf/Donnees_cat_Part_ie1.pdf · 4 Plus de deux variables qualitatives. Tris croisés pour tous les couples de variables](https://reader031.vdocuments.net/reader031/viewer/2022020205/5b95ba0609d3f2c2678ca511/html5/thumbnails/22.jpg)
22
VI MODÈLE THÉORIQUE
1 Données statistiques
( )Y x xi i ip, , , 1 …
variabledichotomique
{ }0 1,
i n= 1 à
taille de l’échantillonp variables explicatives
quantitatives ou qualitatives
Xi vecteur de Rp
(On supposera
de façon à définir un modèle avec constante)
( )1ix = 1 i ∀
![Page 23: Pierre-Louis Gonzalez 1 - Le site web des …maths.cnam.fr/IMG/pdf/Donnees_cat_Part_ie1.pdf · 4 Plus de deux variables qualitatives. Tris croisés pour tous les couples de variables](https://reader031.vdocuments.net/reader031/viewer/2022020205/5b95ba0609d3f2c2678ca511/html5/thumbnails/23.jpg)
23
En introduisant Z variable latente non observable telle que :
( ) ( )Z XY I
p P Y P Xi i i
i Zi i i i
i
= +
= >⎫⎬⎭
= = = − <β
βε
ε
1 01
( )= F Xiβ
fonction de répartitionde − ε i
![Page 24: Pierre-Louis Gonzalez 1 - Le site web des …maths.cnam.fr/IMG/pdf/Donnees_cat_Part_ie1.pdf · 4 Plus de deux variables qualitatives. Tris croisés pour tous les couples de variables](https://reader031.vdocuments.net/reader031/viewer/2022020205/5b95ba0609d3f2c2678ca511/html5/thumbnails/24.jpg)
24
2 Modèle stochastique général
( )Y Xi i i n,=1… i. i.d tel que :
( ) ( )H p P Y X F Xi i i i2 1 : = = = β
[ ]où : F → 0 1,R fonction de répartition
Le paramètre , vecteur de Rp formé des coefficients de régression
est inconnu.
β
1 i i iH : Y | X B(1,p )→
![Page 25: Pierre-Louis Gonzalez 1 - Le site web des …maths.cnam.fr/IMG/pdf/Donnees_cat_Part_ie1.pdf · 4 Plus de deux variables qualitatives. Tris croisés pour tous les couples de variables](https://reader031.vdocuments.net/reader031/viewer/2022020205/5b95ba0609d3f2c2678ca511/html5/thumbnails/25.jpg)
25
3 Modèles PROBIT, LOGIT, ...
L’hypothèse H2 dépend du choix de la fonction F. Les modèles
paramétriques usuels sont :
3.1 Le modèle probit
( ) ( )21 tF R 22
exp dtω ⎛ ⎞ω = Φ ω = − ∀ ω∈⎜ ⎟−∞ Π ⎝ ⎠
∫
Fonction de répartition de la loi normale centrée réduite N(0;1)
F − −=1 1Φ probit
![Page 26: Pierre-Louis Gonzalez 1 - Le site web des …maths.cnam.fr/IMG/pdf/Donnees_cat_Part_ie1.pdf · 4 Plus de deux variables qualitatives. Tris croisés pour tous les couples de variables](https://reader031.vdocuments.net/reader031/viewer/2022020205/5b95ba0609d3f2c2678ca511/html5/thumbnails/26.jpg)
26
3.2 Le modèle logit
( ) e 1F 1 e 1 e
ω
ω −ωω = = ∀ ω∈+ +
Fonction de répartition de la loi logistique
de moyenne 0 et de variance Π 2
3
( )F t tt
− =−
1
1ln logit
![Page 27: Pierre-Louis Gonzalez 1 - Le site web des …maths.cnam.fr/IMG/pdf/Donnees_cat_Part_ie1.pdf · 4 Plus de deux variables qualitatives. Tris croisés pour tous les couples de variables](https://reader031.vdocuments.net/reader031/viewer/2022020205/5b95ba0609d3f2c2678ca511/html5/thumbnails/27.jpg)
27
3.3 Le modèle complémentaire log-log (ou modèle Gompit)
( ) ( )F 1 e exp ωω = − − ∀ ω∈
Fonction de répartition de la loi de Gompertz
de moyenne 0,577 (constante d’Euler) et de
variance Π 2
6
( ) ( )( )F t t− = − −1 1ln ln
Remarque Cette loi est dissymétrique.
![Page 28: Pierre-Louis Gonzalez 1 - Le site web des …maths.cnam.fr/IMG/pdf/Donnees_cat_Part_ie1.pdf · 4 Plus de deux variables qualitatives. Tris croisés pour tous les couples de variables](https://reader031.vdocuments.net/reader031/viewer/2022020205/5b95ba0609d3f2c2678ca511/html5/thumbnails/28.jpg)
28
4 Comparaison des modèles LOGIT et PROBIT
DENSITÉS f F= ′
Modèle PROBIT ( )ΦΠ
ωω
=− ∞∫ − 1
22 2e dtt / ( )⇒ = − f e0
212
2
ω ω
Π/
Modèle LOGIT ( ) ( )( )
Fe
f e
eω ωω
ω
ω=
+⇒ =
+−
11 1
2
Modèle LOGIT réduit ( ) ( )( )
Fe
f e
e1 3 1
3
3 21
1 3 1ω ω=
+=
+−Πω
Πω
Πω
Π/
/
/
- 3 - 2 - 1 0 1 2 3
0,1
0,2
0,3
1
20 4
Π≅ ,--------
( )f0 ω
( )f ω
( )f1 ωω
![Page 29: Pierre-Louis Gonzalez 1 - Le site web des …maths.cnam.fr/IMG/pdf/Donnees_cat_Part_ie1.pdf · 4 Plus de deux variables qualitatives. Tris croisés pour tous les couples de variables](https://reader031.vdocuments.net/reader031/viewer/2022020205/5b95ba0609d3f2c2678ca511/html5/thumbnails/29.jpg)
29
Sur les extrêmes la loi logistique s’approche un peu plus lentement de 0 ou de 1.
![Page 30: Pierre-Louis Gonzalez 1 - Le site web des …maths.cnam.fr/IMG/pdf/Donnees_cat_Part_ie1.pdf · 4 Plus de deux variables qualitatives. Tris croisés pour tous les couples de variables](https://reader031.vdocuments.net/reader031/viewer/2022020205/5b95ba0609d3f2c2678ca511/html5/thumbnails/30.jpg)
30
Comparaison des fonctions de répartition
![Page 31: Pierre-Louis Gonzalez 1 - Le site web des …maths.cnam.fr/IMG/pdf/Donnees_cat_Part_ie1.pdf · 4 Plus de deux variables qualitatives. Tris croisés pour tous les couples de variables](https://reader031.vdocuments.net/reader031/viewer/2022020205/5b95ba0609d3f2c2678ca511/html5/thumbnails/31.jpg)
31
DIFFÉRENCE
( ) ( )F1 − Φ ω0.02
0.01
0 1 21,8
CONCLUSION
. Les lois F1 et sont proches modèles équivalents.Φ ⇒
Les estimateurs obtenus avec F (logit) seront
.. La précédure de SAS, «LOGISTIC» utilise F ou .Φ
⇒ Π / 3 foisplus grands qu’avec (probit).Φ
... Le modèle LOGIT est préférable car les calculs sont plus simples.
ω
![Page 32: Pierre-Louis Gonzalez 1 - Le site web des …maths.cnam.fr/IMG/pdf/Donnees_cat_Part_ie1.pdf · 4 Plus de deux variables qualitatives. Tris croisés pour tous les couples de variables](https://reader031.vdocuments.net/reader031/viewer/2022020205/5b95ba0609d3f2c2678ca511/html5/thumbnails/32.jpg)
32
Dans la plupart des cas pratiques, on peut donc choisir indifféremment l’un ou l’autre modèle.
Le modèle LOGIT a l’avantage d’une plus grande simplicité numérique.
Le modèle PROBIT est en revanche plus proche du modèle habituel de régression par les moindres carrés.
Avantages du modèle LOGIT
Les coefficients du modèle LOGIT sont interprétables en termes d’odds-ratio.
Un échantillonnage ne respectant pas les proportions réelles dans la population des deux modalités de la variable à expliquer Y ne change que la constante dans le modèle.
![Page 33: Pierre-Louis Gonzalez 1 - Le site web des …maths.cnam.fr/IMG/pdf/Donnees_cat_Part_ie1.pdf · 4 Plus de deux variables qualitatives. Tris croisés pour tous les couples de variables](https://reader031.vdocuments.net/reader031/viewer/2022020205/5b95ba0609d3f2c2678ca511/html5/thumbnails/33.jpg)
33
VII PRINCIPES GÉNÉRAUX : ESTIMATION DU VECTEUR β
1 La méthode du maximum de vraisemblance
Loi de probabilité de xi ( ) ( )f xi k, , ,θ θ θ θ où = ′ ∈1 … Ω
Échantillon x1 ... xn
Estimation du maximum de vraisemblance
( ) ( )θ θ θ MAX L L=
θ ∈ Ω
On obtient en général en annulant les dérivées premièresθ ( )∂ θ∂ θ
Log Li
Vraisemblance
( ) ( )L f x xii
n
iθ θ θ==∏ ,
1
dépend des et des
![Page 34: Pierre-Louis Gonzalez 1 - Le site web des …maths.cnam.fr/IMG/pdf/Donnees_cat_Part_ie1.pdf · 4 Plus de deux variables qualitatives. Tris croisés pour tous les couples de variables](https://reader031.vdocuments.net/reader031/viewer/2022020205/5b95ba0609d3f2c2678ca511/html5/thumbnails/34.jpg)
34
Scores
( ) ( )uL
ii
θ∂ θ
∂ θ=
Log
( ) ( ) ( )( )u u ukθ θ θ= ′ =1 , , vecteur score…
( )On a : u θ = 0
Matrice d’information de Fisher
( ) ( )I EL
θ∂ θ∂ θ
=−⎡
⎣⎢
⎤
⎦⎥
2
2
Log
estimée par : ( ) ( )IL
θ∂ θ
∂ θθ θ
=−⎛
⎝⎜
⎞
⎠⎟
=
2
2
Log
![Page 35: Pierre-Louis Gonzalez 1 - Le site web des …maths.cnam.fr/IMG/pdf/Donnees_cat_Part_ie1.pdf · 4 Plus de deux variables qualitatives. Tris croisés pour tous les couples de variables](https://reader031.vdocuments.net/reader031/viewer/2022020205/5b95ba0609d3f2c2678ca511/html5/thumbnails/35.jpg)
35
Résultats
θ = vecteur des paramètres
θ = estimation du maximum de vraisemblance
1.1ˆ N ; I
⎛ ⎞⎜ ⎟⎛ ⎞
⎜ ⎟⎜ ⎟⎝ ⎠⎜ ⎟⎝ ⎠
−θ → θ θ
2. ( ) ( )( )u N 0 ; Iθ → θ
3. ( ) ( ) ( )θ θ θ θ θ− ′ −I ( )χ k2
4. ( ) ( ) ( )θθθ uIu 1−′( )χ k2
5.( )( )θθˆ
2 LogLL
−=Λ ( )χ k2
→
→
→
![Page 36: Pierre-Louis Gonzalez 1 - Le site web des …maths.cnam.fr/IMG/pdf/Donnees_cat_Part_ie1.pdf · 4 Plus de deux variables qualitatives. Tris croisés pour tous les couples de variables](https://reader031.vdocuments.net/reader031/viewer/2022020205/5b95ba0609d3f2c2678ca511/html5/thumbnails/36.jpg)
36
2 Test global
H0 0 : θ θ=
Statistiques
1. Statistique de Wald
( ) ( ) ( )θ θ θ θ θ− ′ −0 0 0I sous H0
2. Statistique du score
( ) ( ) ( )10 0 0u I u−′θ θ θ sous H0 Avantage : pas de calcul de θ
3. Statistique des vraisemblances
( )( )Λ = −2 0 Log
LLθ
θ
2(k)→χ
2(k)→χ
2(k)→χ
sous H0
![Page 37: Pierre-Louis Gonzalez 1 - Le site web des …maths.cnam.fr/IMG/pdf/Donnees_cat_Part_ie1.pdf · 4 Plus de deux variables qualitatives. Tris croisés pour tous les couples de variables](https://reader031.vdocuments.net/reader031/viewer/2022020205/5b95ba0609d3f2c2678ca511/html5/thumbnails/37.jpg)
37
3 Test partiel
( )θ θ θ θ= 1 2 1, a coordonnéesp
( ),θ θ θ= =1 2 estimation du M.V.
H0 1 10 : θ θ=Test
( )On calcule , ~θ θ θH0 10 2=
( ) ( )avec L Lθ θθ
θ θ10 2
2
10 2, ~ max ,=
θ θH H0 0= estimation de sous
![Page 38: Pierre-Louis Gonzalez 1 - Le site web des …maths.cnam.fr/IMG/pdf/Donnees_cat_Part_ie1.pdf · 4 Plus de deux variables qualitatives. Tris croisés pour tous les couples de variables](https://reader031.vdocuments.net/reader031/viewer/2022020205/5b95ba0609d3f2c2678ca511/html5/thumbnails/38.jpg)
38
Statistiques utilisées
1. Wald ( ) ( ) ( )111 10 1 10
ˆ ˆVar −′θ − θ θ θ − θ
( ) ( ) ( )Var Var Iθ θ θ1
1 est extrait de =
−
3. Rapport de vraisemblance
2. Score
( ) ( ) ( )u I uH H Hθ θ θ0 0 0
1′ −
( )( )Λ = −2 10 2
1 2
LogL
L
θ θ
θ θ
, ~
,
2(p)→χ sous H0
2(p)→χ
2(p)→χ
sous H0
sous H0