pierre-louis gonzalez 1 - le site web des …maths.cnam.fr/img/pdf/donnees_cat_part_ie1.pdf · 4...

1

MODELISATION DE DONNÉES

QUALITATIVES

PREMIÈRE PARTIE

Pierre-Louis Gonzalez

2

I INTRODUCTION

. Tri à plat

.

.

Représentations graphiques

Modélisation : loi binomiale

1 variable qualitative

loi multinomiale

3

2 variables qualitatives

. Tri croisé

. Indépendance ?

. Khi-deux ...

. Description du tableau de contingence par analyse des

correspondances simples.

xx x

x

x xx x

x x

x

xx x

4

Plus de deux variables qualitatives

. Tris croisés pour tous les couples de variables(tableau de Burt)

. Analyse des correspondances multiples

But de l’étude ?

. Modélisation

.. Expliquer une variable à l’aide d’autres variables ...

5

Effets de structure

Le recours à l’utilisation de modèles ( linéaires, logistiques )est nécessaire pour isoler les effets propres.

Séparation des effets

Effet d’une variable toutes choses égales par ailleurs

Effet d’une variable conditionnellement aux variables introduites dans le modèle

6

Exemple Vocations spécifiques de deux approches : descriptionmodélisation

Correspondances multiples(DESCRIPTION)

Modèle log linéaire (EXPLORATION DEL’UNIVERS DES MODÈLES)

Description des liaisons entre les variables prises deux à deux sous forme essentiellement graphique.

Description des interactions entre plus de deux variables dans un cadre inférentiel.

N’impose aucune hypothèse sur les liaisons, mais impose une certaine homogénéité de l’ensemble des variables actives.

Des hypothèses sur les liaisons doivent être formulées au préalable.

N’est pas limitée dans le nombre de variables.

Est limité à peu de variables (en pratique moins de 5).

7

Correspondances multiples(DESCRIPTION)

Modèle log linéaire (EXPLORATION DEL’UNIVERS DES MODELES)

Met seulement en jeu les faces del’hypercube représentées par le tableau de Burt.

Met en jeu toutes les cases d’unhypercube de contingence.

Les individus peuvent jouer un rôle central. L’analyse sert à

Les individus n’apparaissent pas.

kij kil

kjl

i j l

i

j

l

lkjl

kijlkil

i

j

kij

produire des typologies d’individus.

8

II LES MÉTHODES EXPLICATIVES

VARIABLE ÀEXPLIQUER VARIABLES EXPLICATIVES X1, ... , XK

Y Numériques Nominales Mixte

Numérique Régressionmultiple

REGGLM

Analyse dela variance

Analyse dela covariance

GLMANOVA

GLM

Qualitative AnalysediscriminanteCANDISCSTEPDISCDISCRIM

DISQUALAnalyse

discriminantesur variablesqualitatives

9

VARIABLE ÀEXPLIQUER VARIABLES EXPLICATIVES X1, ... , XK

Y Numériques Nominales Mixte

Nominale àdeux

modalités

RÉGRESSION LOGISTIQUE

LOGISTIC GENMOD

NominaleMODÈLE LINÉAIRE GÉNÉRALISÉ

LOGISTIC CATMOD GENMOD

Ordinale RÉGRESSION LOGISTIQUEou

MODÈLE LINÉAIRE GÉNÉRALISÉ

LOGISTICCATMOD

10

III VARIABLE QUALITATIVE À EXPLIQUER

1 Variable dichotomique : { }Y ∈ 0 1,

Exemple 1 Soit P la population des ménages :

Yi =⎧⎨⎪

⎩⎪

1

0

si le ménage P , possède un bien durablei ∈

sinon

( )Xi = AGE, CSP, SALAIRE, HABITAT, ... régresseurs

11

Exemple 2 Soit P la population des clients potentiels d’une banque :

«CREDIT SCORING»

Yi =⎧⎨⎪

⎩⎪

1

0

si un crédit est accordé au client i

sinon

( )X i = AGE, REVENU, PRODUIT BANCAIRE, LIEU DE NAISSANCE, ...

12

Exemple 3 Soit P la population des sujets testés à une dose «DOSAGE LEVEL»

( )X i = NIVEAU DE LA DOSE, POIDS, AGE, . . .

Yi =⎧⎨⎪

⎩⎪

1

0

si le sujet P réagit au stimulus

sinon

i ∈

La variable réponse à expliquer Y est une variable de Bernoulli de paramètre pi.

( ) ( )p Y X E Y Xi i i i i= = =Pr 1

( )i i iY X B 1 , p→

OBJECTIF

Exprimer pi en fonction de Xi

13

2 Variable polytomique

Polytomique ordonnée

Exemple 1 Soit P la population d’étudiants :

i

1 i P

Y 2 i P

3 i P

si l'étudiant pratique du sport tous les jourssi l'étudiant pratique du sport une ou plusieurs fois par semainesi l'étudiant pratique du sport plus rarement

⎧ ∈⎪⎪= ∈⎨⎪

∈⎩⎪

La variable réponse Y : «pratique du sport» est codée

( )Xi = AGE, SEXE, TYPE D' ETUDES, ...

14

si l’individu P est toujours au chômage à la date

Exemple 2 Soit P la population de chômeurs à la date t :

Yi =

⎧

⎨⎪⎪

⎩⎪⎪

1234

i ∈ t + δsi l’individu P est en formation (stage)i ∈si l’individu P a un contrat CDDi ∈

si l’individu P a un contrat CDIi∈

( )Xi = AGE, SEXE, DIPLOME, QUALIFICATION ...

15

Polytomique non ordonnée

Yi «distraction du samedi soir»

Yi =

=

=

=

=

⎧

⎨⎪⎪

⎩⎪⎪

1234

télévision

théatre

cinéma

visite amis

( )Xi = AGE, SEXE, CSP, HABITAT, ...

OBJECTIF

Exprimer ( )p P Y j Xij i i= =

en fonction de X ji pour = 1 2 3, , . . .

16

IV POURQUOI DES MODÈLES PARTICULIERS ?

1 Cas de la régression linéaire classique

Y xi i i = +β ε

variablealéatoire

quantitative

prédicteurlinéaire(élément

déterminé)

variablealéatoire

1

17

( )E X xi i iε = = 0

Par la suite, on notera les espérances sans conditionnement X xi i=

ce qui revient à considérer Xi est non aléatoire. On notera

indifféremment Xi ou xi.

( )V iε σ= 2

Si de plus est supposée gaussienne, l’estimateur des moindres

carrés ordinaire :

ε i

( )β = ′ ′−X X X y1

est l’estimateur du maximum de vraisemblance.

18

2 Cas de la régression d’une variable dichotomique

Si on modélise par , on obtient un résidu qui est une v.a.r.

discrète prenant deux valeurs :

1

1( )

⇒= − = =

= − −

⎧⎨⎩

avec la probalilité

avec la probalilité

εε

β

βi i i i

i i i

x p P Yx p

1 11

Si on modélise par l’estimateur n’est plus efficace. 1 β

1 ( )⇒ =E Y xi iβ

( ) ( )i i i iY B 1,p E Y pOr → ⇒ =

⎫⎬⎭⇒ = p xi iβ

une valeur qui n’est pasforcément entre 0 et 1

Le modèle est donc inapproprié !1

19

V NIVEAU D’UTILITÉ, VARIABLE LATENTE

1 Cas de variable latente

Zi «intensité du désir de posséder le bien» pour le ménage i caractérisé par xi

Zi nonobservable

( )Y Z sY Z s

i i

i i

= ⇔ < →

= ⇔ ≥

⎧⎨⎩

01

seuil thérorique

c’est-à-dire ( )Y Ii Z si= ≥1

20

2 Fonction d’utilité

( )Soit u xi1, le niveau d’utilité procuré par la possession du bien

( )u xi0, le niveau d’utilité procuré par la non possession du bien

( ) ( )( ) ( )

Y u x u xY u x u x

i i i

i i i

= ⇔ >

= ⇔ ≥

⎧⎨⎩

0 0 11 1 0

, ,, ,

c’est-à-dire :

( ) ( )Z u x u xi i i= −1 0, ,

( )Y Ii Zi= ≥1 0

21

Dans ces deux cas, on peut exprimer la probabilité

( )p P Y xi i i= = 1 comme :

( )p P Z si i= ≥

22

VI MODÈLE THÉORIQUE

1 Données statistiques

( )Y x xi i ip, , , 1 …

variabledichotomique

{ }0 1,

i n= 1 à

taille de l’échantillonp variables explicatives

quantitatives ou qualitatives

Xi vecteur de Rp

(On supposera

de façon à définir un modèle avec constante)

( )1ix = 1 i ∀

23

En introduisant Z variable latente non observable telle que :

( ) ( )Z XY I

p P Y P Xi i i

i Zi i i i

i

= +

= >⎫⎬⎭

= = = − <β

βε

ε

1 01

( )= F Xiβ

fonction de répartitionde − ε i

24

2 Modèle stochastique général

( )Y Xi i i n,=1… i. i.d tel que :

( ) ( )H p P Y X F Xi i i i2 1 : = = = β

[ ]où : F → 0 1,R fonction de répartition

Le paramètre , vecteur de Rp formé des coefficients de régression

est inconnu.

β

1 i i iH : Y | X B(1,p )→

25

3 Modèles PROBIT, LOGIT, ...

L’hypothèse H2 dépend du choix de la fonction F. Les modèles

paramétriques usuels sont :

3.1 Le modèle probit

( ) ( )21 tF R 22

exp dtω ⎛ ⎞ω = Φ ω = − ∀ ω∈⎜ ⎟−∞ Π ⎝ ⎠

∫

Fonction de répartition de la loi normale centrée réduite N(0;1)

F − −=1 1Φ probit

26

3.2 Le modèle logit

( ) e 1F 1 e 1 e

ω

ω −ωω = = ∀ ω∈+ +

Fonction de répartition de la loi logistique

de moyenne 0 et de variance Π 2

3

( )F t tt

− =−

1

1ln logit

27

3.3 Le modèle complémentaire log-log (ou modèle Gompit)

( ) ( )F 1 e exp ωω = − − ∀ ω∈

Fonction de répartition de la loi de Gompertz

de moyenne 0,577 (constante d’Euler) et de

variance Π 2

6

( ) ( )( )F t t− = − −1 1ln ln

Remarque Cette loi est dissymétrique.

28

4 Comparaison des modèles LOGIT et PROBIT

DENSITÉS f F= ′

Modèle PROBIT ( )ΦΠ

ωω

=− ∞∫ − 1

22 2e dtt / ( )⇒ = − f e0

212

2

ω ω

Π/

Modèle LOGIT ( ) ( )( )

Fe

f e

eω ωω

ω

ω=

+⇒ =

+−

11 1

2

Modèle LOGIT réduit ( ) ( )( )

Fe

f e

e1 3 1

3

3 21

1 3 1ω ω=

+=

+−Πω

Πω

Πω

Π/

/

/

- 3 - 2 - 1 0 1 2 3

0,1

0,2

0,3

1

20 4

Π≅ ,--------

( )f0 ω

( )f ω

( )f1 ωω

29

Sur les extrêmes la loi logistique s’approche un peu plus lentement de 0 ou de 1.

30

Comparaison des fonctions de répartition

31

DIFFÉRENCE

( ) ( )F1 − Φ ω0.02

0.01

0 1 21,8

CONCLUSION

. Les lois F1 et sont proches modèles équivalents.Φ ⇒

Les estimateurs obtenus avec F (logit) seront

.. La précédure de SAS, «LOGISTIC» utilise F ou .Φ

⇒ Π / 3 foisplus grands qu’avec (probit).Φ

... Le modèle LOGIT est préférable car les calculs sont plus simples.

ω

32

Dans la plupart des cas pratiques, on peut donc choisir indifféremment l’un ou l’autre modèle.

Le modèle LOGIT a l’avantage d’une plus grande simplicité numérique.

Le modèle PROBIT est en revanche plus proche du modèle habituel de régression par les moindres carrés.

Avantages du modèle LOGIT

Les coefficients du modèle LOGIT sont interprétables en termes d’odds-ratio.

Un échantillonnage ne respectant pas les proportions réelles dans la population des deux modalités de la variable à expliquer Y ne change que la constante dans le modèle.

33

VII PRINCIPES GÉNÉRAUX : ESTIMATION DU VECTEUR β

1 La méthode du maximum de vraisemblance

Loi de probabilité de xi ( ) ( )f xi k, , ,θ θ θ θ où = ′ ∈1 … Ω

Échantillon x1 ... xn

Estimation du maximum de vraisemblance

( ) ( )θ θ θ MAX L L=

θ ∈ Ω

On obtient en général en annulant les dérivées premièresθ ( )∂ θ∂ θ

Log Li

Vraisemblance

( ) ( )L f x xii

n

iθ θ θ==∏ ,

1

dépend des et des

34

Scores

( ) ( )uL

ii

θ∂ θ

∂ θ=

Log

( ) ( ) ( )( )u u ukθ θ θ= ′ =1 , , vecteur score…

( )On a : u θ = 0

Matrice d’information de Fisher

( ) ( )I EL

θ∂ θ∂ θ

=−⎡

⎣⎢

⎤

⎦⎥

2

2

Log

estimée par : ( ) ( )IL

θ∂ θ

∂ θθ θ

=−⎛

⎝⎜

⎞

⎠⎟

=

2

2

Log

35

Résultats

θ = vecteur des paramètres

θ = estimation du maximum de vraisemblance

1.1ˆ N ; I

⎛ ⎞⎜ ⎟⎛ ⎞

⎜ ⎟⎜ ⎟⎝ ⎠⎜ ⎟⎝ ⎠

−θ → θ θ

2. ( ) ( )( )u N 0 ; Iθ → θ

3. ( ) ( ) ( )θ θ θ θ θ− ′ −I ( )χ k2

4. ( ) ( ) ( )θθθ uIu 1−′( )χ k2

5.( )( )θθˆ

2 LogLL

−=Λ ( )χ k2

→

→

→

36

2 Test global

H0 0 : θ θ=

Statistiques

1. Statistique de Wald

( ) ( ) ( )θ θ θ θ θ− ′ −0 0 0I sous H0

2. Statistique du score

( ) ( ) ( )10 0 0u I u−′θ θ θ sous H0 Avantage : pas de calcul de θ

3. Statistique des vraisemblances

( )( )Λ = −2 0 Log

LLθ

θ

2(k)→χ

2(k)→χ

2(k)→χ

sous H0

37

3 Test partiel

( )θ θ θ θ= 1 2 1, a coordonnéesp

( ),θ θ θ= =1 2 estimation du M.V.

H0 1 10 : θ θ=Test

( )On calcule , ~θ θ θH0 10 2=

( ) ( )avec L Lθ θθ

θ θ10 2

2

10 2, ~ max ,=

θ θH H0 0= estimation de sous

38

Statistiques utilisées

1. Wald ( ) ( ) ( )111 10 1 10

ˆ ˆVar −′θ − θ θ θ − θ

( ) ( ) ( )Var Var Iθ θ θ1

1 est extrait de =

−

3. Rapport de vraisemblance

2. Score

( ) ( ) ( )u I uH H Hθ θ θ0 0 0

1′ −

( )( )Λ = −2 10 2

1 2

LogL

L

θ θ

θ θ

, ~

,

2(p)→χ sous H0

2(p)→χ

2(p)→χ

sous H0

sous H0

pierre-louis gonzalez 1 - le site web des …maths.cnam.fr/img/pdf/donnees_cat_part_ie1.pdf · 4...

Documents