la régression logistique 14... · 2017-02-10 · la régression logistique cours de bmv1 année...
TRANSCRIPT
![Page 1: La régression logistique 14... · 2017-02-10 · La régression logistique Cours de BMV1 Année académique 2011-2012 Frédéric Farnir. Position du problème ... > 45 4 3 0.13 0.21](https://reader033.vdocuments.net/reader033/viewer/2022042909/5f3c7e41dfc95c0d4c51c55c/html5/thumbnails/1.jpg)
La régression logistiqueLa régression logistique
Cours de BMV1 Année académique 2011-2012
Frédéric Farnir
![Page 2: La régression logistique 14... · 2017-02-10 · La régression logistique Cours de BMV1 Année académique 2011-2012 Frédéric Farnir. Position du problème ... > 45 4 3 0.13 0.21](https://reader033.vdocuments.net/reader033/viewer/2022042909/5f3c7e41dfc95c0d4c51c55c/html5/thumbnails/2.jpg)
Position du problèmePosition du problème
� Analysons l’influence du poids du veau sur le taux de dystocies dans une race bovine◦ Y = % dystocies ◦ X = poids des veaux à la naissance◦ X = poids des veaux à la naissance
=> Y = f(X)◦ Il s’agit d’un problème de « régression »,
mais…� X est bien une variable continue
� Y est une variable binaire� ici, dystocie ( = 1) ou non ( = 0)
![Page 3: La régression logistique 14... · 2017-02-10 · La régression logistique Cours de BMV1 Année académique 2011-2012 Frédéric Farnir. Position du problème ... > 45 4 3 0.13 0.21](https://reader033.vdocuments.net/reader033/viewer/2022042909/5f3c7e41dfc95c0d4c51c55c/html5/thumbnails/3.jpg)
Position du problèmePosition du problème
� Rappel
SortieQuantitative Qualitative
RégressionRégression logistique
Tables de contingence
Quantitative
Qualitative
Entrée
ANOVA
![Page 4: La régression logistique 14... · 2017-02-10 · La régression logistique Cours de BMV1 Année académique 2011-2012 Frédéric Farnir. Position du problème ... > 45 4 3 0.13 0.21](https://reader033.vdocuments.net/reader033/viewer/2022042909/5f3c7e41dfc95c0d4c51c55c/html5/thumbnails/4.jpg)
Exemple de problèmeExemple de problème
� Dans le cas des dystocies, on aurait des données dans le format suivant:
Poids du veau (kg)
Dystocie ?(Oui = 1, Non = 0)
35 0
41 1
40 0
.
.
....
![Page 5: La régression logistique 14... · 2017-02-10 · La régression logistique Cours de BMV1 Année académique 2011-2012 Frédéric Farnir. Position du problème ... > 45 4 3 0.13 0.21](https://reader033.vdocuments.net/reader033/viewer/2022042909/5f3c7e41dfc95c0d4c51c55c/html5/thumbnails/5.jpg)
Exemple de problèmeExemple de problème
� Alternativement, on peut représenter les données dans le format suivant:
Classe de poids du veau (kg)
Nombre de veaux
Nombre de dystocies
Proportions
< 36 8
[36 – 39[ 28
1
6
[39 – 42[ 41
[42 – 45[ 17
18
9
> 45 4 3
0.13
0.21
0.44
0.53
0.75
![Page 6: La régression logistique 14... · 2017-02-10 · La régression logistique Cours de BMV1 Année académique 2011-2012 Frédéric Farnir. Position du problème ... > 45 4 3 0.13 0.21](https://reader033.vdocuments.net/reader033/viewer/2022042909/5f3c7e41dfc95c0d4c51c55c/html5/thumbnails/6.jpg)
Exemple de problèmeExemple de problème
� Conclusions provisoires:◦ La proportion de cas augmente avec le poids
des veaux◦ On peut vouloir modéliser et objectiver cette
dépendance en utilisant l’approche de la régression linéaire
![Page 7: La régression logistique 14... · 2017-02-10 · La régression logistique Cours de BMV1 Année académique 2011-2012 Frédéric Farnir. Position du problème ... > 45 4 3 0.13 0.21](https://reader033.vdocuments.net/reader033/viewer/2022042909/5f3c7e41dfc95c0d4c51c55c/html5/thumbnails/7.jpg)
Exemple de problèmeExemple de problème
� Régression linéaire:
Obs X Y
1 34.5 1
2 34.5 0
E[Y|X] = α + β * X
avec:2 34.5 0
97 46.5 1
98 46.5 0
… … …
Moyen. 39.92 0.377
avec:
a = α = Y – b * X:__
^
b = β = Σ x * y / Σ x²^
![Page 8: La régression logistique 14... · 2017-02-10 · La régression logistique Cours de BMV1 Année académique 2011-2012 Frédéric Farnir. Position du problème ... > 45 4 3 0.13 0.21](https://reader033.vdocuments.net/reader033/viewer/2022042909/5f3c7e41dfc95c0d4c51c55c/html5/thumbnails/8.jpg)
Exemple de problèmeExemple de problème
� Régression linéaire (suite)
Obs X Y
1 34.5 1
2 34.5 0
E[Y|X] = P(Y = 0 | X) * 0 + P(Y = 1| X) * 1= P(Y = 1 | X)
2 34.5 0
97 46.5 1
98 46.5 0
… … …
Moyen. 39.92 0.377
� La régression essaie donc de prédire la probabilité de dystocie en fonction du poids
![Page 9: La régression logistique 14... · 2017-02-10 · La régression logistique Cours de BMV1 Année académique 2011-2012 Frédéric Farnir. Position du problème ... > 45 4 3 0.13 0.21](https://reader033.vdocuments.net/reader033/viewer/2022042909/5f3c7e41dfc95c0d4c51c55c/html5/thumbnails/9.jpg)
Exemple de problèmeExemple de problème
� Régression linéaire: solutionsP(Y = 1|X) = -1.734 + 0.0529 * X
Classe de poids du veau (kg)
Proportions Prédictions
< 36
[36 – 39[
[39 – 42[
[42 – 45[
> 45
0.125
0.214
0.439
0.529
0.750
0.091
0.250
0.408
0.567
0.726
![Page 10: La régression logistique 14... · 2017-02-10 · La régression logistique Cours de BMV1 Année académique 2011-2012 Frédéric Farnir. Position du problème ... > 45 4 3 0.13 0.21](https://reader033.vdocuments.net/reader033/viewer/2022042909/5f3c7e41dfc95c0d4c51c55c/html5/thumbnails/10.jpg)
Exemple de problèmeExemple de problème
� Régression linéaire: conclusions◦ Estimations à priori raisonnables…
mais:◦ si X < -a/b = 32.78 kg => P < 0 !!◦ si X > (1-a)/b = 51.69 kg => P > 1 !!◦ si X > (1-a)/b = 51.69 kg => P > 1 !!
=> Problème structurel dans le modèle…
51.6932.78
Poids (kg)
P(dystocie)
1
0
![Page 11: La régression logistique 14... · 2017-02-10 · La régression logistique Cours de BMV1 Année académique 2011-2012 Frédéric Farnir. Position du problème ... > 45 4 3 0.13 0.21](https://reader033.vdocuments.net/reader033/viewer/2022042909/5f3c7e41dfc95c0d4c51c55c/html5/thumbnails/11.jpg)
Exemple de problèmeExemple de problème
� Régression linéaire: conclusions (suite)◦ donc, au mieux, validité limitée du modèle !◦ De plus, violation des hypothèses:� a) non-normalité des résidus� a) non-normalité des résidus
pour un X donné, le résidu:(Y – E[Y | X]) = (Y – P(X))
ne peut prendre que deux valeurs:(1 – P(X)) ou -P(X)
=> difficile dans ces conditions de prétendre à la normalité des données
![Page 12: La régression logistique 14... · 2017-02-10 · La régression logistique Cours de BMV1 Année académique 2011-2012 Frédéric Farnir. Position du problème ... > 45 4 3 0.13 0.21](https://reader033.vdocuments.net/reader033/viewer/2022042909/5f3c7e41dfc95c0d4c51c55c/html5/thumbnails/12.jpg)
Exemple de problèmeExemple de problème
� Régression linéaire: conclusions (suite)◦ De plus, violation des hypothèses:� b) hétérosédasticité
^ ^E[e|X] = P(Y=1 | X) * (1 –Y) + P(Y=0 | X) * (0 –Y)
= π(X)*(1 – π(X)) + (1 – π(X))*(-π(X))= 0
E[e²|X] = π(X)*(1 – π(X))² + (1 – π(X))*(-π(X))²= π(X)*(1 – π(X)) = f(X)…
En particulier, V(e|X) → 0 quand π(X) → 0 ou 1
^ ^
![Page 13: La régression logistique 14... · 2017-02-10 · La régression logistique Cours de BMV1 Année académique 2011-2012 Frédéric Farnir. Position du problème ... > 45 4 3 0.13 0.21](https://reader033.vdocuments.net/reader033/viewer/2022042909/5f3c7e41dfc95c0d4c51c55c/html5/thumbnails/13.jpg)
Une approche alternativeUne approche alternative
� Le problème structurel provient donc du fait que (α + β * X) → ±∞ si X → ±∞. alors que les probabilités ∈ [0;1]◦ Dans notre exemple, quand les veaux sont ◦ Dans notre exemple, quand les veaux sont
très légers (X <<), P → 0 et quand les veaux sont très lourds (X >>), P →1.
![Page 14: La régression logistique 14... · 2017-02-10 · La régression logistique Cours de BMV1 Année académique 2011-2012 Frédéric Farnir. Position du problème ... > 45 4 3 0.13 0.21](https://reader033.vdocuments.net/reader033/viewer/2022042909/5f3c7e41dfc95c0d4c51c55c/html5/thumbnails/14.jpg)
Une approche alternative (suite)Une approche alternative (suite)
� On a donc besoin de transformer(α + β * X) pour le contraindre à rester dans l’intervalle [0;1], ou, de manière équivalente, transformer p = P(Y|X) pour l’amener à prendre des valeurs dans l’amener à prendre des valeurs dans ] -∞; +∞[
� La première approche utilise des « fonctions de lien » (link functions), la deuxième des « fonctions de probabilité » (probability functions)
![Page 15: La régression logistique 14... · 2017-02-10 · La régression logistique Cours de BMV1 Année académique 2011-2012 Frédéric Farnir. Position du problème ... > 45 4 3 0.13 0.21](https://reader033.vdocuments.net/reader033/viewer/2022042909/5f3c7e41dfc95c0d4c51c55c/html5/thumbnails/15.jpg)
Une approche alternative (suite)Une approche alternative (suite)
� Exemple de fonction de lien:f(p) = logit(p) = ln[p/(1-p)] = λ
◦ p → 0 => f(p) → -∞◦ p → 1 => f(p) → +∞◦ p → 1 => f(p) → +∞◦ La fonction de probabilité correspondante est:
g(λ) = exp(λ)/[1+exp(λ)]◦ p → -∞ => g(λ) → 0◦ p → +∞ => g(λ) → 1
![Page 16: La régression logistique 14... · 2017-02-10 · La régression logistique Cours de BMV1 Année académique 2011-2012 Frédéric Farnir. Position du problème ... > 45 4 3 0.13 0.21](https://reader033.vdocuments.net/reader033/viewer/2022042909/5f3c7e41dfc95c0d4c51c55c/html5/thumbnails/16.jpg)
Une approche alternative (suite)Une approche alternative (suite)
� Exemple de fonction de probabilité (suite):
g(λ)Fonction monotone:à chaque λ correspond 1 et 1 seul g(λ)à chaque g(λ) correspond 1 et 1 seul λ
λ
1
0
à chaque g(λ) correspond 1 et 1 seul λ
![Page 17: La régression logistique 14... · 2017-02-10 · La régression logistique Cours de BMV1 Année académique 2011-2012 Frédéric Farnir. Position du problème ... > 45 4 3 0.13 0.21](https://reader033.vdocuments.net/reader033/viewer/2022042909/5f3c7e41dfc95c0d4c51c55c/html5/thumbnails/17.jpg)
Une approche alternative (suite)Une approche alternative (suite)
� L’idée est donc de:◦ transformer p en f(p) via une fonction de
lien, telle que logit◦ effectuer un régression de f(p) sur X:◦ effectuer un régression de f(p) sur X:
f(p) = α + β * X◦ en déduire des valeurs prédites de
probabilité via la fonction de probabilité:p = g(α + β * X)
![Page 18: La régression logistique 14... · 2017-02-10 · La régression logistique Cours de BMV1 Année académique 2011-2012 Frédéric Farnir. Position du problème ... > 45 4 3 0.13 0.21](https://reader033.vdocuments.net/reader033/viewer/2022042909/5f3c7e41dfc95c0d4c51c55c/html5/thumbnails/18.jpg)
Une approche alternative (suite)Une approche alternative (suite)
� Remarques◦ D’autres fonctions de lien existent…� exemple = probit(p) = Φ-1(p)
◦ Le passage par une fonction de lien rend la ◦ Le passage par une fonction de lien rend la relation entre X et p non linéaire� Incrémenter X de δ a un effet sur p qui dépend de
la valeur de X
� exemple: a = 1 et b = 2p(0) = exp(1)/[1+exp(1)] = 0.731p(1) = exp(3)/[1+exp(3)] = 0.953p(2) = exp(5)/[1+exp(5)] = 0.993
D = 0.222
D = 0.040
![Page 19: La régression logistique 14... · 2017-02-10 · La régression logistique Cours de BMV1 Année académique 2011-2012 Frédéric Farnir. Position du problème ... > 45 4 3 0.13 0.21](https://reader033.vdocuments.net/reader033/viewer/2022042909/5f3c7e41dfc95c0d4c51c55c/html5/thumbnails/19.jpg)
Une approche alternative (suite)Une approche alternative (suite)� Question: comment estimer les
paramètres α et β ?◦ On peut, comme pour la régression linéaire,
essayer de minimiser l’erreur de prédiction◦ On peut également maximiser la probabilité ◦ On peut également maximiser la probabilité
de ce qui a été observé� Cette probabilité, fonction de a et b, est appelée
fonction de vraisemblance (likelihood)
� La méthode est alors appelée méthode du maximum de vraisemblance (maximum likelihood)
![Page 20: La régression logistique 14... · 2017-02-10 · La régression logistique Cours de BMV1 Année académique 2011-2012 Frédéric Farnir. Position du problème ... > 45 4 3 0.13 0.21](https://reader033.vdocuments.net/reader033/viewer/2022042909/5f3c7e41dfc95c0d4c51c55c/html5/thumbnails/20.jpg)
Une approche alternative (suite)Une approche alternative (suite)� Maximum de vraisemblance◦ Avantage� La méthode s’adapte aux distributions des données,
et est donc très souple
◦ Inconvénients◦ Inconvénients� Pas de solution analytique (comme pour la
régression linéaire, par exemple)
� Nécessité d’ « algorithmes de maximisation »
![Page 21: La régression logistique 14... · 2017-02-10 · La régression logistique Cours de BMV1 Année académique 2011-2012 Frédéric Farnir. Position du problème ... > 45 4 3 0.13 0.21](https://reader033.vdocuments.net/reader033/viewer/2022042909/5f3c7e41dfc95c0d4c51c55c/html5/thumbnails/21.jpg)
Une approche alternative (suite)Une approche alternative (suite)� Vraisemblance et régression logistique◦ La probabilité d’une observation (Xi, δi) sur le
patient i, où δi vaut 0 ou 1, peut être modélisée par une variable de Bernoulli:
( ) ( )( ) δδ −1
◦ Si les observations sont indépendantes, la probabilité conjointe (vraisemblance) des observations vaut:
( ) ( )( ) ii
iii XXp δδ ππ −−= 11*
( ) ( )( )∏∏=
−
=
−=n
iii
n
ii
ii XXp1
1
1
1* δδ ππ
![Page 22: La régression logistique 14... · 2017-02-10 · La régression logistique Cours de BMV1 Année académique 2011-2012 Frédéric Farnir. Position du problème ... > 45 4 3 0.13 0.21](https://reader033.vdocuments.net/reader033/viewer/2022042909/5f3c7e41dfc95c0d4c51c55c/html5/thumbnails/22.jpg)
Une approche alternative (suite)Une approche alternative (suite)� Vraisemblance et régression logistique◦ De manière plus générale, plusieurs individus
(ni) pourraient partager le poids Xi, avec ri
pour lesquels δ = 1 et (n - ri) où δ = 0. Dans ce cas, la variable de Bernoulli devient une ce cas, la variable de Bernoulli devient une variable binomiale, et la vraisemblance est amendée en ajoutant simplement le terme combinatoire (qui ne dépend pas de α et β)
� n = # de valeurs différentes de Xi
( ) ( )( )∏∏=
−
=
−==n
i
rni
ri
rn
n
ii
iiii
iXXCpL
11
1** ππ
![Page 23: La régression logistique 14... · 2017-02-10 · La régression logistique Cours de BMV1 Année académique 2011-2012 Frédéric Farnir. Position du problème ... > 45 4 3 0.13 0.21](https://reader033.vdocuments.net/reader033/viewer/2022042909/5f3c7e41dfc95c0d4c51c55c/html5/thumbnails/23.jpg)
Une approche alternative (suite)Une approche alternative (suite)� Vraisemblance et régression logistique◦ On souhaite donc choisir les valeurs a et b de
α et β qui maximisent cette expression◦ Rappelons que α et β interviennent dans cette
expression via π(X ) d’une manière qui dépend expression via π(Xi) d’une manière qui dépend de la fonction de lien choisie� Exemple: f(π) = logit(π)
=> π(X) = exp(α + β*X)/[1+exp(α + β*X)]
◦ Nous allons décrire la maximisation de la vraisemblance avec cette fonction particulière� raisonnement similaire pour d’autres fonctions
![Page 24: La régression logistique 14... · 2017-02-10 · La régression logistique Cours de BMV1 Année académique 2011-2012 Frédéric Farnir. Position du problème ... > 45 4 3 0.13 0.21](https://reader033.vdocuments.net/reader033/viewer/2022042909/5f3c7e41dfc95c0d4c51c55c/html5/thumbnails/24.jpg)
Une approche alternative (suite)Une approche alternative (suite)� Maximisation de la vraisemblance◦ Les valeurs a et b de α et β qui maximisent L
maximisent également l = ln(L), qui est plus facile à manipuler:
( ) nnnn
◦ La dérivée de cette expression (par rapport à α ou β) vaut:
( ) ( ) ( ) ( ) ( )∑∑∑∑====
−−++==n
iiii
n
iii
n
i
rn
n
ii rnrCpl i
i1111
1ln*ln*lnln ππ
( ) ( ) ( )∑∑==
−−−=n
iiiii
n
iiii rnrl
11
1'*'*' ππππ
![Page 25: La régression logistique 14... · 2017-02-10 · La régression logistique Cours de BMV1 Année académique 2011-2012 Frédéric Farnir. Position du problème ... > 45 4 3 0.13 0.21](https://reader033.vdocuments.net/reader033/viewer/2022042909/5f3c7e41dfc95c0d4c51c55c/html5/thumbnails/25.jpg)
Une approche alternative (suite)Une approche alternative (suite)� Maximisation de la vraisemblance (suite)◦ Utilisons à présent la fonction logit pour
calculer π’ (=> régression logistique):� ∂πi / ∂α = πi * (1 - πi)
� ∂π / ∂β = X * π * (1 – π )� ∂πi / ∂β = Xi * πi * (1 – πi)
◦ On doit donc résoudre:
où πi = exp(a+b*Xi)/[1+exp(a+b*Xi)]
( ) ( )∑∑==
−=−n
iiii
n
iii rnr
11
*1* ππ
( ) ( )∑∑==
−=−n
iiiii
n
iiii XrnXr
11
**1** ππ
![Page 26: La régression logistique 14... · 2017-02-10 · La régression logistique Cours de BMV1 Année académique 2011-2012 Frédéric Farnir. Position du problème ... > 45 4 3 0.13 0.21](https://reader033.vdocuments.net/reader033/viewer/2022042909/5f3c7e41dfc95c0d4c51c55c/html5/thumbnails/26.jpg)
Une approche alternative (suite)Une approche alternative (suite)� Maximisation de la vraisemblance (suite)◦ La résolution analytique est impossible◦ On utilise un logiciel et un algorithme
d’optimisation pour obtenir a et b� On commence avec a et b� On commence avec a0 et b0
� On calcule l = l(a0,b0)
� On obtient a1 et b1 de a0 et b0 (Comment ? algorithme…) tels que l(a1,b1) > l(a0,b0)
� On obtient a2 et b2 de a1 et b1 (Comment ? algorithme…) tels que l(a2,b2) > l(a1,b1)
� On arrête quand l(ai+1,bi+1) ≈ l(ai,bi)
![Page 27: La régression logistique 14... · 2017-02-10 · La régression logistique Cours de BMV1 Année académique 2011-2012 Frédéric Farnir. Position du problème ... > 45 4 3 0.13 0.21](https://reader033.vdocuments.net/reader033/viewer/2022042909/5f3c7e41dfc95c0d4c51c55c/html5/thumbnails/27.jpg)
Une approche alternative (suite)Une approche alternative (suite)� Maximisation de la vraisemblance (suite)◦ Exemple d’algorithme (Newton-Raphson)� On calcule:
� p = Σ ni*πi*(1-πi)
� q = Σ ni*πi*Xi*(1-πi)� q = Σ ni*πi*Xi*(1-πi)
� r = Σ ni*πi*Xi²*(1-πi)
� s = Σ (ri – ni*πi)
� t = Σ (ri – ni*πi)*Xi
� On a alors que:� ai+1 = ai + (r*s – q*t)/(p*r – q²)
� bi+1 = bi + (p*t – q*s)/(p*r – q²)
![Page 28: La régression logistique 14... · 2017-02-10 · La régression logistique Cours de BMV1 Année académique 2011-2012 Frédéric Farnir. Position du problème ... > 45 4 3 0.13 0.21](https://reader033.vdocuments.net/reader033/viewer/2022042909/5f3c7e41dfc95c0d4c51c55c/html5/thumbnails/28.jpg)
Une approche alternative (suite)Une approche alternative (suite)� Maximisation de la vraisemblance (suite)◦ Résultats sur l’exemple des dystocies
Classe de poids du veau (kg)
< 36
Proportions
0.125
PrédictionsLIN
0.091
PrédictionsLOG
0.131< 36
[36 – 39[
[39 – 42[
[42 – 45[
> 45
0.125
0.214
0.439
0.529
0.750
0.091
0.250
0.408
0.567
0.726
0.131
0.241
0.399
0.582
0.744
![Page 29: La régression logistique 14... · 2017-02-10 · La régression logistique Cours de BMV1 Année académique 2011-2012 Frédéric Farnir. Position du problème ... > 45 4 3 0.13 0.21](https://reader033.vdocuments.net/reader033/viewer/2022042909/5f3c7e41dfc95c0d4c51c55c/html5/thumbnails/29.jpg)
Interprétation de la Interprétation de la régrég. logistique. logistique
� On a vu plus haut que l’interprétation de β était différente de celle faite avec la régression linéaire:◦ Linéaire: ∆Y/∆X = β◦ Linéaire: ∆Y/∆X = β◦ Logistique: ∆P/∆X = f(β,X)
� Une interprétation peut être faite en terme d’Odds-Ratio (OR)
![Page 30: La régression logistique 14... · 2017-02-10 · La régression logistique Cours de BMV1 Année académique 2011-2012 Frédéric Farnir. Position du problème ... > 45 4 3 0.13 0.21](https://reader033.vdocuments.net/reader033/viewer/2022042909/5f3c7e41dfc95c0d4c51c55c/html5/thumbnails/30.jpg)
Rappel sur les ORRappel sur les ORPoids (kg) # veaux
< 36 8
[36 – 39[ 28
# dystocies
1
6
[39 – 42[ 41 18
Légers
[42 – 45[ 17 9
> 45 4 3Lourds
dystocies
légers 25
normales
52
lourds 12 9
OR = 12*52/9/25= 2.773
χ² = 4.275p = 0.0387
![Page 31: La régression logistique 14... · 2017-02-10 · La régression logistique Cours de BMV1 Année académique 2011-2012 Frédéric Farnir. Position du problème ... > 45 4 3 0.13 0.21](https://reader033.vdocuments.net/reader033/viewer/2022042909/5f3c7e41dfc95c0d4c51c55c/html5/thumbnails/31.jpg)
Rappel sur les ORRappel sur les ORdyst (1)
légers (0) 25
norm (0)
52
lourds (1) 12 9
OR = 12*52/9/25= 2.773
χ² = 4.275p = 0.0387
� Odds(Dyst) = π(Dyst|Lourd)/ π(Dyst|Léger)� Odds(Dyst) = π(Dyst|Lourd)/ π(Dyst|Léger)= π(Y=1|X=1)/π(Y=1|X=0)
� Odds(Norm) = π(Norm|Lourd)/ π(Norm|Léger)= π(Y=0|X=1)/π(Y=0|X=0)
( ) ( )( ) ( )00/10
01/11
========
=XYXY
XYXYOR
ππππ
![Page 32: La régression logistique 14... · 2017-02-10 · La régression logistique Cours de BMV1 Année académique 2011-2012 Frédéric Farnir. Position du problème ... > 45 4 3 0.13 0.21](https://reader033.vdocuments.net/reader033/viewer/2022042909/5f3c7e41dfc95c0d4c51c55c/html5/thumbnails/32.jpg)
OR et régression logistiqueOR et régression logistique� De manière analogue, quand X est continue:
◦ Utilisant π(Y=1|X) = exp(α+β*X)/[1+exp(α+β*X)]
( ) ( )( ) ( )00
00
0/10
1/11
xXYxXY
xXYxXYOR
==+====+==
=ππππ
◦ Utilisant π(Y=1|X) = exp(α+β*X)/[1+exp(α+β*X)]et π(Y=0|X) = 1/[1+exp(α+β*X)],on obtient (quel que soit x0):
OR = eβ
� si β = 0 (pas de dépendance de Y sur X), OR = 1
� si β > (<) 0, la probabilité augmente (diminue) avec X
![Page 33: La régression logistique 14... · 2017-02-10 · La régression logistique Cours de BMV1 Année académique 2011-2012 Frédéric Farnir. Position du problème ... > 45 4 3 0.13 0.21](https://reader033.vdocuments.net/reader033/viewer/2022042909/5f3c7e41dfc95c0d4c51c55c/html5/thumbnails/33.jpg)
Signification de la Signification de la régrrégr. logistique. logistique
� Si β = 0, comme pour la régression linéaire , la variable de sortie ne dépend pas de X:
π(X) = exp(α)/[1+exp(α)] = Cte
� On teste donc la régression logistique en testant l’hypothèse nulle:
H0: β = 0
![Page 34: La régression logistique 14... · 2017-02-10 · La régression logistique Cours de BMV1 Année académique 2011-2012 Frédéric Farnir. Position du problème ... > 45 4 3 0.13 0.21](https://reader033.vdocuments.net/reader033/viewer/2022042909/5f3c7e41dfc95c0d4c51c55c/html5/thumbnails/34.jpg)
Signification de la Signification de la régrrégr. logistique. logistique
� Approche 1: par permutations◦ On attribue aléatoirement les phénotypes (0
ou 1) aux différentes valeurs de X◦ On calcule bpermuté◦ On calcule bpermuté
◦ Après n répétitions, on compare la valeur réllede b à la distribution de bpermuté
� |bréel| > bpermuté(1-α) => significatif au seuil α� |bréel| < bpermuté(1-α) => non significatif au seuil α
![Page 35: La régression logistique 14... · 2017-02-10 · La régression logistique Cours de BMV1 Année académique 2011-2012 Frédéric Farnir. Position du problème ... > 45 4 3 0.13 0.21](https://reader033.vdocuments.net/reader033/viewer/2022042909/5f3c7e41dfc95c0d4c51c55c/html5/thumbnails/35.jpg)
Signification de la Signification de la régrrégr. logistique. logistique
� Approche 1: résultats◦ Distribution ~ normale
◦ Centrée sur 0
◦ 16 résultats sur 10000 permutations excèdent b = 0.246 => p ≈ 0.0016b = 0.246 => p ≈ 0.0016
◦ => rejet de H0 pour α = 0.01
![Page 36: La régression logistique 14... · 2017-02-10 · La régression logistique Cours de BMV1 Année académique 2011-2012 Frédéric Farnir. Position du problème ... > 45 4 3 0.13 0.21](https://reader033.vdocuments.net/reader033/viewer/2022042909/5f3c7e41dfc95c0d4c51c55c/html5/thumbnails/36.jpg)
Signification de la Signification de la régrrégr. logistique. logistique
� Approche I1: test de Wald◦ On exploite la normalité de b (cfr approche I)◦ b ~ N(0,√Vb)� On montre que: Vb = p/(p*r - q²)� On montre que: Vb = p/(p*r - q²)
� On calcule donc: z = b*√(p*r – q²)/ √ p
� Dans l’exemple:� On obtient: z = 2.944
p(>z) = 0.0016
![Page 37: La régression logistique 14... · 2017-02-10 · La régression logistique Cours de BMV1 Année académique 2011-2012 Frédéric Farnir. Position du problème ... > 45 4 3 0.13 0.21](https://reader033.vdocuments.net/reader033/viewer/2022042909/5f3c7e41dfc95c0d4c51c55c/html5/thumbnails/37.jpg)
Signification de la Signification de la régrrégr. logistique. logistique
� Approche III: test du rapport de vraisemblance◦ On calcule LH1 = max L(α,β)◦ On calcule LH0 = max L(α,β=0) = L(α)◦ On peut montrer que:
LRT = ln(LH1 / LH0) = lH1 – lH0 ~ χ²1 sous H0(Likelihood Ratio Test)
◦ On a vu plus haut comment calculer les paramètres optimaux sous H1=> (a1= - 10.38881,b1= 0.24638) => lH1 = -7.53012
![Page 38: La régression logistique 14... · 2017-02-10 · La régression logistique Cours de BMV1 Année académique 2011-2012 Frédéric Farnir. Position du problème ... > 45 4 3 0.13 0.21](https://reader033.vdocuments.net/reader033/viewer/2022042909/5f3c7e41dfc95c0d4c51c55c/html5/thumbnails/38.jpg)
Signification de la Signification de la régrrégr. logistique. logistique
� Approche III: test du rapport de vraisemblance� Pour calculer lH0, on réutilise:
( ) ( )∑∑==
−=−n
iiii
n
iii rnr
11
*1* ππnn
� Ici, seule la dérivée relative à α a un sens
( ) ( )∑∑==
−=−n
iiiii
n
iiii XrnXr
11
**1** ππ
( ) ( )∑∑==
−=−n
iiii
n
iii rnr
11
*1* ππ
![Page 39: La régression logistique 14... · 2017-02-10 · La régression logistique Cours de BMV1 Année académique 2011-2012 Frédéric Farnir. Position du problème ... > 45 4 3 0.13 0.21](https://reader033.vdocuments.net/reader033/viewer/2022042909/5f3c7e41dfc95c0d4c51c55c/html5/thumbnails/39.jpg)
Signification de la Signification de la régrrégr. logistique. logistique
� Approche III: test du rapport de vraisemblance◦ On veut à présent calculer le paramètre
optimal (a0) sous H0 => lH0
◦ Reprenons: ◦ Reprenons:
où: πi = π =ea0/(1+ea0)
◦ On obtient alors que:
et
( ) ( )∑∑==
−=−n
iiii
n
iii rnr
11
*1* ππ
( )
−= ∑∑==
n
iii
n
ii rnra
110 ln ( )
−+= ∑∑∑===
n
iii
n
ii
n
ii rnrr
1110π
![Page 40: La régression logistique 14... · 2017-02-10 · La régression logistique Cours de BMV1 Année académique 2011-2012 Frédéric Farnir. Position du problème ... > 45 4 3 0.13 0.21](https://reader033.vdocuments.net/reader033/viewer/2022042909/5f3c7e41dfc95c0d4c51c55c/html5/thumbnails/40.jpg)
Signification de la Signification de la régrrégr. logistique. logistique
� Approche III: test du rapport de vraisemblance◦ Ce qui conduit à:� lH0 = -12.52376
◦ Par conséquent:
LRT = -7.53012 – (-12.52376) = 4.99364p(LRT) = p(χ²1 > 4.99364) = 0.025
![Page 41: La régression logistique 14... · 2017-02-10 · La régression logistique Cours de BMV1 Année académique 2011-2012 Frédéric Farnir. Position du problème ... > 45 4 3 0.13 0.21](https://reader033.vdocuments.net/reader033/viewer/2022042909/5f3c7e41dfc95c0d4c51c55c/html5/thumbnails/41.jpg)
Et c’est la fin du cours…Et c’est la fin du cours…