il modello logistico
DESCRIPTION
regressione logisticaTRANSCRIPT
Il modello logistico.
Il modello lineare classico iii ey += µ , dove kikii xbxbb +++= ...110µ e gli errori ie sono
indipendenti e distribuiti secondo una normale come media 0 e varianza 2σ , si applica a variabili casuali iY distribuite anch’esse in modo normale con media iµ e varianza 2σ .
Spesso tuttavia la variabile di interesse non rappresenta una misura, ma piuttosto una probabilità ( ip ) e la semplice estensione del modello precedente kikii xbxbbp +++= ...110 comporta, tra
l’altro, il rischio che per alcuni valori delle covariate i valori previsti siano fuori dall’intervallo [ ]1,0 . Una semplice trasformazione come il logaritmo non risolve il problema, in quanto l’intervallo diventa ( ]0,∞− (escludendo il valore 0).
Per poter trattare le probabilità impiegando le tecniche della regressione lineare occorre innanzitutto introdurre il concetto di odds:
p
p
−≡
1odds . Questo è il modo in cui la
probabilità è trattata nelle scommesse. Si tratta di una trasformazione monotona che mappa l’intervallo [ ]1,0 sull’intervallo [ ]+∞,0 . Se si conosce il valore dell’odds, si può trovare la probabilità corrispondente mediante la formula
odds1
odds
+=p . Se 5.0=p allora 1odds= .
È possibile ora definire la trasformazione cercata; si tratta della trasformazione logit, ovvero del logaritmo naturale dell’odds:
−≡
p
p
1lnlogit ; questa trasformazione mappa
l’intervallo [ ]1,0 sull’intervallo [ ]+∞∞− , . Se 5.0=p allora il logit vale 0.
Se indichiamo con la lettera greca λ il logit della probabilità p, allora il modello
kikii xbxbb +++= ...110λ estende il modello lineare classico, permettendo di affrontare problemi
che coinvolgono probabilità con gli strumenti della regressione. Il modello precedente è lineare su scala logit, ma ovviamente non è lineare sulla scala della probabilità. Su questa scala il modello lineare logit corrisponde al modello
kiki
kiki
xbxbb
xbxbb
ie
ep +++
+++
+=
...
...
110
110
1
che prende il nome di modello logistico.
I parametri del modello logistico.
Consideriamo per semplicità il modello ii xbb 10 +=λ , che corrisponde a i
i
xbb
xbb
ie
ep
10
10
1 +
+
+= e
applichiamolo al seguente esempio. Esempio. In una sperimentazione clinica avente lo scopo di valutare l’effetto di un trattamento farmacologico nel ridurre la frequenza di occlusione dei trapianti venosi che si eseguono nei by-pass aorto-coronarici, Limer et al. (Journal of Thoracic and Cardiovascular Surgery, 94, 773-783, 1987), a dieci giorni dall’intervento chirurgico, trovarono che su 240 trapianti in pazienti trattati con il farmaco (gruppo B) vi erano state 17 occlusioni e che su 232 trapianti in pazienti trattati con placebo (gruppo A) vi erano state 31 occlusioni. Questi risultati permettono di concludere che il farmaco è efficace? Indichiamo con Ap la probabilità (vera) di successo (cioè che il trapianto non si occluda) nel
gruppo A e con Bp la probabilità (vera) di successo nel gruppo B. Codifichiamo inoltre con il valore 0 l’appartenenza al gruppo A e con il valore 1 l’appartenenza al gruppo B. Il modello di regressione logit è ii xbb 10 +=λ , dove la variabile indipendente x è una variabile dummy. Poiché gli
unici valori che può assumere x sono 0 e 1, il modello precedente corrisponde a 00 b=λ nel gruppo
A e a 101 bb +=λ nel gruppo B. Il coefficiente 0b rappresenta l’intercetta sulla scala logit mentre il
coefficiente di regressione 1b misura, sempre sulla scala logit, la differenza fra i valori di Bp e Ap .
Il coefficiente 0b è quindi il logit della probabilità nel gruppo A (il gruppo in cui x vale 0): quindi
−==
A
A
p
pb
1ln00λ e
0
0
1 b
b
Ae
ep
+= . Nel gruppo B (in cui x vale 1) avremo
−=+=
B
B
p
pbb
1ln101λ e, quindi,
10
10
1 bb
bb
Be
ep +
+
+= .
La differenza fra 0λ e 1λ è rappresentata da 1b : 101 b=− λλ .
Poiché
−=
A
A
p
p
1ln0λ e
−=
B
B
p
p
1ln1λ per la codifica associata alla variabile indipendente x,
avremo allora
−
−=
−−
−=−=
A
A
B
B
A
A
B
B
p
p
p
p
p
p
p
pb
1
1ln
1ln
1ln011 λλ .
La quantità racchiusa fra le parentesi quadre è il rapporto fra gli odds delle probabilità nei due gruppi; questo rapporto prende il nome di odds ratio ed è una misura di associazione. Esso vale 1 se e soltanto se BA pp = . Il coefficiente di regressione 1b è quindi il logaritmo naturale dell’odds ratio
e varrà 0 se e soltanto se BA pp = (quando, cioè, l’odds ratio vale 1). Quindi un test per saggiare
l’ipotesi nulla 0:H 10 =b è equivalente, in questo contesto, ad un test per saggiare l’ipotesi nulla
BA pp =:H0 . Nel modello logistico i confronti fra probabilità sono affrontati eseguendo confronti
fra (logaritmi di) odds ratio.
La stima dei parametri del modello logistico.
Rimaniamo sempre nell’ambito dell’esempio precedente. I due parametri del modello logistico, cioè
0b e 1b , vengono stimati impiegando il metodo della massima verosimiglianza. Di seguito viene
data una esemplificazione pratica di tale metodo. Il modello probabilistico che possiamo considerare associato all’esempio che stiamo trattando è quello binomiale. Ricordiamo che la variabile casuale Y segue una distribuzione binomiale, con parametri n e p, se la sua funzione di densità discreta f è data da
yny ppy
nyf −−
= )1()(
dove y rappresenta il numero di successi in n prove indipendenti e p è la probabilità (costante) di successo in una singola prova. Possiamo pensare che i risultati dell’esperimento rappresentino una realizzazione di due variabili casuali indipendenti, AY e BY , ciascuna distribuita in modo binomiale: i parametri della prima sono
rappresentati da 232=An e da Ap (che non conosciamo); i parametri della seconda sono
rappresentati da 240=Bn e da Bp (che non conosciamo). Le probabilità associate ai due risultati osservati sono, rispettivamente,
31201 )1(201
232)201( AAA ppf −
= 17223 )1(
223
240)223( BBB ppf −
=
e la probabilità congiunta, essendo i due campioni indipendenti, sarà data dal prodotto delle due probabilità, cioè da )223()201( BA ff × . Il valore che tale probabilità assume in concreto dipende
ovviamente dai valori di Ap e Bp : possiamo quindi considerarla funzione di Ap e Bp . Questa funzione viene detta funzione di verosimiglianza (in inglese verosimiglianza è tradotto likelihood) ed è indicata dalla lettera L:
( ) )223()201(, BABA ffppL ×=
Il metodo della massima verosimiglianza consiste nello scegliere quei valori di Ap e Bp dove la funzione L raggiunge il suo massimo (ovviamente ammesso che tali valori esistano e siano unici). Per vari motivi si preferisce trattare il logaritmo (naturale) della funzione di verosimiglianza, ovvero la funzione di log-verosimiglianza:
( ) ( )[ ] ( ) ( ))223(ln)201(ln,ln, BABABA ffppLppl +== . Avremo ora
( ) ( ) ( )AAA ppf −×+×+
= 1ln31ln201
201
232ln)201(ln
e
( ) ( ) ( )BBB ppf −×+×+
= 1ln17ln223
223
240ln)223(ln .
Dobbiamo ora sostituire a Ap e Bp la corrispondente codifica attraverso il modello di regressione
logistico, vale a dire 0
0
1 b
b
Ae
ep
+= e
10
10
1 bb
bb
Be
ep +
+
+= . Ricordando che
01
11
bAe
p+
=− e che
101
11
bbBe
p ++=− , i logaritmi da considerare sono:
( ) ( )01lnln 0
bA ebp +−= ( ) ( )01ln1ln b
A ep +−=−
( ) ( )101lnln 10bb
B ebbp ++−+= ( ) ( )101ln1ln bbB ep ++−=−
Avremo quindi
( ) ( )( ) ( )00 1ln311ln201201
232ln)201(ln 0
bbA eebf +×−+−×+
=
e
( ) ( )( ) ( )1010 1ln171ln223223
240ln)223(ln 10
bbbbB eebbf ++ +×−+−+×+
= .
La funzione di log-verosimiglianza sarà quindi data da:
( ) ( )( ) ( ) ( )( ) ( )101000 1ln171ln2231ln311ln201, 10010bbbbbb eebbeebbbl ++ +×−+−+×++×−+−×=
dove i due termini che coinvolgevano i coefficienti binomiali sono stati omessi, dal momento che sono ininfluenti nella ricerca del massimo. Si può osservare come la funzione l sia non lineare (in essa figurano logaritmi ed esponenziali); il massimo va ricercato in modo iterativo. A scopo di esercizio, possiamo considerare noto il coefficiente 0b ; la funzione l assume infatti il
massimo quando
=31
201ln0b , cioè in corrispondenza del logit di
232
201ˆ =Ap (la stima della
probabilità di successo nel gruppo A). In questo modo la funzione di log-verosimiglianza dipende soltanto dal coefficiente 1b e può essere tabulata in modo abbastanza agevole. Nella tabella che segue sono riportati i valori assunti dalla funzione in corrispondenza di altrettanti valori assegnati al coefficiente 1b .
1b )( 1bl
0.0 -157.427 0.1 -156.056 0.2 -154.943 0.3 -154.068 0.4 -153.415 0.5 -152.965 0.6 -152.704 0.7 -152.615 0.8 -152.684 0.9 -152.900 1.0 -153.248 1.1 -153.719 1.2 -154.301 1.3 -154.985 1.4 -155.762 1.5 -156.624
Poiché le verosimiglianze corrispondono a probabilità (inferiori a 1), il loro logaritmo è sempre un numero negativo. Il grafico della funzione assomiglia a quello di una parabola, ma non è una parabola, come si può dedurre dalla forma esplicita della funzione stessa. La funzione raggiunge il massimo quando il coefficiente 1b assume valori compresi fra 0.6 e 0.8. Con degli zoom successivi
si potrebbe vedere che il valore di 1b in corrispondenza del quale la funzione raggiunge il suo
massimo è ( ) 7046.0023.2ln
31201
17223
ln ≈≈
. La quantità nella parentesi quadra è il rapporto degli
odds nei due gruppi, cioè l’odds ratio. Esso può essere riscritto come 17201
31223
××
. Quindi la stima di
massima verosimiglianza del coefficiente 1b è rappresentata proprio dal logaritmo naturale dell’odds ratio calcolato sui risultati dell’esperimento.
IL MODELLO LOGISTICO
( )p
ppp
−=→
1odds:odds ∞<≤ odds0
( )
−=→
p
pp
1lnlogit:logitodds ∞<<∞− logit
( ) i
i
ii xbb
p
pp 101
lnlogit +=
−=
i
i
xbb
xbb
ie
ep
10
10
1 +
+
+=
0=ix 0
0
10 b
b
e
ep
+= 0
0
00 1
odds bep
p=
−= ( )00 logit pb =
1=ix 10
10
11 bb
bb
e
ep +
+
+= 10
1
11 1
odds bbep
p +=−
= ( )110 logit pbb =+
0
1
odds
oddsOR ==ψ
0
10
b
bb
e
e +
1be 1)ln(ln(OR) b== ψ