il modello logistico

Il modello logistico.

Il modello lineare classico iii ey += µ , dove kikii xbxbb +++= ...110µ e gli errori ie sono

indipendenti e distribuiti secondo una normale come media 0 e varianza 2σ , si applica a variabili casuali iY distribuite anch’esse in modo normale con media iµ e varianza 2σ .

Spesso tuttavia la variabile di interesse non rappresenta una misura, ma piuttosto una probabilità ( ip ) e la semplice estensione del modello precedente kikii xbxbbp +++= ...110 comporta, tra

l’altro, il rischio che per alcuni valori delle covariate i valori previsti siano fuori dall’intervallo [ ]1,0 . Una semplice trasformazione come il logaritmo non risolve il problema, in quanto l’intervallo diventa ( ]0,∞− (escludendo il valore 0).

Per poter trattare le probabilità impiegando le tecniche della regressione lineare occorre innanzitutto introdurre il concetto di odds:

p

p

−≡

1odds . Questo è il modo in cui la

probabilità è trattata nelle scommesse. Si tratta di una trasformazione monotona che mappa l’intervallo [ ]1,0 sull’intervallo [ ]+∞,0 . Se si conosce il valore dell’odds, si può trovare la probabilità corrispondente mediante la formula

odds1

odds

+=p . Se 5.0=p allora 1odds= .

È possibile ora definire la trasformazione cercata; si tratta della trasformazione logit, ovvero del logaritmo naturale dell’odds:

−≡

p

p

1lnlogit ; questa trasformazione mappa

l’intervallo [ ]1,0 sull’intervallo [ ]+∞∞− , . Se 5.0=p allora il logit vale 0.

Se indichiamo con la lettera greca λ il logit della probabilità p, allora il modello

kikii xbxbb +++= ...110λ estende il modello lineare classico, permettendo di affrontare problemi

che coinvolgono probabilità con gli strumenti della regressione. Il modello precedente è lineare su scala logit, ma ovviamente non è lineare sulla scala della probabilità. Su questa scala il modello lineare logit corrisponde al modello

kiki

kiki

xbxbb

xbxbb

ie

ep +++

+++

+=

...

...

110

110

1

che prende il nome di modello logistico.

I parametri del modello logistico.

Consideriamo per semplicità il modello ii xbb 10 +=λ , che corrisponde a i

i

xbb

xbb

ie

ep

10

10

1 +

+

+= e

applichiamolo al seguente esempio. Esempio. In una sperimentazione clinica avente lo scopo di valutare l’effetto di un trattamento farmacologico nel ridurre la frequenza di occlusione dei trapianti venosi che si eseguono nei by-pass aorto-coronarici, Limer et al. (Journal of Thoracic and Cardiovascular Surgery, 94, 773-783, 1987), a dieci giorni dall’intervento chirurgico, trovarono che su 240 trapianti in pazienti trattati con il farmaco (gruppo B) vi erano state 17 occlusioni e che su 232 trapianti in pazienti trattati con placebo (gruppo A) vi erano state 31 occlusioni. Questi risultati permettono di concludere che il farmaco è efficace? Indichiamo con Ap la probabilità (vera) di successo (cioè che il trapianto non si occluda) nel

gruppo A e con Bp la probabilità (vera) di successo nel gruppo B. Codifichiamo inoltre con il valore 0 l’appartenenza al gruppo A e con il valore 1 l’appartenenza al gruppo B. Il modello di regressione logit è ii xbb 10 +=λ , dove la variabile indipendente x è una variabile dummy. Poiché gli

unici valori che può assumere x sono 0 e 1, il modello precedente corrisponde a 00 b=λ nel gruppo

A e a 101 bb +=λ nel gruppo B. Il coefficiente 0b rappresenta l’intercetta sulla scala logit mentre il

coefficiente di regressione 1b misura, sempre sulla scala logit, la differenza fra i valori di Bp e Ap .

Il coefficiente 0b è quindi il logit della probabilità nel gruppo A (il gruppo in cui x vale 0): quindi

−==

A

A

p

pb

1ln00λ e

0

0

1 b

b

Ae

ep

+= . Nel gruppo B (in cui x vale 1) avremo

−=+=

B

B

p

pbb

1ln101λ e, quindi,

10

10

1 bb

bb

Be

ep +

+

+= .

La differenza fra 0λ e 1λ è rappresentata da 1b : 101 b=− λλ .

Poiché

−=

A

A

p

p

1ln0λ e

−=

B

B

p

p

1ln1λ per la codifica associata alla variabile indipendente x,

avremo allora

−

−=

−−

−=−=

A

A

B

B

A

A

B

B

p

p

p

p

p

p

p

pb

1

1ln

1ln

1ln011 λλ .

La quantità racchiusa fra le parentesi quadre è il rapporto fra gli odds delle probabilità nei due gruppi; questo rapporto prende il nome di odds ratio ed è una misura di associazione. Esso vale 1 se e soltanto se BA pp = . Il coefficiente di regressione 1b è quindi il logaritmo naturale dell’odds ratio

e varrà 0 se e soltanto se BA pp = (quando, cioè, l’odds ratio vale 1). Quindi un test per saggiare

l’ipotesi nulla 0:H 10 =b è equivalente, in questo contesto, ad un test per saggiare l’ipotesi nulla

BA pp =:H0 . Nel modello logistico i confronti fra probabilità sono affrontati eseguendo confronti

fra (logaritmi di) odds ratio.

La stima dei parametri del modello logistico.

Rimaniamo sempre nell’ambito dell’esempio precedente. I due parametri del modello logistico, cioè

0b e 1b , vengono stimati impiegando il metodo della massima verosimiglianza. Di seguito viene

data una esemplificazione pratica di tale metodo. Il modello probabilistico che possiamo considerare associato all’esempio che stiamo trattando è quello binomiale. Ricordiamo che la variabile casuale Y segue una distribuzione binomiale, con parametri n e p, se la sua funzione di densità discreta f è data da

yny ppy

nyf −−

= )1()(

dove y rappresenta il numero di successi in n prove indipendenti e p è la probabilità (costante) di successo in una singola prova. Possiamo pensare che i risultati dell’esperimento rappresentino una realizzazione di due variabili casuali indipendenti, AY e BY , ciascuna distribuita in modo binomiale: i parametri della prima sono

rappresentati da 232=An e da Ap (che non conosciamo); i parametri della seconda sono

rappresentati da 240=Bn e da Bp (che non conosciamo). Le probabilità associate ai due risultati osservati sono, rispettivamente,

31201 )1(201

232)201( AAA ppf −

= 17223 )1(

223

240)223( BBB ppf −

=

e la probabilità congiunta, essendo i due campioni indipendenti, sarà data dal prodotto delle due probabilità, cioè da )223()201( BA ff × . Il valore che tale probabilità assume in concreto dipende

ovviamente dai valori di Ap e Bp : possiamo quindi considerarla funzione di Ap e Bp . Questa funzione viene detta funzione di verosimiglianza (in inglese verosimiglianza è tradotto likelihood) ed è indicata dalla lettera L:

( ) )223()201(, BABA ffppL ×=

Il metodo della massima verosimiglianza consiste nello scegliere quei valori di Ap e Bp dove la funzione L raggiunge il suo massimo (ovviamente ammesso che tali valori esistano e siano unici). Per vari motivi si preferisce trattare il logaritmo (naturale) della funzione di verosimiglianza, ovvero la funzione di log-verosimiglianza:

( ) ( )[ ] ( ) ( ))223(ln)201(ln,ln, BABABA ffppLppl +== . Avremo ora

( ) ( ) ( )AAA ppf −×+×+

= 1ln31ln201

201

232ln)201(ln

e

( ) ( ) ( )BBB ppf −×+×+

= 1ln17ln223

223

240ln)223(ln .

Dobbiamo ora sostituire a Ap e Bp la corrispondente codifica attraverso il modello di regressione

logistico, vale a dire 0

0

1 b

b

Ae

ep

+= e

10

10

1 bb

bb

Be

ep +

+

+= . Ricordando che

01

11

bAe

p+

=− e che

101

11

bbBe

p ++=− , i logaritmi da considerare sono:

( ) ( )01lnln 0

bA ebp +−= ( ) ( )01ln1ln b

A ep +−=−

( ) ( )101lnln 10bb

B ebbp ++−+= ( ) ( )101ln1ln bbB ep ++−=−

Avremo quindi

( ) ( )( ) ( )00 1ln311ln201201

232ln)201(ln 0

bbA eebf +×−+−×+

=

e

( ) ( )( ) ( )1010 1ln171ln223223

240ln)223(ln 10

bbbbB eebbf ++ +×−+−+×+

= .

La funzione di log-verosimiglianza sarà quindi data da:

( ) ( )( ) ( ) ( )( ) ( )101000 1ln171ln2231ln311ln201, 10010bbbbbb eebbeebbbl ++ +×−+−+×++×−+−×=

dove i due termini che coinvolgevano i coefficienti binomiali sono stati omessi, dal momento che sono ininfluenti nella ricerca del massimo. Si può osservare come la funzione l sia non lineare (in essa figurano logaritmi ed esponenziali); il massimo va ricercato in modo iterativo. A scopo di esercizio, possiamo considerare noto il coefficiente 0b ; la funzione l assume infatti il

massimo quando

=31

201ln0b , cioè in corrispondenza del logit di

232

201ˆ =Ap (la stima della

probabilità di successo nel gruppo A). In questo modo la funzione di log-verosimiglianza dipende soltanto dal coefficiente 1b e può essere tabulata in modo abbastanza agevole. Nella tabella che segue sono riportati i valori assunti dalla funzione in corrispondenza di altrettanti valori assegnati al coefficiente 1b .

1b )( 1bl

0.0 -157.427 0.1 -156.056 0.2 -154.943 0.3 -154.068 0.4 -153.415 0.5 -152.965 0.6 -152.704 0.7 -152.615 0.8 -152.684 0.9 -152.900 1.0 -153.248 1.1 -153.719 1.2 -154.301 1.3 -154.985 1.4 -155.762 1.5 -156.624

Poiché le verosimiglianze corrispondono a probabilità (inferiori a 1), il loro logaritmo è sempre un numero negativo. Il grafico della funzione assomiglia a quello di una parabola, ma non è una parabola, come si può dedurre dalla forma esplicita della funzione stessa. La funzione raggiunge il massimo quando il coefficiente 1b assume valori compresi fra 0.6 e 0.8. Con degli zoom successivi

si potrebbe vedere che il valore di 1b in corrispondenza del quale la funzione raggiunge il suo

massimo è ( ) 7046.0023.2ln

31201

17223

ln ≈≈

. La quantità nella parentesi quadra è il rapporto degli

odds nei due gruppi, cioè l’odds ratio. Esso può essere riscritto come 17201

31223

××

. Quindi la stima di

massima verosimiglianza del coefficiente 1b è rappresentata proprio dal logaritmo naturale dell’odds ratio calcolato sui risultati dell’esperimento.

IL MODELLO LOGISTICO

( )p

ppp

−=→

1odds:odds ∞<≤ odds0

( )

−=→

p

pp

1lnlogit:logitodds ∞<<∞− logit

( ) i

i

ii xbb

p

pp 101

lnlogit +=

−=

i

i

xbb

xbb

ie

ep

10

10

1 +

+

+=

0=ix 0

0

10 b

b

e

ep

+= 0

0

00 1

odds bep

p=

−= ( )00 logit pb =

1=ix 10

10

11 bb

bb

e

ep +

+

+= 10

1

11 1

odds bbep

p +=−

= ( )110 logit pbb =+

0

1

odds

oddsOR ==ψ

0

10

b

bb

e

e +

1be 1)ln(ln(OR) b== ψ

il modello logistico

Documents