impostazione bayesiana di un problema di analisi discriminatoria nell'ambito di un modello non...

LMPOSTAZIONE BAYESIANA DI UN PROBLEMA DI ANALISI DISCRIMINATORIA NELL'AMBITO DI UN MODELLO NON PARAMETRICO (*)

GUIDO CONSONN1 lstituto di Metodi Quantitativi Universit& ~ Luigi Bocconi>> Milano, 1981

Versione definitiva pervenuta il 24-9-81

Seguendo l'impostazione predittiva delineata da J. Aitchison e I. R. Dunsmore (1975) viene proposto un modello non-parametrico di analisi discriminatoria dal punto di vista bayesiano.

Si ricorre a tal fine ad una versione moclificata dello schema di scambiabilit~t parziale e si utilizza il processo <~ mistura di prodotti di processi di Dirichlet )> introdotto da D. M. Cifarelli ed. E. Regazzini (1978). Si presenta infine un'applicazione del modello ad un tipico problema di diagnosi medica.

1. Introduzione

Dato un numero aleatorio (n.a.) X la cui legge di distribuzione p(-) dipende da un parametro aleatorio H - di cui, per il momento, non occorre precisare la natura - - la distribuzione del n.a. Xn+t, t = 1, 2 . . . . alla luce d in osservazioni x ' = (xl, . . . , xn) ~ data come noto da

E { p ( . ] H ) } ( l . l ) HIx

il valore atteso essendo fatto rispetto alia distribuzione finale di H. La (1.1) viene detta distribuzione predittiva.

J. Aitchison e I. R. Dunsmore (1975) hanno messo in evidenza come la (1.1) possa essere utilmente impiegata per la soluzione, in ambito bayesiano, di alcuni classici problemi di analisi multivariata ed in particolare di un problema di analisi discriminatoria.

Con riferimento a quest'ultimo intendiamo proporre uno schema induttivo, legato alia nozione di parziale scambiabilith, che a nostro avviso consente di in- quadrare in modo naturale ed efficace il problema; successivamente estenderemo l'analisi esposta in [1] al caso non parametrico.

(*) Lavoro eseguito nelrambito del G N A F A - C N R . L 'argomento di questo lavoro mi stato suggerito dal professor Eugenio Regazzini. A quest 'ul t imo ed al prof. Dona to Michele Cifarelli sono grato per avermi segnalato alcune oscurith nel testo originario.

89

2. Formulazione del problema

Un p rob lema di analisi discriminatoria pub essere cosi sintetizzato. Sia da ta una collettivith di elementi e sia pure data una partizione finita in k

classi .(2 = (q01 . . . . . ~v k} di tale collettivit~t. Suppon iamo che per ogni elemento sia possibile rilevare un vettore di carat-

teristiche d-dimensionale, che indichiamo con X, le quali siano in qualche m o d o legate alia sua appar tenenza ad una specifica classe, pur non essendo tale legame deterministico.

Suppon iamo ora di aver a disposizione un ' ennup la di osservazioni z ' = (Zl', . . . . z,,') = (xx', tpl), . . . , (x,,', q~n) su n elementi della collettivit~, dove

x s 6 il vettore delle caratteristiche relativo al j .es imo elemento; 9~ 6 la classe a cui appart iene il j .es imo elemento.

Va da s6 che penseremo xj e qg~ r ispet t ivamente come una realizzazione del v.a. X 3 e del n.a. ~3".

Cons ider iamo ora un nuovo elemento della collettivith il quale presenti un vettore delle caratteristiche y. I1 nostro p rob l ema consiste nell 'assegnare tale elemento, alla luce delle osservazioni z, alia sua classe di appar tenenza in m o d o da rendere min ima la probabilifft di errore di classificazione.

U n a r isposta al problema precedentemente fo rmula to ~ rappresenta ta dalla cosiddetta distribuzione diagnostica (cfr. [1] pag. 220).

P r { q ~ * = t y i l y , z} i----- l . . . . , k (2.1)

dove ~b* rappresenta la classe a cui appar t iene l 'e lemento in questione. Natura l - mente ~ * pub assumere le k possibili determinazioni (~1 . . . . . tpe).

Chiaramente assegneremo tale element o a quella classe in corr i spondenza della quale la distribuzione (2.1) raggiunge il suo massimo. Qualora tale mass imo non sia unico ma si realizzi in corr ispondenza di p valori (p < k), al lora risulta indifferente scegliere una qualunque delle rispettive p classi.

3. II problema delranalisi diseriminatoria nell'ambito di un modello di scambiabilith parziale

Ci sembra che il p roblema esposto nel precedente numero 2 possa essere con- venientemente r i formulato nel contesto di un model lo di scambiabilitb, parziale (scamb. parz.).

Ri ten iamo utile, a questo punto, r icordare le condizioni nelle quali risulta oppor tuno ampl iare 1o schema di scambiabili th (totale) a quello di scamb, parz.

Esse si realizzano al lorquando le osservazioni intorno alia successione {Xn}n = = 1, 2, . . . degli enti aleatori oggetto del nostro rag ionamento induttivo avven- gono in concomi tanza con l 'osservazione di una o pifi circostanze ogget t ivamente verificabili, che per semplicifft indicheremo con il termine di qualit?~ osservabile (qual. osser.) e indicheremo con la lettera ~ . q), in generale, pub essere un qualunque ente: numero , vettore, funzione o altro ancora. Sar/~ tut tavia oppor tuno , per motivi di semplicith e praticifft, limitarsi al caso in cui q5 6 un numero.

Po t remo altresi ipotizzare che q~ possa assumere un numero finito, d ic iamo k, di valori che indicheremo con ~pl . . . . , q~k.

90

Da un punto di vista sostanziale l 'osservazione, per ogni X~, di go ci consente di individuare in modo pi/1 preciso l 'ente a leator io in questione, di m o d o che noi r ipar t i remo la successione di par tenza {X,,} in k sottosuccessioni {Xi,n~} i = 1, . . . , k; n~ = 1, 2, . . . ciascuna delle quali risulta compos ta di elementi scambiabili.

Questi brevi richiami e la s imbologia volu tamente impiegata gi~t consentono di intravedere la linea che converr~ seguire per modellare un p rob lema di analisi discr iminatoria in termini di scambiabilifft parziale. Baster~ a l l 'uopo identificare i termini qual. osser, e classe e precisare che X dipende da gO nel modo pifi naturale e intuit ivo: ossia la distribuzione di X, subord ina tamente a gO ----- 99 i, ~ in generale diversa da quella di X subordina tamente a gO ---- 99 ~, per ogni i ~ h (i, h = 1, . . . . k ) .

Natura lmente la differenza tra il model lo di scamb, parz., diciamo tradizionale, e la versione qui proposta consiste nell ' ipotizzare che in quest 'u l t ima la qual. osser. sia aleatoria.

V o r r e m m o tuttavia sottolineare che gO r imane pur sempre una qualifft ogget- t ivamente rilevabile secondo le indicazioni di B. de Finetti (1938 e 1970). Solo questioni di comodifft, economia o altro ci inducono a r iguardarla come aleatoria. D 'a l t ro canto, per quanto r iguarda i dati utilizzati nel procedimento inferenziale, ossia le coppie (x3, ~05), ~pj viene rilevata di vol ta in vol ta e per tanto ci sembra che il principio informatore dello schema di scamb, parz. venga rispettato, giusta l ' impor tan te osservazione segnalata in [7] a pag. 605.

I1 t eorema di rappresentazione di una successione parzialmente scambiabile cont inua naturalmente a valere, p u r s e oppo r tunamen te modificato. Supponendo, per semplicith, che l 'ente aleatorio X sia un v.a. X, consider iamo l 'evento

E = (X3 < xs) (r = 95); (F~ . . . . , Fk) (3.1) j = l

dove F i rappresenta la f.r. del generico v.a. X s subordina tamente a r = ~ . Raggruppando insieme i v.a. X 3 che presentano la medesima realizzazione

goj = 99 i poss iamo riscrivere il vettore (XI ' , . . . . X~') cosi

( X l " , . . . . X n ' ) = ( X l , 1 , �9 . . , X l , n l ; X 2 , 1 . . . . . X 2 , n 2 ; �9 . . ; X k , 1 , �9 . . , X k , n k )

dove Xi.5~ i = 1, . . . , k; j~ = 1, . . . , n i ~ stato osservato congiuntamente a

k

goi.5~=q ~ e ~ n ~ = n

Poss iamo dunque scrivere k n~.

Pr{E} = 1-'[ I-I F/(xi.5,) i = 1 3 i=1

(3 .2)

Qualora ni - - 0 si pone per convenzione I-I~**=~ Fi(xi,3,) = 1. Dal la (3.1) e (3.2) discende immedia tamente che

k nt

I~ I~ Fi(xi,Jt ) d O ( ( P l , " ' ' , ( P - ; i f 1 , " ' ' , Fk) i=1 jill

(3.3)

91

dove

~ i a ~ F i 6 uno spazio funzionale: ~ = ~ 1 a • ~e"2e • . . . • ~ k a p 6 una misura di probabi l i tL

Riguardo alia struttura di ~ ci sembra del tut to accettabile l ' ipotesi di indipendenza stocastica tra i due v.a. ~ ' = (~1 . . . . . On) e F ' = (F1 . . . . . Fk). Se infatti si riflette sul significato sostanziale di ~ si no ta che esso rappresenta un pa rame t ro che segnala 1'<( origine ~) (ossia la classe di provenienza) del vet tore X. Poich6 non si int ravedono motivi plausibili per ritenere che l ' andamento delle << provenienze )~ possa influire la nostra valutazione di probabil i t~ in torno a (F , , . . . , Fk) segue l 'asserto.

In base a quest 'u l t ima ipotesi e r icordando la natura discreta di ~b~. poss iamo riscrivere la (3.3) e ottenere

k n i

Pr(Xj ~< xj-) ----- E h(q~, . . . . , ~o~) 1-[ 1-I Fi(xi,~,) dv(F~ . . . . , Fk) ~l ..... ~=~'~" ~ ~=t ~=~ (3.4)

dove h indica la funzione di probabili th del v.a. ((Px, - . . , ~bn) e v una misura di probabil i th su (F1, . . . , Fk).

Riguardo alia s trut tura di h si pot rebbe supporre che la successione {g)n} sia scambiabi le(*) ossia fo rmata di n.a. indipendenti subord ina tamente ad un paramet ro W 6 S e dota to di f.r. G(W).

In tal caso, e sotto le ipotesi che hanno condot to alia (3.4) abb iamo

r h(~~ . . . . . ~n) = h(~ l W) dG(W) = 1-[ h(~c~ I W)", dG(W) (3.5) -/ ,S j ~ l " S i = l

dove h(. I W) rappresenta la funzione di probabi l i t~ del generico g)g. Va da s6 che in questo nuovo contesto l ' ipotesi di indipendenza tra il v.a.

e F si t raduce nell 'ipotesi di indipendenza tra il v.a. W e F. L 'assegnazione di v(F1 . . . . . F}) risulta na tura lmente pifi complessa essendo

1o spazio da probabil izzare rappresentato da uno spazio funzionale. questo precisamente uno degli scogli principali che hanno impedi to per

lungo t empo l ' impostazione bayesiana dei problemi non-parametr ic i . Tale difficolt~ 6 stata tut tavia superata negli ultimi anni in maniera a lquanto

soddisfacente grazie all ' introduzione, da par te di T. S. Ferguson (1973), di un part icolare processo denominato (( processo di Dirichlet )).

Successivamente il processo venne ripreso ed e laborato , tra gli altri, da C. E. Anton iak (1974) e D. M. Cifarelli e E. Regazzini (1979).

In questo lavoro noi faremo tut tavia r iferimento ad una versione generalizzata del processo di Dirichlet int rodot ta in [4] e di cui 6 possibile t rovare un 'appl i - cazione in [3].

Per il m o m e n t o ci basti dunque sapere che il p rob l ema dell 'assegnazione di una misura di probabil i th su (F1, . . . , Fk) 6 tecnicamente risolubile.

(*) Quest'ipotesi ci sembra ragionevole. In generale, infatti, non abbiamo motivi per distin- guere probabitisticamente tra ~n e ~Pn+t-

92

4. Un modello bayesiano non-parametrico di analisi diseriminatoria

Sulla scorta di quanto detto al precedente n. 3 siamo ora in grado di formulare un model lo bayesiano non-paramet r ico di analisi discriminatoria.

Cons ider iamo una successione {Xn, r n = 1, 2 . . . . dove X,~ 6 un v.a. d- dimensionale e q5 n u n n.a. discreto suscettibile di assumere k distinte determinazioni (q01, . . . , cp k) = .(2.

Subordina tamente a q5 --__ qgi, X,~ p rovenga dalla successione {Xi.n, } i ----- 1 . . . . . k; n i ---- I, 2 . . . . .

Sia {X~,n~} una successione scambiabile, ossia compos ta di v.a. mu tuamen te indipendenti subordinatamente ad una f.r. Fi:Rd--* [0, 1] e ident icamente di- stribuiti secondo la Fi.

Subordina tamente a F ' = ( F 1 , : : : . , Fk) e a tb,~ = q~ la successione {Xn} risulti parzialmente scambiabile, ossia scomponibi le in k sottosuccessioni {Xi.~,} i = 1, . . . , k che godono dei requisiti elencati al capoverso precedente.

Sia {rb,} una successione scambiabile. Pifi precisamente gli elementi di {On} siano n.a. discreti mutuamente indipendenti subordina tamente ad un pa rame t ro

Sulla scorta di quanto detto in chiusura del numero 3 assumiamo altresi che F e W siano stocasticamente indipendenti.

In base a queste ipotesi e svolgendo calcoli del tut to simili, a lmeno formal- mente, a quelli r iportati in [l] a pagina 219 si perviene alla espressione della distribuzione diagnostica

P r ( r ----- q~i[ y, z} : P r ( ~ * ---- q)i] r : r ] q~i, z) (4.1)

P r { r = q~ ; [ r = q~}L(yl~v i, z) i=1

dove r rappresenta la classe da cui proviene il vettore y, ~ ' : (~1 . . . . . I~)n); qa' : (9~1 . . . . . q~) e L(y [ q0 i, z) rappresenta la densit/t preditt iva di y subordina tamente a r = q)/e z.

D o b b i a m o ora assegnare una distr ibuzione sul v.a. W ---- ( T I . . . . . Tk). Ri- sulta del tut to naturale assumere c h e l a densit/t di W, g(W) sia di Dirichlet rispetto alia misura di Lebesgue in R k-l, ossia porre

/~(~1 k ~i) ,k-1 k-1 g ( W ) = I ' (yl) �9 �9 �9 / ' ( Y k ) ( H ~t/'tr'*-l)( l - t - 1 t=l ~" ~[Jt) yk-I~'~Q

dove Yl > 0 i = l , . . . , k

O = ~(T 1 t t=l

e ~Szq 6 la funzione indicatrice di Q. Calcol iamo ora la densitb, finale di W subord ina tamente a (~1 = 991 . . . . .

tb,~ = ~0n). Se in part icolare assumiamo, come di consueto, che delle n osservazioni

93

ni risultino uguali a ~i, ~ = t ni = n, allora possiamo scrivere

( nTC--1 g(W I r oc g(W) P{r = ~jlW} = g(W)~v~"~", . . . ~e~_x 1 - 2 T t j=l t=l

(X: ~JlYl+nl --1 ~-f2YZ +hi--1 . . . . [E/Yk-lq'~/r l - - ~ 1 k - 1 ~k ~" }/'It ) 'k ~'nk-1 t= l

Quindi g(W [ r 6 ancora una densith di Dirichlet di parametri 7i -q- nl .

Osservazione 1. La distribuzione finale di ~* dipende dai dati z solo attra- verso ~. Questo fatto discende dall'ipotesi di indipendenza tra W e F, ossia tra i parametri che indicizzano la distribuzione di ~ e Xi.

Osservazione 2. Per il calcolo della densit~ predittiva L(y [ ~i, z) ci avvarremo della versione modificata del teorema di rappresentazione di una successione parzialmente scambiabile di cui abbiamo parlato al numero 3. Si noti che subordinare a ~* = ~i equivale ad ipotizzare che l'osservazione provenga dalla classe i.esima, mentre subordinare a z significa conoscere quante e quali osservazioni si sono effettuate per ciascuna classe.

Osservazione 3. La probabilit~ finale Pr{r -- ~ i l r = r non dipende evi- dentemente dalle osservazioni r qualora l'esperimento sia stat0 programmato, quando cio~ non sia stato rispettato il meccanismo probabilistico che genera {~n}. In queste circostanze, come ~ ovvio, la Pr{~* = ~0i]~ = r va sostituita con la semplice probabilit~ iniziale Pr{r = q0i}.

4.1. Occupiamoci dapprima del calcolo di Pr{r = ~ 1 r : ~), evidente- mente nell'ipotesi che l'esperimento sia non programmato per i motivi detti precedentemente.

Seguendo [1] assumiamo che

di conseguenza

Di conseguenza

dove

Pr{@j=q~i lW } = ~i i = 1 . . . . , k

k e I

1

Y' + " '

y + n ~' --]- n

k k

Y = ~ 7~; n = ~, ni i=1 i=l

subito evidente che se 7i ~ 0 allora

P{~* = qgil r ~ nl n

ossia semplicemente al numero di casi appartenenti alia i.esima classe che sono stati osservati.

94

4.2. Passiamo ora all'assegnazione della distribuzione iniziate su (F~ . . . . . F~). A tal fine faremo riferimento alla simbologia ed ai risultati riportati in [4].

Vogliamo tuttavia sottolineare che, per esigenze di realismo, prenderemo in considerazione v.a. e non pifi n.a.

Questa circostanza ci ha portato a generalizzare a tale nuovo caso i risultati apparsi in [3] e ottenuti, prescindendo dagli aspetti dimensionali, in base alle medesime ipotesi.

Assumiamo che le f.r. Fi siano selezionate da un processo mistura di prodotti di processi di Dirichlet, ossia

k (F1 . . . . . Fk [ Ua . . . . , Uk; ~'~'1 . . . . . ~'~'k) ~ I-I "~i(0[ i (Ui ' ~'~'i, " ) )

dove u ( = (ui,~ . . . . , ui.a) ~ ~a e ~"i 6 una matrice (d • d) simmetrica e definita positiva.

Queste ipotesi si commentano da sole non appena specifichiamo la natura del parametro ai. Sia infatti

~i(u~, Xi, x) = ~(u~, X:~, x)

= ~(u,i, X:i, R~)~/-, ~(x I ui, r"3 x ~ ~

dove ~ ( - [ u i , Xli) indica la f.r. di una normale multivariata d-dimensionale avente come valore atteso u i e matrice di varianze e covarianze (var-cov) ~i .

Supponiamo per semplicitb~ a(ui , ~..~, R a) = a(~a) . Naturalmente abbiamo che (cfr., ades . , [4] pag. 12)

E{F~(x [ ui, Xi)} = a(ui, ~'i, Rd) : a(Ra)

Per semplicit~ assumeremo Xl~ nota per ogni i. Dobbiamo ora assegnare una distribuzione di probabilit~ al vettore U ' =

= ( U d , . . . , U k ' ) . Seguendo D. V. Lindley (1971) e D. V. Lindley, A. F. M. Smith (1972) sup-

poniamo che i v.a. U~ siano scambiabili, ossia mutuamente stocasticamente indipendenti condizionatamente ad un vettore i t ' = (/~ . . . . , #a). Naturalmente questa ipotesi, prima di essere applicata, andrebbe attentamente verificata. In generale essa risulta senz'altro accettabile ogniqualvolta il ricercatore riveli un atteggiamento di << simmetria >> nei confronti dei parametri Ui, per cui le sue valutazioni di probabilita intorno a U~ non si differenziano da quelle intorno a Uh (i 5~: h) e, in generale, le valutazioni intorno alle coppie, terne, etc. di U~ sono insensibili agli indici i.

Supponiamo altresi che Ui--~ Na(it, W), dove Nd(it, W) indica una densit/t normale multivariata dodimensionale di valore atteso it e matrice di var-cov. W nota.

Avremo dunque che la densith ~ di U' = (UI ' , . . . , U~') vale

~)} &(~) ~(ul .... ,uk) ~ f~a i=I-kI exp{-- -~-(u,- It)'W-l(u~-

dove v indica la f.r. del v.a. It.

95

A s s u m i a m o ora che anche F sia do t a t a di densith normale d -d imens iona le di valore a t teso [3 e matr ice di var-cov R(*).

A b b i a m o dunque

Ir {' } ~ ( U l . . . . , uk) ~ exp - - (u~ - - ~ ) ' W - l ( u i - - bt) R~ T i=1

�9 exp{-- ~ (F -- [3)'R-'(~ (4.2)

C o m p l e t a n d o il quadra to r ispet to a ~ e in tegrando si ott iene

{ 1 t ~ ( u l , - . . , uk) ~ exp - - ~ (u - - 8 ) ' H - l ( u - - 8)

dove

essendo

in cui

u' = [u~', . . . , uk']

H = (C -1 - - p ) - x ; 8 = Hd

P = E 'W-X(RW-X + R - a ) - I W - 1 E

C = d i ag (W . . . . . W )

d = E ' W - I ( R W -1 + R - 1 ) - I R - 1 [ ~

E = [Iai l,z . . . i Ia] (Ia: matr ice identit& di ord ine d)

(4.3)

Dunque la dis t r ibuzione iniziale di (Ux . . . . . Uk) 6 normale con ve t to re delle medie 8 e matr ice di vananze e covar ianze H.

Osservazione. Se scegliamo una d is t r ibuzione non informat iva su ~, c ib equivale a far tendere R -1 al ia matrice nulla 0 nella (4.2). Se pon iamo R -1 = 0 a l lora si verifica agevolmente c h e l a matr ice H -1 defini ta nella (4.3) r isul ta del t ipo

I (,_+)w . . . . w, 1 . . . . W - t (4 .4) (, (,

da cui si evince immedia tamente che i vet tori U1, �9 �9 �9 Uk sono d ipendent i coerentemente con l ' ipotesi di scambiabilit&.

Pass iamo ora al calcolo della densit& finale di (Ux . . . . . Uk) che r iveste un ruolo cruciale nel calcolo della predi t t iva. A tal fine fa remo r i fer imento a l l a for- mula che compare in [4] pag. 17.

Si noti bene perb che o ra le osservazioni sono rappresenta te non so lo da x~, . . . . xk, ma anche da r di conseguenza d o v r e m o subord inare la d i s t r ibuz ione di

(*) Per una giustificazione delle ipotesi di normalit& comunemente adottate in simili casi si confronti [9], pag. 437.

96

(Ux . . . . . Uk) all ' intero blocco di osservazioni z. All ' infuori di questa precisazione, tuttavia, le formule che compaiono nel n. 3 di [4] r imangono invariate.

Se osserviamo ora che c~ ~ assolutamente cont inua rispetto alia misura di Le- besgue si ricava subito la seguente espressione

~(111 . . . . . u k l ~ , XX, . - . , Xk) : ~(Ul . . . . . Uk[ Z) r~ (4.5)

[-[ ~ Nd(Xi,j, I Ui, ~ i ) " ~(U, . . . . . Uk) i=1 j~=l

dove r~ rappresenta il numero delle osservazioni distinte effettuate sulla i.esima classe, vale a dire il numero delle osservazioni distinte nell'insieme delle coppie (xj, ~0~).

Sosti tuendo nella (4.5) l 'espressione di Nd(xi,j~ I ui, Y.i) e r icordando la (4.3) si ottiene

{ 1 (u - - t ) 'S - ' (u -- t )} (4.6) ~(Ul, . . . , ukl z) oc exp -- - - ~

dove

essendo

in cui

u' = [Ul', . . . , uz'] S = ( H -1 -]- '~'~--1)--1

t = ( a - 1 8 q- Y.-lm)

( Y ' I Y'z Y'k .) Y- = diag rl ' r2 ' " " ' rk

m' = [ m ( , . . . . rod ]

1 ri m i : ~ ~,, xi.j~ i = 1 . . . . , k

Di conseguenza la distribuzione finale di U ~ ancora normale di media t e matrice di varianze e covarianze S.

Si osservi che la matrice di precisione finale S -1 6 data dalla somma della matrice precisione iniziale H -1 e della matrice precisione campionaria y -1 .

Si osservi altresi c h e l a media finale t 6 data da una media pondera ta della media iniziale 8 e della media campionaria m, i fattori di ponderazione essendo espressi dalle matrici precisione H -1 e y.-1.

Si noti tuttavia che il generico vettore delle medie campionarie m i 6 ot tenuto effettuando una media aritmetica dei soli termini distinti xi,3"~ appartenenti alia classe i.esima.

Calcoliamo ora la f.r. predittiva marginale. Risulta, cfr. [4] pag. 18:

P { Y < y [ g ~ * = ( p ~ , z } : f ( a ( ~ a) f r (2z0_a/ , , ly. i ,_, / . ' ~.~ ~(~d) + n , -co

ni Fi n (Y)) e x p t - - - - ~ - ( q - - u i ) ' Y . , - X ( q - - u i ) d q j -~- v t (Rd) -~- n i ,

@

1

�9 (2Z0-(k'd~/2 [ S I -t/2 exp -- ~ -

97

dove Fi.ni rappresenta la f.r. empirica costruita con le sole osservazioni della i.esima classe.

Dopo alcuni passaggi si ricava la seguente espressione finale della f.r. predittiva

a(R ~) P(Y < Y l ~* : q oi, z) : ~(z~d) + n~

ni Fi,~(y) + c~(R d) + n~

~d(Yl ti, ~i + Sii) +

(4.8)

dove ti 6 l'i.esima componente (vettoriale) di t e S , 6 la matrice di posizione (i, i) di S, definita nella (4.6).

Si osservi come la f.r. predittiva risulta essere una mistura tra una f.r. normale multivariata e la f.r. empirica.

Dalla (4.8) possiamo ora ricavare la densit~ predittiva L(y [ q~i, z) che compare nella distribuzione diagnostica (4.1).

A tal fine osserviamo preliminarmente che la distribuzione (4.8) 6 mista, essendo data dalla somma ponderata di una componente assolutamente continua rispetto alia misura di Lebesgue e di una discreta. Questa ultima concentra masse positive sugli r i < n~ punti corrispondenti alle osservazioni distinte sulla i.esima classe.

Se ora definiamo una misura #* coincidente con quella di Lebesgue su R d salvo nei punti xi,~t (Ji = 1 , . . . , r i ) su ciascuno dei quali concentra massa 1/ri , la densitb, predittiva 6 data dalla derivata, secondo Radon-Nikodym, della (4.8) rispetto a #* che indicheremo con L(y] q~i, z).

In tal modo la distribuzione diagnostica (4.1) risulta completamente specificata e potremo quindi scrivere

~'~ + ni L(yl q~i, z)

e(q)* ---- 9Zl y, z} = k )' + n (4.9) ~,, Yi + n~ L ( y [ ~ , z ) i= 1 y -q- rl

Osservazione. Si noti che se y coincide con una delle r i osservazioni x~,~ (j~ = I . . . . . rz) nella classe i.esima ed 6 al tempo stesso diversa da tutte le altre osservazioni nelle rimanenti classi allora risulta

e quindi

L(y [ qb* 3z~ 9i, z) = 0

P{~* ----- ~vi I y, z) : 1 (4. I0)

In altre parole il modello db, grande peso alia coincidenza di risultato tra la nuova osservazione y ed una effettuata precedentemente assegnando immediata- mente l'individuo in questione alla classe da cui l'osservazione campionaria proviene.

Osserviamo tuttavia che all'aumentare della dimensione del vettore delle caratteristiche, la probabilifft di tale coincidenza diventa sempre pifi bassa e quindi risultati del tipo precedentemente richiamati diventano sempre meno plausibili.

Ci6 potrebbe apparire, a prima vista, sorprendente. Si potrebbe infatti pensare che, aumentando il numero delle caratteristiche rilevate per ogni soggetto, l'ana-

98

lisi diventi pi/a precisa e quindi consenta effett ivamente di pervenire a risultati pressoch6 << certi )) come in (4.10). In realtor risultati del t ipo (4.10) possono al- t re t tanto ugualmente originare da un'analisi grossolana e semplicistica (come quella di rilevare, ad esempio, una sola caratteristica per soggetto) ed 6 precisamente questo fat to che si verifica nel nostro caso.

5. Un'applicazione del modello

Come applicazione numerica del model lo esposto consider iamo un p rob lema di diagnosi clinica r iportato in [1 ] a pag. 213.

La s indrome di Cushing 6 una rara malat t ia che si estrinseca nella ipersecrezione di cortisolo da parte della corteccia surrenale.

Per motivi di semplicit/t l imiteremo la nost ra attenzione a tre classi o << tipi )> di s indrome che corr ispondono a quelli in cui la causa dell ' ipersecrezione va ef- fet t ivamente ricercata all ' interno della ghiandola surrenale. I tipi sono: q91: adenoma, ~2: iperplasia bilaterale, 93: carcinoma.

Ci p r o p o n i a m o di applicare il model lo di analisi discriminatoria in base a due caratterist iche osservabili, che possono essere determinate per mezzo di c roma- tografia su carta. Esse sono il tasso di escrezione urinaria di due metaboli t i ste- roidei e precisamente il te traidrocort isone e il pregnantriolo.

A bb iamo a disposizione i dati su queste due caratteristiche relativi a 21 pazienti affetti dalla s indrome di Cushing che in passato sono stati operat i e per ciascuno dei quali 6 stato determinato uno dei tre tipi di s indrome per mezzo di un'analisi istopatologica. I dati sono riportat i nella sottostante Tabel la 1.

I1 nostro obiett ivo consiste ora nel diagnosticare il t ipo della s indrome per un paziente che presenta un tasso di escrezione urinaria di 9,0 mg/24 ore di tetra- idrocort isone e di 1,50 rag/24 ore di pregnantr iolo.

5.1. Seguendo Aitchison e Dunsmore [1, pag. 221] appl icheremo il modello precedentemente esposto n o n alle osservazioni della Tabel la 1 bensi al loro Io-

g a r i t m o . D ' o r a in avanti denomineremo con xi,j~ (i = 1, 2, 3; j~ = 1, . . . , nz) il logar i tmo della generica osservazione j .es ima relativa aU'i.esimo tipo (o classe)(*).

Poich6 te osservazioni della Tabel la 1 sono tutte distinte abb i amo r i = n i .

Pi/a precisamente risulta

n l = 6 ; n 2 = 10; n 3 = 5 (5.1)

Inoltre, in base alia s imbologia in t rodot ta nei humeri precedenti abb iamo k = 3 e d = 2, ossia tre tipi (o classi) e due caratteristiche osservabili.

Poich6 r~ = ni il vettore m~, definito nella (5.6), coincide con quello delle medie campionar ie

1 n~ Xi =--~-i E X,;,j,

ji=l

(*) Le medesime considerazioni valgono naturalmente anche per le osservazioni sul soggetto da classificare. Avremo dunque

y' = [log 9,10; log 1,50] = [2,1972; 0,4055].

99

TABELLA I TASSI DI ESCREZIONE URINARIA (rag/24 ore) DI DUE METABOLITI STEROIDE[ RELATIVI A 21 PAZIENTI AFFETTI DALLA SINDROME

DI CUSHING

T i p o 9`1: adenoma (p2: iperplasia 9"3: carcinoma di sindrome

n. osservazione Tipo di sindrome Tetraidrocortisone Pregnantriolo

~' 9`1

3,1 3,0 1,9 3,8

5 6

7 8 9

10 11 12 13 14 15 16 17 18 19 20 21

> 9`2

' 9`:3

4,1 1,9

8,3 3,8 3,9 7,8 9,1

15,4 7,7 6,5 5,7

13,6 10,2 9,2 9,6

53,8 15,8

11,70 1,30 0,10 0,04 1,10 0,40 1,00 0,20 0,60 1,20 0,60 3,60 1,60 0,40 0,40 1,60 6,40 7,90 3,10 2,50 7,60

Dalla Tabella 1, fatte le opportune trasformazioni, otteniamo

[ 1,0433] 2,0073 [2,7097 m~=[_0 ,6034 ] m 2 = [ ] m:,= ] --0,2060 [ 1,5998

(5.2)

Riguardo alle matrici di varianza e covarianza Y.i che nel modello sono note, assumiamo che esse coincidano con le rispettive matrici di varianze e covarianze campionarie. Abbiamo quindi

0,11069 0,12389] E l = 0,12389 4,08910J

~ 2 = [ 0,21187 0,32413] 0,32413 0,72030J

(5.3)

~ 3 = [ 0,55522 --0,24224] --0,24224 0,28850J

100

5.2. A1 fine di semplificare i calcoli a s sumiamo ora di adottare una distribuzione iniziale non informat iva il che equivale, per quan to detto al n. 4.2 a far tendere la matr ice R -x, che compare nella (4.2), alla matr ice nulla. Di conseguenza la matrice H -x assume la configurazione indicata nella (4.4).

Riguardo alla matrice W, che nel model lo 6 supposta nota, a s sumiamo che essa coincida con la matrice di varianze e covar ianze aggregata delle tre classi. Pi/J precisamente pon iamo

a (n i - - 1)~i W = ~, n = n 1 + n 2 + n a (5.4) i=x n - - 3

Sosti tuendo nella (5.4) i valori di nz e ~ i indicati nella (5.2) e (5.3) o t ten iamo

[0,26006 0,14265] (5.5) W = [ 0 , 1 4 2 6 5 1,56012]

5.3. R imangono ora da assegnare i paramet r i ~'i che compaiono nella distribuzione diagnostica (4.9).

Aderendo nuovamente alle ipotesi r iportate in [1, pag. 222] assumiamo anzi- tut to che l 'esperimento sia stato p rog rammato . Ci6 compor ta , come abb iamo gi~, avuto modo di osservare, che il fat tore 7i + n~/7 + n, che compare nella distribuzione diagnostica, vada sost i tuendo con Yi/Y.

Coerentemente con l 'ipotesi di distr ibuzione iniziale non informat iva giS. adot- ta ta in questa applicazione assumeremo altresi che Yi/7 = 1/3. Da ci6 segue immedia tamente , per la (4.9), che le probabilitS, finali p{qs* = Vii y, z} (i = 1, 2, 3) s tanno tra loro nello stesso rappor to che intercede tra le rispettive densith pre- dittive L(y I ~i, z) (i = 1, 2, 3).

5.4. Sotto le ipotesi dichiarate ai precedenti n. 5. I, 5.2 e 5.3 abb iamo ot tenuto i seguenti valori della distribuzione diagnost ica

Px = p{~b* = qeL Y, z} - - 0,0503

P2 = p{~b* = cpZl y, z} = 0,9496 (5.6)

Pa = P{~* = <Pal Y, z} = 0,0001

da cui si evince che il soggetto in questione, alia luce dei dati della Tabel la 1, 6 affetto con probabilitS, prossima a 0,95 da iperplasia bilaterale.

6. Conelusione

I1 modello proposto, pur essendo di t ipo non-parametr ico, risulta relativa- mente semplice e trattabile da un punto di vista analitico oltre che ai fini del calcolo numerico.

Una caratteristica del modello, si confront i la (4.10), consiste nell 'assegnare con probabilit/~ 1 il soggetto da diagnosticare alla classe i.esima qua lora y = x~.j~ per qualche Ji = 1, . . . , r~. Poich6 sia y che xi,j~ sono spesso misurazioni di gran- dezze e per tanto soggette ad errori di rilevazione, pot rebbe verificarsi che y risulti solo lievemente diverso da qualche x~,j~ unicamente a causa di questi errori. In base a simulazioni numeriche da noi effettuate poss iamo tuttavia concludere che

iOi

in tali casi l ' individuo viene comunque assegnato con alta probabilitb, a l i a medesima classe a cui sarebbe stato assegnato se tali errori non si fossero verificati e si fosse di conseguenza realizzata una perfetta identith tra y e qualche xi,j~.

Segnal iamo infine i principali sviluppi di cui il modello potrebbe essere fatto oggetto �9

a) r imuovere le ipotesi che ~--~, ~-~, ~'a siano note;

b) ipotizzare una dipendenza stocastica diversa dalle scambiabilith t r a (U~, . . . . Uk).

Ent r ambe le ipotesi condurrebbero inevi tabi lmente ad una complicazione del modello, ma potrebbero risultare, in partieolari circostanze, pica aderent i alla na tu ra del problema esaminato nonch6 ai convinciment i del ricercatore.

B I B L I O G R A F I A

[1] J. AITCHISON, I. R. DUNSMORE, Statistical Prediction Analysis, London, Cambridge Univer- sity Press, 1975.

[2] C. E. ANTONIAK, Mixtures o f Dirichlet processes with applications to bayesian nonparametric problems, ~ Ann. of Stat. ~, 2, 1975, pp. 1152-1174.

[3] D. M. CIFARELLI, lmpostazione bayesiana di un problema di analisi della varianza con ap- proccio non parametrico, ~ Quadr. lstit. Matem. Finanz. Univ. Torino ~, serie III, n. 17, 1979, pp. 1-23.

[4] D. M. CIFARELLI, E. REGAZZINI, Problemi statistici non parametrici in condizioni di scambiabilith parziale, lmpiego di medie associative, ~ Quadr. Istit. Matem. Finanz. Univ. To- rino ~, serie III, n. 12, 1978, pp. 1-36.

[5] D. M. CIFARELLI, E. REGAZZINL Considerazioni generali sull'impostazione bayesiana dei problemi non parametrici. Le medie associative nel contesto del processo aleatorio di Dirichlet, ~ Rivista di Mat. per le Scienze econ. e soc. ~, 2, parte I: fasc. 1, 1979, pp. 39-52; parte II: fasc. 2, 1979, pp. 95-111.

[6] B. de FINE'rTt, Sur la condition d'~quivalence partielle, ~ Actual. Scient. Industr. ~, n. 739, 1938, pp. 5-t8.

[7] B. de FINET'r~, Teoria delle probabilitY, Torino, Einaudi, 1970, 2 voll. [8] T.S. FERGUSO'~, A bayesian analysis o f some nonparametric problems, ~ Ann. of Stat. ~, I,

1973, pp. 209-230. [9] D.V. LINDLEY, The estimation o f many parameters in Foundations o f Statistical Inference,

V. P. Godambe, D. A. Sprott editors, Toronto, Rinehart & Winston, 1971, pp. 435-455. [10] D. V. LINOLEV, A. F. M. SMITH, Bayes estimates for the linear mode l , , Journ. of the Royal

Stat. Society ~ (B), 34, 1972, pp. 1-4l.

A B S T R A C T

J. Aitchison and I. R. Dunsmore (1975) have stressed the importance of the predictive distribution for the solution of classical statistical problems. Following this approach we show initially how a modified version of the model of partial exchangeability can be usefully applied to derive the so called diagnostic distribution, Subsequently a nonparametric model of discriminatory analysis is derived, wherein a crucial role is played by a particular process n a m e d , mixture of products of Dirichlet processes >} introduced by D. M. Cifarelli and E. Regazzini (1978) following a paper by C. E. Antoniak (1974) which in turn generalized the well known << Dirichlet process }} developed by T. S. Fer- guson (1973). Finally a numerical application to a medical problem is provided.

102

impostazione bayesiana di un problema di analisi discriminatoria nell'ambito di un modello non...

Documents