Impostazione Bayesiana di un problema di analisi discriminatoria nell'ambito di un modello non parametrico

Download Impostazione Bayesiana di un problema di analisi discriminatoria nell'ambito di un modello non parametrico

Post on 10-Jul-2016

217 views

Category:

Documents

3 download

Embed Size (px)

TRANSCRIPT

<ul><li><p>LMPOSTAZIONE BAYESIANA DI UN PROBLEMA DI ANALISI DISCRIMINATORIA NELL'AMBITO DI UN MODELLO NON PARAMETRICO (*) </p><p>GUIDO CONSONN1 lstituto di Metodi Quantitativi Universit&amp; ~ Luigi Bocconi&gt;&gt; Milano, 1981 </p><p>Versione definitiva pervenuta il 24-9-81 </p><p>Seguendo l'impostazione predittiva delineata da J. Aitchison e I. R. Dunsmore (1975) viene proposto un modello non-parametrico di analisi discriminatoria dal punto di vista bayesiano. </p><p>Si ricorre a tal fine ad una versione moclificata dello schema di scambiabilit~t parziale e si utilizza il processo introdotto da D. M. Cifarelli ed. E. Regazzini (1978). Si presenta infine un'applicazione del modello ad un tipico problema di diagnosi medica. </p><p>1. Introduzione </p><p>Dato un numero aleatorio (n.a.) X la cui legge di distribuzione p(-) dipende da un parametro aleatorio H- di cui, per il momento, non occorre precisare la natura - - la distribuzione del n.a. Xn+t, t = 1, 2 . . . . alla luce din osservazioni x '= (xl, . . . , xn) ~ data come noto da </p><p>E {p( . ]H)} (l. l) HIx </p><p>il valore atteso essendo fatto rispetto alia distribuzione finale di H. La (1.1) viene detta distribuzione predittiva. </p><p>J. Aitchison e I. R. Dunsmore (1975) hanno messo in evidenza come la (1.1) possa essere utilmente impiegata per la soluzione, in ambito bayesiano, di alcuni classici problemi di analisi multivariata ed in particolare di un problema di ana- lisi discriminatoria. </p><p>Con riferimento a quest'ultimo intendiamo proporre uno schema induttivo, legato alia nozione di parziale scambiabilith, che a nostro avviso consente di in- quadrare in modo naturale ed efficace il problema; successivamente estenderemo l'analisi esposta in [1] al caso non parametrico. </p><p>(*) Lavoro eseguito nelrambito del GNAFA-CNR. L'argomento di questo lavoro mi stato suggerito dal professor Eugenio Regazzini. A quest'ultimo ed al prof. Donato Michele Cifarelli sono grato per avermi segnalato alcune oscurith nel testo originario. </p><p>89 </p></li><li><p>2. Formulazione del problema </p><p>Un problema di analisi discriminatoria pub essere cosi sintetizzato. Sia data una collettivith di elementi e sia pure data una partizione finita in k </p><p>classi .(2 = (q01 . . . . . ~v k} di tale collettivit~t. Supponiamo che per ogni elemento sia possibile rilevare un vettore di carat- </p><p>teristiche d-dimensionale, che indichiamo con X, le quali siano in qualche modo legate alia sua appartenenza ad una specifica classe, pur non essendo tale legame deterministico. </p><p>Supponiamo ora di aver a disposizione un'ennupla di osservazioni z' = (Zl', . . . . z,,') = (xx', tpl), . . . , (x,,', q~n) su n elementi della collettivit~, dove </p><p>x s 6 il vettore delle caratteristiche relativo al j .esimo elemento; 9~ 6 la classe a cui appartiene il j .esimo elemento. </p><p>Va da s6 che penseremo xj e qg~ rispettivamente come una realizzazione del v.a. X 3 e del n.a. ~3". </p><p>Consideriamo ora un nuovo elemento della collettivith il quale presenti un vettore delle caratteristiche y. I1 nostro problema consiste nell'assegnare tale ele- mento, alla luce delle osservazioni z, alia sua classe di appartenenza in modo da rendere minima la probabilifft di errore di classificazione. </p><p>Una risposta al problema precedentemente formulato ~ rappresentata dalla cosiddetta distribuzione diagnostica (cfr. [1] pag. 220). </p><p>P r{q~*=ty i ly , z} i----- l . . . . , k (2.1) </p><p>dove ~b* rappresenta la classe a cui appartiene l 'elemento in questione. Natural- mente ~* pub assumere le k possibili determinazioni (~1 . . . . . tpe). </p><p>Chiaramente assegneremo tale element o a quella classe in corrispondenza della quale la distribuzione (2.1) raggiunge il suo massimo. Qualora tale massimo non sia unico ma si realizzi in corrispondenza di p valori (p &lt; k), allora risulta indifferente scegliere una qualunque delle rispettive p classi. </p><p>3. II problema delranalisi diseriminatoria nell'ambito di un modello di scambiabi- lith parziale </p><p>Ci sembra che il problema esposto nel precedente numero 2 possa essere con- venientemente riformulato nel contesto di un modello di scambiabilitb, parziale (scamb. parz.). </p><p>Riteniamo utile, a questo punto, ricordare le condizioni nelle quali risulta opportuno ampliare 1o schema di scambiabilith (totale) a quello di scamb, parz. </p><p>Esse si realizzano allorquando le osservazioni intorno alia successione {Xn}n = = 1, 2, . . . degli enti aleatori oggetto del nostro ragionamento induttivo avven- gono in concomitanza con l'osservazione di una o pifi circostanze oggettivamente verificabili, che per semplicifft indicheremo con il termine di qualit?~ osservabile (qual. osser.) e indicheremo con la lettera ~. q), in generale, pub essere un qualun- que ente: numero, vettore, funzione o altro ancora. Sar/~ tuttavia opportuno, per motivi di semplicith e praticifft, limitarsi al caso in cui q5 6 un numero. </p><p>Potremo altresi ipotizzare che q~ possa assumere un numero finito, diciamo k, di valori che indicheremo con ~pl . . . . , q~k. </p><p>90 </p></li><li><p>Da un punto di vista sostanziale l 'osservazione, per ogni X~, di go ci consente di individuare in modo pi/1 preciso l'ente aleatorio in questione, di modo che noi r ipartiremo la successione di partenza {X,,} in k sottosuccessioni {Xi,n~} i = 1, . . . , k; n~ = 1, 2, . . . ciascuna delle quali risulta composta di elementi scam- biabili. </p><p>Questi brevi richiami e la simbologia volutamente impiegata gi~t consentono di intravedere la linea che converr~ seguire per modellare un problema di analisi discriminatoria in termini di scambiabilifft parziale. Baster~ al l 'uopo identificare i termini qual. osser, e classe e precisare che X dipende da gO nel modo pifi naturale e intuitivo: ossia la distribuzione di X, subordinatamente a gO ----- 99 i, ~ in generale diversa da quella di X subordinatamente a gO ---- 99 ~, per ogni i ~ h (i, h = 1, . . . . k). </p><p>Naturalmente la differenza tra il modello di scamb, parz., diciamo tradizionale, e la versione qui proposta consiste nell' ipotizzare che in quest'ult ima la qual. os- ser. sia aleatoria. </p><p>Vorremmo tuttavia sottolineare che gO rimane pur sempre una qualifft ogget- t ivamente rilevabile secondo le indicazioni di B. de Finetti (1938 e 1970). Solo questioni di comodifft, economia o altro ci inducono a riguardarla come aleatoria. D'altro canto, per quanto riguarda i dati utilizzati nel procedimento inferenziale, ossia le coppie (x3, ~05), ~pj viene rilevata di volta in volta e pertanto ci sembra che il principio informatore dello schema di scamb, parz. venga rispettato, giusta l ' importante osservazione segnalata in [7] a pag. 605. </p><p>I1 teorema di rappresentazione di una successione parzialmente scambiabile continua naturalmente a valere, purse opportunamente modificato. Supponendo, per semplicith, che l'ente aleatorio X sia un v.a. X, consideriamo l'evento </p><p>E = (X3 &lt; xs) (r = 95); (F~ . . . . , Fk) (3.1) j= l </p><p>dove F i rappresenta la f.r. del generico v.a. X s subordinatamente a r = ~. Raggruppando insieme i v.a. X 3 che presentano la medesima realizzazione </p><p>goj = 99 i possiamo riscrivere il vettore (XI ' , . . . . X~') cosi </p><p>(X l " , . . . . Xn ' ) = (X l ,1 , 9 . . ,X l ,n l ; X2 ,1 . . . . . X2 ,n2 ; 9 . . ;Xk ,1 , 9 . . ,Xk ,nk) </p><p>dove Xi.5~ i = 1, . . . , k; j~ = 1, . . . , n i ~ stato osservato congiuntamente a </p><p>k </p><p>goi.5~=q ~ e ~ n~=n </p><p>Possiamo dunque scrivere k n~. </p><p>Pr{E} = 1-'[ I-I F/(xi.5,) i=1 3i=1 </p><p>(3.2) </p><p>Qualora ni -- 0 si pone per convenzione I-I~**=~ Fi(xi,3,) = 1. Dalla (3.1) e (3.2) discende immediatamente che </p><p>k nt </p><p>I~ I~ Fi(xi,Jt ) dO((P l , " ' ' , (P - ; i f1 , " ' ' , Fk) i=1 jill </p><p>(3.3) </p><p>91 </p></li><li><p>dove </p><p>~ i a ~ F i 6 uno spazio funzionale: ~ = ~1 a ~e"2e . . . ~k a p 6 una misura di probabi l i tL </p><p>Riguardo alia struttura di ~ ci sembra del tutto accettabile l'ipotesi di indi- pendenza stocastica tra i due v.a. ~ ' = (~1 . . . . . On) e F ' = (F1 . . . . . Fk). Se infatti si riflette sul significato sostanziale di ~ si nota che esso rappresenta un parametro che segnala 1'</p></li><li><p>4. Un modello bayesiano non-parametrico di analisi diseriminatoria </p><p>Sulla scorta di quanto detto al precedente n. 3 siamo ora in grado di formulare un modello bayesiano non-parametrico di analisi discriminatoria. </p><p>Consideriamo una successione {Xn, r n = 1, 2 . . . . dove X,~ 6 un v.a. d- dimensionale e q5 nun n.a. discreto suscettibile di assumere k distinte determina- zioni (q01, . . . , cp k) = .(2. </p><p>Subordinatamente a q5 --__ qgi, X,~ provenga dalla successione {Xi.n, } i ----- 1 . . . . . k; n i ---- I, 2 . . . . . </p><p>Sia {X~,n~} una successione scambiabile, ossia composta di v.a. mutuamente indipendenti subordinatamente ad una f.r. Fi:Rd--* [0, 1] e identicamente di- stribuiti secondo la Fi. </p><p>Subordinatamente a F' = (F 1 , : : : . , Fk) e a tb,~ = q~ la successione {Xn} risulti parzialmente scambiabile, ossia scomponibile in k sottosuccessioni {Xi.~,} i = 1, . . . , k che godono dei requisiti elencati al capoverso precedente. </p><p>Sia {rb,} una successione scambiabile. Pifi precisamente gli elementi di {On} siano n.a. discreti mutuamente indipendenti subordinatamente ad un parametro </p><p>Sulla scorta di quanto detto in chiusura del numero 3 assumiamo altresi che F e W siano stocasticamente indipendenti. </p><p>In base a queste ipotesi e svolgendo calcoli del tutto simili, a lmeno formal- mente, a quelli riportati in [l] a pagina 219 si perviene alla espressione della di- stribuzione diagnostica </p><p>P r ( r ----- q~i[ y, z} : P r (~* ---- q)i] r : r ] q~i, z) (4.1) </p><p>Pr{r = q~;[r = q~}L(yl~v i, z) i=1 </p><p>dove r rappresenta la classe da cui proviene il vettore y, ~ ' : (~1 . . . . . I~)n); qa' : (9~1 . . . . . q~) e L(y [ q0 i, z) rappresenta la densit/t predittiva di y subordi- natamente a r = q)/e z. </p><p>Dobbiamo ora assegnare una distribuzione sul v.a. W ---- (T I . . . . . Tk). Ri- sulta del tutto naturale assumere che la densit/t di W, g(W) sia di Dirichlet rispetto alia misura di Lebesgue in R k-l, ossia porre </p><p>/~(~1 k ~i) ,k-1 k-1 g (W)= I'(yl) 9 9 9 / ' (Yk ) (H ~t/'tr'*-l)( l - t - 1 t=l ~" ~[Jt) yk-I~'~Q </p><p>dove Yl &gt; 0 i= l , . . . , k </p><p>O = ~(T 1 t t=l </p><p>e ~Szq 6 la funzione indicatrice di Q. Calcoliamo ora la densitb, finale di W subordinatamente a (~1 = 991 . . . . . </p><p>tb,~ = ~0n). Se in particolare assumiamo, come di consueto, che delle n osservazioni </p><p>93 </p></li><li><p>ni risultino uguali a ~i, ~=t ni = n, allora possiamo scrivere </p><p>( nTC--1 g(W I r oc g(W) P{r = ~jlW} = g(W)~v~"~", . . . ~e~_x 1 - 2 Tt j=l t=l </p><p>(X: ~JlYl+nl --1 ~-f2YZ +hi--1 . . . . [E/Yk-lq'~/r l -- ~ 1 k - 1 ~k ~" }/'It ) 'k ~'nk-1 t=l </p><p>Quindi g(W [ r 6 ancora una densith di Dirichlet di parametri 7i -q- nl. </p><p>Osservazione 1. La distribuzione finale di ~* dipende dai dati z solo attra- verso ~. Questo fatto discende dall'ipotesi di indipendenza tra W e F, ossia tra i parametri che indicizzano la distribuzione di ~ e Xi. </p><p>Osservazione 2. Per il calcolo della densit~ predittiva L(y [ ~i, z) ci avvarremo della versione modificata del teorema di rappresentazione di una successione parzialmente scambiabile di cui abbiamo parlato al numero 3. Si noti che subor- dinare a ~* = ~i equivale ad ipotizzare che l'osservazione provenga dalla classe i.esima, mentre subordinare a z significa conoscere quante e quali osservazioni si sono effettuate per ciascuna classe. </p><p>Osservazione 3. La probabilit~ finale Pr{r -- ~ i l r = r non dipende evi- dentemente dalle osservazioni r qualora l'esperimento sia stat0 programmato, quando cio~ non sia stato rispettato il meccanismo probabilistico che genera {~n}. In queste circostanze, come ~ ovvio, la Pr{~* = ~0i]~ = r va sostituita con la semplice probabilit~ iniziale Pr{r = q0i}. </p><p>4.1. Occupiamoci dapprima del calcolo di Pr{r = ~1r : ~), evidente- mente nell'ipotesi che l'esperimento sia non programmato per i motivi detti pre- cedentemente. </p><p>Seguendo [1] assumiamo che </p><p>di conseguenza </p><p>Di conseguenza </p><p>dove </p><p>Pr{@j=q~ilW }= ~i i= 1 . . . . , k </p><p>k e I </p><p>1 </p><p>Y' + " ' y+n ~' --]- n </p><p>k k </p><p>Y= ~ 7~; n= ~, ni i=1 i=l </p><p>subito evidente che se 7i ~ 0 allora </p><p>P{~* = qgil r ~ nl n </p><p>ossia semplicemente al numero di casi appartenenti alia i.esima classe che sono stati osservati. </p><p>94 </p></li><li><p>4.2. Passiamo ora all'assegnazione della distribuzione iniziate su (F~ . . . . . F~). A tal fine faremo riferimento alla simbologia ed ai risultati riportati in [4]. </p><p>Vogliamo tuttavia sottolineare che, per esigenze di realismo, prenderemo in considerazione v.a. e non pifi n.a. </p><p>Questa circostanza ci ha portato a generalizzare a tale nuovo caso i risultati apparsi in [3] e ottenuti, prescindendo dagli aspetti dimensionali, in base alle medesime ipotesi. </p><p>Assumiamo che le f.r. Fi siano selezionate da un processo mistura di prodotti di processi di Dirichlet, ossia </p><p>k (F1 . . . . . Fk [ Ua . . . . , Uk; ~'~'1 . . . . . ~'~'k) ~ I-I "~i(0[i(Ui ' ~'~'i, " )) </p><p>dove u( = (ui,~ . . . . , ui.a) ~ ~a e ~"i 6 una matrice (d d) simmetrica e definita positiva. </p><p>Queste ipotesi si commentano da sole non appena specifichiamo la natura del parametro ai. Sia infatti </p><p>~i(u~, Xi, x) = ~(u~, X:~, x) </p><p>= ~(u,i, X:i, R~)~/-, ~(x I ui, r"3 x ~ ~ </p><p>dove ~( - [u i , Xli) indica la f.r. di una normale multivariata d-dimensionale avente come valore atteso u i e matrice di varianze e covarianze (var-cov) ~i. </p><p>Supponiamo per semplicitb~ a(ui, ~..~, R a) = a(~a). Naturalmente abbiamo che (cfr., ades., [4] pag. 12) </p><p>E{F~(x [ ui, Xi)} = a(ui, ~'i, Rd) : a(Ra) </p><p>Per semplicit~ assumeremo Xl~ nota per ogni i. Dobbiamo ora assegnare una distribuzione di probabilit~ al vettore U '= </p><p>= (Ud, . . . ,Uk ' ) . Seguendo D. V. Lindley (1971) e D. V. Lindley, A. F. M. Smith (1972) sup- </p><p>poniamo che i v.a. U~ siano scambiabili, ossia mutuamente stocasticamente in- dipendenti condizionatamente ad un vettore i t '= (/~ . . . . , #a). Naturalmente questa ipotesi, prima di essere applicata, andrebbe attentamente verificata. In generale essa risulta senz'altro accettabile ogniqualvolta il ricercatore riveli un atteggiamento di &gt; nei confronti dei parametri Ui, per cui le sue va- lutazioni di probabilita intorno a U~ non si differenziano da quelle intorno a Uh (i 5~: h) e, in generale, le valutazioni intorno alle coppie, terne, etc. di U~ sono insensibili agli indici i. </p><p>Supponiamo altresi che Ui--~ Na(it, W), dove Nd(it, W) indica una densit/t normale multivariata dodimensionale di valore atteso it e matrice di var-cov. W nota. </p><p>Avremo dunque chela densith ~ di U' = (UI ' , . . . , U~') vale </p><p>~)} &amp;(~) ~(ul .... ,uk) ~ f~a i=I-kI exp{-- -~-(u,- It)'W-l(u~- </p><p>dove v indica la f.r. del v.a. It. </p><p>95 </p></li><li><p>Assumiamo ora che anche F sia dotata di densith normale d-dimensionale di valore atteso [3 e matrice di var-cov R(*). </p><p>Abb iamo dunque </p><p>Ir {' } ~(Ul . . . . , uk) ~ exp - - (u~ -- ~) 'W- l (u i - - bt) R~ T i=1 9 exp{-- ~ (F -- [3)'R-'(~ (4.2) </p><p>Completando il quadrato rispetto a ~ e integrando si ottiene </p><p>{ 1 t ~(ul , - . . , uk) ~ exp - - ~ (u - - 8 ) 'H - l (u - - 8) dove </p><p>essendo </p><p>in cui </p><p>u' = [u~', . . . , uk'] </p><p>H = (C -1 - - p ) -x ; 8 = Hd </p><p>P = E'W-X(RW-X + R-a) - IW-1E </p><p>C = diag(W ....</p></li></ul>

Recommended

View more >