analisi frequentista e bayesiana del problema 'stroke

Download Analisi frequentista e bayesiana del problema 'stroke

Post on 23-Jan-2017

99 views

Category:

Data & Analytics

2 download

Embed Size (px)

TRANSCRIPT

  • Analisi frequentista e bayesiana del problema

    Stroke

    Francesco Curia, Stefania Cartolano

    17 novembre 2015

  • INDICE

    1. Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

    2. Approccio frequentista . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

    2.1 Verosimiglianza e analisi frequentista basate su dati ECASS3 . . . . . 4

    3. Approccio bayesiano . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

    3.1 Distribuzione a priori basata su dati ECASS2 . . . . . . . . . . . . . 9

    4. Distribuzione a posteriori . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

    5. Verifica di ipotesi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

    6. Distribuzione a priori soggettiva . . . . . . . . . . . . . . . . . . . . . . . . 15

    7. Analisi non informativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

    8. Approssimazione normale . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

  • 1. INTRODUZIONE

    Lo schema di riferimento e un esperimento bernoulliano riguardo lanalisi bayesia-

    na del problema denominato Stroke, presentato dagli autori Lasaffre e Lawson, in

    merito ad uno studio clinico effettuato su le cause di danneggiamento delle cellule

    cerebrali a causa di due fattori, uno ischemico e laltro emoraggico.

  • 2. APPROCCIO FREQUENTISTA

    2.1 Verosimiglianza e analisi frequentista basate su dati ECASS3

    Considerando un campione i.i.d abbiamo i seguenti risultati: La funzione di verosi-

    miglianza associata al campione esaminato e

    L() = s(1 )ns

    dove

    s =ni=1

    yi

    Per lo stima di massima verosimiglianza, passiamo al calcolo della log-verosimiglianza

    e alla derivazione della stessa, ponendola uguale a zero.

    l() = sln() + (n s)ln(1 )

    che derivando rispetto a risulta

    dl()

    d=s

    n s

    1 = 0

    si ottiene che la stima e MV =ni=1 yin

    ossia la media campionaria. Utilizzando i

    dati a disposizione, si ottiene che la stima e pari a 0.2. Possiamo calcolare lintervallo

    di confidenza per approssimato, che risulta per = 0.05:

    y Z12

    y(1 y)

    n

    con i dati a disposizione abbiamo

    0.2 1.96 0.0566

    allora [0.089; 0.31].

    Calcoliamo ora linsieme di verosimiglianza approssimato

    Lq =

    [y kq

    y(1 y)

    n, y + kq

    y(1 y)

    n

    ]

  • 2. Approccio frequentista 5

    dove kq =2lnq

    Per un fissato livello q=0.5, abbiamo quanto segue:

    0.2 1.1774 0.0566

    allora [0.133; 0.267]. Mentre considerando un calcolo esatto dellinsieme diverosimiglianza per un livello q=0.5, procediamo con un metodo numerico il quale

    considerando i dati e la funzione di verosimiglianza relativa, il polinomio associato

    L() =()10

    (0.2)10(1 )40

    (0.8)40> 0.5

    fornisce gli estremi dellintervallo che sono per [0.14; 0.27]. In quanto si sonoconsiderate solo le radici reali del polinomio, escludendo tutti i valori fuori lin-

    tervallo [0;1].Per il calcolo appena svolto si e utilizzato lapplicativo Mathematica

    Wolphram Alpha.Si noti che lintervallo [0.14;0.27] coincide con quello trovato con

    lapprossimazione normale.Mentre risulta molto diverso da quello ottenuto mediante

    lintervallo di confidenza approssimato. Ora considerando un livello q=0.147 si ha

    per linsieme di verosimiglianza approssimato

    0.2 1.95 0.0566

    allora in questo caso [0.089; 0.31] mentre attraverso metodo numerico otteniamoquesta volta che [0.10; 0.32]. Da un confronto oltre che analitico, anche grafico,appare evidente che lapprossimazione normale differisce non di poco dal valore

    esatto dellintervallo.

  • 2. Approccio frequentista 6

    Fig. 2.1: in rosso abbiamo il livello q=0.5 esatto, in blu il livello q=0.147 esatto , in verde

    il livello q=0.147 approssimato

  • 2. Approccio frequentista 7

    Fig. 2.2: Approssimazione per linsieme di livello q=0.5

  • 2. Approccio frequentista 8

    Fig. 2.3: Approssimazione per linsieme di livello q=0.147

  • 3. APPROCCIO BAYESIANO

    3.1 Distribuzione a priori basata su dati ECASS2

    Continuiamo la nostra analisi considerando ora la determinazione della distribuzione

    a priori (), considerando i dati ECASS2: abbiamo che n0 = 100 e y0 = 8, dalla

    nota relazione

    (|yn) = c ()l(|yn)

    otteniamo

    () = c 91(1 )931

    dove

    c =

    10

    91(1 )931d

    Per quanto riguarda la determinazione della stima puntuale, come e noto per una

    densita Beta, lo stimatore risulta MV =

    +ovvero MV =

    9102

    = 0.08.

    Passando ora alla determinazione dellinsieme di credibilita ET per una Beta(9,93),

    otteniamo che [0.04; 0.15], poiche come ben noto tale intervallo si trova appli-cando la seguente formula:

    CET1 = [q2 ; q12]

    Per quanto riguarda linsieme HPD determiniamo un insieme

    S = [ : > h]

    troviamo approssimativamente che [0.038; 0.145] che per un livello h=2.17

  • 3. Approccio bayesiano 10

    Fig. 3.1: Verosimiglianza (linea tratteggiata) e distribuzione a priori

  • 4. DISTRIBUZIONE A POSTERIORI

    Ricaviamo la distribuzione a posteriori tramite la nota relazione

    (|yn) = c ()(|yn)

    allora dai dati che abbiamo ottenuto in precedenza possiamo scrivere

    (|yn) = +sn(1 )+nsn

    sostituendo con i dati ECASS2 e ECASS3 si ottiene:

    (|yn) = 19(1 )133

    Passiamo alla stima puntuale, calcolando moda e valore atteso, rispettivamente

    Moda = + sn 1

    + + n 2

    B = (1 wn)

    + + wnyn

    con wn =n

    ++n

    sostituendo con i dati a disposizione abbiamo

    Moda = 0.12

    B = 0.125

    Da i risultati ottenuti si evince che moda e valore atteso sono molto simili. Proce-

    diamo al calcolo dellinsieme di credibilita ET che risulta, per un valore = 0.05

    [0.077; 0.182]. Per il calcolo dellinsieme HPD relativo alla distribuzione a po-steriori, possiamo procedere come si e fatto per quello della distribuzione priori.

    Troviamo che per un livello h = 2.28 abbiamo [0.076; 0.181].

  • 4. Distribuzione a posteriori 12

    Fig. 4.1: Verosimiglianza (rossa) a priori (blu) e a posteriori (verde)

  • 5. VERIFICA DI IPOTESI

    Vogliamo ora formalizzare il seguente problema: si vuole calcolare la probabilita che

    lemorragia non superi il dieci percento: il problema puo considerarsi come:H0 : < 0.1H1 : > 0.1considerando = 0.05 costruiamo la regione di rifiuto

    R =

    Y 00(10)

    n

    > Z1

    ovvero

    R = [Z > 1.64]

    approssimando per un campione n=50 con una distribuzione N(0,1), abbiamo at-

    traverso i dati, per un livello fissato = 0.05, Toss = 2.35

    R = [Toss > 1.64]

    Allora rifiutiamo lipotesi nulla 0 ad un livello di significativita del 95 percento. Il

    valore-p , ottenuto con la formula

    p = 1 (2.35)

    risulta 0.009, quindi minore del livello = 0.05 e quindi conferma il rifiuto dellipo-

    tesi nulla.

    Calcoliamo ora la probabilita a posteriori delle due ipotesi : 0.10

    19(1 )133d = FBeta(+sn,n+sn)(0) = FBeta(19,133)(0.1) = 0.18

    mentre per lipotesi alternativa abbiamo 00.1

    19(1 )133d = 1 FBeta(+sn,n+sn)(0) = 1 FBeta(19,133)(0.1) = 0.82

  • 5. Verifica di ipotesi 14

    FBeta(19,133)(0.1)

    1 FBeta(19,133)(0.1)=

    0.18

    0.82= 0.22

    Anche in questo caso il test conferma levidenza sperimentale contro lipotesi nulla.

    Ripetiamo gli stessi calcoli ( di cui riportiamo solo i risultati numerici, in quanto il

    procedimento e il medesimo) per quanto riguarda il test e il fattore di Bayes per la

    distribuzione a priori: FBeta(9,93)(0.1) = 0.30 e 1 FBeta(9,93)(0.1) = 0.69

    FBeta(9,93)(0.1)

    1 FBeta(9,93)(0.1)=

    0.69

    0.30= 2.3

    .

    Il corrispondente fattore di Bayes, dato dal rapporto (Odds) e il seguente:

    0.21

    2.3= 0.09

    Quindi in questo caso otteniamo il contrario di quanto ottenuto in precedenza, cioe

    unevidenza sperimentale a favore dellipotesi nulla.

  • 6. DISTRIBUZIONE A PRIORI SOGGETTIVA

    Considerando la valutazione di un esperto, il quale fornisce come valore piu plausibile

    per = 0.4 e che un intervallo (0.2;0.6) contenga il vero valore del parametro con

    probabilita al 90 percento; costruiamo quindi una distribuzione a priori soggettiva

    che indicheremo con s(). Dobbiamo determinare e : consideriamo + = E() = 0.4(+)2(++1)

    = Var() = 0.1

    considerando i valori trovati e che = 0.4 e considerando che se lintervallo contiene il

    vero valore di per ricavare la varianza imponiamo lequazione 0.41.96 = 0.2

    ricavando che = 0.01 che e uguale allequazione 0.4 + 1.96 = 0.6. Mettendo

    questo risultato nel sistema dei momenti, si ottiene: = 9 e = 13. allora si ha

    s() = 91(1 )131

    La nuova distribuzione a posteriori ottenuta risulta

    s(|yn) = c 19(1 )53

    Calcoliamo la moda e il valore atteso della distribuzione a posteriori, considerando

    questa volta la distribuzione s, otteniamo:

    Moda = 0.23

    MV = 0.24

    Rispetto ai valori ottenuti con la distribuzioni a priori , notiamo una leggera dif-

    ferenza se consideriamo invece come distribuzione a priori s. Consideriamo adesso

    le probabilita a posteriori ottenute utilizzando la s per la verifica delleipotesi:

    la nuova distribuzione a posteriori e:

    s(|yn) = c 19(1 )53

  • 6. Distribuzione a priori soggettiva 16

    Quindi abbiamo 0.10

    19(1 )53d = FBeta(+sn,n+sn)(0) = FBeta(19,53)(0.1) = 0.00001

    00.1

    19(1 )53d = 1

Recommended

View more >