statistica lezione 6 - med.unipmn.it · 3 procedimento 1. il ricercatore formula un’ipotesi di...

Post on 20-Dec-2018

214 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Statistica

Lezione 6

a.a 2011-2012

Dott.ssa Daniela Ferrantedaniela.ferrante@med.unipmn.it

Università degli Studi del Piemonte OrientaleCorso di Laurea in Infermieristica

Corso integrato in Scienze della Prevenzione e dei Serviz i sanitari

2

La verifica di ipotesi

Le ipotesi di ricerca sono un insieme di congetture o di supposizioni che possono essere il risultato di anni di osservazione da parte del ricercatore e che motivano la ricerca

Le ipotesi statistiche sono ipotesi che possono essere formulate in modo da poter essere valutate da adeguate tecniche statistiche.

3

Procedimento

1. Il ricercatore formula un’ipotesi di lavoro, che costituisce la spiegazione di un fenomeno o indica il valore di un parametro.

2. Viene formulata l’ipotesi nulla, cioè l’affermazione che il ricercatore intende sottoporre a verifica, costruita in modo simmetrico all’ipotesi di lavoro e formulata in modo tale da poter essere negata dall’esperimento programmato.

3. Viene valutato dal ricercatore quanto è grande il rischio per lui accettabile di fornire una conclusione diversa dalla realtà (a lui ignota).

4. Viene disegnato l’esperimento e viene definita la dimensione del campione.

4

5. Viene scelto il test statistico appropriato.

6. Viene condotto l’esperimento.

7. Il risultato dell’esperimento viene letto e confrontato con la distribuzione di probabilità precedentemente calcolata. Se la probabilità di ottenere il risultato osservato (data l’ipotesi nulla) è inferiore alla soglia definita al punto 3 precedente, si conclude per il rifiuto dell’ipotesi nulla.

5

Formulare Ho

Calcolare la statistica test sui dati

Calcolare la plausibilità di Ho visti i dati

Conclusione

Rif Ho Non rif Ho

PROCEDIMENTO

6

Errore di prima specie

Fisso il livello di significatività αααα che è definito come la

probabilità di rifiutare l’ipotesi nulla quando è vera: αααα èdefinito errore di prima specie.

αααα = P(rif H 0/H0)

Poiché rifiutare l’ipotesi nulla quando è vera rappresenta un errore, dobbiamo quindi fissare un valore di α piccolo. Di solito α viene posto uguale a 0.05.

7

La statistica test è una statistica che può essere calcolata a partire dai dati del campione.

Formula generale della statistica test =

(statistica di interesse-parametro ipotizzato) / errore standard della statistica di interesse

8

Esempio

Un campione casuale di 10 rapporti di pronto soccorso èstato scelto dai file di un servizio di ambulanza. Il tempo medio campionario è di 13 minuti. Assumiamo che la popolazione dei tempi sia distribuita normalmente con varianza uguale a 16. Si può concludere da questi dati che la media della popolazione sia diversa da 10 minuti.

Fissiamo α = 0,05

9

Test a una coda o due code?

Il ricercatore sulla base del tipo di domanda a cui deve rispondere decide di utilizzare un test unidirezionale o bidirezionale.

Si usa un test bidirezionale quando il rifiuto dell’ipotesi nulla è dovuto sia a valori piccoli che a valori grandi della statistica test.

ES.

Nel test bidirezionale (test a due code) la regione di rifiuto èdivisa in due parti o due code della distribuzione della statistica test.

H0 : µ = 10H1 : µ ≠ 10

10

• Si usa un test unidirezionale quando il rifiuto dell’ipotesi nulla è causato o soltanto da valori sufficientemente piccoli o soltanto da valori sufficientemente grandi della statistica test

• Un test unidirezionale è un test in cui la regione di rifiuto si trova in una o in un’altra coda della distribuzione.

ES. H0 : µ = 10H1 : µ < 10

H0 : µ = 10H1 : µ > 10

11

Quindi: Data la distribuzione della statistica test, rifiuto l’ipotesi nulla se il valore della statistica test cade nella regione di rifiuto, mentre non rifiuto l’ipotesi nulla se la statistica test cade nella regione di accettazione dell’ipotesi nulla.

• Se l’ipotesi nulla non è rifiutata si può concludere che i dati sui quali si effettua il test statistico non forniscono prove sufficienti per rifiutarla.

• Se invece l’ipotesi nulla viene rifiutata allora i dati saranno compatibili con l’ipotesi alternativa H1 (ipotesi di lavoro) che riteniamo vera dato che il test ha portato al rifiuto dell’ipotesi nulla.

12

N.B. Con la verifica di ipotesi non arriviamo ad una dimostrazione di un’ipotesi, ma otteniamo un’indicazione del fatto che l’ipotesi è supportata dai dati disponibili.

• Per tornare al nostro esempio avendo formulato la nostra ipotesi nulla e l’ipotesi alternativa

e fissato l’errore di prima specie α=0.05dobbiamo scegliere l’opportuna statistica test.Il test in questo caso sarà di tipo bidirezionale.Conosciamo la deviazione standard della popolazione σ; quindi utilizziamo come statistica test z.

H0 : µ = 10H1 : µ ≠ 10

n

xz σ

µ 0−=

13

Calcoliamo il valore della statistica test:

4.2

10

41013 =−=z

α=0.05

Il valore della statistica test cade nella regione di rifiuto dell’ipotesi nulla quindi rifiuto H0

L’area compresa tra - ∞ e -2,4 e tra 2,4 e + ∞ viene definita p-value = 0,016

p<α

14

Se nel quesito precedente vogliamo verificare:

allora dobbiamo utilizzare un test ad una coda.

H0 : µ = 10H1 : µ < 10

0,0

0,1

0,2

0,3

0,4

0,5

-4 -3,2 -2,4 -1,6 -0,8 0 0,8 1,6 2,4 3,2 4z

L’area della coda sinistra èpari a 0,05

Il valore della statistica test cade nella regione di accettazione dell’ipotesi nulla quindi non rifiuto H0

-1,65

L’area compresa tra - ∞ e 2,4 è il p-value = 0.9918

p>α

15

Se nel quesito precedente vogliamo verificare:

allora dobbiamo utilizzare un test ad una coda.

H0 : µ = 10H1 : µ > 10

L’area della coda destra è pari a 0,05

Il valore della statistica test cade nella regione di rifiuto dell’ipotesi nulla quindi rifiuto H0

L’area compresa tra 2,4 e + ∞ è il p-value = 0.0082

p<α0

0,050,1

0,150,2

0,250,3

0,350,4

0,45

-5 -4 -3 -2 -1 0 1 2 3 4 5X

1,65

16

In generale quindi se il valore del p-value è maggiore di α non rifiutiamo l’ipotesi nulla, se invece è minore o uguale di αrifiutiamo l’ipotesi nulla.

Sempre con riferimento all’esempio precedente, immaginiamo ora di voler verificare:

nel caso in cui non conosciamo la deviazione standard della popolazione ma conosciamo solo la deviazione standard campionaria pari a 10. In questo caso ricorriamo al test t di Student con (n-1) gradi di libertà

H0 : µ = 10H1 : µ ≠ 10

17

Calcoliamo il valore della statistica test:

95,0

10

101013 =−=t

La somma delle aree delle due code è pari a 0,05

Il valore della statistica test cade nella regione di accettazione dell’ipotesi nulla quindi non rifiuto H0

L’area compresa tra -∞ e -0,95 e tra 0,95 e +∞ (p-value) =0,37

n

sx

t 0µ−=

0,0

0,1

0,2

0,3

0,4

0,5

-4 -3,2 -2,4-1,6 -0,8 0 0,8 1,6 2,4 3,2 4T

2,26-2,26p>α

18

La verifica di ipotesi sulla differenza fra due med ie

“Si considerino due popolazioni di individui sottoposti a due diversi trattamenti farmacologici. Si vuole valutare ad esempio se tali trattamenti producono uguali effetti (ipotesi nulla) o diversi (ipotesi alternativa)”

Estraggo un campione da ognuna delle due popolazioni ed effettuo le misurazione della variabile in studio sui due campioni calcolando quindi le medie delle due serie.Se le due medie sono diverse, si vuole valutare se tale differenza sia dovuta al caso e quindi i due trattamenti hanno lo stesso effetto oppure se effettivamente si osserva un effetto diverso tra i due trattamenti

19

H0 : µ1 = µ2 oppure µ1 - µ2 = 0

H1 per un test ad una coda : H1 : µ1 >µ2 oppure µ1 < µ2

H1 per un test a due code : H1 : µ1 ≠ µ2 oppure µ1 - µ2 ≠ 0

Campioni indipendenti

20

Consideriamo il seguente caso relativamente a due campioni indipendenti :

- Campionamento effettuato da popolazioni distribuite normalmente con varianza delle popolazioni non nota e omogeneità della varianza ossia

+

−−−=

2

2

1

2

02121 )()(

n

s

n

s

xxt

pp

µµ

2

)1()1(

21

222

2112

−+−+−=

nn

snsns p

Gdl della t = (n1-1)+(n2-1)

22

21 σσ =

21

Esempio

Si intende misurare l’efficacia di un farmaco per il

trattamento della depressione. Sono confrontati due gruppi:

un gruppo al quale è stato somministrato il farmaco (n=33) e

il gruppo placebo (n=43). La media della Hamilton

Depression Scale è pari a 20.38 nel primo gruppo (s=3.91)

e pari a 21.57 nel secondo (s=3.87).

Stabilire se la differenza tra le due medie è statisticamente

significativa a livello alfa=0,01

22

H0 : µ1 = µ2

H1 : µ1 ≠ µ2

32.1

4311,15

3311,15

0)57.2138.20()()(

2

2

1

2

02121 −=

+

−−=

+

−−−=

n

s

n

s

xxt

pp

µµ

11.1524333

87.3)42(91.3)32( 222 =

−++=ps

gl = 74

-1.32 >-2,85 quindi non rifiuto H0

23

Consideriamo i seguenti due casi relativamente a due campioni appaiati :

• Vengono confrontati i valori presi sugli stessi soggetti in due momenti diversi oppure allo stesso soggetto vengono somministrati due trattamenti differenti

• Il confronto tra trattamento e controllo viene effettuato per cercare di controllare possibili fonti di variabilità che potrebbero oscurare la vera differenza tra le due serie di misurazioni

• I soggetti di un determinato gruppo sono appaiati con i soggetti di un altro gruppo in modo tale da rendere i due gruppi simili per alcune caratteristiche quali ad esempio età, sesso, etc.

24

Esempio

• Ad 8 individui adulti è stata misurata la pressione arteriosa prima e dopo l’assunzione di un farmaco

A 200 191 9B 174 170 4C 198 177 21D 170 167 3E 179 159 20F 182 151 31G 193 176 17H 209 183 26

C’è sufficiente evidenza statistica a supporto dell’ipotesi che ci sia una differenza?

25

La formulazione del problema fa capire che si tratta di un test a due code, con

H0 : dmedio = 0

H1 : dmedio ≠ 0

Valore critico per 7 gdl ; test a due code; p<α

quindi la probabilità che la differenza tra media osservata e media attesa sia casuale è <0,05

Si rifiuta H0.

37,168

131 ==d

20,10=s

55,4

8

20,10037,160 =−=−=

n

sdd

t

26

Funzione excel

TEST.T - Restituisce la probabilità associata a un test t di Student.

27

TEST.T(matrice1 ;matrice2 ;coda ;tipo )

Matrice1 è il primo insieme di dati.

Matrice2 è il secondo insieme di dati.

Coda specifica il numero di code di distribuzione.

Se coda = 1, TEST.T utilizzerà la distribuzione a una coda.

Se coda = 2, TEST.T utilizzerà la distribuzione a due code.

Tipo è il tipo di test t da eseguire

Se tipo è uguale

1 Accoppiato

2 Omoschedastico (varianza uguale di due campioni)

3 Eteroschedastico (varianza disuguale di due campioni)

top related