università del piemonte orientale corso di laurea in...

66
Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 1 Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi dei dati quantitativi : Confronto tra due medie

Upload: dinhdung

Post on 18-Feb-2019

216 views

Category:

Documents


0 download

TRANSCRIPT

Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 1

Università del Piemonte Orientale

Corso di laurea in medicina e chirurgia

Corso di Statistica Medica

Analisi dei dati quantitativi :

Confronto tra due medie

Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 2

Consideriamo diverse situazioni, tutte riconducibili all’analisi di una variabile quantitativa con il confronto tra diversi gruppi di soggetti:

A. Confronto tra una media campionaria ed una popolazione i cui parametri

sono noti

B. Confronto tra una media campionaria ed una popolazione di cui è nota

la media ma non la deviazione standard

C. Confronto tra 2 campioni appaiati

D. Confronto tra due campioni indipendenti

E. Confronto tra n campioni indipendenti

F. Confronto tra misure ripetute sugli stessi soggetti

I casi A e B sono già stati esaminati nella lezione sulle statistiche campionarie

Il caso E corrisponde all'analisi della varianza

Il caso F non sarà considerato in questo corso.

Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 3

Riepilogo del caso A: Confronto tra una media campionaria ed una

popolazione i cui parametri sono noti

Siamo interessati al confronto tra la media campionaria e la media della

popolazione. I parametri della distribuzione di probabilità della variabile nella

popolazione (µ e σ) sono noti.

Il processo di verifica dell’ipotesi si svolge secondo quanto visto in

precedenza:

L’ipotesi di lavoro: il campione non è parte dalla popolazione considerata ma

di un’altra popolazione, con media differente.

Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 4

L’ipotesi nulla: il campione estratto ha media uguale a quella della

popolazione (corrisponde cioè ad un campione tratto da tale popolazione).

L' errore di primo tipo è fissato al 5% (α=0,05)

L' errore di secondo tipo viene fissato al 20% e la dimensione del campione è

definita di conseguenza usando apposite tavole (l'argomento non è ancora

stato trattato).

L’esperimento consiste nell’estrazione di un campione e nel calcolo della

media campionaria.

Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 5

Il test statistico consiste nel calcolo della deviata normale standardizzata:

Z = ( X - µ)/ (σ/√n).

Dove

X : media campionaria

µ: media della popolazione

(σ/√n): errore standard della media (cioè deviazione standard della media

campionaria)

σ: deviazione standard della popolazione

n: numerosità del campione

Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 6

Il test è di tipo parametrico, cioè è valido a condizione che siano validi i

presupposti relativi alla distribuzione di probabilità (gaussiana).

L’assunzione è generalmente vera dato il teorema del limite centrale (sempre

che n sia sufficientemente grande e la forma della distribuzione della

popolazione non sia troppo asimmetrica). Nel calcolo della dimensione del

campione occorre quindi anche considerare che la distribuzione di frequenza di

campioni piccoli si differenzia dalla distribuzione gaussiana maggiormente che la

distribuzione di frequenza di campioni grandi.

Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 7

Il valore di probabilità corrispondente al valore |Z| (valore assoluto di Z) così

ottenuto si legge dalla tabella della distribuzione normale standard.

Se Z>0 viene letto il valore di probabilità compreso tra Z e ∞∞∞∞.

Se Z<0 viene letto il valore di probabilità compreso tra Z e -∞∞∞∞.

Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 8

Esempio 1

Confronto della pressione sistolica di un gruppo di pazienti affetti da una forma

di arteriopatia di Burger con la popolazione generale.

H lavoro= i soggetti considerati, affetti da una rara malattia delle arterie hanno

pressione arteriosa (sistolica) diversa dalla popolazione generale. L’ipotesi è

nata osservando che i primi casi avevano valori pressori molto elevati.

H0= i pazienti appartengono ad una popolazione con media della pressione

sistolica 145 mmHg

La deviazione standard della misura della pressione della popolazione è nota da

precedenti studi ed è pari a 2,53 mmHg;

Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 9

test bilaterale ('a due code'; sebbene l’ipotesi di lavoro sia indirizzata

maggiormente verso un rialzo pressorio, non ho informazioni sufficientemente

forti da scegliere un test ad una coda).

errore 1°tipo =0.05

numerosità campionaria non modificabile poichè sono inclusi tutti i pazienti

disponibili. Non è stata calcolata la potenza statistica

Test statistico: test Z (confronto tra una media campionaria e la media della

popolazione). Il valore del test si legge sulle tabelle della distribuzione di

probabilità normale standard (es. Tabella A3 del testo consigliato).

Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 10

Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 11

Requisiti del test scelto:

La deviazione standard della misura della pressione della popolazione è nota da

precedenti studi ed è pari a 2,53 mmHg;

La distribuzione della variabile nella popolazione è gaussiana, pertanto anche

piccoli campioni saranno distribuiti secondo tale distribuzione.

Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 12

I dati: Obs pressure (mmHg) 1 155 2 145 3 165 4 134 5 154 6 130 7 161 8 139 9 140 10 143 11 157 12 148 13 165 14 152 15 149

Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 13

Le statistiche campionarie necessarie per il test N (dimensione campionaria) 15 Media campionaria 149.14 mmHg (calcolo omesso) I parametri necessari per il test µ=145 mmHg σ=2,53 mmHg Memo: Il valore della statistica Z corrispondente al limite per il rifiuto dell’ipotesi nulla (dati errore 1° tipo <= 0,05 e test a due code) è 1,960.

Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 14

Il calcolo del test

Z = ( X - µ)/ (σ/√n).

Z = (149.14 - 145) / (2,53/√15) =

= 6,34

Conclusione = ?

Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 15

Il calcolo del test

Z = ( X - µ)/ (σ/√n).

Z = (149.14 - 145) / (2,53/√15) =

= 6,34

Conclusione = rifiuto l’ipotesi nulla.

Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 16

Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 17

Esempio 2

Una compagnia di assicurazioni intende controllare quali agenzie sono

troppo severe oppure troppo disponibili nella valutazione dei danni. Viene

effettuato un campione delle pratiche seguite da ciascuna agenzia. Per

rendere omogenea la popolazione di provenienza vengono esclusi gli

incidenti con feriti e quelli in autostrada.

Il costo medio nella popolazione (tutte le pratiche della compagnia di

assicurazione) (in migliaia di euro) = 1,6.

Deviazione standard della popolazione (in migliaia di euro) = 3,4

H lavoro: L'agenzia xxyy si discosta dai parametri definiti sulla base della

popolazione di tutti gli incidenti dell'anno in corso.

Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 18

H0: l'agenzia non si discosta.

test a due code (interessano entrambi gli scostamenti)

errore 1°tipo =0.10 (dato il piano di lavoro di controllo)

numerosità campionaria 22 pratiche.

Test statistico: test Z (confronto tra una media campionaria e la media

della popolazione)

Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 19

Requisiti del test scelto:

La deviazione standard del costo medio è nota, poichè il centro di calcolo

della compagnia ha tutte le pratiche.

La distribuzione della variabile nella popolazione è asimmetrica con coda

a destra (valori elevati), come indicato dal centro di calcolo. Viene

effettuata una trasformazione logaritmica per renderla simile alla

gaussiana: dopo la trasformazione anche piccoli campioni si

distribuiscono secondo la distribuzione gaussiana.

Il centro di calcolo fornisce µ e σ della popolazione

Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 20

I dati Obs costo 1 1.6 2 1.3 3 0.2 4 3.0 5 2.0 6 0.3 7 1.3 8 0.6 9 2.7 10 0.9 11 5.0 12 1.8 13 1.3 14 1.2 15 0.8 16 2.5 17 2.0 18 1.2 19 7.4 20 0.3 21 0.5 22 1.1

Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 21

Variable: costo Stem Leaf # Boxplot 7 4 1 * 6 5 0 1 0 4 3 0 1 | 2 0057 4 +-----+ 1 12233368 8 *--+--* 0 2335689 7 +-----+ ----+----+----+----+

Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 22

Dati trasformati su scala logaritmica. Obs costo lcosto 1 1.6 0.47000 2 1.3 0.26236 3 0.2 -1.60944 4 3.0 1.09861 5 2.0 0.69315 6 0.3 -1.20397 7 1.3 0.26236 8 0.6 -0.51083 9 2.7 0.99325 10 0.9 -0.10536 11 5.0 1.60944 12 1.8 0.58779 13 1.3 0.26236 14 1.2 0.18232 15 0.8 -0.22314 16 2.5 0.91629 17 2.0 0.69315 18 1.2 0.18232 19 7.4 2.00148 20 0.3 -1.20397 21 0.5 -0.69315 22 1.1 0.09531

Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 23

Variable: lcosto Stem Leaf # Boxplot 2 0 1 | 1 6 1 | 1 01 2 | 0 56779 5 +-----+ 0 122333 6 *--+--* -0 21 2 +-----+ -0 75 2 | -1 22 2 | -1 6 1 0 ----+----+----+----+

Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 24

Variable: lcosto (loge del costo) Moments N 22 Mean 0.216379

Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 25

Il calcolo del test Media e deviazione standard della popolazione calcolati dai logaritmi dei dati originali. µ’ = 0,262364 σ’ = 0,875469 X = 0,216

Z = ( X - µ’)/ (σ’/√n).

Z = (0,216 - 0,262364) / (0,875469/√22) =

= - 0,2484

p=0,401 Conclusione = non rifiuto l’ipotesi nulla.

Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 26

Riepilogo del caso B: Confronto tra una media campionaria ed una

popolazione di cui non si conosce la deviazione standard.

Se non abbiamo informazioni sul parametro (il valore nella popolazione), usiamo

la statistica campionaria, che è stata calcolata proprio per avere informazioni

relative al valore (ignoto) del parametro nella popolazione.

Si ricorda che l’Atteso della varianza campionaria calcolata con il denominatore

è (n-1) è una stima non distorta della varianza della popolazione.

La varianza del campione però è affetta da variabilità casuale rispetto alla

varianza della popolazione, a causa del campionamento. Pertanto non potremo

usare statistiche basate sulla distribuzione normale standardizzata, che

risulterebbe troppo poco conservativa ma dovremo usare la distribuzione t di

Student.

Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 27

Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 28

La probabilità corrispondente all’intervallo tra un dato t e ∞∞∞∞ si legge su apposite

tabelle (es. tabella A4 del testo consigliato).

Si noti che i valori di probabilità cumulativa esterni ad un dato valore di t sono

maggiori man mano che si riduce il numero di gradi di libertà.

La distribuzione t per 30 gradi di libertà è praticamente una distribuzione

normale standardizzata.

Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 29

Confronto tra un campione e la media della popolazione

La formula del test è simile a quella già vista per il calcolo del test Z, con l'errore

standard calcolato dalla deviazione standard del campione:

tgl = ( X - µ)/ (s/√n).

X : media campionaria

µ: media della popolazione

s: deviazione standard del campione

(s/√n): errore standard della media (cioè dev. standard della media campionaria)

n: numerosità del campione

il numero di gradi di libertà è gl= n-1

Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 30

Il test è di tipo parametrico, cioè è valido a condizione che:

- nella popolazione la variabile sia distribuita secondo la distribuzione di

probabilità gaussiana;

- il campione abbia la stessa varianza della popolazione.

La prima assunzione è generalmente vera dato il teorema del limite centrale

(sempre che n sia sufficientemente grande e la forma della distribuzione della

popolazione non sia troppo asimmetrica).

La seconda è vera se vale H0 (il campione appartiene alla popolazione), mentre

non è valutabile altrimenti.

Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 31

Esempio Confronto della pressione sistolica tra un gruppo di pazienti affetti da una forma

di arteriopatia con la popolazione generale (è l’esempio precedente, sviluppato

senza fare uso della informazione sulla deviazione standard della popolazione).

Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 32

H lavoro= i soggetti considerati, affetti da una rara malattia delle arterie hanno

pressione arteriosa (sistolica) diversa dalla popolazione generale. L’ipotesi è

nata osservando che i primi casi diagnosticati avevano valori pressori molto

elevati

H0= media della popolazione: pressione sistolica 145 mmHg

test a due code (sebbene l’ipotesi di lavoro sia indirizzata maggiormente verso

un rialzo pressorio, non ho informazioni sufficientemente forti da scegliere un

test ad una coda)

errore 1°tipo =0.05

errore 2°tipo =0.20

Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 33

Test statistico: test t

(confronto tra una media campionaria e la media della popolazione, senza dati

sulla deviazione standard della popolazione).

Verifica dei Requisiti del test scelto:

La deviazione standard della misura della pressione della popolazione non è

nota.

La distribuzione della variabile nella popolazione è gaussiana, pertanto anche

piccoli campioni saranno distribuiti secondo tale distribuzione.

Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 34

I dati individuali: Obs pressure (mmHg)

1 150,00

2 146,00

3 147,00

4 139,00

5 154,00

6 145,00

7 161,00

8 143,00

9 142,00

10 143,00

11 157,00

12 148,00

13 161,00

14 152,00

15 149,00

Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 35

Le statistiche campionarie

N 15 Mean 149.13 Std Deviation 5,8538 Variance 34,2667

Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 36

I dati necessari per il test µ=145 mmHg media campione= 149.13 Std Deviation 5,8538 dimensione del campione = 15 numero di gradi di libertà= 14

Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 37

Il calcolo del test

t14 = (X - µ)/ (s/√n).

t14 = (149,13 - 145) / (5,8538/√15) =

= 2,7325

Conclusione = rifiuto l’ipotesi nulla.

Memo: Il valore della statistica t corrispondente al limite per il rifiuto dell’ipotesi nulla (errore 1° tipo <= 0,05 e test a due code, 14 g.l.) = 2,145

Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 38

t

Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 39

Confronto tra due campioni appaiati

Parliamo di campioni appaiati quando ad ogni osservazione del primo gruppo

corrisponde un'osservazione del secondo gruppo.

E' una tecnica per ridurre l'influenza sui risultati da parte di variabili estranee

Due possibilità:

- misure ripetute nello stesso soggetto

- soggetti diversi ma appaiati perchè simili per caratteristiche importanti (es

della stessa età, sesso, luogo di nascita e professione)

Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 40

L'ipotesi alternativa (di lavoro) è di solito:

H1: µ1 # µ2

e la corrispondente ipotesi nulla è:

Ho: µ1 = µ2 quindi Ho: µ1- µ2=0

Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 41

In questo caso conviene costruire il test sulle differenze dei valori tra le coppie di

misure appaiate. Conviene quindi riformulare H1 ed H0

indichiamo la media delle differenze nella popolazione con δ

- L'ipotesi alternativa (di lavoro) è:

H1: δ # 0

e l'ipotesi nulla è:

Ho: δ = 0

Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 42

Calcolo le differenze per le coppie di misure

di= xi1 - xi2

calcolo quindi media e deviazione standard di d nel campione, usando le

formule consuete.

n

ddMedia

n

ii∑

=== 1

Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 43

( ))1(

._ 1

2

−==∑ −

=

ni

sstDeviazione

n

idd

Calcolo infine l'errore standard

nsSE =..

e la statistica t con g.l.= n.osservazioni – 1.

nsdt 0−=

Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 44

Esempio: in uno studio viene valutato l'accrescimento in peso in coppie

di topi nati dalla stessa nidiata e sottoposti a due diverse diete.

H1: tra i topi alimentati con le due diete si osserva una differenza di

crescita in peso

H0: le due diete sono equivalenti e quindi tra i ratti alimentati con le due

diete non si osserva una differenza di crescita in peso.

errore di 1° tipo = 0,05

viene condotto un esperimento con coppie di topi.

La distribuzione della variazione del peso è gaussiana.

Userò il test t di student.

Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 45

dieta A dieta B differenzadi1

di–d (di–d )2

1 19 23 4 0,9 0,81 2 11 18 7 3,9 15,21 3 14 18 4 0,9 0,81 4 17 19 2 -1,1 1,21 5 23 24 1 -2,1 4,41 6 11 15 4 0,9 0,81 7 15 14 -1 -4,1 16,81 8 14 11 -3 -6,1 37,21 9 11 19 8 4,9 24,01

10 8 13 5 1,9 3,61 Σ = 0,0 Σ =104,9

d =3,1

s2 = Σ(di–d )2 / (n-1) = = 104,9 / 9 = 11,66

s=√11,66 = 3,41

Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 46

ES(d) = s/√ n

= 3,41 / √10

= 1,08

t9 = 3,1 / 1,08 = 2,87

il valore di t con 9 gl corrisponde ad una probabilità < 0,02 (nelle due code della

distribuzione t)

Dato che stiamo conducendo un test bilaterale dobbiamo sommare l'area

della coda superiore e della coda inferiore della distribuzione di probabilità t.

Se usiamo la tavola A4, si tenga conto la tavola riporta solo la coda

superiore ma l'area nelle due code è = 2 * area nella coda superiore.

Ad es. la probabilità corrispondente al valore di t(9 g.l.) = 2,821 è

0,01 sulla coda superiore.

Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 47

quindi la probabilità corrispondente al valore di t(9 g.l.) = 2,821 è

2 * 0,01 = 0,02 sulle due code.

Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 48

Conclusione ?

Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 49

Possiamo anche calcolare un intervallo di confidenza della differenza media.

Calcoliamo l'intervallo di confidenza al 95%:

Limite fiduciale superiore = d + t9gl;0,025 *(s/√n) = 3,1 + 2,262 * 1,08 =5,54

Limite fiduciale inferiore = d - t9gl; 0,025 *(s/√n) = 3,1 - 2,262 * 1,08 = 0,66

tα/2 deve essere scelto tenendo conto del numero di gradi di libertà ( in questo

caso 9)

Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 50

Confronto tra la media di due campioni indipendenti

Nel caso del confronto tra due campioni indipendenti il test è costruito per

valutare la probabilità (data H0) della differenza osservata tra le medie dei due

campioni, correggendo per l’errore standard.

- L'ipotesi alternativa (di lavoro) è di solito:

H1: µ1 # µ2

e la corrispondente ipotesi nulla è:

Ho: µ1 = µ2 quindi Ho: µ1- µ2=0

Non ho informazioni sulla popolazione ma solo sui campioni pertanto dovrò

usare il test t e la distribuzione t

Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 51

La differenza tra le due medie:

∆x = ( X 1– X 2);

Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 52

Il calcolo dell’errore standard richiede l’individuazione di un valore comune della

varianza.

Questo valore può essere stimato sia se i due campioni appartengono alla

stessa popolazione (H0) sia se appartengono a due popolazioni diverse

(H_lavoro), purchè abbiano la stessa varianza (omoscedasticità).

Si potrà quindi calcolare uno stimatore comune dell’errore standard.

Il caso di due campioni con varianze diverse si può affrontare con i test non

parametrici, considerati nelle prossime lezioni.

Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 53

Nel caso di due campioni con varianza comune, lo stimatore migliore della

varianza comune (indicata come s(pool)2) è la media delle due varianze

campionarie, pesata per il numero di gradi di libertà di ciascun campione.

( ) ( )( ) ( )

( ) ( )( )211

11

21

2

22

2

11

21

222

2112

−+−Σ+−Σ=

−+−−+−=

nnxxxx

nnsnsnspool

= somma delle devianze / gradi di libertà

Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 54

Per il calcolo dell’Errore Standard pooled si consideri che:

nnxx2

2

2

1

2

121var σσ +=

Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 55

ES( X 1– X 2) = √(s(pool)2/n1 + spool

2/n2)

= √[s(pool)2 * (1/n1 + 1/n2)]

= s(pool) * √ (1/n1 + 1/n2)

+∗

−=

21

21

11nn

s

xxt

pool

gl

Il numero di gradi di libertà è n1 + n2 -2

Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 56

La verifica dei requisiti di normalità sarà considerata in una delle

prossime lezioni.

In modo approssimato si può:

1. tenere conto che la distribuzione di campionamento è sempre normale

quando i campioni sono grandi. n> 30 garantisce la normalità della

distribuzione dei campioni anche se la distribuzione di base è

asimmetrica.

2. Disegnare un istogramma, che deve essere simmetrico

3. Utilizzare una procedura (grafici QQ o PP in SPSS) che effettua il test

di normalità.

Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 57

Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 58

Esempio: In un laboratorio si intende confrontare l’effetto di due differenti diete

sulla crescita di ratti. La tabella indica l’incremento di peso conseguito tra 7 e 60

giorni dalla nascita.

H lavoro: Le due diete sono diverse (in particolare ritengo che la dieta 1

consenta una più veloce aumento di peso ma non ho evidenze per rifiutare a

priori altre possibilità).

H0: le due diete sono uguali per quanto riguarda l’aumento di peso.

Test a 2 code

Errore di primo tipo= 0,05

Lo studio riguarda animali già trattati, pertanto la numerosità campionaria è

definita in base al numero di animali già trattati con le due diete

Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 59

Test t-Student (confronto tra medie di 2 campioni indipendenti).

Valutazione dei requisiti per il test:

La distribuzione del peso degli animali è gaussiana.

Gli animali sono dello stesso ceppo, si suppone quindi che la varianza del peso

sia la stessa e che le due diete non modifichino la varianza comune.

Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 60

I dati: incremento tra peso a 7 gg e peso a 60 gg

Dieta 1 Dieta 2 134 70 146 118 104 101 119 85 124 107 161 132 107 94 83 113 129 97 123

X 1 = 120,0 X 2 = 101,0

n1 = 12 n2 = 7

∆x = ( X 1– X 2) = 120-101= 19,0

Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 61

La stima della varianza nei due gruppi viene effettuata con una media

pesate delle due varianze (nel primo e nel secondo gruppo). Viene indicata

come varianza pooled.

S2 = {Σ(xi1– X 1)2 + Σ(xi2– X 2)2} / [(n1 + n2 -2)]

Σ(xi1– X 1)2 = 5032,00

Σ(xi2– X 2)2 = 2552,00

S2 = {5032 + 2552} / 17 = 446,12

Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 62

L'errore standard viene quindi calcolato usando la deviazione standard pooled.

ES( X 1– X 2) = √[s2 * (1/n1 + 1/n2)]

ES( X 1– X 2) = √[446.12 * (1/12 + 1/7) ]

= √100,90

= 10,04

Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 63

t17 = (120,0–101,0) / 10,04 = 1,89

Le due aree verdi corrispondono a p=0.05, su due code

Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 64

Il valore di t con 17 gl corrispondente alla probabilità del 5% sulle due code

è 2,110

Conclusione?

Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 65

Calcoliamo l'intervallo di confidenza della differenza osservata tra i due gruppi.

Calcoliamo l'intervallo di confidenza al 95%:

Limite fiduciale superiore = xx 21− + tgl;0,025 *√[s2 * (1/n1 + 1/n2)] =

(19,0) + 2,110 * 10,04= 40,18

Limite fiduciale inferiore = xx 21− + tgl;0,025 *√[s2 * (1/n1 + 1/n2)]=

(19,0) - 2,110 * 10,04= -2,18

Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 66

Esercizi dal testo

p 212 n 1

p 212 n 2

p 212 n 4

p 212 n 5 + intervallo di confidenza al 95% della differenza

p 213 n 8 + intervallo di confidenza al 95% della differenza

p 213 n 9