statistica inferenziale per variabili qualitative

21
La presentazione dei dati per molte ricerche mediche fa comunemente riferimento a frequenze, assolute o percentuali. Osservazioni cliniche conducono sovente a risultati tipo "il 60% degli individui trattati con un farmaco è migliorato rispetto al 47% del gruppo di soggetti di controllo", implicando con ciò un confronto tra i risultati ottenuti per i due gruppi. Risulta evidente che tali risultati non sono espressi da dati su scala quantitativa e quindi non è possibile fare riferimento alla distribuzione Gaussiana o a quelle del t di Student, ma occorre considerare metodiche specifiche che permettano, anche con tale tipo di dati, di verificare l'ipotesi zero di una differenza casuale tra le frequenze riscontrate. STATISTICA INFERENZIALE PER VARIABILI QUALITATIVE

Upload: others

Post on 20-Jul-2022

14 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: STATISTICA INFERENZIALE PER VARIABILI QUALITATIVE

La presentazione dei dati per molte ricerche mediche fa comunemente

riferimento a frequenze, assolute o percentuali. Osservazioni cliniche

conducono sovente a risultati tipo "il 60% degli individui trattati con un

farmaco è migliorato rispetto al 47% del gruppo di soggetti di controllo",

implicando con ciò un confronto tra i risultati ottenuti per i due gruppi.

Risulta evidente che tali risultati non sono espressi da dati su scala

quantitativa e quindi non è possibile fare riferimento alla distribuzione

Gaussiana o a quelle del t di Student, ma occorre considerare metodiche

specifiche che permettano, anche con tale tipo di dati, di verificare l'ipotesi

zero di una differenza casuale tra le frequenze riscontrate.

STATISTICA INFERENZIALEPER VARIABILI QUALITATIVE

Page 2: STATISTICA INFERENZIALE PER VARIABILI QUALITATIVE

La statistica chi-quadrato (χ2)Variabile statistica semplice (v.s.s.)

Esempio 1. C’è parità tra i 2 sessi nei 180 iscritti al corso di laurea in medicina? Si organizza un'indagine su un campione casuale di 80 studenti. (Ho: M=F; H1: M≠F)

I risultati osservati (O) e le attese (A) sono riportati nella tabella.

* p < 0.05, risultato del test appena significativo

5*1.25χ2 g.l.=1

200/408050/408080TOT

100/403025/404035F

100/405025/404045M

χ2-testO2χ2-testAO1SESSO

Page 3: STATISTICA INFERENZIALE PER VARIABILI QUALITATIVE

v.s.s. con >2 modalitàAnche una serie empirica può seguire un modello.

Esempio 2. 4 campioni di 400 pz. ciascuno vengono sottoposti a ≠dosaggi di un farmaco. Si riporta il numero osservato di pz guariti (Oi) e il numero atteso (Ai) per ogni campione (Ci).

dove Ho (modello): Ai= scala a raddoppioΔ Oi-Ai dovuta ad errore?

22.75750750χ2

2.500/4004003504.0 mg

2.500/2002002502.0 mg

100/1001001101.0 mg

100/5050400.5 mg

χ2-testAiOiDose di farmaco

Page 4: STATISTICA INFERENZIALE PER VARIABILI QUALITATIVE

Il fumo è “causa” (o fattore di rischio) per la bronchite? ossia il Δ (+15%) è statisticamente significativo?

Tabella di contingenza (2x2)

1020807213TOTALE

62052793NO

400280120SI

TOTNOSIFUMO

BRONCHITE

La prevalenza di bronchite risulta statisticamente ≠ tra i fumatori e i non fumatori?H0: La bronchite si sviluppa indipendentemente dal fumo;H1: I fumatori sviluppano bronchite più dei non fumatori.

VARIABILI STATISTICHE DOPPIE: CONFRONTO DI 2 CAMPIONI(Confronto tra due percentuali)

Esempio 3.Si abbia un campione di 1020 soggetti diviso in Fumatori (A): nA=400 Prevalenza BCO 30% Non fumatori (B): nB=620 Prevalenza BCO 15%

Page 5: STATISTICA INFERENZIALE PER VARIABILI QUALITATIVE

TASSI DI PREVALENZA x 100 SOGGETTI

• Se ci fosse indipendenza tra fumo e BCO si dovrebbero riscontrare le stesse prevalenze di pazienti con BCO tra i fumatori e i non fumatori.

• Va costruita quindi una tabella le cui frequenze rispondono alla condizione d'indipendenza

%1562093P %30

400120P %8.20

1020213P NFFT ======

Page 6: STATISTICA INFERENZIALE PER VARIABILI QUALITATIVE

TABELLA TETRACORICA D'INDIPENDENZA

nn2(b+d)n1 (a+c)TOTnB(c+d)dcB (-)nA(a+b)baA (+)

TOTNP (-)P (+)

MalattiaFattore di rischio

Valori delle frequenze nel caso di indipendenza

n1:n = a:nA nnna 1A=

n1:n = c:nB nnnc 1B=

idem per b e d

Page 7: STATISTICA INFERENZIALE PER VARIABILI QUALITATIVE

Tornando all’esempio dell'associazione tra BCO e fumo si ha la

tabella delle frequenze attese:

1020807213TOTALE

620491129NO

40031684SI

TOTNOSIFUMO

BRONCHITE CRONICA

Es. (620x213)/1020 = 129; per differenza si calcolano le altre tre frequenze interne.

Page 8: STATISTICA INFERENZIALE PER VARIABILI QUALITATIVE

χ2 = (120-84)2 + (280-316)2+ (93-129)2 + 84 316 129 + (527-491)2 = 32.21 491 LA FORMULA PER CALCOLARE L'INDICE-TEST

CHI-QUADRATO

Σ (Oi-Ai)2

Ai

Page 9: STATISTICA INFERENZIALE PER VARIABILI QUALITATIVE

TEORIA SULLE IPOTESI

H0 = ipotesi zero o ipotesi nulla le due percentuali (30% e 15%) differiscono per effetto dell'errore di campionamento.

H1 = ipotesi alternativale due percentuali non differiscono per effetto dell'errore di campionamento. il test del χ2 consente di saggiare l'ipotesi nulla.

Page 10: STATISTICA INFERENZIALE PER VARIABILI QUALITATIVE

Nel caso di tabelle 2x2 si può calcolare il valore del test χ2 anche

direttamente attraverso la formula seguente:

(ad - cb)2 N χ2 -test = __________

N1 N2 NA NB

FORMULA PER IL CALCOLO DEL χ2 VALIDA SOLO NEL CASO DI TABELLE TETRACORICHE

Nel nostro esempio avremo:

( ) 21.32620*400*807*213

1020*280*93527*120 22 =

−=χ

Valore quasi coincidente a quello calcolato con la

precedente formula, quindi

LE DUE FORMULE DANNO RISULTATI EQUIVALENTI

Page 11: STATISTICA INFERENZIALE PER VARIABILI QUALITATIVE

Se il campione e 1/10 del precedente si ha:

1028121TOTALE

62539NO

402812SI

TOTALEBCO NOBCO SIFUMO

681.262*40*81*21

102*)56)28*953*12(( 22 =

−−=χ

L’ipotesi nulla non può essere rifiutata.

Page 12: STATISTICA INFERENZIALE PER VARIABILI QUALITATIVE

La CORREZIONE di YATES (per la continuità)

La correzione di Yates viene applicata nel caso di tabelle 2x2 che presentino:

la numerosità complessiva (n)<200oppure uno tra nA, nB, n1, n2 <40

a, b, c, d >5la correzione si attua con la formula:

(⏐ad - cb⏐- n/2)2 nχ2 = _________________

n1 n2 nA nB

N.B. Anche per n>200 conviene applicarla

Page 13: STATISTICA INFERENZIALE PER VARIABILI QUALITATIVE

Esempio 4. Si supponga di aver rilevato, su un campione di 36 giovani, la pressione arteriosa e la pratica sportiva.

361521TOT

20614NO

1697SI

TOTNOSI SPORT

IPERTENSIONE ARTERIOSAPRATICA

Applichiamo il test χ2 con la correzione di Yates per la continuità (⏐7x6 - 14x9⏐-36/2)2 36 χ2 = ___________________ = 1.55 n.s. 21x15x20x16

Page 14: STATISTICA INFERENZIALE PER VARIABILI QUALITATIVE

1028121TOTALE

62539NO

402812SI

TOTALEBCO NOBCO SIFUMO

681.262*40*81*21

102*)56)28*953*12(( 22 =

−−=χ

Page 15: STATISTICA INFERENZIALE PER VARIABILI QUALITATIVE

TEST ESATTO di FISCHERViene applicato nel caso in cui in una tabella 2x2 il numero

delle osservazioni è minore di 20 o una delle frequenze attese è inferiore a 5. Permette di calcolare direttamente la

probabilità esatta.

P=(a+b)! (c+d)! (a+c)! (b+d)!a! b! c! d! N!

311516TOT

20515NO

11101SI

TOTNOSISPORT

IPERTENSIONE ARTERIOSAPRATICA

P1 = 11! 20! 16! 15! = 0.0005671! 10! 15! 5! 31!

Page 16: STATISTICA INFERENZIALE PER VARIABILI QUALITATIVE

311516TOT

20416NO

11110SI

TOTNOSI

IPERTENSIONE ARTERIOSAPRATICASPORT

P0 = 11! 20! 16! 15! = 0.0000160! 11! 16! 4! 31!

P= 0.00567+0.000016=0.00568

Altamente significativo. P<0.001

Page 17: STATISTICA INFERENZIALE PER VARIABILI QUALITATIVE

Generalizzazione al caso di una tabella di dimensione rxs.Esempio 5.

97253933Tot.

5418 (14)24 (22)12 (18)Farmaco B

437 (11)15 (17) 21 (15)Farmaco A

Tot.Non miglioratiMiglioratiGuariti

33/97=34.02%(GUARITI), 39/97=40.20% (MIGLIORATI), 25/97=25.77 (INSUCCESSI TERAPEUTICI)

Si applica la formula generale per una valutazione complessiva:

(21-15)2 (12-18)2 (15-17)2 (24-22)2 (7-11)2

χ2 = ______ + _______ + ______ + _______ + ______ + 15 18 17 22 11

(18-14)2

____________ = 8.2314

Page 18: STATISTICA INFERENZIALE PER VARIABILI QUALITATIVE

CONFRONTO TRA PERCENTUALI IN CAMPIONI INDIPENDENTI

Campione 1: n1=300 Prevalenza 70%Campione 2: n2=400 Prevalenza 80%

700170530TOT

40080320C2

30090210C1

TOT-+

χ2 = (210x80-320x90)2 700 =9.32 p<0.001 530x170x300x400 Campione 1: n1=30 Prevalenza 70%

Campione 2: n2=40 Prevalenza 80%

701753TOT

40832C2

30921C1

TOT-+

χ2 = (⎢21x8-32x9⎢- 70/2)270 =0.47 n.s. 53x17x30x40

Page 19: STATISTICA INFERENZIALE PER VARIABILI QUALITATIVE

V E R IF IC A D I IP O T E S I

1 . T E O R IA D E L L A V E R IF IC A D E L L E IP O T E S I S T A T IS T IC H E

C o n s is te n e llo s ta b ilire se l 'a s su n z io n e fa tta , s i p o ssa c o n s id e ra re e sa tta o m e n o , su lla b a se d e lle o sse rv a z io n i c o n d o tte su u n a p a r te d e lle u n ità d e l co lle tt iv o m e d e s im o . 2 . L 'IP O T E S I (H 0) E ' u n a s su n to p a r tic o la re c irc a le c a ra tte r is tic h e ( i p a ra m e tr i d e lla p o p o la z io n e . E ' u n a a ffe rm a z io n e su e v e n ti " sc o n o sc iu ti" c o s tru ita in m o d o ta le d a p o te r e sse re v e r ific a ta m e d ia n te u n te s t s ta tis tic o (T .S .) 3 . T E S T S T A T IS T IC O E ' u n a te c n ic a d i in fe re n z a s ta tis tic a , m e d ia n te la q u a le s i a c c e tta o r ifiu ta u n a c e r ta ip o te s i, a d u n liv e llo c r it ic o d i s ig n ific a tiv ità . 4 . L IV E L L O D I S IG N IF IC A T I V I T A ' E ' i l m a rg in e d 'e rro re c h e s ia m o d isp o s ti a co m m e tte re , d i so lito 5 o 1 % , m a p iù è p ic c o lo e p iù r id u c ia m o il r isc h io d i r ifiu ta re H 0 q u a n d o in re a ltà è v e ra . 5 . F U N Z I O N E T E S T E ' la fu n z io n e d e i d a ti c a m p io n a r i d i c u i s i se rv e u n te s t p e r p o r ta re a lla d e c is io n e d i a c c e tta re o re sp in g e re H 0 . 6 . V E R IF IC A D 'IP O T E S I E ' u n a m e to d o lo g ia s ta tis tic a c h e b a sa n d o s i su lle p ro b a b ilità p o r ta a p re n d e re d e lle d e c is io n i. 7 . G R A D I D I L IB E R T A ' S o n o d a ti , in g e n e ra le , d a l n u m e ro d e lle m o d a lità c h e la v a r ia b ile a ssu m e m e n o i v in c o li

Page 20: STATISTICA INFERENZIALE PER VARIABILI QUALITATIVE
Page 21: STATISTICA INFERENZIALE PER VARIABILI QUALITATIVE

Area•Accettaz. Ho

•Rifiuto H1

•Test nonsignificativo

FUNZIONE TEST

SIGNIFICATIVO → (1)

dipendenza tra x e y

NON SIGNIFICATIVO → indipendenza

SIGNIFICATIVO → (s)

rifiuto il modello

TEST DI

SIGNIFICATIVITA’

NON SIGNIFICATIVO → non rifiuto il modello → RISPONDENZA TRA DISTRIBUZIONE CONSTATATA E QUELLA TEORICA.

D’INDIPENDENZA(1)

Ho: nij=n’ij H1: nij≠n’ij

IPOTESI DA

VERIFICARE DI CONFORMITA’O ADATTAMENTO

Ho: fo=fA H1: fo≠fA