teorema del limite centrale …dimostra che la distribuzione campionaria delle medie si approssima...

48
Teorema del limite centrale …dimostra che la distribuzione campionaria delle medie si approssima alla distribuzione normale qualunque sia la forma delle distribuzione delle popolazione (quando si considera un campione di ampiezza > 30). E’ di importanza fondamentale in quanto non si lavora mai con una distribuzione della popolazione, ma soltanto dei campioni rappresentativi. Questo teorema è alla base di tutta la statistica inferenziale. Sapendo che la distribuzione campionaria delle medie assume forma normale, è allora possibile sfruttare le sue proprietà per la stima dei parametri (o per la verifica delle ipotesi)

Upload: consolata-bruno

Post on 01-May-2015

221 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Teorema del limite centrale …dimostra che la distribuzione campionaria delle medie si approssima alla distribuzione normale qualunque sia la forma delle

Teorema del limite centrale

…dimostra che la distribuzione campionaria delle medie si approssima alla distribuzione normale qualunque sia la forma delle distribuzione delle popolazione (quando si considera un campione di ampiezza > 30).

E’ di importanza fondamentale in quanto non si lavora mai con una distribuzione della popolazione, ma soltanto dei campioni rappresentativi. Questo teorema è alla base di tutta la statistica inferenziale.

Sapendo che la distribuzione campionaria delle medie assume forma normale, è allora possibile sfruttare le sue proprietà per la stima dei parametri (o per la verifica delle ipotesi)

Page 2: Teorema del limite centrale …dimostra che la distribuzione campionaria delle medie si approssima alla distribuzione normale qualunque sia la forma delle

Verifica delle ipotesi

• Ipotesi sperimentale

Verifica delle ipotesi = analizzare le differenze tra i risultati osservati (cioè i valori reali) e quelli attesi (basati sulla distribuzione della popolazione). Difficilmente si ottiene una perfetta sovrapposizione in quanto i dati della popolazione sono teorici. Per questo motivo si ragiona in termini di distanza (tra i due valori)

Page 3: Teorema del limite centrale …dimostra che la distribuzione campionaria delle medie si approssima alla distribuzione normale qualunque sia la forma delle

L’ipotesi nulla e l’ipotesi alternativa

H0 = l’ipotesi nulla è l’ipotesi sottoposta a verifica

H1 = l’ipotesi alternativa è vista come l’ipotesi antagonista all’ipotesi nulla e rappresenta la conclusione raggiunta quando l’ipotesi nulla è rifiutata.

Obiettivo: rifiutare l’ipotesi nulla

Page 4: Teorema del limite centrale …dimostra che la distribuzione campionaria delle medie si approssima alla distribuzione normale qualunque sia la forma delle

L’ipotesi nulla e l’ipotesi alternativa

Es. verificare se il trattamento (farmaco XyZ) migliora la capacità di concentrazione.

Si deve partire con l’ipotesi “contraria”, cioè che non ci sia differenza (o meglio che la differenza, se rilevata, sia attribuibile al caso). Questa è H0 , l’ipotesi nulla.

L’ipotesi alternativa include tutto ciò che non è definito nell’ipotesi nulla; in altre parole assume che il farmaco produca un effetto sulla capacità di concentrazione, migliorandola o peggiorandola. Questa è H1 , l’ipotesi alternativa

Page 5: Teorema del limite centrale …dimostra che la distribuzione campionaria delle medie si approssima alla distribuzione normale qualunque sia la forma delle

L’ipotesi nulla e l’ipotesi alternativa

Se la statistica mostra che il risultato osservato sul campione casuale (cioè estratto dalla popolazione in modo random) differisce da quello atteso dall’ipotesi formulata, allora dovremmo rifiutare l’ipotesi nulla e accettare quella alternativa. In altre parole, potremmo affermare che il farmaco ha un reale effetto sulla capacità di concentrazione.

Page 6: Teorema del limite centrale …dimostra che la distribuzione campionaria delle medie si approssima alla distribuzione normale qualunque sia la forma delle

Verifica delle ipotesiIn base all’ipotesi che si vuol dimostrare si possono avere

• ipotesi unidirezionali H1: p > ma anche H1: p <

• ipotesi bidirezionali H1: p

Un esempio di ipotesi unidirezionale ( o a una coda) si ha quando si ipotizza un cambiamento della variabile dipendente in una direzione SOLA; o aumenta (es. la prestazione) o diminuisce.

Un esempio di ipotesi bidirezionale (o a due code) si ha quando si ipotizza un cambiamento QUALSIASI della variabile dipendente.

Page 7: Teorema del limite centrale …dimostra che la distribuzione campionaria delle medie si approssima alla distribuzione normale qualunque sia la forma delle

Regione critica

H0

1 -

1- = Regione di accettazione = Regione di rifiuto

Page 8: Teorema del limite centrale …dimostra che la distribuzione campionaria delle medie si approssima alla distribuzione normale qualunque sia la forma delle

Regione critica per H1 bidirezionale

H0

1 -

1- = Regione di accettazione = Regione di rifiuto

/2 /2

Page 9: Teorema del limite centrale …dimostra che la distribuzione campionaria delle medie si approssima alla distribuzione normale qualunque sia la forma delle

Regione critica per H1 bidirezionale

è anche indicata come “Livello di significatività” (solitamente viene scelto un valore di alfa pari a .05, cioè si è disposti a rifiutare l’ipotesi nulla con una probabilità di errore del 5 %).

Il livello di significatività può essere rappresentato come la regola decisionale che ci permette di accettare o rifiutare l’ipotesi nulla.

Page 10: Teorema del limite centrale …dimostra che la distribuzione campionaria delle medie si approssima alla distribuzione normale qualunque sia la forma delle

Verifica delle ipotesi; errori

Ad ogni ipotesi statistica è associata una probabilità di errore. La decisione di accettare o rifiutare l’ipotesi nulla non è mai completamente certa dal momento che si basa su una probabilità.

Errore di I tipo: si incontra quando si decide che vi sono delle differenze tra i due campioni, mentre in realtà non ve ne sono. Le differenze trovate sono dovute esclusivamente al caso

Errori di II tipo: si incontra quando si decide di accettare l’ipotesi nulla quando in realtà è falsa. In altre parole si decide che non ci sono differenze tra i due gruppi quando in realtà il trattamento ha avuto un effetto sulla concentrazione.

Page 11: Teorema del limite centrale …dimostra che la distribuzione campionaria delle medie si approssima alla distribuzione normale qualunque sia la forma delle

Verifica delle ipotesi; errori

Tipi di errore

DecisioneRifiutare H0 Mantenere H0

H0 vera p(err. I tipo) = 1 -

H0 falsa 1 - (potenza) p (err. II tipo) =

[decisione corretta]

[decisione corretta]

Page 12: Teorema del limite centrale …dimostra che la distribuzione campionaria delle medie si approssima alla distribuzione normale qualunque sia la forma delle

Potenza di un test

1 - = potenza p (err. II tipo) =

…la potenza di un test indica l’efficienza nel poter evitare di prendere decisioni errate. Diventa molto importante durante la preparazione di un esperimento in quanto viene utilizzato il calcolo dei soggetti necessari per un esperimento (partendo dalla grandezza dell’effetto)

Page 13: Teorema del limite centrale …dimostra che la distribuzione campionaria delle medie si approssima alla distribuzione normale qualunque sia la forma delle

Ancora sulla verifica delle ipotesi…

Es. verificare se il peso delle scatole prodotte nella fabbrica XZY rientra negli standard definiti (368gr ipotizzati; = 15gr)

n = 25 scatole

1) Ipotesi?

H0: = 368H1: 368

bidirezionale

Page 14: Teorema del limite centrale …dimostra che la distribuzione campionaria delle medie si approssima alla distribuzione normale qualunque sia la forma delle

2) Scegliere un livello di significatività (): solitamente un livello che assicuri una margine di errore è = .05

3) (scegliere l’ampiezza campionaria in base alla potenza del test)

4) Individuare il test più appropriatotest z

Page 15: Teorema del limite centrale …dimostra che la distribuzione campionaria delle medie si approssima alla distribuzione normale qualunque sia la forma delle

5) Calcolare i valori critici che separano la regione di rifiuto da quella di accettazione

0.025 0.025

0.95

-1.96

1.96

Page 16: Teorema del limite centrale …dimostra che la distribuzione campionaria delle medie si approssima alla distribuzione normale qualunque sia la forma delle

6) Calcolare le medie campionarie X = 372.5

7) Standardizzare la media calcolata

Z = [(x - )]/[/rq(n)] = = [(372.5 - 368)]/[15/rq(25)] = 4.5/3 = 1.5

Page 17: Teorema del limite centrale …dimostra che la distribuzione campionaria delle medie si approssima alla distribuzione normale qualunque sia la forma delle

8) Stabilire se la media cade nella regione di rifiuto o di accettazione confrontiamo i valori di z

X = 372.5 = 368z = 1.5 z critico = 1.96

-1.96 1.96

1.5

Page 18: Teorema del limite centrale …dimostra che la distribuzione campionaria delle medie si approssima alla distribuzione normale qualunque sia la forma delle

Conclusioni

9) Siccome la statistica (punti z) cade nella regione di accettazione, l’ipotesi nulla NON può essere rifiutata

In conclusione possiamo concludere che i campioni estratti non hanno evidenziato nessuna differenza significativa con la media standard di 368

Page 19: Teorema del limite centrale …dimostra che la distribuzione campionaria delle medie si approssima alla distribuzione normale qualunque sia la forma delle

Un po’ di metodologia…

il disegno sperimentale

variabile dipendente e indipendente

condizione di controllo vs sperimentale

disegno “entro i soggetti” e “tra i soggetti”

Page 20: Teorema del limite centrale …dimostra che la distribuzione campionaria delle medie si approssima alla distribuzione normale qualunque sia la forma delle

Il disegno sperimentale

Condizioni sperimentali e condizioni di controllo

Si possono usare più gruppi di controllo? Più gruppi sperimentali?

Es. effetto di un farmaco sul livello di concentrazione

La condizione di controllo serve come verifica e confronto con il gruppo sperimentale per vedere se il trattamento ha avuto un effetto

Page 21: Teorema del limite centrale …dimostra che la distribuzione campionaria delle medie si approssima alla distribuzione normale qualunque sia la forma delle

Variabile dipendente e indipendente

Cos’è una variabile? Tutto ciò che potenzialmente potrebbe cambiare al variare di una qualsiasi condizione (es. temperatura, attivazione, fame, ecc.)

Dipendente o indipendente…da chi? Dal trattamento

Livelli della variabile indipendente: es. disegno 2 x 2 x 4 x 2

Page 22: Teorema del limite centrale …dimostra che la distribuzione campionaria delle medie si approssima alla distribuzione normale qualunque sia la forma delle

“Between” vs. “Within”

…Ovvero variabile tra i soggetti ed entro i soggetti

Per definizione si ha un disegno tra i soggetti quando ogni soggetto riceve un solo livello della variabile indipendente.

Ad esempio…

Page 23: Teorema del limite centrale …dimostra che la distribuzione campionaria delle medie si approssima alla distribuzione normale qualunque sia la forma delle

Disegno “Between subjects”

Es. Gruppo 1:  test di richiamo liberoGruppo 2:  test di richiamo con suggerimento

Disegni BS con una variabile indipendente a più livelli

2 livelli: richiamo libero vs. richiamo con suggerimento

Variabile dipendente: punteggi nel test

Page 24: Teorema del limite centrale …dimostra che la distribuzione campionaria delle medie si approssima alla distribuzione normale qualunque sia la forma delle

Disegno “Between subjects ”

Es. Testare l’effetto dell’orientamento e della lunghezza sulla velocità di riconoscimento. Quindi: 2 (orientamenti) X 2 (lunghezze)

Per avere un disegno “between subjects” dovremmo quindi avere 4 gruppi di persone. In questo modo ogni gruppo affronta un livello della variabile diverso

Viene utilizzato soprattutto quando l’esperimento diventa troppo lungo

Page 25: Teorema del limite centrale …dimostra che la distribuzione campionaria delle medie si approssima alla distribuzione normale qualunque sia la forma delle

Disegno “misto” (o mixed design)

Es. 2 (orientamenti) X 5 (lunghezze).

In questo caso dovremmo avere 10 gruppi di persone. Ma i problemi legati al reclutamento dei soggetti è un altro fattore da tenere sempre in considerazione.

Quindi potrei testare l’effetto delle variabili indipendenti un po’ “between” e un po’ “within”. Ad esempio potremmo avere l’orientamento come variabile “between” e la lunghezza come variabile “within”.

In questo caso si parla di disegno MISTO.

Page 26: Teorema del limite centrale …dimostra che la distribuzione campionaria delle medie si approssima alla distribuzione normale qualunque sia la forma delle

Disegno “Within subjects”Per definizione si ha un disegno entro i soggetti

quando ogni soggetto viene testato per TUTTI i livelli della variabile indipendente. Disegno 2 (orientamenti) X 2 (lunghezza)

Un solo gruppo di persone che quindi affrontano tutto l’esperimento nella sua interezza

Poiché tutti i soggetti affrontano tutte le condizioni sperimentali, gli stessi soggetti servono come controllo a loro stessi (coerenza interna)

I disegni within subjects vengono anche chiamati “Repeated Measures” o disegni per misure ripetute

Page 27: Teorema del limite centrale …dimostra che la distribuzione campionaria delle medie si approssima alla distribuzione normale qualunque sia la forma delle

Vantaggi e svantaggi del disegno “Within subjects”

• Mantiene la variabilità dei soggetti costante (mentre nel disegno between non è possibile visto che vengono utilizzati soggetti diversi)

• Aumenta la potenza riducendo la variabilità dovuto al caso.

• Riduce il numero di soggetti necessari per l’indagine sperimentale.

Gli svantaggi sono : • Effetto dell’ordine (bilanciamento)• Fatica

Page 28: Teorema del limite centrale …dimostra che la distribuzione campionaria delle medie si approssima alla distribuzione normale qualunque sia la forma delle

Scelta del Disegno

Esigenze sperimentali: qual è l’ipotesi che devo verificare?

Lunghezza esperimento: quanti soggetti devo testare? Quanto risulta lungo l’esperimento?Molto spesso questo parametro diventa più importante del precedente (anche se è una scelta sperimentale errata)

Page 29: Teorema del limite centrale …dimostra che la distribuzione campionaria delle medie si approssima alla distribuzione normale qualunque sia la forma delle

Come si sceglie il test più appropriato?

• Esperienza

• Comprendere la logica dietro ad un test

• Utilizzo delle tabelle decisionali

• Conoscenza elementi di statistica base

Page 30: Teorema del limite centrale …dimostra che la distribuzione campionaria delle medie si approssima alla distribuzione normale qualunque sia la forma delle

Domande da porsi

• Qual è l’ipotesi di ricerca? • I dati sono a livello di scala continua o

discreta, ordinale o ad intervalli?• Quante variabili abbiamo inserito

nell’esperimento? • Quanti gruppi di persone abbiamo

testato? I gruppi sono indipendenti?

I dati raccolti hanno forma normale?

Page 31: Teorema del limite centrale …dimostra che la distribuzione campionaria delle medie si approssima alla distribuzione normale qualunque sia la forma delle

Parametrico o non-parametrico?

In generale si sceglie un test parametrico quando si è sicuri che i dati siano distribuiti normalmente. Se non lo sono allora si sceglie un test non - parametrico

In generale vengono utilizzati test non parametrici quando i dati grezzi sono punteggi. Ad esempio per classifiche (musicali), punteggi, scale (percezione del dolore), numero di stelline (cinema o ristoranti).

Page 32: Teorema del limite centrale …dimostra che la distribuzione campionaria delle medie si approssima alla distribuzione normale qualunque sia la forma delle

Parametrico o non-parametrico?

Ma come decidere se i dati sono distribuiti normalmente? Se vengono raccolti dati per un campione sufficientemente grande (più di 100) si possono rappresentare graficamente i dati in un grafico e valutare “visivamente” se sono distribuiti normalmente (forma a campana). In alternativa esistono dei test per valutare la normalità delle distribuzioni (più accurata)

Se non si hanno campioni con numerosità elevata una soluzione alternativa consiste nel consultare dati di ricerche precedenti

Page 33: Teorema del limite centrale …dimostra che la distribuzione campionaria delle medie si approssima alla distribuzione normale qualunque sia la forma delle

Test parametrici

I test parametrici sono i più usati in assoluto in psicologia cognitiva, della percezione, in studi con tempi di reazione, etc.

Vantaggi

riuscire a cogliere in maniera più efficiente le differenze tra le condizioni sperimentali di quanto non sia possibile fare con i non-parametrici (maggiore potenza statistica).

Page 34: Teorema del limite centrale …dimostra che la distribuzione campionaria delle medie si approssima alla distribuzione normale qualunque sia la forma delle

Test parametrici

Condizioni da rispettare:

• Misurazioni su scala ad intervalli (o superiore)

• Alto numero di misurazioni• Normalità delle distribuzioni di

riferimento• Omogeneità delle varianze

Page 35: Teorema del limite centrale …dimostra che la distribuzione campionaria delle medie si approssima alla distribuzione normale qualunque sia la forma delle

Test non-parametrici

I test non parametrici sono più usati in psicologia sociale, della memoria, etc.

Hanno il vantaggio di essere più semplici da un punto di vista procedurale, di analisi, e di interpretazione, e di non dover rispettare le condizioni imposte dai test parametrici.

Page 36: Teorema del limite centrale …dimostra che la distribuzione campionaria delle medie si approssima alla distribuzione normale qualunque sia la forma delle

Test non-parametrici

Condizioni:

•Misurazioni su scala sia nominale che ordinale•Lavora anche con campioni di numerosità ridotta

Hanno lo svantaggio di avere una minore potenza statistica

Page 37: Teorema del limite centrale …dimostra che la distribuzione campionaria delle medie si approssima alla distribuzione normale qualunque sia la forma delle

La tavola decisionale

Terminologia:variabile (indipendente)condizioni = livelli della variabilesoggetti diversi = between soggetti uguali = within

Le tavole mostrano i test per i casi in cui una sola variabile dipendente venga testata.

Page 38: Teorema del limite centrale …dimostra che la distribuzione campionaria delle medie si approssima alla distribuzione normale qualunque sia la forma delle

Test NON parametrici

Page 39: Teorema del limite centrale …dimostra che la distribuzione campionaria delle medie si approssima alla distribuzione normale qualunque sia la forma delle

Test non-parametrici: il 2

La statistica 2 (chi quadro) lavora con le frequenze di un evento e quindi analizza la loro distribuzione.

Es. lancio moneta 100 volteTeoricamente mi aspetto 50 testa/50 croceDifficilmente le frequenze osservate coincidono con quelle attese

Il Il 2 2 permette di misurare la discrepanza tra permette di misurare la discrepanza tra frequenze osservate e frequenze teorichefrequenze osservate e frequenze teoriche

Page 40: Teorema del limite centrale …dimostra che la distribuzione campionaria delle medie si approssima alla distribuzione normale qualunque sia la forma delle

2

Molto spesso il test lavora con distribuzioni dicotomiche (come nell’esempio delle monete) ma si possono avere dei casi con categorie multiple. Nel caso di 2 categorie viene anche chiamato test binomiale.

Es. categorie multiple. Studio sulle preferenze per i giochi.

movimento staticiIndiv. Collett. Indiv.

Collett.20 20 20 20 5 40 5 30

osservateteoriche

Page 41: Teorema del limite centrale …dimostra che la distribuzione campionaria delle medie si approssima alla distribuzione normale qualunque sia la forma delle

2

Importante: le categorie devono essere mutualmente esclusive e ben definite. Ad esempio, nel test con le monete non ha senso inserire una terza categoria “testa/croce” e se un evento cade nella categoria “testa” non può appartenere anche alla categoria “croce”.

Importante: il test del 2 tratta con categorie o frequenze, e MAI con punteggi.

Importante: il numero di soggetti in ogni categoria è legato alle caratteristiche della categoria stessa, quindi non è possibile cambiarlo. Occorre avere un alto numero di soggetti in modo da oviare a questo inconveniente.

Page 42: Teorema del limite centrale …dimostra che la distribuzione campionaria delle medie si approssima alla distribuzione normale qualunque sia la forma delle

2

La formula per calcolare il 2 è la seguente:

2 = [(fo – fa)2/fa]fo = frequenze osservate

fa = frequenze attese

Occorre confrontare il valore ottenuto con il valore critico ricavato dalla tavola. Per trovare tale valore occorre tenere conto dei gradi di libertà (gdl o gl)

Page 43: Teorema del limite centrale …dimostra che la distribuzione campionaria delle medie si approssima alla distribuzione normale qualunque sia la forma delle

I gradi di libertàPer definizione i gradi di libertà di una statistica

corrispondono alle componenti richieste dal suo calcolo, che possono variare liberamente. In pratica corrispondono al numero di osservazioni di un campione, meno il numero relativo a dei vincoli algebrici lineari, costituiti in genere dalle statistiche relative al campione che devono essere calcolate prima della statistica in questione.

La formula generica è n – 1

Es. con 5 osservazioni gdl = 4

Perché se fissiamo per esempio che la media di queste 5 osservazioni è 3, i primi 4 valori sono liberi di cambiare, mentre l’ultimo è vincolato dal fatto di aver fissato la media a 3.

Page 44: Teorema del limite centrale …dimostra che la distribuzione campionaria delle medie si approssima alla distribuzione normale qualunque sia la forma delle

I gradi di libertàUna distribuzione con infiniti gradi di libertà

coincide con la distribuzione normale.

Una distribuzione con un ridotto numero di gradi di libertà è caratterizzata da un numero più elevato di osservazioni nelle code, cioè ha una maggiore dispersione…

…di conseguenza, minori sono i gdl, e maggiore è la probabilità che un valore cada nella regione di rifiuto, e quindi maggiore probabilità di commettere un errore di tipo I.

Page 45: Teorema del limite centrale …dimostra che la distribuzione campionaria delle medie si approssima alla distribuzione normale qualunque sia la forma delle

I gradi di libertà per il 2

I gl nella statistica del 2 vengono identificati con la lettera v

v = k – 1

K è il numero dei livelli della variabile

Page 46: Teorema del limite centrale …dimostra che la distribuzione campionaria delle medie si approssima alla distribuzione normale qualunque sia la forma delle

Calcolo del 2 per una variabile a più livelli

Il 2 permette di misurare la discrepanza tra frequenze osservate e frequenze teoriche. Le frequenze osservate (0k) sono quelle ottenute dall’osservazione del campione. Quelle attese (ek) vanno calcolate seguendo la logica della distribuzione delle probabilità

Evento E1 E2 E3 … Ek

Freq. Osservate o1 o2 o3 … ok

Freq. Attese e1 e2 e3 … ek

Page 47: Teorema del limite centrale …dimostra che la distribuzione campionaria delle medie si approssima alla distribuzione normale qualunque sia la forma delle

Calcolo del 2 per una variabile a più livelliUna variabile = modalità di studio3 livelli = regolare, irregolare e misto

Evento reg. irreg. misto tot

Freq. Osservate 6 14 13 33

Freq. Attese 11 11 11 33

Calcolo del 2 con la formula 2 = [(fo – fa)2/fa]

2 = (6 – 11)2/11 + (14 – 11)2 /11 + (13 – 11)2/11 = 0.45+0.81+0.36 = 1.628

Page 48: Teorema del limite centrale …dimostra che la distribuzione campionaria delle medie si approssima alla distribuzione normale qualunque sia la forma delle

Calcolo del 2 per una variabile a più livelli

2 = 1.628

Gradi di libertà: v = k – 1

[Quando si hanno due o più variabili il calcolo dei gradi di libertà cambia]

v = 3 – 1 = 2 gl

Stabilire un livello di significatività: = .05

Si guarda sulle tabelle il valore critico in base ad e a gl

Si procede con la verifica delle ipotesi: 2 > 2 critico NO!