lezione 10 - unisi.it · lezione 10 2 impiegati oppure la classe frequentata e l’età di bambini...

22
Lezione 10 1 Lezione 10 Dipendenza e indipendenza Si è detto che la rilevazione contemporanea di due variabili ha lo scopo principale di verificare se esiste una qualche relazione fra tali variabili e di misurare l’entità di questa relazione. Il segno assunto dalla covarianza (o dal coefficiente di correlazione lineare), per esempio, ci indica se due variabili quantitative sono concordi o discordi, ma esistono differenti tipi di legami che la statistica è in grado di individuare e valutare attraverso il calcolo di opportuni indici. In generale due variabili di qualsiasi natura si dicono dipendenti quando al variare delle determinazioni assunte da una variabile si modifica una qualche caratteristica della distribuzione dell’altra. Considerate, per esempio, due variabili qualitative (sconnesse o ordinabili) si ha una situazione di dipendenza quando a una particolare modalità di una di esse si accompagna, in genere, una certa modalità dell’altra. Esempi di questo genere si hanno quando si rileva la posizione geografica e il tipo di vegetazione di diverse zone geografiche oppure la posizione nella professione e il titolo di studio di un gruppo di individui. Se una variabile è qualitativa e l’altra è quantitativa può accadere che al variare delle modalità assunte dalla variabile qualitativa si modifichi l’ordine di grandezza della variabile quantitativa. Esempi di questo genere si hanno quando si rileva la posizione nella professione e lo stipendio di un gruppo di

Upload: others

Post on 01-Aug-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Lezione 10 - unisi.it · Lezione 10 2 impiegati oppure la classe frequentata e l’età di bambini che frequentano la scuola primaria. Se entrambe le variabili sono quantitative,

Lezione 10

1

Lezione 10

Dipendenza e indipendenza

Si è detto che la rilevazione contemporanea di due variabili ha lo scopo

principale di verificare se esiste una qualche relazione fra tali variabili e di

misurare l’entità di questa relazione.

Il segno assunto dalla covarianza (o dal coefficiente di correlazione lineare), per

esempio, ci indica se due variabili quantitative sono concordi o discordi, ma

esistono differenti tipi di legami che la statistica è in grado di individuare e

valutare attraverso il calcolo di opportuni indici.

In generale due variabili di qualsiasi natura si dicono dipendenti quando al

variare delle determinazioni assunte da una variabile si modifica una qualche

caratteristica della distribuzione dell’altra.

Considerate, per esempio, due variabili qualitative (sconnesse o ordinabili) si

ha una situazione di dipendenza quando a una particolare modalità di una di

esse si accompagna, in genere, una certa modalità dell’altra. Esempi di questo

genere si hanno quando si rileva la posizione geografica e il tipo di vegetazione

di diverse zone geografiche oppure la posizione nella professione e il titolo di

studio di un gruppo di individui.

Se una variabile è qualitativa e l’altra è quantitativa può accadere che al variare

delle modalità assunte dalla variabile qualitativa si modifichi l’ordine di

grandezza della variabile quantitativa. Esempi di questo genere si hanno

quando si rileva la posizione nella professione e lo stipendio di un gruppo di

Page 2: Lezione 10 - unisi.it · Lezione 10 2 impiegati oppure la classe frequentata e l’età di bambini che frequentano la scuola primaria. Se entrambe le variabili sono quantitative,

Lezione 10

2

impiegati oppure la classe frequentata e l’età di bambini che frequentano la

scuola primaria.

Se entrambe le variabili sono quantitative, si è in presenza di un certo grado di

dipendenza quando al crescere dei valori assunti dalla X anche la Y tende a

crescere (come nel caso dei livelli di reddito e di consumo) oppure a diminuire

(come nel caso dei tassi di interesse e dell’ammontare dei prestiti).

I due casi limite consistono nella:

- indipendenza, quando la conoscenza della determinazione di una variabile

non fornisce alcuna informazione sulla probabile determinazione dell'altra

- dipendenza perfetta, quando a ciascuna delle determinazioni di una variabile

è sempre associata una sola determinazione dell’altra variabile.

Nei casi reali il grado di dipendenza fra due variabili si pone generalmente in

una posizione intermedia fra le due situazioni limite, ma è evidente che il

legame fra due variabili risulta tanto più stretto e, quindi, il grado di dipendenza

è tanto più elevato, quanto maggiore è l'attendibilità delle “previsioni” che è

possibile effettuare.

Quando esiste una situazione di indipendenza, ossia quando non esiste alcuna

associazione fra le variabili, le due variabili si dicono indipendenti. Esempi del

genere si hanno quando su un gruppo di persone si rileva il sesso e la religione

oppure il comune di nascita e il peso corporeo.

Esistono poi variabili che sono legate fra loro per alcuni gruppi di unità

statistiche, ma non per altri gruppi, come nel caso della statura e dell’età

rilevate su un gruppo di bambini e su un gruppo di persone adulte.

Page 3: Lezione 10 - unisi.it · Lezione 10 2 impiegati oppure la classe frequentata e l’età di bambini che frequentano la scuola primaria. Se entrambe le variabili sono quantitative,

Lezione 10

3

Gli indici di dipendenza utilizzati in statistica hanno lo scopo di evidenziare

l'esistenza di un legame fra le variabili, di descrivere il tipo di legame e di

misurarne l'intensità.

Prima di passare ad analizzare i diversi indici, è però opportuno distinguere i

diversi casi che si può avere interesse a valutare nelle situazioni reali,

distinguendo fra lo studio della

1) dipendenza unilaterale, quando interessa esaminare la dipendenza della Y

dalla X (oppure della X dalla Y). In questo caso la prima variabile è detta

variabile dipendente, mentre la seconda è detta variabile indipendente o

variabile esplicativa. Un esempio di questo tipo si ha quando si analizza il livello

dei consumi delle famiglie (che costituisce la variabile dipendente) al variare

del livello del reddito familiare (che è la variabile esplicativa) oppure la durata

di funzionamento di una lampadina (variabile dipendente) in relazione al tipo

di materiale utilizzato (variabile esplicativa).

La determinazione assunta da una variabile non va però mai ritenuta la causa

della determinazione assunta dall'altra, in quanto una eventuale relazione di

causa-effetto non potrebbe in ogni caso essere provata con i metodi statistici.

2) dipendenza bilaterale o interdipendenza, quando le due variabili hanno uno

stesso “ruolo” all’interno dell’analisi. Esempi di questo genere sono i livelli del

consumo medio delle automobili in città e in autostrada, i voti ottenuti in

matematica e in statistica da un certo gruppo di studenti.

A questo punto conviene esaminare in dettaglio i due casi estremi, di

dipendenza perfetta e di indipendenza.

Page 4: Lezione 10 - unisi.it · Lezione 10 2 impiegati oppure la classe frequentata e l’età di bambini che frequentano la scuola primaria. Se entrambe le variabili sono quantitative,

Lezione 10

4

PERFETTA DIPENDENZA UNILATERALE E BILATERALE ASSOLUTA (O IN

DISTRIBUZIONE)

Considerata una tabella a doppia entrata, si ha una situazione di perfetta

dipendenza unilaterale della Y dalla X quando le distribuzioni condizionate

(assolute o relative) di Y|cj presentano un'unica determinazione a cui è

associata una frequenza diversa da zero, mentre tutte le altre sono nulle.

La tabella seguente mostra un esempio di perfetta dipendenza della Y dalla X,

X\Y A B C -1 8 0 0 8 0 0 0 12 12 1 0 10 0 10 2 10 0 0 10 18 10 12 40

come si vede dall’esame delle distribuzioni condizionate della Y|x o dalle

corrispondenti distribuzioni relative condizionate riportate di seguito

X\Y A B C -1 1 0 0 1 0 0 0 1 1 1 0 1 0 1 2 1 0 0 1

Se per una unità statistica è nota l’intensità assunta dalla variabile X, si è in

grado di indicare con certezza la modalità assunta da Y. Infatti, se

x=-1 la modalità della Y è A

x=0 la modalità della Y è C

x=1 la modalità della Y è B

x=2 la modalità della Y è A

Page 5: Lezione 10 - unisi.it · Lezione 10 2 impiegati oppure la classe frequentata e l’età di bambini che frequentano la scuola primaria. Se entrambe le variabili sono quantitative,

Lezione 10

5

Nella tabella precedente non esiste invece una situazione di perfetta

dipendenza della X dalla Y. Se la Y assume la modalità A, infatti, non si può

indicare con certezza l’intensità della X, che potrebbe essere -1 oppure 2.

La situazione di perfetta dipendenza bilaterale (ossia della Y dalla X e,

contemporaneamente, della X dalla Y) si può verificare se e solo se le due

variabili assumono uno stesso numero di determinazioni diverse, ossia quando

la tabella è quadrata (con uno stesso numero di righe e di colonne).

Nell’esempio successivo si ha una situazione di perfetta dipendenza bilaterale

X\Y -1 0 1 1 0.0 0.0 0.2 0.2 2 0.5 0.0 0.0 0.5 3 0.0 0.3 0.0 0.3 0.5 0.3 0.2 1.0

In questo caso, infatti, sia le distribuzioni condizionate di Y|cj sia le distribuzioni

di X|dl presentano un'unica determinazione a cui è associata una frequenza

diversa da zero, mentre tutte le altre sono nulle.

Quando la tabella è rettangolare (con un numero di righe diverso dal numero

di colonne), se esiste una situazione di dipendenza perfetta, tale dipendenza

può essere solo unilaterale.

Page 6: Lezione 10 - unisi.it · Lezione 10 2 impiegati oppure la classe frequentata e l’età di bambini che frequentano la scuola primaria. Se entrambe le variabili sono quantitative,

Lezione 10

6

INDIPENDENZA ASSOLUTA (O IN DISTRIBUZIONE)

In una situazione di indipendenza fra X e Y le distribuzioni relative condizionate

della Y|cj sono tutte uguali fra loro e anche le distribuzioni relative condizionate

della X|dl sono tutte uguali fra loro.

Questo significa che per ogni determinazione di una variabile le diverse

determinazioni dell’altra si presentano sempre nelle stesse proporzioni.

La conoscenza della determinazione di una variabile su un’unità statistica non

aggiunge alcuna informazione utile per prevedere la determinazione assunta

dall’altra variabile.

La tabella successiva riporta un caso di indipendenza fra X e Y

X\Y Basso Medio Alto 1 0.05 0.03 0.02 0.10 2 0.10 0.06 0.04 0.20 3 0.20 0.12 0.08 0.40 4 0.15 0.09 0.06 0.30 0.50 0.30 0.20 1.00

Le distribuzioni relative condizionate di Y|cj sono infatti

X\Y Basso Medio Alto 1 0.50 0.30 0.20 1.00 2 0.50 0.30 0.20 1.00 3 0.50 0.30 0.20 1.00 4 0.50 0.30 0.20 1.00

e, come si vede, sono tutte uguali alla distribuzione relativa marginale della Y.

Page 7: Lezione 10 - unisi.it · Lezione 10 2 impiegati oppure la classe frequentata e l’età di bambini che frequentano la scuola primaria. Se entrambe le variabili sono quantitative,

Lezione 10

7

Questo significa che la conoscenza della determinazione assunta da X su

un’unità statistica non fornisce informazioni aggiuntive sulla Y rispetto a quelle

note sulla base della sua distribuzione marginale.

La condizione di indipendenza statistica è sempre bilaterale

Dalla tabella originale si nota infatti che anche le distribuzioni relative

condizionate di X|dl sono tutte uguali fra loro

X\Y Basso Medio Alto 1 0.10 0.10 0.10 2 0.20 0.20 0.20 3 0.40 0.40 0.40 4 0.30 0.30 0.30 1.00 1.00 1.00

e uguali alla distribuzione relativa marginale della X.

In caso di indipendenza, le distribuzioni relative condizionate di una variabile

sono tutte uguali fra loro e uguali alla sua distribuzione relativa marginale.

Data la generica frequenza relativa della distribuzione relativa condizionata

della Y|cj corrispondente al rapporto

𝑓𝑗𝑙

𝑓𝑗. per ogni 𝑙 = 1, 2, … , ℎ

in condizioni di indipendenza fra X e Y vale quindi la seguente uguaglianza

Page 8: Lezione 10 - unisi.it · Lezione 10 2 impiegati oppure la classe frequentata e l’età di bambini che frequentano la scuola primaria. Se entrambe le variabili sono quantitative,

Lezione 10

8

𝑓𝑗𝑙

𝑓𝑗.= 𝑓.𝑙 per ogni 𝑙 = 1, 2, … , ℎ

Allo stesso modo, data la generica frequenza relativa della distribuzione relativa

condizionata della X|dl corrispondente al rapporto

𝑓𝑗𝑙

𝑓.𝑙 per ogni 𝑗 = 1, 2, … , 𝑘

in condizioni di indipendenza fra X e Y vale l’uguaglianza

𝑓𝑗𝑙

𝑓.𝑙= 𝑓𝑗. per ogni 𝑗 = 1, 2, … , 𝑘

Da una qualsiasi delle precedenti uguaglianze nei riquadri colorati in giallo di

questa pagina si ottiene la seguente uguaglianza

𝑓𝑗𝑙 = 𝑓𝑗. × 𝑓.𝑙

in base alla quale, in caso di indipendenza fra X e Y, le frequenze relative

congiunte corrispondono al prodotto delle corrispondenti frequenze relative

marginali. Questa condizione è necessaria e sufficiente perché ci sia

indipendenza fra le variabili considerate.

Tornando a esaminare la tabella colorata in giallo, si nota come le frequenze

interne corrispondano al prodotto delle frequenze marginali.

Page 9: Lezione 10 - unisi.it · Lezione 10 2 impiegati oppure la classe frequentata e l’età di bambini che frequentano la scuola primaria. Se entrambe le variabili sono quantitative,

Lezione 10

9

Se si fa riferimento alle frequenze assolute, anziché alle frequenze relative, la

condizione di indipendenza fra X e Y implica che siano verificate le seguenti

uguaglianze:

- per quanto riguarda le distribuzioni della Y|cj deve risultare

𝑛𝑗𝑙

𝑛𝑗.=

𝑛.𝑙

𝑛 per ogni 𝑙 = 1, 2, … , ℎ

- per quanto riguarda le distribuzioni della X|dl deve risultare

𝑛𝑗𝑙

𝑛.𝑙=

𝑛𝑗.

𝑛 per ogni 𝑙 = 1, 2, … , ℎ

Facendo quindi riferimento a una tabella espressa mediante frequenze assolute,

la condizione di indipendenza fra le due variabili comporta che le frequenze

interne della tabella siano pari al prodotto delle frequenze marginali diviso per

n, ossia

𝑛𝑗𝑙 =𝑛𝑗. × 𝑛.𝑙

𝑛

In seguito, per non fare confusione, si utilizzeranno le notazioni 𝑓𝑗𝑙∗ e 𝑛𝑗𝑙

∗ per

indicare, rispettivamente, le frequenze relative e le frequenze assolute calcolate

sotto ipotesi di indipendenza fra le due variabili in modo da distinguerle dalle

frequenze relative 𝑓𝑗𝑙 e dalle frequenze assolute 𝑛𝑗𝑙 effettivamente osservate

sulle n unità statistiche esaminate. Per questo motivo le frequenze 𝑓𝑗𝑙∗ e 𝑛𝑗𝑙

Page 10: Lezione 10 - unisi.it · Lezione 10 2 impiegati oppure la classe frequentata e l’età di bambini che frequentano la scuola primaria. Se entrambe le variabili sono quantitative,

Lezione 10

10

verranno chiamate frequenze teoriche (ossia calcolate sotto ipotesi di

indipendenza).

Inoltre, dato che la dipendenza (o indipendenza) che si è considerata in questo

paragrafo è solo uno dei vari tipi di dipendenza (o indipendenza) che si

esamineranno in seguito, la indicheremo come dipendenza (o indipendenza)

assoluta o dipendenza (o indipendenza) in distribuzione.

Riassumendo quanto detto finora: condizione necessaria e sufficiente per

l’indipendenza assoluta o in distribuzione è qualsiasi delle due uguaglianze

𝑓𝑗𝑙∗ = 𝑓𝑗. × 𝑓.𝑙

𝑛𝑗𝑙∗ =

𝑛𝑗. × 𝑛.𝑙

𝑛

Quando le frequenze osservate sono uguali alle frequenze teoriche per ogni j=1,

2, …, k e per ogni l = 1, 2, …, h, le variabili sono indipendenti in senso assoluto o

in distribuzione.

Quando non si è in una situazione di indipendenza, esiste un certo grado di

dipendenza fra le due variabili e qui di seguito verrà esaminato un indice in

grado di valutare il grado di dipendenza assoluta (o in distribuzione) di due

variabili.

Page 11: Lezione 10 - unisi.it · Lezione 10 2 impiegati oppure la classe frequentata e l’età di bambini che frequentano la scuola primaria. Se entrambe le variabili sono quantitative,

Lezione 10

11

CHI-QUADRATO DI PEARSON

Questo indice, che misura la dipendenza bilaterale (o interdipendenza) fra le

due variabili considerate, si basa sulle differenze fra le frequenze

effettivamente osservate e quelle teoriche, calcolate sotto ipotesi di

indipendenza assoluta.

Dipende solo valori delle frequenze, per cui può essere calcolato per variabili di

qualsiasi tipo e la sua formula corrisponde a

𝜒2 = ∑ ∑(𝑛𝑗𝑙 − 𝑛𝑗𝑙

∗ )2

𝑛𝑗𝑙∗

𝑙=1

𝑘

𝑗=1

se le frequenze riportate nella tabella sono assolute, oppure a

𝜒2 = 𝑛 ∑ ∑(𝑓𝑗𝑙 − 𝑓𝑗𝑙

∗)2

𝑓𝑗𝑙∗

𝑙=1

𝑘

𝑗=1

se le frequenze riportate nella tabella sono relative.

Le differenze fra frequenze osservate e frequenza teoriche, dette contingenze,

risultano tutte pari a zero se le variabili sono indipendenti e assumono valori

crescenti (negativi o positivi) al crescere del grado di dipendenza fra le

variabili.

Page 12: Lezione 10 - unisi.it · Lezione 10 2 impiegati oppure la classe frequentata e l’età di bambini che frequentano la scuola primaria. Se entrambe le variabili sono quantitative,

Lezione 10

12

In una situazione di indipendenza assoluta, quindi, il chi-quadrato risulta pari

a zero, mentre tende ad assumere valori crescenti al crescere del grado di

dipendenza assoluta fra X e Y.

Esistono formule alternative per questo indice (che possono essere ottenute

dalla formula originaria, ma che qui non saranno dimostrate) che consentono

ottenere il risultato in maniera più rapida e semplice, evitando di calcolare le

contingenze.

Nel caso di una tabella in cui compaiono le frequenze assolute, il chi-quadrato

può essere ottenuto con la formula seguente

𝜒2 = 𝑛 (∑ ∑𝑛𝑗𝑙

2

𝑛𝑗.𝑛.𝑙− 1

𝑙=1

𝑘

𝑗=1

)

mentre nel caso in cui compaiono le frequenze relative corrisponde a

𝜒2 = 𝑛 (∑ ∑𝑓𝑗𝑙

2

𝑓𝑗.𝑓.𝑙− 1

𝑙=1

𝑘

𝑗=1

)

Si è detto che il suo minimo è pari a zero, mentre il massimo è pari al prodotto

fra n ed il minore fra il numero di determinazioni (k) assunte dalla X e il

numero di determinazioni (h) assunte dalla Y meno 1.

In simboli, il suo campo di variazione è

[0, 𝑛 × [𝑚𝑖𝑛(𝑘, ℎ) − 1]]

Page 13: Lezione 10 - unisi.it · Lezione 10 2 impiegati oppure la classe frequentata e l’età di bambini che frequentano la scuola primaria. Se entrambe le variabili sono quantitative,

Lezione 10

13

ESEMPI 1) Considerata la tabella successiva

X\Y a b c A 3 1 0 4 B 1 7 8 16

4 8 8 20

calcolare il chi-quadrato e indicarne valore minimo e valore massimo

Utilizzando la formula semplificata di calcolo si ottiene

𝜒2 = 20 (32

4 × 4+

12

4 × 8+

12

4 × 16+

72

8 × 16+

82

8 × 16− 1) = 9.84375

Per valutare il significato del risultato ottenuto è necessario sapere quale

sarebbe il valore minimo e il valore massimo che potrebbe assumere l’indice

per la tabella in esame. Il valore minimo è sempre pari a zero, mentre il

massimo in questo caso è pari a

𝑛 × [𝑚𝑖𝑛(𝑘, ℎ) − 1] = 20 × [min(2,3) − 1] = 20 × (2 − 1) = 20

dato che la X assume due modalità diverse mentre la Y ne assume 3.

Il risultato del chi-quadrato si pone quindi verso il centro del campo di

variazione dell’indice, evidenziando un moderato grado di dipendenza fra X e

Y.

Page 14: Lezione 10 - unisi.it · Lezione 10 2 impiegati oppure la classe frequentata e l’età di bambini che frequentano la scuola primaria. Se entrambe le variabili sono quantitative,

Lezione 10

14

2) Considerata la tabella riportata nel precedente esempio, determinare le

frequenze relative osservate e le frequenze relative teoriche, stimate sotto

ipotesi di indipendenza assoluta fra le variabili

La tabella originaria espressa mediante le frequenze relative assume la forma

X\Y a b c A 0.15 0.05 0.00 0.20 B 0.05 0.35 0.40 0.80

0.20 0.40 0.40 1.00

mentre quella sotto ipotesi di indipendenza risulta

X\Y a b c A 0.04 0.08 0.08 0.20 B 0.16 0.32 0.32 0.80

0.20 0.40 0.40 1.00

PROPRIETÀ

Se due variabili X e Y quantitative sono indipendenti in senso assoluto la loro

covarianza è pari a zero.

Per effettuare questa dimostrazione è sufficiente tenere presente la seguente

condizione necessaria e sufficiente per l’indipendenza assoluta

𝑓𝑗𝑙∗ = 𝑓𝑗. × 𝑓.𝑙

e andare a sostituirla nella formula di calcolo del momento misto ordinario di

ordine 1,1 riferito a una tabella a doppia entrata espressa mediante le

frequenze relative

Page 15: Lezione 10 - unisi.it · Lezione 10 2 impiegati oppure la classe frequentata e l’età di bambini che frequentano la scuola primaria. Se entrambe le variabili sono quantitative,

Lezione 10

15

DIMOSTRAZIONE

Sotto la condizione di indipendenza assoluta, il momento misto dall’origine di

ordine 1,1 calcolato sulla distribuzione bivariata relativa a due variabili

quantitative X e Y, assume la forma

𝑚1,1 = ∑ ∑ 𝑥𝑗𝑦𝑙

𝑙=1

𝑘

𝑗=1

𝑓𝑗𝑙∗ = ∑ ∑ 𝑥𝑗𝑦𝑙

𝑙=1

𝑘

𝑗=1

𝑓𝑗.𝑓.𝑙 = ∑ 𝑥𝑗𝑓𝑗. × ∑ 𝑦𝑙

𝑙=1

𝑘

𝑗=1

𝑓.𝑙

Dato che

∑ 𝑥𝑗𝑓𝑗. = �̅�

𝑘

𝑗=1

∑ 𝑦𝑙𝑓.𝑙 = �̅�

𝑙=1

risulta che

𝑚1,1 = �̅��̅�

per cui

𝑠𝑥𝑦 = 𝑚1,1 − �̅��̅� = �̅��̅� − �̅��̅� = 0

Page 16: Lezione 10 - unisi.it · Lezione 10 2 impiegati oppure la classe frequentata e l’età di bambini che frequentano la scuola primaria. Se entrambe le variabili sono quantitative,

Lezione 10

16

DIPENDENZA E INDIPENDENZA IN MEDIA

Data una tabella a doppia entrata, si può avere interesse a confrontare le

distribuzioni condizionate di una variabile per i diversi gruppi omogenei

nell’altra variabile. Di solito, se la variabile Y è quantitativa, si confrontano le

sue medie condizionate, ossia le medie calcolate all’interno dei gruppi

omogenei in X (che può essere una variabile di natura qualsiasi). Esempi di

questo tipo si presentano se si volessero confrontare:

- i voti medi a un esame ottenuti da studenti che hanno utilizzato differenti

libri di testo

- i rendimenti medi di vari titoli azionari

- i livelli medi di consumo per diverse classi di reddito

- i tempi medi di guarigione da una malattia a seconda di differenti tipi di

farmaci

Se i valori medi della Y|x variano al variare della determinazione della X, si dice

che Y dipende in media da X.

Quando esiste una condizione di dipendenza in media della Y dalla X, si può

ottenere una valutazione più o meno precisa dell'ordine di grandezza di Y su

una unità statistica di cui è nota la sola determinazione cj assunta dalla X.

Questa valutazione, corrispondente alla media della distribuzione condizionata

�̅�𝑐𝑗, risulta tanto più accurata quanto maggiore è il grado di dipendenza in

media della Y dalla X.

L’intensità del legame dipende ovviamente dalla variabilità delle distribuzioni

condizionate Y|cj: se le k varianze delle distribuzioni condizionate 𝑠𝑦|𝑐𝑗

2 sono

Page 17: Lezione 10 - unisi.it · Lezione 10 2 impiegati oppure la classe frequentata e l’età di bambini che frequentano la scuola primaria. Se entrambe le variabili sono quantitative,

Lezione 10

17

prossime a zero, le distribuzioni sono molto concentrate intorno alla loro media

e le �̅�𝑐𝑗 forniscono indicazioni attendibili sull'ordine di grandezza della Y per i

gruppi omogenei in X.

La perfetta dipendenza in media della Y dalla X si avrebbe solo se ognuna delle

k varianze condizionate 𝑠𝑦|𝑐𝑗

2 fosse nulla. In questo caso in ciascuna

distribuzione condizionata c’è una sola intensità a cui è associata una frequenza

non nulla e ovviamente questa intensità coincide con la media condizionata.

In questa situazione la conoscenza di X consente di individuare con certezza la

corrispondente determinazione di Y per cui la perfetta dipendenza in media

della Y dalla X equivale alla perfetta dipendenza in distribuzione della Y dalla X.

La situazione diametralmente opposta, di indipendenza in media, si ha quando

le medie condizionate sono tutte uguali fra loro (e uguali alla media generale

�̅�).

Nelle situazioni reali, in genere, ci si trova in una situazione intermedia fra i due

casi limite di indipendenza e di dipendenza perfetta e un indice in grado di

misurare la dipendenza in media si basa sulla ormai nota scomposizione della

varianza di n osservazioni suddivise in g gruppi distinti.

Page 18: Lezione 10 - unisi.it · Lezione 10 2 impiegati oppure la classe frequentata e l’età di bambini che frequentano la scuola primaria. Se entrambe le variabili sono quantitative,

Lezione 10

18

RAPPORTO DI CORRELAZIONE

La variabilità delle medie condizionate è misurata dalla varianza fra i gruppi (o

varianza between) che in questo caso viene anche detta varianza spiegata, in

quanto misura quella parte della varianza della Y che "dipende", ossia è

"spiegata", dalle differenze fra i valori medi della Y all'interno di ogni gruppo

omogeneo in X.

Questa varianza, nel caso delle tabelle a doppia entrata, assume la forma

𝑠𝑏2 =

1

𝑛∑ (�̅�𝑐𝑗

− �̅�)2

𝑛𝑗. =

𝑘

𝑗=1

∑ (�̅�𝑐𝑗− �̅�)

2𝑓𝑗.

𝑘

𝑗=1

La varianza all’interno dei gruppi (o varianza within) è la media ponderata

delle varianze condizionate e in questo caso viene detta varianza residua in

quanto misura la parte “residua” della varianza complessiva della Y, quella

parte, cioè, che dipende dalla variabilità della Y all'interno dei singoli gruppi

omogenei in X.

Questa varianza assume la forma

𝑠𝑤2 =

1

𝑛∑ 𝑠𝑦|𝑐𝑗

2 𝑛𝑗. =

𝑘

𝑗=1

∑ 𝑠𝑦|𝑐𝑗

2 𝑓𝑗.

𝑘

𝑗=1

L’indice che misura la dipendenza in media della Y dalla X è chiamato rapporto

di correlazione della Y sulla X e corrisponde al rapporto fra varianza spiegata e

varianza totale di Y

Page 19: Lezione 10 - unisi.it · Lezione 10 2 impiegati oppure la classe frequentata e l’età di bambini che frequentano la scuola primaria. Se entrambe le variabili sono quantitative,

Lezione 10

19

𝜂𝑦|𝑥2 =

𝑠𝑏2

𝑠𝑦2

In altri termini, l’eta quadrato della Y sulla X fornisce la proporzione di varianza

complessiva della Y che viene spiegata dalla variabilità delle sue medie

condizionate.

Dalla scomposizione della varianza complessiva della Y

𝑠𝑦2 = 𝑠𝑏

2 + 𝑠𝑤2

si ottiene

𝑠𝑏2 = 𝑠𝑦

2 − 𝑠𝑤2

per cui il rapporto di correlazione può essere posto nella forma alternativa

𝜂𝑦|𝑥2 =

𝑠𝑦2 − 𝑠𝑤

2

𝑠𝑦2

= 1 −𝑠𝑤

2

𝑠𝑦2

per cui l’eta quadrato della Y sulla X è pari a 1 meno il rapporto fra la varianza

residua divisa per la varianza complessiva della Y.

Page 20: Lezione 10 - unisi.it · Lezione 10 2 impiegati oppure la classe frequentata e l’età di bambini che frequentano la scuola primaria. Se entrambe le variabili sono quantitative,

Lezione 10

20

Tenendo presente che la varianza spiegata 𝑠𝑏2 può variare fra un minimo pari a

zero e un massimo pari alla varianza complessiva 𝑠𝑦2 della Y, è evidente che:

Il rapporto di correlazione risulta sempre compreso nell’intervallo [0, 1].

Più precisamente:

- risulta pari a zero quando le �̅�𝑐𝑗 sono tutte uguali fra loro e uguali a �̅�, e in

questo caso la Y è indipendente in media dalla X.

- risulta pari a 1 quando è nulla la varianza residua, ossia quando tutte le

varianze delle distribuzioni condizionate sono pari a zero. Questo significa che

all’interno dei gruppi omogenei in X i valori della Y coincidono tutti con la media

condizionata e si è detto che questa situazione corrisponde ad una situazione

di dipendenza assoluta perfetta della Y dalla variabile X.

A questo proposito va osservato che se è noto che X e Y sono indipendenti in

senso assoluto (per cui l’indice chi-quadrato è nullo), anche i due eta quadrato

(della Y sulla X e della X sulla Y) saranno pari a zero.

La variabile Y risulta infatti indipendente in media dalla X, dato che le variabili

Y|cj hanno distribuzioni identiche e, quindi, la stessa media (e, più in generale,

gli stessi momenti). Il discorso vale anche scambiando il ruolo delle due

variabili.

Non vale invece la conclusione opposta in quanto una situazione di

indipendenza in media della Y dalla X non esclude che vi sia dipendenza

assoluta (o in distribuzione) fra le due variabili.

Page 21: Lezione 10 - unisi.it · Lezione 10 2 impiegati oppure la classe frequentata e l’età di bambini che frequentano la scuola primaria. Se entrambe le variabili sono quantitative,

Lezione 10

21

ESEMPIO

Considerata la seguente distribuzione bivariata

X\Y -1 0 1 A 15 5 0 20 B 5 35 40 80

20 40 40 100 si calcoli il rapporto di correlazione della Y sulla X sia come rapporto fra

varianza spiegata e varianza totale, sia come 1 meno il rapporto fra varianza

residua e varianza totale

Considerata la distribuzione marginale della Y si ottiene �̅� = 0.2

𝑚2𝑦 = 0.6

𝑠𝑦2 = 0.56

Le medie delle distribuzioni condizionate della Y|x sono rispettivamente pari a �̅�𝐴 = −0.75

�̅�𝐵 = 0.4375

per cui la varianza spiegata è pari a

𝑠𝑏2 =

(−0.75 − 0.2)2 × 20 + (0.4375 − 0.2)2 × 80

100= 0.225625

Il rapporto di correlazione della Y sulla X espresso in funzione della varianza

spiegata è pari a

𝜂𝑦|𝑥2 =

𝑠𝑏2

𝑠𝑦2

=0.225625

0.56≈ 0.4029

Page 22: Lezione 10 - unisi.it · Lezione 10 2 impiegati oppure la classe frequentata e l’età di bambini che frequentano la scuola primaria. Se entrambe le variabili sono quantitative,

Lezione 10

22

Le varianze delle due distribuzioni condizionate della Y sono invece pari a 𝑠𝑦|𝐴

2 = 0.1875

𝑠𝑦|𝐵2 = 0.37109375

per cui la varianza residua è pari a

𝑠𝑤2 =

0.1875 × 20 + 0.37109375 × 80

100= 0.334375

Il rapporto di correlazione della Y sulla X espresso in funzione della varianza

residua è pari a

𝜂𝑦|𝑥2 = 1 −

𝑠𝑤2

𝑠𝑦2

= 1 −0.334375

0.56≈ 0.4029