lezione 10 - unisi.it · lezione 10 2 impiegati oppure la classe frequentata e l’età di bambini...
TRANSCRIPT
Lezione 10
1
Lezione 10
Dipendenza e indipendenza
Si è detto che la rilevazione contemporanea di due variabili ha lo scopo
principale di verificare se esiste una qualche relazione fra tali variabili e di
misurare l’entità di questa relazione.
Il segno assunto dalla covarianza (o dal coefficiente di correlazione lineare), per
esempio, ci indica se due variabili quantitative sono concordi o discordi, ma
esistono differenti tipi di legami che la statistica è in grado di individuare e
valutare attraverso il calcolo di opportuni indici.
In generale due variabili di qualsiasi natura si dicono dipendenti quando al
variare delle determinazioni assunte da una variabile si modifica una qualche
caratteristica della distribuzione dell’altra.
Considerate, per esempio, due variabili qualitative (sconnesse o ordinabili) si
ha una situazione di dipendenza quando a una particolare modalità di una di
esse si accompagna, in genere, una certa modalità dell’altra. Esempi di questo
genere si hanno quando si rileva la posizione geografica e il tipo di vegetazione
di diverse zone geografiche oppure la posizione nella professione e il titolo di
studio di un gruppo di individui.
Se una variabile è qualitativa e l’altra è quantitativa può accadere che al variare
delle modalità assunte dalla variabile qualitativa si modifichi l’ordine di
grandezza della variabile quantitativa. Esempi di questo genere si hanno
quando si rileva la posizione nella professione e lo stipendio di un gruppo di
Lezione 10
2
impiegati oppure la classe frequentata e l’età di bambini che frequentano la
scuola primaria.
Se entrambe le variabili sono quantitative, si è in presenza di un certo grado di
dipendenza quando al crescere dei valori assunti dalla X anche la Y tende a
crescere (come nel caso dei livelli di reddito e di consumo) oppure a diminuire
(come nel caso dei tassi di interesse e dell’ammontare dei prestiti).
I due casi limite consistono nella:
- indipendenza, quando la conoscenza della determinazione di una variabile
non fornisce alcuna informazione sulla probabile determinazione dell'altra
- dipendenza perfetta, quando a ciascuna delle determinazioni di una variabile
è sempre associata una sola determinazione dell’altra variabile.
Nei casi reali il grado di dipendenza fra due variabili si pone generalmente in
una posizione intermedia fra le due situazioni limite, ma è evidente che il
legame fra due variabili risulta tanto più stretto e, quindi, il grado di dipendenza
è tanto più elevato, quanto maggiore è l'attendibilità delle “previsioni” che è
possibile effettuare.
Quando esiste una situazione di indipendenza, ossia quando non esiste alcuna
associazione fra le variabili, le due variabili si dicono indipendenti. Esempi del
genere si hanno quando su un gruppo di persone si rileva il sesso e la religione
oppure il comune di nascita e il peso corporeo.
Esistono poi variabili che sono legate fra loro per alcuni gruppi di unità
statistiche, ma non per altri gruppi, come nel caso della statura e dell’età
rilevate su un gruppo di bambini e su un gruppo di persone adulte.
Lezione 10
3
Gli indici di dipendenza utilizzati in statistica hanno lo scopo di evidenziare
l'esistenza di un legame fra le variabili, di descrivere il tipo di legame e di
misurarne l'intensità.
Prima di passare ad analizzare i diversi indici, è però opportuno distinguere i
diversi casi che si può avere interesse a valutare nelle situazioni reali,
distinguendo fra lo studio della
1) dipendenza unilaterale, quando interessa esaminare la dipendenza della Y
dalla X (oppure della X dalla Y). In questo caso la prima variabile è detta
variabile dipendente, mentre la seconda è detta variabile indipendente o
variabile esplicativa. Un esempio di questo tipo si ha quando si analizza il livello
dei consumi delle famiglie (che costituisce la variabile dipendente) al variare
del livello del reddito familiare (che è la variabile esplicativa) oppure la durata
di funzionamento di una lampadina (variabile dipendente) in relazione al tipo
di materiale utilizzato (variabile esplicativa).
La determinazione assunta da una variabile non va però mai ritenuta la causa
della determinazione assunta dall'altra, in quanto una eventuale relazione di
causa-effetto non potrebbe in ogni caso essere provata con i metodi statistici.
2) dipendenza bilaterale o interdipendenza, quando le due variabili hanno uno
stesso “ruolo” all’interno dell’analisi. Esempi di questo genere sono i livelli del
consumo medio delle automobili in città e in autostrada, i voti ottenuti in
matematica e in statistica da un certo gruppo di studenti.
A questo punto conviene esaminare in dettaglio i due casi estremi, di
dipendenza perfetta e di indipendenza.
Lezione 10
4
PERFETTA DIPENDENZA UNILATERALE E BILATERALE ASSOLUTA (O IN
DISTRIBUZIONE)
Considerata una tabella a doppia entrata, si ha una situazione di perfetta
dipendenza unilaterale della Y dalla X quando le distribuzioni condizionate
(assolute o relative) di Y|cj presentano un'unica determinazione a cui è
associata una frequenza diversa da zero, mentre tutte le altre sono nulle.
La tabella seguente mostra un esempio di perfetta dipendenza della Y dalla X,
X\Y A B C -1 8 0 0 8 0 0 0 12 12 1 0 10 0 10 2 10 0 0 10 18 10 12 40
come si vede dall’esame delle distribuzioni condizionate della Y|x o dalle
corrispondenti distribuzioni relative condizionate riportate di seguito
X\Y A B C -1 1 0 0 1 0 0 0 1 1 1 0 1 0 1 2 1 0 0 1
Se per una unità statistica è nota l’intensità assunta dalla variabile X, si è in
grado di indicare con certezza la modalità assunta da Y. Infatti, se
x=-1 la modalità della Y è A
x=0 la modalità della Y è C
x=1 la modalità della Y è B
x=2 la modalità della Y è A
Lezione 10
5
Nella tabella precedente non esiste invece una situazione di perfetta
dipendenza della X dalla Y. Se la Y assume la modalità A, infatti, non si può
indicare con certezza l’intensità della X, che potrebbe essere -1 oppure 2.
La situazione di perfetta dipendenza bilaterale (ossia della Y dalla X e,
contemporaneamente, della X dalla Y) si può verificare se e solo se le due
variabili assumono uno stesso numero di determinazioni diverse, ossia quando
la tabella è quadrata (con uno stesso numero di righe e di colonne).
Nell’esempio successivo si ha una situazione di perfetta dipendenza bilaterale
X\Y -1 0 1 1 0.0 0.0 0.2 0.2 2 0.5 0.0 0.0 0.5 3 0.0 0.3 0.0 0.3 0.5 0.3 0.2 1.0
In questo caso, infatti, sia le distribuzioni condizionate di Y|cj sia le distribuzioni
di X|dl presentano un'unica determinazione a cui è associata una frequenza
diversa da zero, mentre tutte le altre sono nulle.
Quando la tabella è rettangolare (con un numero di righe diverso dal numero
di colonne), se esiste una situazione di dipendenza perfetta, tale dipendenza
può essere solo unilaterale.
Lezione 10
6
INDIPENDENZA ASSOLUTA (O IN DISTRIBUZIONE)
In una situazione di indipendenza fra X e Y le distribuzioni relative condizionate
della Y|cj sono tutte uguali fra loro e anche le distribuzioni relative condizionate
della X|dl sono tutte uguali fra loro.
Questo significa che per ogni determinazione di una variabile le diverse
determinazioni dell’altra si presentano sempre nelle stesse proporzioni.
La conoscenza della determinazione di una variabile su un’unità statistica non
aggiunge alcuna informazione utile per prevedere la determinazione assunta
dall’altra variabile.
La tabella successiva riporta un caso di indipendenza fra X e Y
X\Y Basso Medio Alto 1 0.05 0.03 0.02 0.10 2 0.10 0.06 0.04 0.20 3 0.20 0.12 0.08 0.40 4 0.15 0.09 0.06 0.30 0.50 0.30 0.20 1.00
Le distribuzioni relative condizionate di Y|cj sono infatti
X\Y Basso Medio Alto 1 0.50 0.30 0.20 1.00 2 0.50 0.30 0.20 1.00 3 0.50 0.30 0.20 1.00 4 0.50 0.30 0.20 1.00
e, come si vede, sono tutte uguali alla distribuzione relativa marginale della Y.
Lezione 10
7
Questo significa che la conoscenza della determinazione assunta da X su
un’unità statistica non fornisce informazioni aggiuntive sulla Y rispetto a quelle
note sulla base della sua distribuzione marginale.
La condizione di indipendenza statistica è sempre bilaterale
Dalla tabella originale si nota infatti che anche le distribuzioni relative
condizionate di X|dl sono tutte uguali fra loro
X\Y Basso Medio Alto 1 0.10 0.10 0.10 2 0.20 0.20 0.20 3 0.40 0.40 0.40 4 0.30 0.30 0.30 1.00 1.00 1.00
e uguali alla distribuzione relativa marginale della X.
In caso di indipendenza, le distribuzioni relative condizionate di una variabile
sono tutte uguali fra loro e uguali alla sua distribuzione relativa marginale.
Data la generica frequenza relativa della distribuzione relativa condizionata
della Y|cj corrispondente al rapporto
𝑓𝑗𝑙
𝑓𝑗. per ogni 𝑙 = 1, 2, … , ℎ
in condizioni di indipendenza fra X e Y vale quindi la seguente uguaglianza
Lezione 10
8
𝑓𝑗𝑙
𝑓𝑗.= 𝑓.𝑙 per ogni 𝑙 = 1, 2, … , ℎ
Allo stesso modo, data la generica frequenza relativa della distribuzione relativa
condizionata della X|dl corrispondente al rapporto
𝑓𝑗𝑙
𝑓.𝑙 per ogni 𝑗 = 1, 2, … , 𝑘
in condizioni di indipendenza fra X e Y vale l’uguaglianza
𝑓𝑗𝑙
𝑓.𝑙= 𝑓𝑗. per ogni 𝑗 = 1, 2, … , 𝑘
Da una qualsiasi delle precedenti uguaglianze nei riquadri colorati in giallo di
questa pagina si ottiene la seguente uguaglianza
𝑓𝑗𝑙 = 𝑓𝑗. × 𝑓.𝑙
in base alla quale, in caso di indipendenza fra X e Y, le frequenze relative
congiunte corrispondono al prodotto delle corrispondenti frequenze relative
marginali. Questa condizione è necessaria e sufficiente perché ci sia
indipendenza fra le variabili considerate.
Tornando a esaminare la tabella colorata in giallo, si nota come le frequenze
interne corrispondano al prodotto delle frequenze marginali.
Lezione 10
9
Se si fa riferimento alle frequenze assolute, anziché alle frequenze relative, la
condizione di indipendenza fra X e Y implica che siano verificate le seguenti
uguaglianze:
- per quanto riguarda le distribuzioni della Y|cj deve risultare
𝑛𝑗𝑙
𝑛𝑗.=
𝑛.𝑙
𝑛 per ogni 𝑙 = 1, 2, … , ℎ
- per quanto riguarda le distribuzioni della X|dl deve risultare
𝑛𝑗𝑙
𝑛.𝑙=
𝑛𝑗.
𝑛 per ogni 𝑙 = 1, 2, … , ℎ
Facendo quindi riferimento a una tabella espressa mediante frequenze assolute,
la condizione di indipendenza fra le due variabili comporta che le frequenze
interne della tabella siano pari al prodotto delle frequenze marginali diviso per
n, ossia
𝑛𝑗𝑙 =𝑛𝑗. × 𝑛.𝑙
𝑛
In seguito, per non fare confusione, si utilizzeranno le notazioni 𝑓𝑗𝑙∗ e 𝑛𝑗𝑙
∗ per
indicare, rispettivamente, le frequenze relative e le frequenze assolute calcolate
sotto ipotesi di indipendenza fra le due variabili in modo da distinguerle dalle
frequenze relative 𝑓𝑗𝑙 e dalle frequenze assolute 𝑛𝑗𝑙 effettivamente osservate
sulle n unità statistiche esaminate. Per questo motivo le frequenze 𝑓𝑗𝑙∗ e 𝑛𝑗𝑙
∗
Lezione 10
10
verranno chiamate frequenze teoriche (ossia calcolate sotto ipotesi di
indipendenza).
Inoltre, dato che la dipendenza (o indipendenza) che si è considerata in questo
paragrafo è solo uno dei vari tipi di dipendenza (o indipendenza) che si
esamineranno in seguito, la indicheremo come dipendenza (o indipendenza)
assoluta o dipendenza (o indipendenza) in distribuzione.
Riassumendo quanto detto finora: condizione necessaria e sufficiente per
l’indipendenza assoluta o in distribuzione è qualsiasi delle due uguaglianze
𝑓𝑗𝑙∗ = 𝑓𝑗. × 𝑓.𝑙
𝑛𝑗𝑙∗ =
𝑛𝑗. × 𝑛.𝑙
𝑛
Quando le frequenze osservate sono uguali alle frequenze teoriche per ogni j=1,
2, …, k e per ogni l = 1, 2, …, h, le variabili sono indipendenti in senso assoluto o
in distribuzione.
Quando non si è in una situazione di indipendenza, esiste un certo grado di
dipendenza fra le due variabili e qui di seguito verrà esaminato un indice in
grado di valutare il grado di dipendenza assoluta (o in distribuzione) di due
variabili.
Lezione 10
11
CHI-QUADRATO DI PEARSON
Questo indice, che misura la dipendenza bilaterale (o interdipendenza) fra le
due variabili considerate, si basa sulle differenze fra le frequenze
effettivamente osservate e quelle teoriche, calcolate sotto ipotesi di
indipendenza assoluta.
Dipende solo valori delle frequenze, per cui può essere calcolato per variabili di
qualsiasi tipo e la sua formula corrisponde a
𝜒2 = ∑ ∑(𝑛𝑗𝑙 − 𝑛𝑗𝑙
∗ )2
𝑛𝑗𝑙∗
ℎ
𝑙=1
𝑘
𝑗=1
se le frequenze riportate nella tabella sono assolute, oppure a
𝜒2 = 𝑛 ∑ ∑(𝑓𝑗𝑙 − 𝑓𝑗𝑙
∗)2
𝑓𝑗𝑙∗
ℎ
𝑙=1
𝑘
𝑗=1
se le frequenze riportate nella tabella sono relative.
Le differenze fra frequenze osservate e frequenza teoriche, dette contingenze,
risultano tutte pari a zero se le variabili sono indipendenti e assumono valori
crescenti (negativi o positivi) al crescere del grado di dipendenza fra le
variabili.
Lezione 10
12
In una situazione di indipendenza assoluta, quindi, il chi-quadrato risulta pari
a zero, mentre tende ad assumere valori crescenti al crescere del grado di
dipendenza assoluta fra X e Y.
Esistono formule alternative per questo indice (che possono essere ottenute
dalla formula originaria, ma che qui non saranno dimostrate) che consentono
ottenere il risultato in maniera più rapida e semplice, evitando di calcolare le
contingenze.
Nel caso di una tabella in cui compaiono le frequenze assolute, il chi-quadrato
può essere ottenuto con la formula seguente
𝜒2 = 𝑛 (∑ ∑𝑛𝑗𝑙
2
𝑛𝑗.𝑛.𝑙− 1
ℎ
𝑙=1
𝑘
𝑗=1
)
mentre nel caso in cui compaiono le frequenze relative corrisponde a
𝜒2 = 𝑛 (∑ ∑𝑓𝑗𝑙
2
𝑓𝑗.𝑓.𝑙− 1
ℎ
𝑙=1
𝑘
𝑗=1
)
Si è detto che il suo minimo è pari a zero, mentre il massimo è pari al prodotto
fra n ed il minore fra il numero di determinazioni (k) assunte dalla X e il
numero di determinazioni (h) assunte dalla Y meno 1.
In simboli, il suo campo di variazione è
[0, 𝑛 × [𝑚𝑖𝑛(𝑘, ℎ) − 1]]
Lezione 10
13
ESEMPI 1) Considerata la tabella successiva
X\Y a b c A 3 1 0 4 B 1 7 8 16
4 8 8 20
calcolare il chi-quadrato e indicarne valore minimo e valore massimo
Utilizzando la formula semplificata di calcolo si ottiene
𝜒2 = 20 (32
4 × 4+
12
4 × 8+
12
4 × 16+
72
8 × 16+
82
8 × 16− 1) = 9.84375
Per valutare il significato del risultato ottenuto è necessario sapere quale
sarebbe il valore minimo e il valore massimo che potrebbe assumere l’indice
per la tabella in esame. Il valore minimo è sempre pari a zero, mentre il
massimo in questo caso è pari a
𝑛 × [𝑚𝑖𝑛(𝑘, ℎ) − 1] = 20 × [min(2,3) − 1] = 20 × (2 − 1) = 20
dato che la X assume due modalità diverse mentre la Y ne assume 3.
Il risultato del chi-quadrato si pone quindi verso il centro del campo di
variazione dell’indice, evidenziando un moderato grado di dipendenza fra X e
Y.
Lezione 10
14
2) Considerata la tabella riportata nel precedente esempio, determinare le
frequenze relative osservate e le frequenze relative teoriche, stimate sotto
ipotesi di indipendenza assoluta fra le variabili
La tabella originaria espressa mediante le frequenze relative assume la forma
X\Y a b c A 0.15 0.05 0.00 0.20 B 0.05 0.35 0.40 0.80
0.20 0.40 0.40 1.00
mentre quella sotto ipotesi di indipendenza risulta
X\Y a b c A 0.04 0.08 0.08 0.20 B 0.16 0.32 0.32 0.80
0.20 0.40 0.40 1.00
PROPRIETÀ
Se due variabili X e Y quantitative sono indipendenti in senso assoluto la loro
covarianza è pari a zero.
Per effettuare questa dimostrazione è sufficiente tenere presente la seguente
condizione necessaria e sufficiente per l’indipendenza assoluta
𝑓𝑗𝑙∗ = 𝑓𝑗. × 𝑓.𝑙
e andare a sostituirla nella formula di calcolo del momento misto ordinario di
ordine 1,1 riferito a una tabella a doppia entrata espressa mediante le
frequenze relative
Lezione 10
15
DIMOSTRAZIONE
Sotto la condizione di indipendenza assoluta, il momento misto dall’origine di
ordine 1,1 calcolato sulla distribuzione bivariata relativa a due variabili
quantitative X e Y, assume la forma
𝑚1,1 = ∑ ∑ 𝑥𝑗𝑦𝑙
ℎ
𝑙=1
𝑘
𝑗=1
𝑓𝑗𝑙∗ = ∑ ∑ 𝑥𝑗𝑦𝑙
ℎ
𝑙=1
𝑘
𝑗=1
𝑓𝑗.𝑓.𝑙 = ∑ 𝑥𝑗𝑓𝑗. × ∑ 𝑦𝑙
ℎ
𝑙=1
𝑘
𝑗=1
𝑓.𝑙
Dato che
∑ 𝑥𝑗𝑓𝑗. = �̅�
𝑘
𝑗=1
∑ 𝑦𝑙𝑓.𝑙 = �̅�
ℎ
𝑙=1
risulta che
𝑚1,1 = �̅��̅�
per cui
𝑠𝑥𝑦 = 𝑚1,1 − �̅��̅� = �̅��̅� − �̅��̅� = 0
Lezione 10
16
DIPENDENZA E INDIPENDENZA IN MEDIA
Data una tabella a doppia entrata, si può avere interesse a confrontare le
distribuzioni condizionate di una variabile per i diversi gruppi omogenei
nell’altra variabile. Di solito, se la variabile Y è quantitativa, si confrontano le
sue medie condizionate, ossia le medie calcolate all’interno dei gruppi
omogenei in X (che può essere una variabile di natura qualsiasi). Esempi di
questo tipo si presentano se si volessero confrontare:
- i voti medi a un esame ottenuti da studenti che hanno utilizzato differenti
libri di testo
- i rendimenti medi di vari titoli azionari
- i livelli medi di consumo per diverse classi di reddito
- i tempi medi di guarigione da una malattia a seconda di differenti tipi di
farmaci
Se i valori medi della Y|x variano al variare della determinazione della X, si dice
che Y dipende in media da X.
Quando esiste una condizione di dipendenza in media della Y dalla X, si può
ottenere una valutazione più o meno precisa dell'ordine di grandezza di Y su
una unità statistica di cui è nota la sola determinazione cj assunta dalla X.
Questa valutazione, corrispondente alla media della distribuzione condizionata
�̅�𝑐𝑗, risulta tanto più accurata quanto maggiore è il grado di dipendenza in
media della Y dalla X.
L’intensità del legame dipende ovviamente dalla variabilità delle distribuzioni
condizionate Y|cj: se le k varianze delle distribuzioni condizionate 𝑠𝑦|𝑐𝑗
2 sono
Lezione 10
17
prossime a zero, le distribuzioni sono molto concentrate intorno alla loro media
e le �̅�𝑐𝑗 forniscono indicazioni attendibili sull'ordine di grandezza della Y per i
gruppi omogenei in X.
La perfetta dipendenza in media della Y dalla X si avrebbe solo se ognuna delle
k varianze condizionate 𝑠𝑦|𝑐𝑗
2 fosse nulla. In questo caso in ciascuna
distribuzione condizionata c’è una sola intensità a cui è associata una frequenza
non nulla e ovviamente questa intensità coincide con la media condizionata.
In questa situazione la conoscenza di X consente di individuare con certezza la
corrispondente determinazione di Y per cui la perfetta dipendenza in media
della Y dalla X equivale alla perfetta dipendenza in distribuzione della Y dalla X.
La situazione diametralmente opposta, di indipendenza in media, si ha quando
le medie condizionate sono tutte uguali fra loro (e uguali alla media generale
�̅�).
Nelle situazioni reali, in genere, ci si trova in una situazione intermedia fra i due
casi limite di indipendenza e di dipendenza perfetta e un indice in grado di
misurare la dipendenza in media si basa sulla ormai nota scomposizione della
varianza di n osservazioni suddivise in g gruppi distinti.
Lezione 10
18
RAPPORTO DI CORRELAZIONE
La variabilità delle medie condizionate è misurata dalla varianza fra i gruppi (o
varianza between) che in questo caso viene anche detta varianza spiegata, in
quanto misura quella parte della varianza della Y che "dipende", ossia è
"spiegata", dalle differenze fra i valori medi della Y all'interno di ogni gruppo
omogeneo in X.
Questa varianza, nel caso delle tabelle a doppia entrata, assume la forma
𝑠𝑏2 =
1
𝑛∑ (�̅�𝑐𝑗
− �̅�)2
𝑛𝑗. =
𝑘
𝑗=1
∑ (�̅�𝑐𝑗− �̅�)
2𝑓𝑗.
𝑘
𝑗=1
La varianza all’interno dei gruppi (o varianza within) è la media ponderata
delle varianze condizionate e in questo caso viene detta varianza residua in
quanto misura la parte “residua” della varianza complessiva della Y, quella
parte, cioè, che dipende dalla variabilità della Y all'interno dei singoli gruppi
omogenei in X.
Questa varianza assume la forma
𝑠𝑤2 =
1
𝑛∑ 𝑠𝑦|𝑐𝑗
2 𝑛𝑗. =
𝑘
𝑗=1
∑ 𝑠𝑦|𝑐𝑗
2 𝑓𝑗.
𝑘
𝑗=1
L’indice che misura la dipendenza in media della Y dalla X è chiamato rapporto
di correlazione della Y sulla X e corrisponde al rapporto fra varianza spiegata e
varianza totale di Y
Lezione 10
19
𝜂𝑦|𝑥2 =
𝑠𝑏2
𝑠𝑦2
In altri termini, l’eta quadrato della Y sulla X fornisce la proporzione di varianza
complessiva della Y che viene spiegata dalla variabilità delle sue medie
condizionate.
Dalla scomposizione della varianza complessiva della Y
𝑠𝑦2 = 𝑠𝑏
2 + 𝑠𝑤2
si ottiene
𝑠𝑏2 = 𝑠𝑦
2 − 𝑠𝑤2
per cui il rapporto di correlazione può essere posto nella forma alternativa
𝜂𝑦|𝑥2 =
𝑠𝑦2 − 𝑠𝑤
2
𝑠𝑦2
= 1 −𝑠𝑤
2
𝑠𝑦2
per cui l’eta quadrato della Y sulla X è pari a 1 meno il rapporto fra la varianza
residua divisa per la varianza complessiva della Y.
Lezione 10
20
Tenendo presente che la varianza spiegata 𝑠𝑏2 può variare fra un minimo pari a
zero e un massimo pari alla varianza complessiva 𝑠𝑦2 della Y, è evidente che:
Il rapporto di correlazione risulta sempre compreso nell’intervallo [0, 1].
Più precisamente:
- risulta pari a zero quando le �̅�𝑐𝑗 sono tutte uguali fra loro e uguali a �̅�, e in
questo caso la Y è indipendente in media dalla X.
- risulta pari a 1 quando è nulla la varianza residua, ossia quando tutte le
varianze delle distribuzioni condizionate sono pari a zero. Questo significa che
all’interno dei gruppi omogenei in X i valori della Y coincidono tutti con la media
condizionata e si è detto che questa situazione corrisponde ad una situazione
di dipendenza assoluta perfetta della Y dalla variabile X.
A questo proposito va osservato che se è noto che X e Y sono indipendenti in
senso assoluto (per cui l’indice chi-quadrato è nullo), anche i due eta quadrato
(della Y sulla X e della X sulla Y) saranno pari a zero.
La variabile Y risulta infatti indipendente in media dalla X, dato che le variabili
Y|cj hanno distribuzioni identiche e, quindi, la stessa media (e, più in generale,
gli stessi momenti). Il discorso vale anche scambiando il ruolo delle due
variabili.
Non vale invece la conclusione opposta in quanto una situazione di
indipendenza in media della Y dalla X non esclude che vi sia dipendenza
assoluta (o in distribuzione) fra le due variabili.
Lezione 10
21
ESEMPIO
Considerata la seguente distribuzione bivariata
X\Y -1 0 1 A 15 5 0 20 B 5 35 40 80
20 40 40 100 si calcoli il rapporto di correlazione della Y sulla X sia come rapporto fra
varianza spiegata e varianza totale, sia come 1 meno il rapporto fra varianza
residua e varianza totale
Considerata la distribuzione marginale della Y si ottiene �̅� = 0.2
𝑚2𝑦 = 0.6
𝑠𝑦2 = 0.56
Le medie delle distribuzioni condizionate della Y|x sono rispettivamente pari a �̅�𝐴 = −0.75
�̅�𝐵 = 0.4375
per cui la varianza spiegata è pari a
𝑠𝑏2 =
(−0.75 − 0.2)2 × 20 + (0.4375 − 0.2)2 × 80
100= 0.225625
Il rapporto di correlazione della Y sulla X espresso in funzione della varianza
spiegata è pari a
𝜂𝑦|𝑥2 =
𝑠𝑏2
𝑠𝑦2
=0.225625
0.56≈ 0.4029
Lezione 10
22
Le varianze delle due distribuzioni condizionate della Y sono invece pari a 𝑠𝑦|𝐴
2 = 0.1875
𝑠𝑦|𝐵2 = 0.37109375
per cui la varianza residua è pari a
𝑠𝑤2 =
0.1875 × 20 + 0.37109375 × 80
100= 0.334375
Il rapporto di correlazione della Y sulla X espresso in funzione della varianza
residua è pari a
𝜂𝑦|𝑥2 = 1 −
𝑠𝑤2
𝑠𝑦2
= 1 −0.334375
0.56≈ 0.4029