la ricerca delle relazioni tra fenomeni. analisi della dipendenza concetti generali oltre alla...
TRANSCRIPT
![Page 1: La ricerca delle relazioni tra fenomeni. Analisi della dipendenza concetti generali Oltre alla variabilità di un solo fenomeno si può esaminare la variabilità](https://reader036.vdocuments.net/reader036/viewer/2022062512/5542eb66497959361e8d170e/html5/thumbnails/1.jpg)
La ricerca delle relazioni tra fenomeni
![Page 2: La ricerca delle relazioni tra fenomeni. Analisi della dipendenza concetti generali Oltre alla variabilità di un solo fenomeno si può esaminare la variabilità](https://reader036.vdocuments.net/reader036/viewer/2022062512/5542eb66497959361e8d170e/html5/thumbnails/2.jpg)
Analisi della dipendenzaconcetti generali
• Oltre alla variabilità di un solo fenomeno si può esaminare la variabilità di due serie di valori associati nei singoli termini
• Se su una stessa unità statistica si possono rilevare due o più caratteri è interessante studiare la relazione tra questi caratteri
• Esistono diversi tipi di relazioni statistiche e diversi indici che ne forniscono la misura
• Durante l’accrescimento si possono analizzare le variazioni del peso e della statura considerate singolarmente
• Può essere necessario accertare se i due caratteri antropometrici si modificano insieme cioè se a variazioni del peso corrispondono variazioni della statura e viceversa
![Page 3: La ricerca delle relazioni tra fenomeni. Analisi della dipendenza concetti generali Oltre alla variabilità di un solo fenomeno si può esaminare la variabilità](https://reader036.vdocuments.net/reader036/viewer/2022062512/5542eb66497959361e8d170e/html5/thumbnails/3.jpg)
Le relazioni tra variabili
• Per definire il tipo di relazione occorre studiare come varia una variabile rispetto all’altra
• Tra due caratteri X e Y vi può essere
concordanzaconcordanza quando alla variazione positiva dell’uno corrisponde
una variazione positiva dell’altro
discordanza discordanza quando alla variazione positiva dell’uno corrisponde
una variazione negativa dell’altro
costanza costanza quando al variare dell’uno l’altro non varia ma rimane
costante
![Page 4: La ricerca delle relazioni tra fenomeni. Analisi della dipendenza concetti generali Oltre alla variabilità di un solo fenomeno si può esaminare la variabilità](https://reader036.vdocuments.net/reader036/viewer/2022062512/5542eb66497959361e8d170e/html5/thumbnails/4.jpg)
Il diagramma di dispersione
• Per studiare la forma della variabilità di due fenomeni si utilizzano i diagrammi cartesiani riportando i valori di uno dei due fenomeni sull’asse delle ascisse e quelli sull’asse delle ordinate.
• Nel piano delimitato dai due assi si possono individuare i singoli punti che corrispondono alla combinazione dei due valori considerati (nuvola di punti)
• Il grafico viene definito diagramma di dispersione
y . . . . . . .
x
![Page 5: La ricerca delle relazioni tra fenomeni. Analisi della dipendenza concetti generali Oltre alla variabilità di un solo fenomeno si può esaminare la variabilità](https://reader036.vdocuments.net/reader036/viewer/2022062512/5542eb66497959361e8d170e/html5/thumbnails/5.jpg)
La rappresentazione analitica
• La rappresentazione analitica di una variabile statistica determina una funzione matematica che rappresenta nel modo migliore la distribuzione del fenomeno
• Si sostituisce al diagramma rappresentativo della distribuzione una curva teorica
• Si tratta di determinare una funzione che passi tra i punti e, invece di rispecchiare fedelmente i valori osservati , rappresenti la distribuzione depurandola dagli errori casuali e/o sistematici
• L’adattamento della funzione ai dati consente di risolvere il problema dell’interpolazione che consente di stimare nuovi valori
![Page 6: La ricerca delle relazioni tra fenomeni. Analisi della dipendenza concetti generali Oltre alla variabilità di un solo fenomeno si può esaminare la variabilità](https://reader036.vdocuments.net/reader036/viewer/2022062512/5542eb66497959361e8d170e/html5/thumbnails/6.jpg)
Linea di interpolazione e linea di regressione • Si può far passare una linea tra i punti della nuvola definita linea interpolatrice che può evidenziare il tipo di relazione tra le variabili (retta di migliore adattamento)
concordanza discordanza indifferenza
• La linea interpolatrice che passa più vicina ai punti sul piano viene definita linea di regressione
![Page 7: La ricerca delle relazioni tra fenomeni. Analisi della dipendenza concetti generali Oltre alla variabilità di un solo fenomeno si può esaminare la variabilità](https://reader036.vdocuments.net/reader036/viewer/2022062512/5542eb66497959361e8d170e/html5/thumbnails/7.jpg)
Le fasi della rappresentazione analitica
• Scelta del tipo di funzione si deve formulare un modello matematico che fornisca una
descrizione soddisfacente del fenomeno in esame( es. esame
visivo dei dati)
• Calcolo dei parametri incogniti
• Verifica della bontà dell’adattamento
![Page 8: La ricerca delle relazioni tra fenomeni. Analisi della dipendenza concetti generali Oltre alla variabilità di un solo fenomeno si può esaminare la variabilità](https://reader036.vdocuments.net/reader036/viewer/2022062512/5542eb66497959361e8d170e/html5/thumbnails/8.jpg)
Retta di regressione di y su x• Tracciare una retta interpolatrice (retta di migliore adattamento)
significa determinare l’equazione di una retta che meglio si adatti alla nuvola di punti
• Una retta presenta un buon adattamento rispetto a una generica nuvola di punti quando rende piccolo l’errore totale
Y
yi
yi
x1 x2 xi X
![Page 9: La ricerca delle relazioni tra fenomeni. Analisi della dipendenza concetti generali Oltre alla variabilità di un solo fenomeno si può esaminare la variabilità](https://reader036.vdocuments.net/reader036/viewer/2022062512/5542eb66497959361e8d170e/html5/thumbnails/9.jpg)
Retta di regressione di y su x• L’errore totale è la distanza verticale dal valore osservato y alla
linea interpolante• (yi – yi) in cui yi è il valore interpolato di y
Y
yi
yi
x1 x2 xi X
![Page 10: La ricerca delle relazioni tra fenomeni. Analisi della dipendenza concetti generali Oltre alla variabilità di un solo fenomeno si può esaminare la variabilità](https://reader036.vdocuments.net/reader036/viewer/2022062512/5542eb66497959361e8d170e/html5/thumbnails/10.jpg)
• L’equazione generica di una retta che meglio si adatta alla nuvola di punti è del tipo
y = a + b x
Dove y è la variabile dipendente
x è la variabile indipendente
a è il punto di intersezione della retta sull’asse delle Y(ordinate)
b è il punto di inclinazione della retta, coefficiente angolare della
retta (pendenza della retta)
Il parametro b si chiama coefficiente di regressione e fornisce la variazione che in media subisce la variabile dipendente quando la
variabile indipendente subisce un incremento unitario
Equazione della retta
![Page 11: La ricerca delle relazioni tra fenomeni. Analisi della dipendenza concetti generali Oltre alla variabilità di un solo fenomeno si può esaminare la variabilità](https://reader036.vdocuments.net/reader036/viewer/2022062512/5542eb66497959361e8d170e/html5/thumbnails/11.jpg)
Il coefficiente di regressione• Partendo dalla relazione y = a + b x
Es. X=0 risulta y0 = a
X =1 risulta y1 = a + b
La variabile dipendente è aumentata di b quando la variabile indipendente è aumentata di una unità
Il coefficiente di regressione può essere assunto come misura di dipendenza in media della Y alla X
Se il coefficiente è positivo (b>0) ad un incremento di X corrisponde un incremento di Y (concordanza)
Se è negativo (b<0) ad un incremento di X corrisponde un
decremento della Y (discordanza)
![Page 12: La ricerca delle relazioni tra fenomeni. Analisi della dipendenza concetti generali Oltre alla variabilità di un solo fenomeno si può esaminare la variabilità](https://reader036.vdocuments.net/reader036/viewer/2022062512/5542eb66497959361e8d170e/html5/thumbnails/12.jpg)
Metodo dei minimi quadrati• Per determinare i valori di a e di b si fa ricorso al metodo dei minimi
quadrati
• Consente di individuare, tra i punti empirici ottenuti dalle rilevazioni, la retta che minimizza le distanze- calcolate sulle verticali dell’asse delle ascisse – tra i valori empirici e quelli teorici che giacciono su di essa
(yi – yi )2 = minimo
yi = le ordinate empiriche (le ordinate dei punti che sono rappresentati sul diagramma di dispersione)
yi = le ordinate teoriche (le ordinate dei punti che giacciono sulla retta)
(yi – yi ) =lo scarto generico (la distanza verticale tra i valori empirici e quelli teorici)
n
i 1
![Page 13: La ricerca delle relazioni tra fenomeni. Analisi della dipendenza concetti generali Oltre alla variabilità di un solo fenomeno si può esaminare la variabilità](https://reader036.vdocuments.net/reader036/viewer/2022062512/5542eb66497959361e8d170e/html5/thumbnails/13.jpg)
Calcolo della retta di regressione
• Attraverso il metodo dei minimi quadrati si ottengono i valori di a e di b (y = a + bx)
a = y – bx con x = media di x y = media di y
La quantità al numeratore prende il nome di codevianza tra x e y
La quantità al denominatore è la devianza di x che rappresenta il numeratore della varianza
)(
),(
)(
))((
1
2
1
XDEV
YXCOD
xx
yyxxb
n
ii
n
iii
![Page 14: La ricerca delle relazioni tra fenomeni. Analisi della dipendenza concetti generali Oltre alla variabilità di un solo fenomeno si può esaminare la variabilità](https://reader036.vdocuments.net/reader036/viewer/2022062512/5542eb66497959361e8d170e/html5/thumbnails/14.jpg)
Analisi della regressioneNella tabella sono riportati i valori assunti da due variabili quantitative
(età e pressione sistolica) misurate in 8 soggetti
Soggetto n.° Xi età (anni) Yi PAS
1 22 131
2 28 114
3 35 121
4 47 111
5 51 130
6 56 145
7 67 176
8 81 217
Di quanto varia la pressione sistolica all’aumentare dell’età ?
L’analisi della regressione consente di rispondere a questa domanda
![Page 15: La ricerca delle relazioni tra fenomeni. Analisi della dipendenza concetti generali Oltre alla variabilità di un solo fenomeno si può esaminare la variabilità](https://reader036.vdocuments.net/reader036/viewer/2022062512/5542eb66497959361e8d170e/html5/thumbnails/15.jpg)
Analisi della regressionedi quanto aumenta mediamente la PAS con l’aumentare di ogni
anno di età ?
• a = y – bx
• b = 4255.62 / 2767.88 = 1.54
• a = 143.1 – (1.54 ● 48,4) = 68.56
• y= 68,56 + 1.54 x
• PAS = 68.56
L’intercetta è quel valore che assume la variabile dipendente quando quella indipendente è uguale a 0
• PAS = 68.56 + 1.54 età
• il coefficiente di regressione esprime quanto varia mediamente la variabile dipendente con il variare di un’unità della variabile indipendente
)(
),(
)(
))((
1
2
1
XDEV
YXCOD
xx
yyxxb
n
ii
n
iii
![Page 16: La ricerca delle relazioni tra fenomeni. Analisi della dipendenza concetti generali Oltre alla variabilità di un solo fenomeno si può esaminare la variabilità](https://reader036.vdocuments.net/reader036/viewer/2022062512/5542eb66497959361e8d170e/html5/thumbnails/16.jpg)
Definizione
• Si definisce come regressione la relazione statistica esistente tra due variabili legate da rapporto di causa ed effetto tali che, le variazioni dell’una determinano le variazioni dell’altra
• La variabile che si modifica in conseguenza dell’altra si dice dipendente mentre quella che ne determina le variazioni si definisce indipendente
• Indicando con x la variabile indipendente e con y la variabile dipendente si dice che y varia in funzione di x perché esiste una funzione matematica che permette di calcolare le variazioni di y per ogni determinata variazione di x
y = (f) x
![Page 17: La ricerca delle relazioni tra fenomeni. Analisi della dipendenza concetti generali Oltre alla variabilità di un solo fenomeno si può esaminare la variabilità](https://reader036.vdocuments.net/reader036/viewer/2022062512/5542eb66497959361e8d170e/html5/thumbnails/17.jpg)
Analisi della interdipendenza la correlazione
• L’analisi della regressione lineare mostra in che modo le variabili sono legate tra loro tanto da poter predire il valore di una variabile a partire dall’altra
• È importante esaminare il grado di tale relazione: se la relazione è molto debole non ha alcun senso utilizzare la variabile X per predire la variabile Y
• L’analisi della correlazione spesso assume un’importanza superiore a quella di regressione o, comunque, viene effettuata prima.
![Page 18: La ricerca delle relazioni tra fenomeni. Analisi della dipendenza concetti generali Oltre alla variabilità di un solo fenomeno si può esaminare la variabilità](https://reader036.vdocuments.net/reader036/viewer/2022062512/5542eb66497959361e8d170e/html5/thumbnails/18.jpg)
La correlazione
• Mentre con la regressione si stima una funzione (equazione di regressione), con l’analisi della correlazione si ottiene solo un numero (indice) che esprime quanto le variabili si muovono insieme
• Si cerca di studiare l’interdipendenza intesa come concordanza o discordanza: si vuole studiare se variando un carattere in un verso, anche l’altro carattere varia nello stesso senso o in senso contrario
L’indice sintetico da costruire mostrerà sia l’esistenza della relazione sia il grado di tale relazione
![Page 19: La ricerca delle relazioni tra fenomeni. Analisi della dipendenza concetti generali Oltre alla variabilità di un solo fenomeno si può esaminare la variabilità](https://reader036.vdocuments.net/reader036/viewer/2022062512/5542eb66497959361e8d170e/html5/thumbnails/19.jpg)
Correlazione nulla Correlazione positiva
Correlazione negativa
![Page 20: La ricerca delle relazioni tra fenomeni. Analisi della dipendenza concetti generali Oltre alla variabilità di un solo fenomeno si può esaminare la variabilità](https://reader036.vdocuments.net/reader036/viewer/2022062512/5542eb66497959361e8d170e/html5/thumbnails/20.jpg)
Analisi della correlazione
Nella tabella sono riportati i valori assunti da due variabili quantitative (età e
pressione sistolica) misurate in 8 soggettiSoggetto n.° Xi età (anni) Yi PAS
1 22 131
2 28 114
3 35 121
4 47 111
5 51 130
6 56 145
7 67 176
8 81 217
• Età e pressione tendono ad essere associate?
• All’aumentare di una delle due variabili varia anche l’altra?
• In caso affermativo all’aumentare di una variabile l’altra aumenta o diminuisce?
L’analisi della correlazione consente di rispondere a queste domande
![Page 21: La ricerca delle relazioni tra fenomeni. Analisi della dipendenza concetti generali Oltre alla variabilità di un solo fenomeno si può esaminare la variabilità](https://reader036.vdocuments.net/reader036/viewer/2022062512/5542eb66497959361e8d170e/html5/thumbnails/21.jpg)
Correlazione lineare
• Il coefficiente di correlazione lineare di Bravais-Pearson misura la relazione lineare esistente tra i caratteri X e Y rilevati sulle N unità statistiche
• Il coefficiente di correlazione r può assumere valori che vanno da +1 a -1 passando per 0. La correlazione perfetta tra due variabili è espressa sia da +1 che da -1
• Quando una variabile aumenta all’aumentare dell’altra la correlazione è positiva; quando invece diminuisce all’aumentare dell’altra la correlazione è negativa
2
_2
_
__
)()(
)()(
)devianza(y )devianza(x
y)(x,codevianza
yyxx
yyxxr
![Page 22: La ricerca delle relazioni tra fenomeni. Analisi della dipendenza concetti generali Oltre alla variabilità di un solo fenomeno si può esaminare la variabilità](https://reader036.vdocuments.net/reader036/viewer/2022062512/5542eb66497959361e8d170e/html5/thumbnails/22.jpg)
Calcolo coefficiente di correlazione
• es. E’ stato rilevato il peso in e la statura su 10 unità. Il ricercatore rappresenta un diagramma di dispersione per verificare se l’area coperta dai punti sia approssimabile a una retta. L’analisi visiva mostra che all’aumentare del peso la statura aumenta in modo quasi lineare e viceversa
statura (x,cm.) peso (y,g) (y-x)cm (y-y)g. (x-x) (y-y) (x-x)2 cm2 (y-y)2 g.2
31 7.8 -5.9 -2.6 15.2 34.8 6.7
32 8.3 -4.9 -2.1 10.2 24.0 4.3
33 7.6 -3.9 -2.8 10.8 15.2 7.7
34 9.1 -2.9 -1.3 3.7 8.4 1.6
35 9.6 -1.9 -0.8 1.5 3.6 0.3
35 9.8 -1.9 -0.6 4.1 3.6 2.0
40 11.8 3.1 1.4 4.4 9.6 2.0
41 12.1 4.1 1.7 7.1 16.8 3.0
42 14.7 5.1 4.3 22.0 26.0 18.7
46 13.0 9.1 2.6 23.8 82.8 6.9
369 103.8 0.0 0.0 99.9 224.9 51.8
![Page 23: La ricerca delle relazioni tra fenomeni. Analisi della dipendenza concetti generali Oltre alla variabilità di un solo fenomeno si può esaminare la variabilità](https://reader036.vdocuments.net/reader036/viewer/2022062512/5542eb66497959361e8d170e/html5/thumbnails/23.jpg)
Calcolo del coefficiente
• Il coefficiente di correlazione è calcolato a partire dalle coppie di valori osservati
• Si calcola la media di entrambe le variabili
• Si calcolano le deviazioni di ogni singola osservazione dalla propria media, sia per la variabile x che per la variabile y
• Se le due variabili sono positivamente associate, una deviazione di segno positivo per la x tenderà a corrispondere ad una deviazione positiva per la y e, viceversa, una negativa per la x si assocerà ad una negativa per la y
• In entrambi i casi il prodotto delle due deviazioni sarà una quantità positiva. Se le due variabili sono negativamente associate, quando una avrà una deviazione positiva, l’altra tenderà ad avere una negativa e viceversa così che il prodotto delle deviazioni tenderà ad essere una quantità negativa
![Page 24: La ricerca delle relazioni tra fenomeni. Analisi della dipendenza concetti generali Oltre alla variabilità di un solo fenomeno si può esaminare la variabilità](https://reader036.vdocuments.net/reader036/viewer/2022062512/5542eb66497959361e8d170e/html5/thumbnails/24.jpg)
Calcolo coefficiente di correlazione
• La tabella per il calcolo di r riportaN=10, X = ΣX/n =369/1036.9 cm.;
Y = ΣY/n=103. 8 /10=10.38 g.
Pertanto Σ(X-X)● (Y-Y)=99,9 g. cm. ; Σ(X-X)2=224.9 cm.2
Σ(Y-Y)2=51.8 g.2
Sostituendo i numeri alla definizione di r si ottiene
che rappresenta una ottima correlazione positiva
925.08.519.224
9.99
r
![Page 25: La ricerca delle relazioni tra fenomeni. Analisi della dipendenza concetti generali Oltre alla variabilità di un solo fenomeno si può esaminare la variabilità](https://reader036.vdocuments.net/reader036/viewer/2022062512/5542eb66497959361e8d170e/html5/thumbnails/25.jpg)
Grado di associazione tra due variabili
rr grado di associazionegrado di associazione
>0,75 molto buono/eccellente
0.50 ┤0.75 moderato/ buono
0.25 ┤0,50 discreto
≤ 0.25 trascurabile
![Page 26: La ricerca delle relazioni tra fenomeni. Analisi della dipendenza concetti generali Oltre alla variabilità di un solo fenomeno si può esaminare la variabilità](https://reader036.vdocuments.net/reader036/viewer/2022062512/5542eb66497959361e8d170e/html5/thumbnails/26.jpg)
Attenzione!!• Tra due fenomeni esiste relazione statistica quando a variazioni di
un fenomeno corrispondono variazioni dello stesso segno o di segno opposto dell’altro fenomeno
• L’esistenza di una relazione statistica tra due fenomeni indica la possibilità non la necessità che vi sia un rapporto di causa ed effetto
• Due fenomeni si possono modificare insieme pur senza alcuna dipendenza tra loro perché entrambi possono dipendere da un terzo fenomeno non incluso nello analisi della relazione
Mortalità cancro al polmone fumo sigarette, inquinamento...
Mortalità cancro al polmone n.° automobili circolanti
Terzo fattore
Correlazione spuria
![Page 27: La ricerca delle relazioni tra fenomeni. Analisi della dipendenza concetti generali Oltre alla variabilità di un solo fenomeno si può esaminare la variabilità](https://reader036.vdocuments.net/reader036/viewer/2022062512/5542eb66497959361e8d170e/html5/thumbnails/27.jpg)
Coefficiente di determinazione
• Si dice che esiste regressione lineare quando alle variazioni della variabile indipendente x corrispondono variazioni proporzionali della variabili dipendente y
• La forma della regressione è rappresentata dalla retta di regressione ed esiste una funzione matematica che permette di calcolare le variazioni di y per ogni determinata variazione di x
• Per valutare la bontà dell’adattamento della funzione lineare ai punti empirici si utilizza la misura definita coefficiente di determinazione
• r2 è un indice di accostamento della retta di regressione alla nuvola dei punti ed esprime quanta parte di varianza di una variabile è “spiegata” dalla variabilità dell’altra. Assume valori nell’intervallo (0,1)
22
)()(
)(
YDEVXDEV
XCODr
![Page 28: La ricerca delle relazioni tra fenomeni. Analisi della dipendenza concetti generali Oltre alla variabilità di un solo fenomeno si può esaminare la variabilità](https://reader036.vdocuments.net/reader036/viewer/2022062512/5542eb66497959361e8d170e/html5/thumbnails/28.jpg)
Coefficiente di determinazione
• Nell’esempio precedente il coefficiente di correlazione
r = 0,92
• Il coefficiente di determinazione
r2= 0,922= 0,85 = (85%)
Ne consegue che 100 – 85= 15% della variazione del peso non è
spiegabile con la variazione dell’altezza