corelații iregresii -...
TRANSCRIPT
Sorana D. BOLBOACĂ Curs 1
30.04.20
14
1
Corelații și Regresii
Sorana D. BOLBOACĂ Curs 1
30.04.20
14
2Cuprins
» Corelația: Definiție & formule de calcul, teste de semnificație
» Analiza de regresie: clasificare, regresia liniară simplă
Sorana D. BOLBOACĂ Curs 1
30.04.20
14
3
1. Direcția• Pozitivă (+)• Negativă (‐)
2. Gradul de asociere• Între –1 şi 1 • Valoarea absolută semnifică puterea asocierii
Forma• Lineară• Nelineară
Corelația: 3 caracteristici
Corelațiile se aplică pe 2 variabile
Sorana D. BOLBOACĂ Curs 1
30.04.20
14
4
0.0
6.7
13.3
20.0
0.0 4.0 8.0 12.0
C1 vs C2
C1
C2
0.0
40.0
80.0
120.0
0.0 83.3 166.7 250.0
C1 vs C2
C1C
2
Pozitivă
Valori mari ale lui X se asociază cu valori mari ale lui YValori mici ale lui X se asociază cu valori mici ale lui Y
Valori mari ale lui X se asociază cu valori mici ale lui YValori mici ale lui X se asociază cu valori mari ale lui YEx. Viteza şi acurateţea
Negativă
Corelația: 1. direcția
Sorana D. BOLBOACĂ Curs 1
30.04.20
14
5
0.0
6.7
13.3
20.0
0.0 4.0 8.0 12.0
C1 vs C2
C1
C2
0.0
40.0
80.0
120.0
0.0 4.0 8.0 12.0
C1 vs C2
C1
C2
Puternică Slabă(nor de puncte difuz)
Corelația: 2. Gradul asocierii
Sorana D. BOLBOACĂ Curs 1
30.04.20
14
6
Corelația: 3. Forma ‐ Liniară
http://www.comfsm.fm/~dleeling/health/pedometers.html
Sorana D. BOLBOACĂ Curs 1
30.04.20
14
7
Corelația: 3. Forma ‐ Neliniară
http://www.studia.ubbcluj.ro/download/pdf/595.pdf
Sorana D. BOLBOACĂ Curs 1
30.04.20
14
8
» Tehnică statistică care măsoară şi descrie gradul de asociere lineară dintre două variabile cantitative continue normal distribuite
Corelația Pearson: Definiție
Grafic de tip nor de puncte
Sorana D. BOLBOACĂ Curs 1
30.04.20
14
9
< Media lui X > Media lui X
> Media lui Y > Media lui Y
< Media lui X > Media lui X
< Media lui Y < Media lui Y
Media lui Y
Media lui X
Produsul ))(( YYXX −− Pentru o asociere pozitivă puternică, produsul va avea o valoare mare pozitivă
Asocierea
Sorana D. BOLBOACĂ Curs 1
30.04.20
14
10
< Media lui X > Media X
> Media lui Y > Media Y
< Media lui X > Media lui X
< Media lui Y < Media lui Y
Media lui Y
Media lui X
Produsul ))(( YYXX −− Pentru o asociere puternică negativă, produsul va avea o valoare mare negativă
Asocierea
Sorana D. BOLBOACĂ Curs 1
30.04.20
14
11
< Media lui X > Media lui X
> Media lui Y > Media lui Y
< Media lui X > Media lui X
< Media lui Y < Media lui Y
Media lui Y
Media lui X
Produsul ))(( YYXX −− Pentru o asociere slabă, valoarea produsului este fie pozitivă fie negativă
Asocierea
Sorana D. BOLBOACĂ Curs 1
30.04.20
14
12
Coeficientul de corelație PearsonSimbol: r, R
Ia valori între ‐1 şi +1 indicând puterea (interpretăm valoarea coeficientului) şi direcția (interpretăm semnul coeficientului) asocierii lineare.Valoarea absolută indică puterea asocieriiDirecția asocierii este dată de semnul coeficientului» + (direct proporțional)»‐ indică (invers proporțional)
( )( )( ) ( )∑∑∑
−−
−−=
22YYXX
YYXXr
Sorana D. BOLBOACĂ Curs 1
30.04.20
14
13
Coeficientul de corelație PearsonAsumpții:
1.Erorile datelor sunt independente
2.Există o relație de liniaritate între cele două variabile de interes
3.Variabilele urmează o distribuție normală bivariată
http://withfriendship.com/user/cyborg/multivariate‐normal‐distribution.php
Sorana D. BOLBOACĂ Curs 1
30.04.20
14
14
Femur Humerus
A 38 41
B 56 63
C 59 70
D 64 72
E 74 84
Mean 58.2 66.00
SSX SSY SP
)( XX− )( YY− 2)( XX− 2)( YY− ))(( YYXX −−
YXSSSSSP
=r
Coeficientul de corelație Pearson
Sorana D. BOLBOACĂ Curs 1
30.04.20
14
15
Femur Humerus
A 38 41 ‐20.2 ‐25 408.04 625 505
B 56 63 ‐2.2 ‐3 4.84 9 6.6
C 59 70 0.8 4 .64 16 3.2
D 64 72 5.8 6 33.64 36 34.8
E 74 84 15.8 18 249.64 324 284.4
mean 58.2 66.00 696.8 1010 834
SSX SSY SP
)( XX− )( YY− 2)( XX− 2)( YY− ))(( YYXX −−
r = 0.99
Coeficientul de corelație Pearson
Sorana D. BOLBOACĂ Curs 1
30.04.20
14
16
Coeficientul de corelație Pearson: Interpretare»O măsură a puterii asocierii: punctele din grafic se aglomerează în jurul unei linii?
»O măsură a direcției asocierii: pozitivă sau negativă?»Reguli empirice de interpretare a coeficientului de corelație: Colton [Colton T. Statistics in Medicine. LittleBrown and Company, New York, NY 1974] :
+ R ⊂ [‐0.25 to +0.25] → Nu există nici o relație+ R ⊂ (0.25 to +0.50] ∪ (‐0.25 to ‐0.50] → relație slabă+ R ⊂ (0.50 to +0.75] ∪ (‐0.50 to ‐0.75] → relație moderată+ R ⊂ (0.75 to +1) ∪ (‐0.75 to ‐1) → relație puternică
Sorana D. BOLBOACĂ Curs 1
30.04.20
14
17
Coeficientul de corelație Pearson: Interpretare» Valoarea p este probabilitatea ca valoarea coeficientului de corelație să fie egală cu zero (ipoteza nulă).
» Dacă probabilitatea este mai mică decât nivelul de semnificație (ex. p < 0.05) → coeficientul de corelație este semnificativ statistic.
Coeficientulde corelație
p-value
Volumul eșantionului
Sorana D. BOLBOACĂ Curs 1
30.04.20
14
18
Coeficientul de corelație al rangurilor Spearman»Se poate aplica pe orice tip de variabile»Nu necesită asumpția distribuției normale bivariate a celor 2 variabile de interes
»Simbol: ρ
Sorana D. BOLBOACĂ Curs 1
30.04.20
14
19
Coeficientul de corelație al rangurilor Spearman» Semnul coeficientului de corelație Spearman indică direcția asocierii (invers proporționale pentru semnul ‐şi direct proporțional pentru semnul +) dintre variabilele investigate
» ρ =1 → relația dintre cele două variabile investigate este monotonă . N.B. Nu va da un coeficient de corelație Pearson egal cu 1.
19
Sorana D. BOLBOACĂ Curs 1
30.04.20
14
20
Coeficientul de determinare (r2/R2)»Valoarea covariației raportat la volumul total al variației
»Procentul din variația totală care este explicată de variabilele independente
»Exemplu�Dacă r = 0.80→ variabilele independente explică 64% din variabilitatea variabilei dependente
Sorana D. BOLBOACĂ Curs 1
30.04.20
14
21
Proprietățile coeficientului de corelație»O statistică standardizată – nu se modifică dacă schimbăm unitățile de măsură ale variabilelor.
»Valoarea este identică dacă corelăm pe X cu Y sau pe Y cu X.
»Valoarea este destul de instabilă pentru nmic»Vulnerabil la valori extreme»Are o distribuție asimetrică
Sorana D. BOLBOACĂ Curs 1
30.04.20
14
22
Analiza asocierii: exemplu
https://bib.irb.hr/datoteka/305660.Reprint_Dental_Materials.pdf
Sorana D. BOLBOACĂ Curs 1
30.04.20
14
23
Analiza de regresie
»Regresia liniară ← variabila dependentă normaldistribuită
» Regresia logistică ← variabila de răspuns binară
» Regresia Cox ← variabila de răspuns este un eveniment dependent de timp
Sorana D. BOLBOACĂ Curs 1
30.04.20
14
24Modele de regresie: Exemple
Sorana D. BOLBOACĂ Curs 1
30.04.20
14
25
Regresia liniară: asumpții»Erorile măsurătorilor sunt independente
»Regresia depinde de identificarea corectă a modelului relațional
»Nu există erori în măsurarea valorilor variabilei dependente
»Variația valorilor lui Y este aceeaşi pentru toate valorile lui X
»Valorile Y urmează o distribuție normală
Sorana D. BOLBOACĂ Curs 1
30.04.20
14
26
Regresia liniară simplă»Dacă există o relație de liniaritate între variabilele de interes putem identifica o ecuație simplă pentru a prezice o variabilă cunoscând cealaltă variabilă
»Variabila rezultat (1) = variabila Y»Variabila predictor (1) = variabila X»Exemplu: transformarea în grade Fahrenheitcunoscând valoarea în grade Celsius:
F = 32 + 1.8°CAceastă formulă dă o line perfectă
Sorana D. BOLBOACĂ Curs 1
30.04.20
14
27
Regresia liniară simplă
Exemplu: transformarea în grade Fahrenheit cunoscând valoarea în grade Celsius:
F = 32 + 1.8ºC
Sorana D. BOLBOACĂ Curs 1
30.04.20
14
28
Regresia liniară simplăCoeficientul de corelație
Coeficientul de determinare
Coeficientul de determinare ajustat cu volumul eșantionului
Eroarea standard
Volumul eșantionului
Sorana D. BOLBOACĂ Curs 1
30.04.20
14
29
Regresia liniară simplăCoeficienții modelului de
regresieŶ = 32 + 1,8*(Grade Celsius)
Valoarea inferioară și superioară a intervalului de confidență a
coeficienților
H0: coeficienții = 0 vs. H1: coeficienții ≠ 0
Semnificație lui t Stat
Sorana D. BOLBOACĂ Curs 1
30.04.20
14
30Regresia multiplă
» 1 variabilă răspuns & k predictori – Cum selectăm predictorii?o Variabile răspuns diferite: continue, binare, dependente de timp
» Reguli: o 5 ‐ 20 variabile
o Cel puțin 10 subject pentru fiecare predictor
o 5 variabile × 10 subiecți per variabilă → n = 50
» Scop:o Identificarea predictorilor – cu cât mai puțini cu atât mai bine
o Putere de predicție cât mai mare
o Stratificarea necesită un volum mai mare de eșantion
Sorana D. BOLBOACĂ Curs 1
30.04.20
14
31Regresia multiplă
Sorana D. BOLBOACĂ Curs 1
30.04.20
14
32
Diagnosticul modelului de regresie
Sorana D. BOLBOACĂ Curs 1
30.04.20
14
33
http://cmapskm.ihmc.us/rid=1052458963987_2102937354_8648/
Sorana D. BOLBOACĂ Curs 1
30.04.20
14
34De reținut!
» Analiza de corelație și analiza de regresie se aplică în funcție de tipul variabilei.
» Interpretarea corectă a coeficientului de corelație se face prin valoarea p asociată testului de semnificație.
» Nu interpretați coeficienții de corelație după reguli empirice (un coeficient de corelație de 0,3 este nesemnificativ statistic pentru un eșantion de colummic și semnificativ statistic în cazul unui eșantion de volum mare).
» Care model e cel mai bun? – Diagnosticul modelului de regresie!