stec - capitolul 5

23
86 Capitolul 5 – Analiza corelaţiei dintre variabile Aşa cum am văzut la începutul acestui curs de statistică şi econometrie, variabilele economice pot fi de mai multe tipuri, una dintre clasificări împărţindu-le în variabile cantitative (exprimate numeric) şi variabile calitative (care surprind anumite caracteristici ale unităţilor statistice sau apartenenţa acestora la o anumită categorie). La rândul lor, variabilele calitative pot fi nominale sau ordinale. Variabilele calitative nominale surprind caracteristici care nu implică existenţa unei relaţii de ordine între valori (de exemplu, culoarea ochilor unui individ), în timp ce variabilele calitative ordinale presupun existenţa unei ierarhii între valorile posibile (de exemplu, nivelul studiilor unui respondent, în general exprimat prin „ultima școală absolvită”). După cardinalul mulţimii observaţiilor, există variabile binare (numite și alternative, dihotomice sau booleene), pentru care spaţiul de observaţii e compus din două valori (de exemplu, 0/1, masculin/feminin, rural/urban), variabile cu un număr finit de valori numerice (aici se încadrează variabilele calitative şi cele cantitative discrete) şi variabile cantitative continue, cu mulţimea specifică a valorilor individuale reprezentată de un interval de numere reale. În cele ce urmează vom analiza legăturile care pot avea loc între două variabile (doi indicatori), pe care le vom nota X şi Y. O serie de date care surprinde evoluţia concomitentă a două variabile este numită serie bivariată, în cazul nostru seria bivariată fiind deci formată din variabilele X şi Y observate împreună. De exemplu, informația privind X și Y poate fi colectată de la același unitate statistică (individ sau firmă). Trebuie subliniat faptul că, în general, metodele de analiză a corelaţiei ajută la evidenţierea intensităţii legăturii dintre două variabile, fiind însă mai puţin utile în ilustrarea cauzalităţii, deci pentru a arăta faptul că X îl determină pe Y sau invers. Cauzalitatea (direcţia legăturii dintre variabile) este deseori sugerată de teoria economică sau de succesiunea evenimentelor. De exemplu, volumul vânzărilor de bunuri şi servicii depinde de venitul consumatorilor, productivitatea muncii depinde de înzestrarea tehnică, complexitatea contractelor comerciale depinde de expunerea părţilor la comportamentul oportunist al părților etc. Una din metodele de testare şi măsurare a legăturilor de cauzalitate o reprezintă analiza de regresie. Această metodă reprezintă unul dintre principalele instrumente ale econometriei și va fi prezentată în capitolul următor. Ceea ce trebuie reţinut în contextul capitolului de față este faptul că existenţa unei corelaţii între două variabile, în general reprezentate prin variabile aleatoare (deci caracterizate de o anumită lege de distribuție), nu implică în mod necesar și o relaţie de tip cauză-efect între acestea.

Upload: zainea-mihai-alexandru

Post on 03-Dec-2015

43 views

Category:

Documents


1 download

DESCRIPTION

STEC5

TRANSCRIPT

86

Capitolul 5 – Analiza corelaţiei dintre variabile

Aşa cum am văzut la începutul acestui curs de statistică şi econometrie,

variabilele economice pot fi de mai multe tipuri, una dintre clasificări împărţindu-le

în variabile cantitative (exprimate numeric) şi variabile calitative (care surprind

anumite caracteristici ale unităţilor statistice sau apartenenţa acestora la o anumită

categorie). La rândul lor, variabilele calitative pot fi nominale sau ordinale.

Variabilele calitative nominale surprind caracteristici care nu implică existenţa unei

relaţii de ordine între valori (de exemplu, culoarea ochilor unui individ), în timp ce

variabilele calitative ordinale presupun existenţa unei ierarhii între valorile posibile

(de exemplu, nivelul studiilor unui respondent, în general exprimat prin „ultima

școală absolvită”).

După cardinalul mulţimii observaţiilor, există variabile binare (numite și

alternative, dihotomice sau booleene), pentru care spaţiul de observaţii e compus

din două valori (de exemplu, 0/1, masculin/feminin, rural/urban), variabile cu un

număr finit de valori numerice (aici se încadrează variabilele calitative şi cele

cantitative discrete) şi variabile cantitative continue, cu mulţimea specifică a valorilor

individuale reprezentată de un interval de numere reale.

În cele ce urmează vom analiza legăturile care pot avea loc între două

variabile (doi indicatori), pe care le vom nota X şi Y. O serie de date care surprinde

evoluţia concomitentă a două variabile este numită serie bivariată, în cazul nostru

seria bivariată fiind deci formată din variabilele X şi Y observate împreună. De

exemplu, informația privind X și Y poate fi colectată de la același unitate statistică

(individ sau firmă).

Trebuie subliniat faptul că, în general, metodele de analiză a corelaţiei ajută

la evidenţierea intensităţii legăturii dintre două variabile, fiind însă mai puţin utile în

ilustrarea cauzalităţii, deci pentru a arăta faptul că X îl determină pe Y sau invers.

Cauzalitatea (direcţia legăturii dintre variabile) este deseori sugerată de teoria

economică sau de succesiunea evenimentelor. De exemplu, volumul vânzărilor de

bunuri şi servicii depinde de venitul consumatorilor, productivitatea muncii depinde

de înzestrarea tehnică, complexitatea contractelor comerciale depinde de expunerea

părţilor la comportamentul oportunist al părților etc.

Una din metodele de testare şi măsurare a legăturilor de cauzalitate o

reprezintă analiza de regresie. Această metodă reprezintă unul dintre principalele

instrumente ale econometriei și va fi prezentată în capitolul următor. Ceea ce

trebuie reţinut în contextul capitolului de față este faptul că existenţa unei corelaţii

între două variabile, în general reprezentate prin variabile aleatoare (deci

caracterizate de o anumită lege de distribuție), nu implică în mod necesar și o relaţie

de tip cauză-efect între acestea.

87

5.1 Testul χ2

În cele ce urmează, ne vom referi la testul χ2 (hi pătrat) dezvoltat în anul 1900

de Karl Pearson (matematician și statistician britanic, 1857-1936), test care

evaluează legătura dintre două variabile calitative (care pot fi atât nominale, cât și

ordinale). Facem precizarea că în teoria statistică au fost dezvoltate mai multe teste

hi pătrat, noi prezentându-l aici pe cel propus de Pearson.

Întrucât toate testele χ2 sunt bazate pe distribuția cu același nume, secțiunea

de mai jos constituie o scurtă prezentare a distribuției χ2, una dintre cele mai folosite

distribuții din teoria probabilităților și statistica inferențială.

Material opțional

Dacă X1,X2,...,Xk sunt k variabile aleatoare distribuite N(0,1) şi independente,

atunci variabila Q=X12+X2

2+...+Xk

2 urmează o lege χ2 cu k grade de libertate. Spre

deosebire de distribuţia normală, care este caracterizată de doi parametri (media şi

dispersia variabilei), distribuţia χ2 are un singur parametru, un număr întreg pozitiv

ce reprezintă numărul gradelor de libertate (numărul variabilelor Xi).

Densitatea de repartiţie a distribuţiei χ2 este dată de funcţia f:R+→[0,1], unde

.0,)2/(2

1);( 2/)12/(

2/>

Γ= −− xex

kkxf xk

k

Simbolul Г reprezintă funcţia gama, definită astfel: ∫∞

−−=Γ0

1 .)( dtetz tz

Graficul densităţii de repartiţie a distribuţiei χ2 arată că, pentru k=1 sau 2,

densitatea de probabilitate este o funcţie descrescătoare. Pentru k≥3, graficul are

88

forma unui clopot mai mult sau mai puţin simetric în funcţie de mărimea lui k. Chiar

dacă nu este reprezentat în figura de mai sus, pentru valori relativ mari ale lui k,

peste 25, graficul densităţii de repartiţie χ2 se apropie de cel al distribuţiei normale.

Caracteristicile legii χ2: Dacă Q~χ2

k, atunci E(Q)=k şi V(Q)=2k.

Pentru distribuţia χ2 au fost construite tabele care, în funcţie de valoarea lui k

şi a unei constante χ2α, arată probabilitatea ca variabila X~ χ

2k, să fie mai mare decât

χ2

α. Practic, alegând valoarea χ2

α şi cunoscând numărul gradelor de libertate k,

tabelul distribuţiei χ2 indică P(X> χ2

α). Anexa 1 conţine tabelul distribuţiei χ2 pentru

k=1 până la k=100 și șapte niveluri uzuale de semnificație statistică.

Revenind la testul χ2 dezvoltat de Pearson, pentru ușurința expunerii acesta

va fi prezentat prin intermediul unui exemplu numeric. Înaintea acestui exemplu,

trebuie să menționăm faptul că testul χ2 dă rezultate de încredere dacă:

• variabilele calitative avute în vedere înregistrează un număr redus de

categorii de răspunsuri, dar totuși nu foarte mic;

• populația din care sunt prelevate unitățile individuale analizate este de

mărimi mari;

• numărul observaţiilor (a unităților individuale analizate) este ridicat;

• observațiile sunt prelevate în mod aleatoriu din populația de referință.

Ultimele trei cerințe de mai sus permit interpretarea valorilor observate ca

probabilități de apariție a categoriilor de răspuns.

Testul χ2 se aplică în general pentru variabilele calitative nominale, care nu

implică existenţa unei relaţii de ordine între diversele categorii, dar el poate fi folosit

și pentru variabile calitative ordinale. În fine, testul hi pătrat nu este recomandat a se

aplica în cazul în care tabelul observat (detalii mai jos) conţine, în oricare dintre

celulele sale, mai puţin de 5 observaţii.

Exemplu: Într-o anumită regiune se află în jur de un milion de persoane cu drept de

vot (deci o populație de mărimi mari). Pentru a studia legătura dintre participarea la

vot şi sexul indivizilor, presupunem că am extras un eşantion aleatoriu de 10.000 de

persoane cu drept de vot (prin urmare, avem de-a face cu un număr ridicat de

observații, extrase probabilistic). Indivizii au fost întrebați dacă au votat la ultimele

alegeri, pentru fiecare fiind indicat și sexul său. Rezultatele obţinute sunt prezentate

în tabelul de mai jos, care se numeşte tabelul observat (notat O).

Observat Bărbaţi Femei Total

Au votat 2.792 3.591 6.383

N-auvotat 1.486 2.131 3.617

Total 4.278 5.722 10.000

89

Prin acest exercițiu statistic, se dorește testarea ipotezei potrivit căreia sexul

indivizilor şi prezenţa la vot sunt variabile independente (necorelate). Această

ipoteză este deseori numită ipoteza nulă (notată H0). Alternativa acestei ipoteze este

notată H1 și reprezintă situația în care cele două variabile sunt corelate (sunt

dependente), ceea ce ar însemna că prezența la vot depinde de sexul indivizilor.

Ideea de bază a testului χ2 este aceea că, pentru două evenimente

independente A şi B, P(A∩B)=P(A)*P(B). Aceasta înseamnă că, pentru două

evenimente independente, probabilitatea de realizare concomitentă a celor două

evenimente (atât evenimentul A, cât și evenimentul B), este egală cu produsul

probabilităților celor două evenimente.

Pe baza tabelului observat se remarcă faptul că 42,78% din indivizii din

eşantion sunt bărbaţi, în timp ce 57,22% sunt femei (vezi valorile îngroșate și

subliniate de la baza tabelului anterior). Apoi, tabelul observat arată că 63,83% din

indivizii chestionaţi au votat la ultimele alegeri, în timp ce 36,17% nu au participat la

vot (valorile îngroșate și subliniate din dreapta tabelului observat). Folosind aceste

procentaje, putem calcula valorile aşteptate pentru fiecare din cele 4 categorii de

indivizi cu drept de vot: bărbaţi care au votat, bărbaţi care n-au votat, femei care au

votat și femei care n-au votat. Se poate construi astfel tabelul de mai jos, care se mai

numeşte şi tabelul aşteptat (E).

63,83%*42,78%*10.000=2.730,65≈2.731

63,83%*57,22%*10.000=3.652,35≈3.652

36,17%*42,78%*10.000=1.547,35≈1.547

36,17%*57,22%*10.000=2.069,65≈2.070

Tabelul aşteptat este construit pornind de la premisa că ipoteza H0 este

adevărată, fapt pentru care valorile așteptate ale celor 4 cazuri posibile sunt

determinate prin înmulțirea probabilităților inițiale. Altfel spus, tabelul așteptat

conţine frecvenţele absolute ce s-ar obţine în cazul în care sexul indivizilor ar fi un

factor independent de participarea acestora la vot (sexul și participarea la vot ar fi

necorelate, iar ipoteza H0 ar fi validă).

În continuare, raționamentul este următorul: dacă cele două tabele (observat

și așteptat) nu diferă în mod semnificativ, atunci vom spune că sexul şi prezenţa la

urne sunt variabile independente, pentru că tabelul așteptat a fost construit exact pe

baza acestei presupuneri. Dacă însă cele două tabele diferă în mod semnificativ unul

de celălalt, atunci vom spune că, în practică, sexul şi prezenţa la urne sunt variabile

corelate, dependente, ipoteza H0 fiind respinsă, în timp ce ipoteza H1este

considerată validă.

În exemplul de mai sus, o simplă privire asupra celor două tabele arată că

tabelul aşteptat este diferit de tabelul observat în practică. Rămâne de stabilit dacă

cele două tabele sunt diferite în mod semnificativ, sau diferențele sunt neglijabile.

Așteptat Bărbaţi Femei Total

Au votat 2.731 3.652 6.383

N-au votat 1.547 2.070 3.617

Total 4.278 5.722 10.000

90

Diferenţa dintre cele două tabele este calculată pe baza a patru componente,

fiecare dintre acestea cuantificând diferenţa dintre celulele corespunzătoare din cele

două tabele:

cij=(Oij-Eij)2/Eij, i=1,2, j=1,2,

unde Oij reprezintă valoarea observată în celula (i,j), în timp ce Eij reprezintă valoarea

aşteptată din aceeași celulă (i,j).

Astfel, c11=(2.792-2.731)2/2.731=1,3625;

c12=(3.591-3.652)2/3.652=1,0189;

c21=(1.486-1.547)2/1.547=2,4053;

c22=(2.131-2.070)2/2.070=1,7976,

Apoi, indicatorul (sau statistica) χ2 se calculează ca sumă a componentelor cij:

χ2=c11+c12+c21+c22=6,5843.

În fine, indicatorul χ2 este apoi comparat cu valoarea tabelată pentru distribuţia hi

pătrat cu k grade de libertate, unde k=(numărul rândurilor-1)*(numărul coloanelor-

1)=(numărul opțiunilor pentru X-1)*(numărul opțiunilor pentru Y-1). În cazul nostru,

k=(2-1)x(2-1)=1, întrucât tabelul observat are două rânduri și două coloane de date

(fiecare din cele două variabile calitative are doar câte două valori posibile).

Pentru comparație se folosește cel de-al doilea tabel prezentat în Anexa 1, cu

mențiunea că prima coloană a tabelului indică gradele de libertate (degrees of

freedom, prescurtat d.f.), ceea ce noi am notat prin k.

Pentru început, ne uităm în tabel la valoarea hi pătrat ce corespunde

numărului de grade de libertate și unui prag de semnificație 5% (deci nivelul uzual de

încredere în rezultate, 95%). În cazul nostru, această valoare este 3,84. Deoarece

6,5843>3,84, putem afirma că ipoteza nulă (H0) este respinsă, ceea ce înseamnă că,

cu o probabilitate de cel puțin 95% putem afirma că cele două variabile (sexul

individului şi prezenţa la urne) sunt corelate.

Mergând ceva mai departe, vedem că, pentru k=1, valoarea 5,02 corespunde

unui prag de 2,5%, iar valoarea 6,63 corespunde unuia de 1%. Întrucât valoarea

calculată anterior, χ2=6,5843, este situată între aceste două valori tabelate, spunem

că cu o probabilitate foarte ridicată, între 97,5% şi 99% (chiar mai apropiată de 99%),

în regiunea studiată, prezenţa la urne şi sexul individului sunt corelate (cele două

variabile sunt într-o relaţie de dependenţă). Mai mult, întrucât sexul respondentului

este o caracteristică exogenă, dată pentru fiecare individ, în timp ce prezența la urne

este o variabilă endogenă, ce ține de opțiunile acestuia, putem intui și direcţia

cauzalităţii: prezenţa la urne depinde de sexul persoanei cu drept de vot, şi nu invers

(datele de mai sus indică faptul că bărbaţii au fost prezenţi la vot într-o măsură mai

mare decât femeile).

91

În acest moment, trebuie făcută o precizare importantă: din punct de vedere

strict teoretic, testul χ2 nu ar trebui utilizat atunci când avem de-a face cu un singur

grad de libertate, așa cum se întâmplă atunci când testăm dependența dintre două

variabile ce iau doar câte două valori posibile (în acest caz, forma distribuției χ2 cu un

singur grad de libertate introduce o eroare de continuitate). Pentru a atenua erorile

pe care aplicarea testul χ2 le generează în acest caz, statisticianul englez Frank Yates

a sugerat corectarea termenilor cij de mai sus, formula propusă fiind următoarea:

cij=(|Oij-Eij|-0,5)2/Eij, i=1,2, j=1,2.

Prin urmare, din valoarea absolută a fiecărei diferențe (Oij-Eij) se scade 0,5,

ceea ce înseamnă că, dacă Oij-Eij=20, atunci corecția Yates conduce la |Oij-Eij|-

0,5=19,5, în timp ce pentru Oij-Eij=-20, corecția Yates conduce la |Oij-Eij|-0,5=19,5.

După această corecție, testul continuă după cum a fost indicat mai sus (se calculează

statistica χ2, care se compară apoi cu valoarea tabelată corespunzătoare și se decide

dacă ipoteza H0 este respinsă sau nu).

Utilitatea corecției propuse de Yates este pusă sub semnul întrebării de unii

statisticieni, mulți dintre aceștia considerând-o excesivă. Alți practicieni o consideră

însă utilă în ajustarea statisticii (indicatorului) χ2. Sugestia mea este să aplicați

această corecție atunci când aveți de-a face cu un singur grad de libertate.

În continuare, aplicăm corecția Yates asupra exemplului nostru:

O11-E11=2.792-2.731=61

|O11-E11|-0,5=61-0,5=60,5

c11=(|O11-E11|-0,5)2/E11=60,5

2/2.731=1,3403

O12-E12=3.591-3.652=-61

|O12-E12|-0,5=61-0,5=60,5

c12=(|O12-E12|-0,5)2/E12=60,5

2/3.652=1,0023

O21-E21=1.486-1.547=-61

|O21-E21|-0,5=61-0,5=60,5

c21=(|O21-E21|-0,5)2/E21=60,5

2/1.547=2,3660

O22-E22=2.131-2.070=61

|O22-E22|-0,5=61-0,5=60,5

c22=(|O22-E22|-0,5)2/E22=60,5

2/2.070=1,7682

χ2=c11+c12+c21+c22=6,4768.

Noua valoare a statisticii χ2 nu schimbă concluziile enunțate anterior, ipoteza

H0 este în continuare invalidată pentru pragul uzual de semnificație 5% (de fapt,

ipoteza H0 este respinsă chiar și pentru pragul de semnificație 2,5%, întrucât

6,4768>5,02).

92

Așteptat Au luat

vitamina C

Nuauluat

vitamina C

Total

Au răcit 19 18 37

Nuaurăcit 97 96 193

Total 116 114 230

Exercițiu: 230 de indivizi, aleși aleatoriu dintr-o populație mai largă, au fost

chestionați cu privire la starea lor de sănătate din această primăvară, fiind întrebați și

dacă au luat sau nu tablete de vitamina C în această perioadă. Tabelul de mai jos

reprezintă tabelul observat.

Ipoteza nulă (H0) pe care o testăm acum este cea potrivit căreia starea de

sănătate nu depinde de administrarea de tablete de vitamina C (cele două variabile

calitative de mai sus sunt independente).

Rezolvare: Chiar dacă numărul total de observații (230) nu este unul impresionant,

considerăm că valorile din tabel pot fi raportate la total și interpretate ca

probabilități de apariție a fenomenelor studiate (observațiile au fost extrase

aleatoriu, numărul de observații din cele patru celule nu este mai mic de 5).

Cele 37 de persoane care au răcit, indiferent dacă au luat sau nu tablete de

vitamina C, reprezintă 16,09% din totalul celor 230 de persoane observate. Prin

urmare, cele 193 de persoane care nu au răcit, indiferent daca au luat sau nu

vitamina C, reprezintă 83,91% din total. Cele 116 persoane care au luat tablete de

vitamina C în această primăvară, atât cele care au răcit, cât și cele care nu au răcit,

reprezintă 50,43% din numărul persoanelor observate, în timp ce persoanele care nu

au luat tablete de vitamina C în această primăvară reprezintă 49,57% din totalul

observațiilor (114/230).

Tabelul așteptat se determină prin multiplicarea corespunzătoare a acestor

probabilități, ținând cont și de numărul de persoane analizate:

E11=50,43%*16,09%*230=18,66≈19

E12=49,57%*16,09%*230=37-19=18

E21=50,43%*83,91%*230=116-19=97

E22=49,57%*83,91%*230=114-18=96

Testul hi pătrat va fi aplicat cu corecția Yates, întrucât numărul gradelor de

libertate este 1.

|O11-E11|-0,5=|15-19|-0,5=3,5

c11=(|O11-E11|-0,5)2/E11=3,5

2/19=0,6447

|O12-E12|-0,5=|22-18|-0,5=3,5

c12=(|O12-E12|-0,5)2/E12=3,5

2/18=0,6806

Observat Au luat

vitamina C

Nu au luat

vitamina C

Total

Au răcit 15 22 37

Nu au răcit 101 92 193

Total 116 114 230

93

|O21-E21|-0,5=|101-97|-0,5=3,5

c21=(|O21-E21|-0,5)2/E21=3,5

2/97=0,1263

|O22-E22|-0,5=|92-96|-0,5=3,5

c22=(|O22-E22|-0,5)2/E22=3,5

2/96=0,1276

χ2=c11+c12+c21+c22=1,5792

Pentru nivelul uzual de încredere de 5%, valoarea tabelată a statisticii χ2 este

3,84, valoare net superioară celei calculate de noi. Prin urmare, nu putem infirma

ipoteza H0, apreciind deci că administrarea de vitamina C și starea de sănătate sunt

independente (nu sunt corelate). Mai mult, putem spune că administrarea de

vitamina C nu îmbunătățește starea de sănătate. Uitându-ne în tabelul

corespunzător distribuției hi pătrat din Anexa 1, vedem că valoarea calculată mai sus

pentru statistica hi pătrat (1,5792) este situată între valorile tabelate pentru α=10%

și α=25%, mai apropiată de cea din urmă. Aceasta înseamnă că ipoteza nulă poate fi

respinsă cu o probabilitate situată în intervalul 75-90%, dar mai apropiată de 75%.

Acest nivel de încredere nu este însă de obicei acceptat în practica statistică…

Exerciţiu: Se cunosc următoarele date culese de la 250 de pacienți cu privire la

incidenţa a trei tipuri de malarie (A, B şi C) în trei regiuni tropicale (Asia, Africa,

America de Sud):

Asia Africa America de Sud Total

Malaria de tip A 31 14 45 90

Malaria de tip B 2 5 53 60

Malaria de tip C 53 45 2 100

Total 86 64 100 250

Folosind testul χ2, apreciaţi dacă există o legătură (o corelație) între tipul de

malarie şi zona geografică, făcând abstracţie de faptul că tabelul conţine celule cu

mai puţin de 5 observaţii (ceea ce poate afecta rezultatele acestui test).

Rezolvare: Ceea ce este prezentat mai sus este tabelul observat. Va trebui să

construim tabelul aşteptat și să construim statistica χ2, ce măsoară diferenţele dintre

cele două tabele. Corecția Yates nu mai este necesară, numărul gradelor de libertate

fiind 4 în acest caz. Pe baza tabelului distribuţiei hi pătrat din Anexa 1, va trebui apoi

să determinăm dacă diferenţele dintre tabelul observat și cel așteptat sunt

semnificative statistic.

Primul pas îl constituie calcularea probabilităţilor asociate fiecărei categorii

(tipuri de malarie, respectiv zonă geografică). Din tabelul de mai sus, vedem că

34,4% (86/250*100) din cazuri sunt observate în Asia, 25,6% sunt observate în Africa

94

(64/250*100), iar 40% sunt observate în America de Sud (100/250*100). Apoi,

vedem că 36% (90/250*100) din cazuri sunt de malarie de tip A, 24% (60/250*100)

sunt malarie de tip B, iar 40% (100/250*100) sunt de tip C.

În contextul ipotezei nule (H0), presupunând că tipul de malarie este

independent de zona geografică, tabelul aşteptat se determină prin înmulţirea

procentelor corespunzătoare de mai sus şi a numărului total de cazuri observate,

respectiv 250. De exemplu, numărul aşteptat de cazuri de malarie de tip A în Asia

este 34,4%*36%*250=30,96≈31. Apoi, numărul aşteptat de cazuri de malarie de tipul

A în Africa este 25,6%*36%*250=23,04≈23. Tabelul aşteptat este prezentat mai jos.

Asia Africa America de Sud Total

Malaria de tip A 31 23 36 90

Malaria de tip B 21 15 24 60

Malaria de tip C 34 26 40 100

Total 86 64 100 250

Se calculează apoi valorile cij=(Oij-Eij)2/Eij, unde Oij reprezintă valoarea

observată iar Eij valoarea aşteptată.

c11=(31-31)2/31=0

c12=(14-23)2/23=3,522

c13=(45-36)2/36=2,25

...

c33=(2-40)2/40=36,1

Statistica χ2 se calculează ca sumă a valorilor cij şi reprezintă o măsură a

diferenţei dintre tabelul observat şi cel aşteptat. În cazul nostru,

χ2=c11+c12+...+c33=125,27. Această valoare este apoi comparată cu valorile tabelate

pentru distribuţia χ2 cu k grade de libertate, unde k=(3-1)*(3-1)=4.

Din tabelul distribuţiei χ2 se observă că valoarea corespunzătoare lui k=4 şi

pragului de semnificație α=5% este 9,49, valoare net inferioară celei calculate de noi.

Prin urmare, suntem în măsură să infirmăm ipoteza H0 cu probabilitate 95%, ceea ce

înseamnă că incidența diverselor tipuri de malarie este corelată cu regiunile

geografice tropicale. De fapt, întrucât valoarea statisticii hi pătrat determinată mai

sus, respectiv 125,27, este superioară chiar și valorii tabelate corespunzătoare unui

prag de semnificație 0,1% (valoarea pentru 4 grade de libertate este 18,5),

respingem ipoteza nulă cu o probabilitate de cel puţin 99,9%. De exemplu, putem

afirma acum aproape cu certitudine că malaria de tip B apare preponderent în

zonele tropicale ale Americii de Sud, incidența acesteia în Africa și Asia fiind

întâmplătoare, în timp ce malaria de tip C nu apare în America de Sud decât pur

întâmplător.

95

Exerciţiu: Datele folosite în acest exerciţiu reprezintă greutatea la naştere a copiilor

născuţi între 1989 şi 1991 în statul american Pennsylvania, ca prime naşteri ale

femeilor de culoare cu vârsta sub 21 de ani şi necăsătorite. În cele ce urmează, o

greutate a nou-născutului sub 2500 de grame este considerată a fi greutate scăzută

la naştere, în timp ce o greutate peste 2500 de grame este considerată a fi

acceptabilă.

Folosiţi testul χ2 pentru a verifica dacă faptul că mama este fumătoare sau nu

are un impact asupra greutății la naştere a bebeluşului (în cazul unui răspuns

afirmativ, legătura de cauzalitate este evidentă: faptul că mama este sau nu

fumătoare influenţează greutatea la naştere a copilului, nu invers).

Greutate scăzută (<2500 g)

Greutate acceptabilă (>2500 g)

Total

Mamă fumătoare 249 1.305 1554

Mamă nefumătoare 1081 8.526 9607

Total 1330 9.831 11161

5.2 Metoda tabelului frecvenţelor (a tabelului de corelaţie, de contingenţă)

Tabelul de contingenţă este un tabel cu dublă intrare, care prezintă

frecvenţele absolute ale unităţilor statistice date fiind grupările realizate pe baza a

două caracteristici X şi Y. Un tabel de corelaţie are forma următoare, unde:

- variabila X poate lua k valori (sau este grupată în k intervale) ordonate crescător; - variabila Y poate lua m valori (sau este grupată în m intervale) ordonate

crescător; - fx şi fy reprezintă frecvenţele condiţionate.

Metoda tabelului de corelaţie

poate fi folosită pentru două variabile

cantitative discrete, pentru două

variabile cantitative continue, care au

fost grupate într-un număr relativ redus

de categorii, sau pentru două variabile

calitative ordinale. Întrucât este

necesară ordonarea valorilor variabilelor

X şi Y, această metodă nu poate fi

aplicată pentru variabilele calitative

nominale.

Un tabel ca cel de mai sus poate indica sensul legăturii dintre variabilele X şi Y

şi, într-o oarecare măsură, chiar și intensitatea acesteia. Direcţia corelaţiei dintre

cele două variabile este apreciată în funcţie de modul de distribuire a frecvenţelor nij

din tabel faţă de diagonala principală a acestuia, iar intensitatea legăturii poate fi

apreciată în funcţie de valorile acestor frecvenţe absolute. Astfel, repartizarea

frecvenţelor în apropierea diagonalei principale indică o legătură directă între

Grupe

după X

Grupe

după Y

1

2

...

k

fy

1 n11 n12 ... n1k n1.

2 n21 n22 ... n2k n2.

... nij

m nm1 nm2 ... nmk nm.

fx n.1 n.2 ... n.k n..

96

variabilele X şi Y, o repartizare în jurul diagonalei secundare indică o legătură inversă

între cele două variabile, în timp ce repartizarea relativ uniformă a frecvenţelor în

tabel indică lipsa unei corelaţii între variabila X şi Y.

Exemplu: Punctul 1.5 din modelul de proiect din Statistică, autori E. Lilea, M. Vătui,

D. Boldeanu şi Z. Goschin.

5.3 Metoda grafică

Această metodă se aplică pentru acelaşi gen de variabile ca metoda tabelului

frecvenţelor, respectiv pentru variabile calitative ordinale sau pentru variabile

cantitative, care nu trebuie însă a fi neapărat grupate.

Dat fiind că luăm în considerare două serii de date, X şi Y, graficul se

construieşte pornind de la valorile (xi, yi), care se reprezintă în sistemul de axe

rectangulare. Graficul rezultat poartă numele de corelogramă sau grafic al norului de

puncte. Pentru ușurința expunerii, exemplele de grafice de mai jos sunt construite

doar pentru valori pozitive ale lui X şi Y.

În graficul din stânga, punctele par dispersate la întâmplare, în întreg

cadranul, fapt pentru care se mai poate considera că aceste puncte sunt împrăştiate

97

în jurul unei drepte paralele cu axa OX. Acest grafic arată că între cele două variabile

nu există o legătură semnificativă.

Dacă punctele se concentrează în jurul unei anumite linii, care nu este

paralelă cu axa OX, atunci apreciem că existenţă o corelaţie între cele două variabile.

Mai precis, concentrarea norului de puncte în jurul unei drepte cu pantă pozitivă, aşa

cum este cazul graficului din dreapta, indică existenţa unei legături directe (corelație

pozitivă) între variabilele X şi Y (valorile ridicate ale lui X sunt asociate valorilor

ridicate ale lui Y, și invers). Concentrarea în jurul unei drepte cu pantă negativă ar fi

fost interpretată ca indicând existența unei legături inverse (corelație negativă) între

cele două variabile.

Exemplu: Figura din

dreapta este preluată

tot din modelul de

proiect de statistică,

fiind o reprezentare

grafică a informației din

tabelul 15 (datele

grupate privind

producția și vechimea în

muncă a 40 de

muncitori). Forma

norului de puncte indică

o legătură directă

(corelație pozitivă) între

cele două variabile.

Exemplu: Graficul

alăturat arată legătura

dintre timpul care se

scurge între două erupţii

şi durata erupţiilor

gheizerului Old Faithful,

situat în Parcul Naţional

Yellowstone din statul

Wyoming, SUA.

Observăm că

norul de puncte este

plasat în jurul unei

drepte ascendente, ceea

98

ce indică existenţa unei legături directe între cele două variabile (durata erupţiilor şi

intervalul la care acestea au loc). În plus, gruparea punctelor în doi nori relativ

separați sugerează faptul că erupţiile ar putea fi de două feluri: erupţii frecvente şi

de scurtă durată şi erupţii rare, dar de lungă durată. Utilitatea graficului este relativ

redusă în a indica direcţia de cauzalitate a legăturii, cauzalitatea fiind probabil

evidentă unui geolog.

5.4 Covarianţa

Covarianţa este un indicator al corelaţiei liniare dintre două variabile

cantitative, numerice. Pentru două caracteristici X şi Y, formula de calcul a

covarianţei, deseori notată şi prin cov(x,y), este ∑=

−−=n

iiixy yyxx

ns

1

),)((1

care se

mai poate scrie ∑=

⋅−=n

iiixy yxyx

ns

1

.1

În cazul în care seria de valori pentru cele

două caracteristici este dată sub forma unui tabel de contingenţă (xi, yj, nij), cu

i,j=1,2,...,n, atunci relaţia de calcul a covarianţei devine

∑ −−=ji

ijii nyyxxn

yx,

.))((1

),cov(

Definirea covarianţei are la bază încadrarea celor n observaţii, deci a celor n

puncte (xi,yj) din cadrul unei serii bidimensionale, într-unul din cele patru cadrane

definite de mediile celor două variabile. Pentru simplitatea expunerii, graficul de mai

jos ia în considerare două variabile ce pot lua doar valori pozitive (dar discuţia este

similară şi în cazul în care valorile posibile ale variabilelor sunt şi negative).

Punctele din cadranele I şi III scot în evidenţă o legătură directă (o corelație

pozitivă) între cele două

caracteristici, în timp ce

punctele situate în cadranele II

şi IV evidenţiază o legătură

inversă. Prin urmare, dacă

majoritatea punctelor sunt

dispuse în jurul unei drepte cu

pantă pozitivă (în cadranele I şi

III), atunci covarianţa va fi un

număr pozitiv, ce va indica

existenţa unei legături liniare

directe, iar dacă punctele sunt

încadrate cu preponderenţă în

cadranele II şi IV, valoarea

calculată a covarianţei va fi negativă, indicând existenţa unei legături liniare inverse.

Dacă punctele sunt distribuite neregulat și relativ în aceeași măsură în cele patru

99

cadrane, atunci valoarea apropiată de zero a covarianţei va indica faptul că cele două

variabile sunt independente liniar. Prin urmare, covarianţa este o măsură numerică

asociată formei norului de puncte, fiind deci o extindere a metodei grafice de

determinare a corelaţiei dintre variabile, prezentată anterior.

Trebuie subliniat faptul că discutăm aici de evidenţierea unei legături liniare

între cele două variabile, covarianţa nefiind prea utilă în evaluarea legăturilor

neliniare ce pot exista între variabilele economice. De exemplu, dacă norul de puncte

are forma literei U, este posibil ca valoarea covarianţei să fie apropiată de zero.

Aceasta nu înseamnă că între cele două variabile nu există o legătură, ci că aceasta

nu este una liniară (în acest caz, Y este probabil o funcţie de gradul doi în X).

Proprietăţi ale covarianţei:

• Acest indicator nu poate fi utilizat direct pentru aprecierea intensităţii corelaţiei dintre două caracteristici, întrucât nu este un indicator normalizat, depinzând de unitatea de măsură a acestora.

• Covarianţa este o măsură simetrică: cov(x,y)=cov(y,x).

• Covarianţa a două variabile independente este egală cu zero.

• Covarianţa unei variabile numerice cu o constantă este egală cu zero.

• Covarianţa unei variabile numerice cu ea însăşi este varianţa (dispersia) acelei

variabile: .))((1

),cov(1

22∑

==−−==

n

ixiix xxxx

nsxx σ

Dată fiind formula de calcul a

covarianţei, este evident că aceasta se

calculează doar pentru o serie

bidimensională, formată din două

variabile numerice. Pentru o serie

multidimensională, care cuprinde p>2

variabile, se poate construi matricea

varianţelor şi covarianţelor, notată V. Pe

diagonala principală, această matrice

pătratică de mărime p*p va conţine

varianţa (dispersia) fiecărei dintre cele p variabile, în timp ce deasupra diagonalei

principale apar înscrise covarianţele fiecărei perechi posibile pentru cele p variabile.

Întrucât sxy=syx, valorile de deasupra diagonalei principale apar înscrise şi sub această

diagonală, fapt pentru care, de cele mai multe ori, valorile de sub diagonala

principală sunt însă omise.

=

−21

323

22322

1131221

.

..

..

..

..

p

pp

p

p

p

s

s

ss

sss

ssss

V

100

5.5 Coeficientul de corelaţie liniară

Coeficientul de corelaţie liniară este o măsură normalizată care indică

existenţa şi intensitatea corelaţiei liniare dintre două variabile numerice. Acest

coeficient se calculează pe baza relaţiei

rxy=sxy/sxsy=cov(x,y)/σxσy,

unde sxy sau cov(x,y) reprezintă covarianţa dintre variabilele X şi Y, iar sx şi sy,

respectiv σx şi σy, reprezintă abaterile standard ale celor două variabile.

Prin construcţie, rxy este un număr în intervalul [-1, 1], o valoare pozitivă

indicând existenţa unei legături directe, în timp ce o valoare negativă indică faptul că

între cele două variabile se manifestă o corelaţie liniară inversă. Cu cât valoarea rxy

este mai apropiată de limitele intervalului, cu atât legătura dintre cele două variabile

(directă sau inversă) este mai puternică. Dacă valoarea indicatorului este apropiată

de zero, atunci putem spune că cele două variabile nu sunt corelate liniar. Dacă rxy=0,

atunci variabilele X şi Y sunt perfect independente liniar. Cu toate acestea, o valoare

redusă a indicatorului nu înseamnă neapărat că cele două variabile evoluează în mod

independent, întrucât variabilele pot fi legate printr-o legătură neliniară.

Dată fiind formula de calcul a coeficientului de corelaţie liniară, rxy=ryx.

Matricea de corelaţie, notată R, se

defineşte în mod asemănător cu matricea

varianţelor-covarianţelor. Toţi termenii de pe

diagonala principală ai acestei matrice pătratice

de dimensiune p x p sunt egali cu 1,

reprezentând corelaţia fiecăreia dintre cele p

variabile cu ea însăşi. Termenii rij de deasupra

diagonalei principale reprezintă coeficienţii de

corelaţie ce măsoară dependenţa liniară dintre

variabilele Xi şi Xj. Matricea R este simetrică, la fel ca matricea V, ceea ce face ca,

deseori, elementele de sub diagonala principală să nu mai fie prezentate.

În ceea ce priveşte mărimea coeficientului de corelaţie, unii practicieni,

precum Rea şi Parker (2005)4, apreciază că |rxy|<0,1 reprezintă o legătură neglijabilă,

0,1<|rxy|<0,3 indică o legătură de intensitate scăzută, 0,3<|rxy|<0,6 este un indicator

al unei legături de intensitate medie, 0,6<|rxy|<0,75 reprezintă o legătură puternică,

în timp ce |rxy|>0,75 indică existenţa unei legături foarte puternice între cele două

serii de date. Cu toate acestea, folosirea unor astfel de criterii este relativ arbitrară,

interpretarea mărimii coeficientului de corelaţie depinzând de domeniul studiat.

4 Louis M. Rea şi Richard A. Parker – Designing and Conducting Survey Research, A Comprehensive

Guide, ediţia 3, Jossey-Bass, 2005.

=

1

.

..

..1

..1

..1

1

3

223

11312

pp

p

p

p

r

r

rr

rrr

R

101

Astfel, un coeficient de corelaţie de 0,8 poate fi apreciat ca foarte mic în domeniile

tehnice, când se doreşte verificarea unei legi fizice cu ajutorul unor instrumente de

înaltă calitate, în timp ce această valoare va fi considerată ca foarte ridicată în

domeniul ştiinţelor sociale.

Graficele de mai jos indică mărimea coeficientului corelaţiei liniare (r) pentru

diverse forme ale norului de puncte (pentru legături directe între două variabile).

Primul grafic arată că, dacă legătura dintre cele două variabile este directă şi

perfect liniară, atunci coeficientul de corelaţie liniară va fi egal cu 1. Apoi, celelalte

grafice de pe primul rând arată că, cu cât cele două variabile sunt mai puţin corelate,

cu atât valoarea coeficientului calculat va fi mai redusă. Al doilea rând de grafice

arată faptul că coeficientul corelaţiei liniare indică doar intensitatea legăturii (forma

norului de puncte), fără a oferi informaţii cu privire la panta dreptei care

aproximează legătura dintre cele două variabile. Se observă deci că rxy=1 pentru

primele trei grafice din rândul doi, cu toate că legătura dintre variabile are o pantă

diferită. Pentru ultimul grafic, unde Y este o constantă, rxy este indicat a fi egal cu

zero, ceea ce nu este tocmai corect: întrucât covarianţa unei variabile aleatoare cu o

constantă este zero (cov(x,y)=0 pentru y constant), iar abaterea standard a unei

constante este tot zero (σy=0), coeficientul de corelaţie rxy=cov(x,y)/σxσy este de fapt

nedefinit.

De multe ori, ceea ce se raportează este pătratul coeficientului de corelaţie,

r2, numit coeficient de determinare. Acesta poate fi mai util pentru că are o

interpretare practică mai facilă, r2 x 100 reprezentând procentul variaţiei lui Y care

este explicat de variaţia lui X. În plus, r2 are o valoare mai mică decât r, ceea ce poate

ajuta la evitarea situaţiei în care o valoare relativ redusă a lui r poate fi considerată

ca fiind semnificativă (de exemplu, pătratul lui r=0,2, valoare pe care cineva ar putea

fi tentat a o considera semnificativă, este r2=0,04, valoare foarte apropiată de zero).

102

Evident, 0≤r2≤1, acest indicator fiind încă o măsură a intensităţii relaţiei

liniare dintre cele două variabile. După cum vom vedea în secţiunea destinată

regresiei liniare, coeficientul de determinare este şi un indicator al apropierii dreptei

de regresie de datele observate.

La fel ca în cazul covarianței, pe baza căreia se și calculează, coeficientul de

corelație este util pentru evaluarea unei legături liniare între două serii de date,

rezultatele aplicării sale fiind denaturate în cazul existenței unei legături neliniare.

Un alt aspect ce trebuie reținut este acela că ar trebui evitată evaluarea corelației

prin intermediul coeficientului de corelație liniară (sau a covarianței) atunci când

datele par a fi grupate într-un anumit mod.

Aceste graficele prezintă cele două situații enunțate mai sus. Figura din

stânga ilustrează o legătură evidentă între două serii de date. Cu toate acestea,

întrucât corelația este neliniară (este pătratică) și observațiile sunt dispuse simetric

față de valoarea 3 pe axa OX, coeficientul de corelație liniară este egal cu zero. Puteți

verifica acest lucru intuitiv, prin estimarea covarianței (ar trebui să vă dea zero).

Pentru aceasta, trasați liniile corespunzătoare valorilor medii ale lui X și ale lui Y și

observați plasarea punctelor reprezentând observațiile în cele 4 cadrane astfel

formate.

Prin urmare, în lipsa unei reprezentări grafice și calculând doar coeficientul

de corelație liniară, cineva ar putea fi tentat să spună că nu există o corelație

evidentă între cele două serii. Acest lucru este adevărat doar pentru caracterul liniar

al corelației, între cele două variabile existând o evidentă corelație neliniară.

Concluzie: primul pas în analiza seriilor de date trebuie să îl constituie reprezentarea

grafică a acestora.

Graficul din dreapta ilustrează a doua situație descrisă succint mai sus: chiar

dacă valorile mari ale lui X sunt asociate valorilor mari ale lui Y, în timp ce valorile

reduse ale lui X corespund valorilor reduse ale lui Y, observațiile sunt în mod evident

grupate, părând a reprezenta două sub-populații distincte. Calcularea coeficientului

de corelație liniară la nivelul întregului ansamblu ar putea conduce la concluzia că

103

datele sunt puternic corelate (în acest caz, r=0,9). Dacă însă aceste date chiar provin

de la două sub-populații distincte, atunci analiza ar trebui făcută la nivelul fiecărui

grup, caz în care corelația este extrem de slabă (niciunul din cele două grupuri de

puncte nu pare a prezenta o anumită tendință). Prin urmare, avem de-a face cu o

corelație aparentă, nu una reală (în engleză, spurious correlation – cei interesați pot

căuta exemple de astfel de corelații pe internet, unele sunt chiar amuzante).

În clasă am dat un exemplu similar, dar dus chiar la extrem, în care cele două

grupuri distincte de puncte prezentau, fiecare, o tendință de corelare inversă. În

acest caz, analizând întregul set de date prin intermediul covarianței sau al

coeficientului de corelație liniară, am fi induși complet în eroare și am aprecia că

avem de-a face cu o corelație pozitivă (poate chiar puternică). Concluzie: primul pas

în analiza seriilor de date trebuie să îl constituie reprezentarea grafică a acestora.

Analiza corelației dintre variabile prin intermediul covarianței și coeficientului

de corelație liniară mai prezintă o limitare, care afectează interpretarea în cazul

seriilor de date cronologice (de timp): cei doi indicatori indică corelația instantanee

dintre două fenomene și nu surprind eventualele efecte întârziate (lag-uri) ale unei

variabile asupra celeilalte. Pentru a evidenția acest aspect, am extras date privind

prețurile medii săptămânale ale benzinei cu cifră octanică 95 din Austria în anul 2011

(preț cu toate taxele incluse, euro/litru, informație oferită de Oil Bulletin al Comisiei

Europene - DG Energy) și date privind prețul săptămânal al barilului de petrol Brent

pentru același an (preț mediu calculat pe baza valorii la închiderea fiecărei zile de

tranzacționare pe bursa de la Londra, dolari/baril). Întrucât lipsesc observații pentru

câteva săptămâni ale anului 2011, în special datorită sărbătorilor, setul de date

constă din 45 de perechi de valori, una pentru prețul mediu săptămânal al benzinei și

una pentru prețul mediu săptămânal al petrolului.

1.26

1.28

1.30

1.32

1.34

1.36

1.38

1.40

1.42

95 100 105 110 115 120 125 130

Pre

t b

en

zin

a C

OR

95

(e

uro

/lit

ru)

Pret petrol Brent (dolari/baril)

104

Calcularea coeficientului de corelație liniară pentru acest set de date conduce

la valoarea r=0,588, ceea ce indică o legătură directă între prețul barilului de petrol și

prețul benzinei COR95. Cu toate acestea, valoarea coeficientului de corelație liniară

nu este atât de mare pe cât ne-am fi așteptat, ceea ce poate să însemne că există

mulți alți factori, importanți, care afectează prețul benzinei, în afara prețului

petrolului Brent. Valoarea 0,588 pentru coeficientul de corelație liniară implică o

valoare de 0,346 pentru r2, coeficientul de determinare.

Graficul de mai sus ilustrează forma norului de puncte reprezentând cele 45

de observații săptămânale. Concluzia enunțată deja de două ori se aplică și aici:

primul pas în analiza seriilor de date trebuie să îl constituie reprezentarea grafică a

acestora. Întrucât avem de-a face cu serii de timp, graficul potrivit va fi unul de tip

linie, prezentând evoluția simultană a celor două variabile pe parcursul anului 2011.

Această reprezentarea grafică, mai potrivită pentru serii de timp, pune în

evidență existența unui decalaj între cele două variabile: modificările în prețul

petrolului par să conducă la modificări ale prețului benzinei după cel puțin o

săptămână (acest lucru are sens, ceea ce se vinde astăzi în benzinărie a fost produs

în rafinărie acum ceva timp, poate chiar mai mult de o săptămână).

Graficul de mai jos ilustrează forma norului de puncte reprezentând cele 44

de observații săptămânale pentru prețul benzinei și prețul petrolului, decalate cu o

săptămână (prețul benzinei din această săptămână este analizat împreună cu prețul

petrolului de săptămâna trecută). Acest decalaj conduce la pierderea unei observații.

90

95

100

105

110

115

120

125

130

1.26

1.28

1.30

1.32

1.34

1.36

1.38

1.40

1.42

31/01/11

14/02/11

28/02/11

14/03/11

28/03/11

11/04/11

25/04/11

09/05/11

23/05/11

06/06/11

20/06/11

04/07/11

18/07/11

01/08/11

15/08/11

29/08/11

12/09/11

26/09/11

10/10/11

24/10/11

07/11/11

21/11/11

05/12/11

19/12/11

Dolari/baril

Euro/litru

Pret benzina (axa din stanga) Pret petrol (axa din dreapta)

105

Dat fiind specificul acestei industrii, cred că graficul de mai sus este mai

potrivit decât cel anterior pentru a evidenția legătura dintre cele două variabile. De

altfel, coeficientul de corelație liniară calculat în acest caz este r=0,803, indicând

prezența unei legături liniare directe foarte puternice între prețul barilului de petrol

și prețul benzinei COR95 (în acest caz, r2=0,645).

În continuare, extindem puțin exemplul numeric, prin calcularea

coeficientului de corelație liniară în mai multe scenarii (în Microsoft Excel, calcularea

coeficientului de corelație liniară se face prin funcția CORREL). Astfel, calcularea

coeficientului de corelație a fost explicată deja pentru situația în care datele sunt

folosite în mod simultan, cât și

pentru cazul în care se impune

un decalaj de o săptămână între

prețul petrolului și prețul

benzinei (cele două rânduri

evidențiate în tabelul alăturat).

Dacă însă impunem un decalaj

de două săptămâni între cele două variabile, obținem rezultate similare. Prin urmare,

datele par să indice faptul că benzina care se comercializează azi în stațiile de

distribuție a fost produsă din petrolul comercializat în urmă cu 1-2 săptămâni.

Valorile lui r sunt din ce în ce mai reduse dacă decalajul impus între cele două serii de

date crește (3 săptămâni, 4 săptămâni), dar și atunci când decalajul este inversat, și

este foarte normal să fie așa.

Atenție! Abordarea de mai sus este oarecum la limită. Este de dorit să avem o

înțelegere aprofundată asupra fenomenului studiat, coeficientul de corelație liniară

fiind o măsură a intensității unei legături pe care o testăm, nu să aplicăm formula de

calcul pentru a căuta corelația cea mai mare, pe care să încercăm apoi să o

1.26

1.28

1.30

1.32

1.34

1.36

1.38

1.40

1.42

95 100 105 110 115 120 125 130

Pre

t b

en

zin

a C

OR

95

(e

uro

/lit

ru)

Pret petrol Brent (dolari/baril)

Scenarii r r2 Obs.

Decalaj – o săptămână 0,368 0,136 44

Date simultane 0,588 0,345 45

Decalaj o săptămână 0,803 0,645 44

Decalaj două săptămâni 0,793 0,629 43

Decalaj trei săptămâni 0,574 0,329 42

Decalaj patru săptămâni 0,369 0,136 41

106

justificăm. În acest caz simplu, ar trebui să știm dinainte cam care este orizontul de

timp al reacției prețului benzinei la modificările prețului petrolului, orizont de timp

ce este apoi testat numeric, nu să construim coeficienții de corelație și apoi să-l

alegem pe cel mai mare, justificându-l ulterior prin scenarii mai mult sau mai puțin

fanteziste.

Exerciţiu: Se cunosc următoarele date cu privire la vechimea (în ani) şi cheltuielile cu

reparaţiile (în mii lei) pentru 8 utilaje.

Utilaj 1 2 3 4 5 6 7 8

Vechime (X) 8 5 10 7 6 10 9 11

Cheltuieli (Y) 14 13 16 15 12 17 15 17

Analizaţi corelaţia dintre aceste variabile folosind metoda grafică şi apoi

metode numerice (calculând covarianţa şi coeficientul de corelaţie).

Rezolvare: Reprezentarea grafică a acestor două variabile indică existenţa unei

legături directe între X şi Y, întrucât norul de (doar 8) puncte pare a fi distribuit în

jurul unei drepte cu pantă pozitivă. Deoarece vechimea utilajului este o caracteristică

predeterminată, putem intui şi direcţia dependenţei: o vechime mai mare a unui

utilaj implică costuri sporite de reparaţii a acestuia.

În vederea calculării covarianţei şi a coeficientului corelaţiei liniare, construim

tabelul de mai jos.

10

11

12

13

14

15

16

17

18

4 5 6 7 8 9 10 11 12

Y

X

107

Nr.

crt

Vechime

xi

Cheltuieli

yi

xxi − yyi − 2)( xxi − 2)( yyi − )()( yyxx ii −⋅−

1 8 14 -0,25 -0,88 0,063 0,774 0,22

2 5 13 -3,25 -1,88 10,563 3,534 6,11

3 10 16 1,75 1,12 3,063 1,254 1,96

4 7 15 -1,25 0,12 1,563 0,014 -0,15

5 6 12 -2,25 -2,88 5,063 8,294 6,48

6 10 17 1,75 2,12 3,063 4,494 3,71

7 9 15 0,75 0,12 0,563 0,014 0,09

8 11 17 2,75 2,12 7,563 4,494 5,83

Total 66 119 31,504 22,872 24,25

25,88/66/ ===∑ nxx i

88,148/119/ ===∑ nyy i

∑ ==−⋅−= 03,38/25,24/)()(),cov( nyyxxyx ii

Valoarea pozitivă a covarianţei indică prezenţa unei legături directe între cele

două variabile, ceea ce confirmă aşteptările generate de reprezentarea grafică a lui X

şi Y. Cu toate acestea, aşa cum am văzut, valoarea covarianţei nu este un indicator al

intensităţii acestei legături, întrucât acest indicator statistic nu este normalizat

(mărimea sa depinde de unitatea de măsură a celor două variabile).

98,1938,38/504,31/)( 22 =⇒==−=∑ xix nxx σσ

69,1859,28/872,22/)( 22 =⇒==−=∑ yiy nyy σσ

905,069,198,1/03,3/),cov( =⋅== yxyxr σσ

Valoarea foarte ridicată a coeficientului de corelaţie indică existenţa unei

legături liniare foarte intense între vechimea utilajului şi cheltuielile pentru

repararea acestuia.

Calculăm şi coeficientul de determinare: r2=0,9052=0,82, ceea ce înseamnă

că, potrivit acestor date, aproximativ 82% din variaţia factorului Y (cheltuielile de

întreţinere) este explicat de variaţia factorului X (vechimea utilajului), restul de 18%

fiind explicat de toţi ceilalţi factori care ar putea influenţa mărimea cheltuielilor cu

reparaţiile utilajelor.

Exemplu: Tabelul de mai jos reprezintă matricea de corelaţie (R) pentru preţurile a

17 mărci de ulei comestibil (preţuri înregistrate lunar pentru o perioadă de doi ani).

Aceste date arată că preţurile celor 17 mărci sunt extrem de puternic

corelate, valorile coeficienţilor fiind foarte apropiaţi de 1. Acest lucru poate fi

explicat prin faptul că grupuri de mărci din tabel sunt deţinute de o singură firmă,

care decide asupra preţurilor produselor sale într-un mod unitar. Altă explicaţie ar

108

putea fi dată de existenţa unei materii prime cu o influenţă covârşitoare asupra

preţului produsului finit. În cazul de faţă este vorba de floarea soarelui, preţul acestei

materii prime influenţând probabil preţul tuturor mărcilor de ulei în acelaşi sens şi în

acelaşi timp.

Tabelul mai arată că, din cele 17 mărci de ulei, două par a avea trăsături

oarecum diferite de restul, şi apropiate între ele. Este vorba de mărcile 2 şi 14, între

care coeficientul de corelaţie este foarte ridicat, 0,955, dar care prezintă coeficienţi

de corelaţie uşor reduşi cu celelalte 15 mărci de ulei.