Download - Statistic A AP Suport Curs
UNIVERSITATEA „ALEXANDRU IOAN CUZA” IAŞI
FACULTATEA DE ECONOMIE ŞI ADMINISTRAREA
AFACERILOR
CARMEN PINTILESCU
STATISTICĂ
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
2
CUPRINS INTRODUCERE ................................................................................................................ 3
1. Statistică descriptivă şi statistică inferenţială ......................................................... 3
2. Variabile statistice ................................................................................................... 3
PARTEA ÎNTÂI ................................................................................................................. 7
CAPITOLUL 1. DISTRIBUŢII STATISTICE .............................................................. 7
1.1. Distribuţii statistice pentru variabile numerice discrete ....................................... 7
1.2. Distribuţii statistice pentru variabile numerice continue ..................................... 8
1.3. Distribuţii statistice pentru variabile categoriale ............................................... 10
CAPITOLUL 2. CARACTERIZAREA UNEI SERII STATISTICE DUPĂ O VARIABILĂ NUMERICĂ DISCRETĂ ...................................................................... 13
2.1. Frecvenţe absolute cumulate crescător (Ni↓ ) sau descrescător (Ni↑ ) ............... 13
2.2. Frecvenţe relative cumulate crescător (Fi↓) sau descrescător (Fi↑) ................... 13
2.3. Caracterizarea seriei statistice folosind metode grafice ..................................... 18
2.4. Caracterizarea seriei folosind indicatori ai statisticii descriptive ...................... 21
CAPITOLUL 3. CARACTERIZAREA UNEI SERII STATISTICE DUPĂ O VARIABILĂ NUMERICĂ CONTINUĂ .................................................................... 57
3.1. Frecvenţe absolute şi relative cumulate crescător sau descrescător ................... 57
3.2. Caracterizarea seriei folosind metode grafice .................................................... 59
3.3. Caracterizarea seriei folosind indicatori ai statisticii descriptive ...................... 61
CAPITOLUL 4. CARACTERIZAREA UNEI SERII STATISTICE DUPĂ O VARIABILĂ CATEGORIALĂ ................................................................................... 75
4.1. Caracterizarea seriei folosind metode grafice .................................................... 75
4.2. Caracterizarea seriei folosind indicatori ai statisticii descriptive ...................... 76
PARTEA A DOUA........................................................................................................... 81
Capitolul 5. Noţiuni şi notaţii folosite în inferenţa statistică ........................................ 81
5.1. Populaţie şi eşantion .......................................................................................... 81
5.2. Parametri şi estimaţii.......................................................................................... 81
5.3. Distribuţia de selecţie a mediei .......................................................................... 82
Capitolul 6. Estimarea parametrilor unei populaţii ....................................................... 87
6.1. Estimarea mediei unei populaţii ( µ ) ................................................................. 87
6.2. Estimarea proporţiei unei populaţii (p) .............................................................. 89
CAPITOLUL 7. TESTAREA IPOTEZELOR STATISTICE ...................................... 93
7.1. Testarea ipotezelor cu privire la un parametru .................................................. 93
7.2 Testarea ipotezelor cu privire la doi parametri ................................................. 104
7.3. Estimare versus testare ..................................................................................... 112
ANEXE ........................................................................................................................... 113
BIBLIOGRAFIE ............................................................................................................. 117
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
3
INTRODUCERE
Termenul de “statistică” a evoluat din momentul în care a apărut pentru prima oară în lucrarea lui Gottfried Achenwall, publicată în 1746, până în zilele noastre. În acea perioadă, prin termenul de statistică se înţelegea un ansamblu de informaţii despre lucrurile remarcabile cu privire la colectivitatea numită stat, expuse într-o anumită ordine. În prezent, prin statistică se înţelege un ansamblu de metode folosite pentru culegerea, prezentarea şi analiza datelor înregistrate pentru o colectivitate statistică.
1. Statistică descriptivă şi statistică inferenţială Datele obţinute în urma observării statistice sunt prelucrate cu ajutorul metodelor
statisticii descriptive şi a statisticii inferenţiale. Statistica descriptivă are ca obiectiv prezentarea sintetică a datelor statistice, folosind metode de reprezentare grafică şi prin calculul diferiţilor indicatori statistici (indicatori ai tendinţei centrale, indicatori ai dispersiei, indicatori ai asimetriei şi boltirii). Statistica inferenţială are ca obiectiv caracterizarea unei populaţii prin prelucrarea datelor înregistrate pentru un eşantion extras din aceasta. Problemele statisticii inferenţiale sunt, astfel, estimarea parametrilor populaţiei (a mediei, varianţei şi proporţiei) şi testarea ipotezelor statistice.
2. Variabile statistice
2.1. Definire şi notaţii
Variabila statistică este o caracteristică, o însuşire a unor unităţi statistice, care înregistrează o anumită valoare, pentru fiecare unitate statistică observată.
Exemple - dacă se consideră ansamblul firmelor din judeţul Iaşi care desfăşoară activitate
de producţie, variabilele statistice care pot reprezenta un interes pentru cercetarea statistică sunt: valoarea vânzărilor, numărul de salariaţi, cifra de afaceri, mărimea firmei etc.
- dacă se consideră ansamblul studenţilor unei serii, variabilele statistice care pot fi supuse analizei statistice sunt: vârsta studenţilor, sexul persoanei etc.
O variabilă statistică este notată cu X. Valorile sau variantele variabilei X se
notează cu xi. Din punct de vedere formal, avem: m,1icu),x(:X i = .
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
4
2.2. Clasificarea variabilelor statistice Variabilele statistice pot fi clasificate după mai multe criterii: 1. După modul de exprimare, distingem: - variabile cantitative sau numerice sunt acele variabile pentru care valorile
sunt exprimate numeric. Exemple: vârsta persoanelor, câştigul salarial, înălţimea etc. - variabile nenumerice, calitative sau categoriale sunt acele variabile pentru
care valorile sunt exprimate prin cuvinte. Exemple: sexul persoanei (masculin şi feminin), starea civilă (celibatar, căsătorit,
văduv, divorţat), mediul de rezidenţă (urban, rural) etc. Pentru analiza statistică, valorilor variabilei categoriale li se atribuie un cod
numeric. Variabilele categoriale pot fi nominale sau ordinale. Variabilele nominale sunt acele variabile pentru care ordinea acordării codurilor
nu are un sens. Exemple: pentru variabila X: Sexul persoanei, se pot acorda codurile 1 pentru
varianta Masculin şi 2 pentru varianta Feminin, fără să se poată stabili o relaţie de ordine între aceste două valori.
Variabilele ordinale sunt acele variabile în care există o relaţie de ordine între
unităţile din categoriile variabilei. Ordinea acordării codurilor diferitelor categorii ale variabilei X are, în acest caz, un sens.
Exemple: pentru variabila X: Preferinţa pentru un produs, cu variantele Foarte bun, Bun, Nici bun-nici rău, Foarte rău, Rău, ordinea acordării codurilor are un sens. Valorile variabilei X sunt 1- Foarte bun, 2- Bun, 3- Nici bun-nici rău, 4 - Foarte rău, 5-Rău.
2. După numărul de valori ale variabilei, distingem: - variabile dichotomice sau binare sunt acele variabile care înregistrează două
valori. Exemple: dacă se înregistrează rata şomajului în diferite ţări ale Uniunii Europene
se pot defini două categorii de ţări: o categorie formată din ţările cu o rată a şomajului mai mică decât nivelul mediu înregistrat pentru ansamblul ţărilor UE şi o categorie formată din ţările cu o rată a şomajului mai mare.
- variabile care înregistrează trei sau mai multe valori. Exemple: pentru variabila X: „vârsta”, valorile care pot fi înregistrate pentru o
populaţie sunt: (xi)=(0, 1, 2, ...) ani. 3. După modul de manifestare a variaţiei lor, distingem: - variabile discrete sunt acele variabile care nu pot lua decât valori finite din
domeniul de valori al variabilei. Exemple: variabilele Numărul de angajaţi, Numărul de şomeri, Numărul de copii
pe familie etc.
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
5
- variabile continue sunt acele variabile care pot lua o infinitate de valori din domeniul de valori al variabilei.
Exemple: variabilele Înălţimea, Greutatea, Viteza etc.
2.3. Scale de măsurare
În vederea măsurării unei variabile pentru o unitate statistică, valorilor unei variabile li se atribuie coduri sau numere. Scala este reprezentată de aceste coduri sau numere atribuite valorilor unei variabile X.
În statistică se folosesc patru tipuri de scale: 1. scale pentru măsurarea variabilelor categoriale: scala nominală şi scala ordinală; 2. scale pentru măsurarea variabilelor numerice: scala interval şi scala raport. Scala nominală este o scală care presupune atribuirea de coduri variantelor unei
variabile categoriale nominale. Aceste coduri nu au decât rolul de a realiza o separare a unităţilor statistice pe clase sau grupe. Ordinea acordării acestor coduri nu are un sens. Pe această scală de măsurare, nu este posibilă realizarea operaţiilor de adunare, scădere etc.
Exemplu - pentru variabila Sexul persoanei, codurile care se atribuie valorilor acestei
variabile sunt, de exemplu, 1 - pentru unităţile statistice de sex masculin, 2- pentru unităţile statistice de sex feminin. Ordinea acordării acestor coduri nu are un sens, ceea ce înseamnă că se poate atribui codul 1 - pentru unităţile statistice de sex feminin şi codul 2- pentru unităţile statistice de sex masculin. Pentru această variabilă statistică, singurele operaţii care pot fi realizate privesc doar frecvenţele sau numărul de unităţi statistice. De exemplu, poate fi identificată categoria care are frecvenţa cea mai mare, însă nu poate fi calculată media aritmetică, deoarece valorile codurilor sunt arbitrare.
Scala ordinală este o scală care presupune atribuirea de coduri variantelor unei
variabile categoriale ordinale. Scala ordinală introduce relaţia de ordine între valorile acestor coduri. Pe această scală de măsurare, este posibilă realizarea operaţiilor specifice variabilelor nominale, dar şi a operaţiilor care au la bază relaţia de ordine.
Exemplu - pentru variabila Nivelul de educaţie cu variantele Studii primare, Studii
gimnaziale, Studii liceale, Studii superioare, codurile care se atribuie valorilor acestei variabile sunt, de exemplu, 1 - Studii primare, 2 - Studii gimnaziale, 3 - Studii liceale, 4 - Studii superioare. Ordinea acordării acestor coduri are, în acest caz, un sens. Pentru această variabilă statistică, poate fi identificată categoria care are frecvenţa cea mai mare, dar şi numărul de unităţi care au studii primare, gimnaziale şi liceale.
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
6
Scala interval este o scală care se foloseşte pentru o variabilă numerică. Diferenţa dintre două valori are, în acest caz, un sens. Scala interval se caracterizează printr-o valoare zero, fixată, însă, arbitrar: valoarea zero nu arată absenţa unui fenomen, ci doar trecerea de la o stare la alte. De aceea, raportul dintre două valori nu are sens în cazul scalei interval.
Exemplu Dacă se consideră temperatura exprimată în grade Celsius, diferenţa dintre
valorile 200 şi 100 are aceeaşi semnificaţie ca diferenţa dintre valorile 300 şi 200. Temperatura de 200 de grade, de exemplu, nu arată însă faptul că aceasta este o temperatură de două ori mai mare decât temperatura de 100. De aceea, raportul dintre două valori în cazul scalei interval nu are sens.
Scala raport este folosită pentru variabilele numerice şi are ca proprietate faptul
că posedă un zero absolut. Valoarea zero arată, în acest caz, absenţa unui fenomen. În cazul acestei scale sunt posibile toate operaţiile aritmetice.
Exemplu Dacă se consideră greutatea unor persoane, diferenţa şi raportul dintre două valori
au un sens. O greutate de 50 kg este de două ori mai mare decât greutatea de 25 de kg. Valoarea zero arată faptul absenţa greutăţii pentru unitatea respectivă.
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
7
PARTEA ÎNTÂI STATISTICĂ DESCRIPTIVĂ
CAPITOLUL 1. DISTRIBUŢII STATISTICE
Plecând de la un şir de valori ale unei variabile X înregistrate pentru un ansamblu
format din m unităţi, se poate realiza o grupare a acestor valori, prin construirea unei distribuţii de frecvenţă.
O distribuţie sau o serie statistică presupune ordonarea valorilor variabilei X şi determinarea frecvenţei de apariţie, a numărului de unităţi pentru fiecare valoare xi a variabilei. Frecvenţa de apariţie este notată cu ni.
1.1. Distribuţii statistice pentru variabile numerice discrete Distribuţia statistică pentru o variabilă discretă presupune realizarea unei grupări a
valorilor variabilei X pe variante de variaţie şi determinarea frecvenţei de apariţie a fiecărei variante xi.
Forma de prezentare a unei distribuţii statistice pentru o variabilă discretă este prezentată în tabelul de mai jos:
Tabelul 1.1. Forma generală a unei distribuţii
pentru o variabilă discretă xi ni
x1 n1 x2 n2
M M xi ni
M M xm nm
TOTAL ∑=i
inn
Exemplu Pentru un ansamblu format din 20 de studenţi se înregistrează nota obţinută la un
examen în sesiunea iunie 2009 şi se obţin următoarele rezultate: 9, 6, 5, 5, 6, 7, 6, 7, 9, 10, 7, 8, 4, 5, 8, 8, 7, 7, 6, 8. Se cere să se formeze distribuţia de frecvenţă.
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
8
Rezolvare Variabila statistică X este reprezentată de Nota obţinută la examen, iar variantele
variabilei X sunt valorile xi: (4, 5, 6, 7, 8, 9, 10). Pentru formarea distribuţiei de frecvenţă, se ordonează valorile variabilei X: Nota
obţinută la examen în sens crescător şi se determină frecvenţa de apariţie, ni, a fiecărei variante xi. Rezultatele sunt prezentate în tabelul de mai jos:
Tabelul 1.2. Distribuţia studenţilor după nota obţinută la un examen
în sesiunea iunie 2009 xi Frecvenţa de apariţie ni
4 I 1 5 III 3 6 IIII 4 7 IIIII 5 8 IIII 4 9 II 2
10 I 1 TOTAL - 20
1.2. Distribuţii statistice pentru variabile numerice continue Pentru construirea unei distribuţii statistice după o variabilă continuă, de regulă,
se definesc intervale de variaţie (xi-1, xi). Considerând cazul intervalelor egale de variaţie, pentru formarea distribuţiei de frecvenţă se parcurg următoarele etape:
• se calculează mărimea intervalelor de grupare, după relaţia:
k
xx
k
Al minmax −
== , unde:
A este amplitudinea de variaţie a variabilei X, adică diferenţa dintre nivelul maxim şi nivelul minim al variabilei: A=xmax-xmin;
k este numărul de grupe în care se grupează datele. Dacă se obţine un număr zecimal, mărimea intervalului de grupare se rotunjeşte
întotdeauna în plus.
• se formează intervalele de grupare; • se determină frecvenţa de apariţie, ni, corespunzătoare fiecărui interval de variaţie.
Forma de prezentare a unei distribuţii statistice pentru o variabilă continuă este
realizată în tabelul de mai jos:
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
9
Tabelul 1.3. Forma generală a unei distribuţii pentru o variabilă continuă
xi-1-xi ni
xo-x1 n1 x1-x2 n2
M M xi-1-xi ni
M M xm-1-xm nm
TOTAL ∑=i
inn
Observaţie În cazul variabilelor discrete care prezintă un număr mare de valori, pentru o
prezentare sintetică a distribuţiei unităţilor statistice, se realizează, de regulă, gruparea acestora pe intervale de variaţie.
Exemplu Pentru un ansamblu format din 30 de firme se înregistrează valoarea vânzărilor
(mil. Lei) obţinute în luna decembrie 2008 şi se obţin următoarele rezultate: 11, 9, 15, 16, 18, 20, 22, 12, 9, 6, 5, 5, 6, 7, 6, 7, 9, 10, 7, 8, 7, 5, 8, 8, 21, 22, 7, 7, 6, 8. Se cere să se formeze distribuţia de frecvenţă pe intervale de variaţie egale, considerând 5 intervale de grupare.
Rezolvare Variabila statistică X este reprezentată de Valoarea vânzărilor. Pentru formarea distribuţiei de frecvenţă pe intervale de variaţie egale, se parcurg
următoarele etape: • se calculează mărimea intervalelor de grupare, după relaţia:
4,35
522
k
xx
k
Al minmax =
−=
−== . Mărimea intervalelor de variaţie este
.44,3l ≈= • se formează intervalele de grupare. Primul interval de variaţie este intervalul (5-
9), al doilea interval este (9-13) etc.
• se determină frecvenţa de apariţie corespunzătoare fiecărui interval de variaţie. Rezultatele centralizării datelor sunt prezentate în tabelul de mai jos:
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
10
Tabelul 1.4. Distribuţia firmelor după valoarea vânzărilor (mil. Lei) în luna decembrie 2008
xi-1-xi ni
5-9 20 9-13 3
13-17 2 17-21 3 21-25 2
TOTAL 30 *Notă: Limita superioară a fiecărui interval este inclusă în intervalul respectiv.
Observaţie Pentru gruparea datelor pe intervale de variaţie, există mai multe variante
posibile. Dacă limita superioară a unui interval coincide cu limita inferioară a altui interval, se precizează printr-o notă unde a fost inclusă acea valoare. În exemplul de mai sus, firmele cu vânzări de 9, 13, 17, 21 mil. Lei au fost incluse în intervalele în care aceste valori sunt limite superioare.
1.3. Distribuţii statistice pentru variabile categoriale Distribuţia statistică pentru o variabilă categorială presupune prezentarea
categoriilor variabilei X şi determinarea frecvenţei de apariţie a fiecărei variante. Forma de prezentare a unei distribuţii statistice pentru o variabilă categorială este
prezentată în tabelul de mai jos:
Tabelul 1.5. Forma generală a unei distribuţii pentru o variabilă categorială
xi ni
x1 n1 x2 n2
M M xm nm
TOTAL ∑=i
inn
Exemplu Pentru un ansamblu format din 10 persoane se înregistrează mediul de rezidenţă
(urban, rural) şi se obţin următoarele rezultate: urban, urban, urban, urban, rural, rural, urban, urban, rural, urban. Se cere să se formeze distribuţia de frecvenţă.
Rezolvare Variabila statistică X este reprezentată de Mediul de rezidenţă, variabilă
categorială nominală, iar variantele variabilei X sunt xi: (urban, rural). Rezultatele sunt prezentate în tabelul de mai jos:
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
11
Tabelul 1.6. Distribuţia persoanelor după mediul de rezidenţă xi ni
Urban 7 Rural 3
TOTAL 10
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
12
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
13
CAPITOLUL 2. CARACTERIZAREA UNEI SERII STATISTICE DUPĂ O VARIABILĂ NUMERICĂ DISCRETĂ
Caracterizarea unităţilor statistice observate după o variabilă discretă se realizează
folosind metode grafice sau numerice. Pentru reprezentarea grafică a unei serii după o variabilă discretă se folosesc următoarele diagrame: poligonul frecvenţelor, curba frecvenţelor sau curba frecvenţelor cumulate. Indicatorii numerici prin care poate fi caracterizată o serie statistică după o variabilă discretă pot fi grupaţi în indicatori ai tendinţei centrale (mărimi medii), indicatori ai dispersiei, indicatori ai asimetriei şi boltirii.
2.1. Frecvenţe absolute cumulate crescător (Ni↓ ) sau descrescător (Ni↑ )
Frecvenţele absolute cumulate crescător (Ni↓) sau descrescător (Ni↑) exprimă numărul de unităţi statistice cumulate “până la” sau “peste” un anumit nivel al variabilei, adică valori ≤ xi, respectiv ≥ xi.
Relaţiile de calcul sunt:
∑=
− =+↓↓=i
1hhi1ii nnNN , respectiv
∑=
+ =+↑↑=m
ihhi1ii nnNN .
2.2. Frecvenţe relative cumulate crescător (Fi↓) sau descrescător (Fi↑) Frecvenţele relative cumulate crescător (Fi↓) sau descrescător (Fi↑) exprimă
ponderea unităţilor statistice cumulate “până la” sau “peste” un anumit nivel al caracteristicii, adică valori ≤ xi , respectiv ≥ xi.
Relaţiile de calcul sunt:
∑=
− =+↓↓=i
1hhi1ii ffFF , respectiv
∑=
+ =+↑↑=m
ihhi1ii ffFF , unde fi reprezintă frecvenţele relative.
Frecvenţele relative, fi , exprimă ponderea unităţilor ni în volumul total al
unităţilor observate, n, şi se calculează după relaţiile:
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
14
• n
n
n
nf i
ii
ii ==∑
, atunci când frecvenţele sunt exprimate sub formă de coeficient.
În acest caz, .1fi
i =∑
• 100n
n100
n
nf i
ii
ii ⋅=⋅=∑
, atunci când frecvenţele sunt exprimate sub formă de
procente (%). În acest caz, %.100fi
i =∑
Exemplu Distribuţia studenţilor dintr-o serie după nota obţinută la un examen în sesiunea
iunie 2009 se prezintă astfel:
Tabelul 2.1. Distribuţia studenţilor unei serii după nota obţinută la un examen în sesiunea iunie 2009
Nota Nr. studenţi 4 10 5 25 6 40 7 55 8 60 9 15
10 5 TOTAL 210
Se cere să se calculeze frecvenţele absolute şi relative cumulate crescător sau
descrescător. Rezolvare Frecvenţe absolute cumulate crescător( Ni↓) Frecvenţele absolute cumulate crescător se calculează după relaţia:
∑=
− =+↓↓=i
1hhi1ii nnNN .
Pentru exemplul dat, avem: 10nN 11 =↓= ;
;352510nNN 212 =+=+↓↓=
754035nNN 323 =+=+↓↓= etc.
Celelalte rezultate sunt prezentate în tabelul de mai jos:
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
15
Tabelul 2.2. Frecvenţele absolute cumulate crescător xi ni ↓iN
4 10 10 5 25 35 6 40 75 7 55 130 8 60 190 9 15 205
10 5 210
TOTAL 210 -
Interpretare Numărul studenţilor care au obţinut nota 4 la examen este de 10 studenţi.
Numărul studenţilor care au obţinut cel mult nota 5 este de 35 persoane. Numărul studenţilor care au obţinut cel mult nota 6 este de 75 persoane. În mod similar, se interpretează celelalte rezultate.
Observaţie În calculul frecvenţelor absolute cumulate crescător, ultima valoare Ni↓ este
întotdeauna egală cu volumul total al eşantionului observat. În exemplul dat, avem N7↓=n=210.
Frecvenţe absolute cumulate descrescător ( ↑iN )
Frecvenţele absolute cumulate descrescător se calculează după relaţia:
∑=
+ =+↑↑=m
ihhi1ii nnNN .
Pentru exemplul dat, avem: 5nNN 787 =+↑↑= ;
;20155nNN 676 =+=+↑↑=
806020nNN 565 =+=+↑↑= etc.
Celelalte rezultate sunt prezentate în tabelul de mai jos:
Tabelul 2.3. Frecvenţele absolute cumulate descrescător xi ni ↑iN
4 10 210
5 25 200 6 40 175 7 55 135 8 60 80 9 15 20
10 5 5 TOTAL 210 -
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
16
Interpretare Numărul studenţilor care au obţinut nota 10 la examen este de 5 studenţi.
Numărul studenţilor care au obţinut peste nota 9 este de 25 persoane. Numărul studenţilor care au obţinut peste nota 8 este de 80 persoane. În mod similar, se interpretează celelalte rezultate.
Frecvenţe relative (fi) Frecvenţele relative se calculează după relaţia:
100n
n100
n
nf i
ii
ii ⋅=⋅=∑
.
Pentru exemplul dat, avem:
%76,4100210
10100
n
nf
ii
11 =⋅=⋅=∑
%90,11100210
25100
n
nf
ii
22 =⋅=⋅=
∑ etc.
Celelalte rezultate sunt prezentate în tabelul de mai jos:
Tabelul 2.4. Frecvenţele relative xi ni fi (%) 4 10 4,76 5 25 11,91 6 40 19,05 7 55 26,19 8 60 28,57 9 15 7,14
10 5 2,38 TOTAL 210 100,00
Interpretare Ponderea studenţilor care au obţinut nota 4 la examen este de 4,76% din numărul
total de studenţi. Ponderea studenţilor care au obţinut nota 5 este de 11,91%, iar ponderea studenţilor care au obţinut nota 6 este de 19,05%. În mod similar, se interpretează celelalte rezultate.
Frecvenţe relative cumulate crescător ( ↓iF )
Frecvenţele relative cumulate crescător se calculează după relaţia:
∑=
− =+↓↓=i
1hhi1ii ffFF .
Pentru exemplul dat, avem: %76,4fF 11 =↓= ;
%;67,1691,1176,4fFF 212 =+=+↓↓=
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
17
%72,3505,1967,16fFF 323 =+=+↓↓= etc.
Celelalte rezultate sunt prezentate în tabelul de mai jos:
Tabelul 2.5. Frecvenţele relative cumulate crescător xi ni fi (%) ↓iF (%)
4 10 4,76 4,76 5 25 11,91 16,67 6 40 19,05 35,72 7 55 26,19 61,91 8 60 28,57 90,48 9 15 7,14 97,62
10 5 2,38 100,00
TOTAL 210 100 -
Interpretare Ponderea studenţilor care au obţinut nota 4 la examen este de 4,76% din numărul
total de studenţi. Ponderea studenţilor care au obţinut cel mult nota 5 este de 16,67%. Ponderea studenţilor care au obţinut cel mult nota 6 este de 35,72%. În mod similar, se interpretează celelalte rezultate.
Frecvenţe relative cumulate descrescător ( ↑iF )
Frecvenţele relative cumulate descrescător se calculează după relaţiile:
∑=
+ =+↑↑=m
ihhi1ii ffFF .
Pentru exemplul dat, avem: %;38,2fFF 787 =+↑↑= ;
%;52,914,738,2fFF 676 =+=+↑↑=
%09,3857,2852,9fFF 565 =+=+↑↑= etc.
Celelalte rezultate sunt prezentate în tabelul de mai jos:
Tabelul 2.6. Frecvenţele relative cumulate crescător xi ni fi (%) ↑iF (%)
4 10 4,76 100,00
5 25 11,91 95,24 6 40 19,05 83,33 7 55 26,19 64,28 8 60 28,57 38,09 9 15 7,14 9,52
10 5 2,38 2,38 TOTAL 210 100 -
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
18
Interpretare Ponderea studenţilor care au obţinut nota 10 la examen este de 2,38%. Ponderea
studenţilor care au obţinut peste nota 9 este de 9,52%. Ponderea studenţilor care au obţinut peste nota 8 este de 38,09%. În mod similar, se interpretează celelalte rezultate.
2.3. Caracterizarea seriei statistice folosind metode grafice O distribuţie statistică după o variabilă numerică discretă poate fi reprezentată
grafic folosind poligonul frecvenţelor, curba frecvenţelor şi curba frecvenţelor cumulate. Poligonul frecvenţelor Construirea poligonului frecvenţelor presupune găsirea locului geometric al
punctelor Ai de coordonate (xi , ni) sau (xi , fi) şi unirea acestora prin segmente de dreaptă. Poligonul frecvenţelor aproximează forma unei distribuţii.
Alura poligonului frecvenţelor este reprezentată în figura de mai jos:
Figura 1. Poligonul frecvenţelor
Curba frecvenţelor Construirea curbei frecvenţelor presupune ajustarea printr-o linie curbă, continuă
a poligonului frecvenţelor. Curba frecvenţelor aproximează mai bine forma de distribuţie a colectivităţii după variabila considerată.
Alura curbei frecvenţelor este reprezentată în figura de mai jos:
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
19
Figura 2. Curba frecvenţelor
Curba frecvenţelor pentru distribuţia dată se compară cu forma curbei frecvenţelor
pentru o distribuţie normală, cunoscută sub denumirea de Clopotul lui Gauss. Această curbă este o curbă simetrică faţă de nivelul mediu: jumătate din unităţi au valori mai mici decât nivelul mediu, iar jumătate au valori mai mari.
În urma prelucrării datelor la nivelul unui eşantion, pot fi obţinute următoarele forme ale distribuţiei unităţilor:
Figura 3. Curbă asimetrică la dreapta
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
20
Figura 4. Curbă asimetrică la stânga
În exemplele prezentate în Figura 3 şi Figura 4 se observă o concentrare a
frecvenţelor ni spre valorile mici (Figura 3), respectiv spre valorile mari ale variabilei X (Figura 4).
Curba frecvenţelor cumulate Construirea curbei frecvenţelor cumulate presupune reprezentarea grafică a
funcţiei de repartiţie a frecvenţelor unei variabile: F(X ≤ xi). Alura curbei frecvenţelor cumulate crescător este reprezentată în figura de mai
jos:
Figura 5. Curba frecvenţelor cumulate crescător
Alura curbei frecvenţelor cumulate desccrescător este reprezentată în figura de
mai jos:
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
21
Figura 6. Curba frecvenţelor cumulate descrescător
2.4. Caracterizarea seriei folosind indicatori ai statisticii descriptive
Cei mai importanţi indicatori ai statisticii descriptive pot fi grupaţi în indicatori ai tendinţei centrale, indicatori ai dispersiei, indicatori ai asimetriei şi boltirii.
2.4.1. Indicatori ai tendinţei centrale (mărimi medii) Indicatorii tendinţei centrale sunt indicatori prin care pot fi caracterizate în mod
sintetic unităţile statistice observate după o variabilă X. Principalele mărimi medii folosite în caracterizarea unei serii statistice sunt media aritmetică, modul şi mediana.
a. Media aritmetică )x(
Media aritmetică pentru o serie statistică după o variabilă discretă se calculează după relaţiile:
n
x
x ii∑
= , pentru o serie simplă de valori;
∑
∑ ⋅=
ii
iii
n
nx
x , pentru o serie cu frecvenţe ni.
Principalele proprietăţi ale mediei aritmetice sunt:
1. Media aritmetică se înscrie în intervalul de variaţie al variabilei X: maxmin xxx ≤≤ .
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
22
2. Pentru o serie cu frecvenţe, media aritmetică este plasată între valorile extreme, oscilând în jurul valorii cu frecvenţa dominantă.
Media este considerată în statistică un punct de echilibru, similar centrului de greutate în fizică. Dacă o serie nu prezintă o asimetrie pronunţată, atunci media va fi în apropierea valorii cu frecvenţa cea mai mare. 3. Media este o mărime normală, adică suma abaterilor valorilor individuale ale unei variabile X de la media lor este egală cu zero:
0)xx(i
i =−∑ , pentru o serie simplă de valori;
0n)xx( ii
i =⋅−∑ , pentru o serie cu frecvenţe.
Exemple
1. Vânzările unei firme (mil. Lei) înregistrate timp de cinci zile sunt: 10, 9, 8 7, 7. Se cere să se calculeze media aritmetică.
Rezolvare Media aritmetică pentru o serie simplă de valori se calculează după relaţia:
n
x
x ii∑
= .
Pentru exemplul dat, obţinem:
2,85
778910
n
x
x ii
=++++
==∑
mil. Lei.
Interpretare Nivelul mediu al vânzărilor zilnice ale firmei este de 8,2 mil. Lei.
2. Distribuţia studenţilor dintr-o serie după nota obţinută la un examen în sesiunea
iunie 2009 se prezintă astfel:
Tabelul 2.7. Distribuţia studenţilor unei serii după nota obţinută la un examen în sesiunea iunie 2009
Nota Nr. studenţi 4 10 5 25 6 40 7 55 8 60 9 15
10 5 TOTAL 210
Se cere să se calculeze media aritmetică.
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
23
Rezolvare Media aritmetică pentru o serie statistică cu frecvenţe se calculează după relaţia
∑
∑ ⋅=
ii
iii
n
nx
x .
Elementele pentru calculul mediei aritmetice sunt prezentate în tabelul de mai jos:
Tabelul 2.8. Elementele pentru calculul mediei aritmetice xi ni ii nx ⋅
4 10 40 5 25 125 6 40 240 7 55 385 8 60 480 9 15 135
10 5 50 TOTAL ∑ =
iin 210 ∑ =⋅
iii nx 1455
Înlocuind în relaţia de mai sus, se obţine :
93,6210
1455
n
nx
x
ii
iii
==⋅
=∑
∑.
Interpretare Nota medie obţinută de studenţii din eşantionul observat la examen este de
6,93~7.
b. Modul (Mo) Modul este valoarea variabilei cea mai frecvent observată într-o distribuţie, adică
valoarea xi care corespunde frecvenţei maxime (nimax). Aflarea modului presupune identificarea valorii xi corespunzătoare frecvenţei
maxime (nimax). Exemple
1. Vânzările unei firme A (mil. Lei) înregistrate timp de cinci zile sunt: 10, 9, 8 7, 7. Se cere să se afle modul.
Rezolvare Pentru aflarea modului, trebuie identificată valoarea xi corespunzătoare frecvenţei
maxime (nimax). Frecvenţa maximă este nimax=2, iar valoarea xi corespunzătoare este xi=7. Pentru seria dată, modul este: Mo=7 mil. Lei.
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
24
Interpretare Valoarea vânzărilor cea mai frecvent înregistrată de firma A este de 7 mil. Lei pe
zi.
2. Vânzările unei firme A (mil. Lei) înregistrate timp de cinci zile sunt: 10, 8, 8 7, 7. Se cere să se afle valoarea modului.
Rezolvare Pentru aflarea modului, trebuie identificată valoarea xi corespunzătoare frecvenţei
maxime (nimax). Frecvenţa maximă este nimax=2, iar valorile xi corespunzătoare sunt xi=7 şi xi=8. Seria dată este o serie bimodală, valorile modului fiind de 7 mil. Lei şi de 8 mil. Lei.
Interpretare Valorile vânzărilor cele mai frecvente sunt de 7 mil. Lei şi de 8 mil. Lei pe zi . 3. Distribuţia studenţilor dintr-o serie după nota obţinută la un examen în sesiunea
iunie 2009 se prezintă astfel:
Tabelul 2.9. Distribuţia studenţilor unei serii după nota obţinută la un examen în sesiunea iunie 2009
Nota Nr. studenţi 4 10 5 25 6 40 7 55
Mo=8 60
9 15 10 5
TOTAL 210
Se cere să se calculeze modul. Rezolvare Pentru aflarea modului, se află frecvenţa maximă: nimax=60. Valoarea xi care
corespunde acestei frecvenţe maxime este xi=8. Pentru seria dată, modul este: Mo=8. Interpretare Cei mai mulţi studenţi au luat la examenul din sesiunea iunie 2009 nota 8.
c. Mediana (Me) Mediana reprezintă acea valoare a variabilei care împarte seria ordonată crescător
în două părţi egale: jumătate din unităţi au valori mai mici decât mediana, iar jumătate au valori mai mari decât mediana.
Aflarea medianei se realizează diferit în funcţie de tipul seriei:
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
25
1. Pentru o serie simplă:
• cu număr par de termeni, mediana este reprezentată de media aritmetică simplă a celor doi termeni centrali ai seriei ordonate crescător. Exemplu Se consideră seria reprezentată de valorile 10, 9, 11, 6, 7, 8. Pentru aflarea
medianei, şirul valorilor se ordonează în sens crescător: 6, 7, 8, 9, 10, 11. Mediana este reprezentată de media aritmetică simplă a celor doi termeni centrali ai seriei ordonate
crescător, respectiv 5,82
98Me =
+= .
• cu număr impar de termeni, mediana este reprezentată de termenul central al
seriei ordonate crescător. Exemplu Se consideră seria reprezentată de valorile 10, 9, 11, 6, 7. Pentru aflarea medianei,
şirul valorilor se ordonează în sens crescător: 6, 7, 9, 10, 11. Mediana este reprezentată de termenul central al seriei ordonate crescător, respectiv 9Me = .
2. Pentru o serie cu frecvenţe după o variabilă discretă Aflarea medianei presupune parcurgerea următoarelor etape:
• se calculează unitatea mediană:
- atunci când 100n ≥ , unitatea mediană este :2
n
U ii
Me∑
= ;
- atunci când 100n < , unitatea mediană este 2
1n
U ii
Me
+=∑
.
• se calculează frecvenţele absolute cumulate crescător, Ni↓; • se află prima valoare Ni↓≥UMe; • valoarea xi corespunzătoare acestei frecvenţe Ni↓≥UMe este mediana.
Exemplu Distribuţia studenţilor dintr-o serie după nota obţinută la un examen, în sesiunea
iunie 2009, se prezintă astfel:
Tabelul 2.10. Distribuţia studenţilor unei serii după nota obţinută la un examen în sesiunea iunie 2009
Nota Nr. studenţi 4 10 5 25 6 40 7 55 8 60 9 15
10 5 TOTAL 210
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
26
Se cere să se calculeze mediana.
Rezolvare Etape pentru aflarea medianei:
• se calculează unitatea mediană: 1052
210
2
n
U ii
Me ===∑
;
• se calculează frecvenţele absolute cumulate crescător, Ni↓. Acestea sunt prezentate în tabelul de mai jos:
Tabelul 2.11. Frecvenţele absolute cumulate crescător xi ni ↓1N
4 10 10 5 25 35 6 40 75
Me=7 55 130
8 60 190 9 15 205
10 5 210 TOTAL 210 -
• se află prima valoare Ni↓≥UMe. Pentru exemplul dat, .105U130N Mei =≥↓=
• valoarea xi corespunzătoare primei frecvenţe Ni↓≥UMe este mediana. Pentru exemplul dat, Me=7. Interpretare Jumătate din numărul total al studenţilor au luat la examenul din sesiunea iunie
2009 o notă de până la 7, iar jumătate au luat peste 7. Observaţie Locul medianei într-o distribuţie depinde de forma acesteia. Doar în cazul unei
distribuţii simetrice mediana este termenul central al seriei. Exemplu Se consideră distribuţiile a două serii, prezentate în tabelele de mai jos:
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
27
Seria I xi ni 1 20 2 40 3 20 4 15 5 5
TOTAL 100
Seria II
xi ni 1 10 2 20 3 40 4 20 5 10
TOTAL 100
Să se afle şi să se compare valorile medianei pentru cele două distribuţii. Rezolvare Pentru seria I, aflarea medianei presupune parcurgerea următoarelor etape:
• se calculează unitatea mediană: 502
100
2
n
U ii
Me ===∑
;
• se calculează frecvenţele absolute cumulate crescător, Ni↓. Acestea sunt prezentate în tabelul de mai jos:
Tabelul 2.12. Frecvenţele absolute cumulate crescător pentru seria I
xi ni ↓iN
1 20 20
Me=2 40 60
3 20 80 4 15 95 5 5 100
TOTAL 100 -
• prima valoare Ni↓≥UMe este .50U60N Mei =≥↓=
• valoarea xi corespunzătoare frecvenţei Ni↓≥UMe este Me=2. Pentru seria II se obţin următoarele rezultate:
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
28
Tabelul 2.13. Frecvenţele absolute cumulate crescător pentru seria II
xi ni ↓iN
1 10 10 2 20 30
Me=3 40 70
4 20 90 5 10 100
TOTAL 100 -
În acest caz, valoarea medianei este Me=3. Se observă că poziţia medianei pentru cele două distribuţii diferă, deşi volumul
colectivităţii este acelaşi, n=100. Seria I este o serie asimetrică, spre deosebire de seria II care este o distribuţie simetrică. În acest ultim caz, mediana este reprezentată de termenul central al seriei.
d. Relaţii între cele trei mărimi medii fundamentale Relaţia dintre cele trei mărimi medii fundamentale evidenţiază forma unei
distribuţii: • atunci când MeMox == , distribuţia este simetrică;
Figura 7. Distribuţie simetrică
• atunci când MoMex >> , distribuţia este asimetrică la dreapta;
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
29
Figura 8. Distribuţie asimetrică la dreapta
• atunci când MoMex << , distribuţia este asimetrică la stânga.
Figura 9. Distribuţie asimetrică la stânga
e. Comparaţii între cele trei mărimi medii fundamentale Interpretarea valorilor obţinute pentru cele trei mărimi medii fundamentale poate
releva aspecte importante privind unităţile statistice din distribuţia analizată. De exemplu, să considerăm că în urma prelucrării datelor privind salariul lunar
(lei) obţinut de către salariaţii unei firme, s-au obţinut următoarele rezultate: lei800Me;lei700Mo;lei1500x === .
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
30
Aceste valori arată că salariul mediu obţinut de salariaţii firmei este de 1500 lei/lună, însă cei mai mulţi salariaţi câştigă 700 lei/lună, iar jumătate din numărul total al salariaţilor câştigă până la 800 lei/lună, iar jumătate câştigă peste 800 lei/lună. Distribuţia salariaţilor firmei observate este o distribuţie puternic asimetrică la dreapta.
Aceste rezultate pot fi explicate prin diferenţe mari înregistrate între valorile salariului obţinut de salariaţii din firma considerată. Media aritmetică este o mărime influenţată de valorile extreme, aberante. De aceea, este deosebit de utilă şi interpretarea celorlalte mărimi medii fundamentale.
f. Generalizarea medianei: quantilele Quantilele sunt valori ale caracteristicii care împart volumul unei colectivităţi în r
părţi egale. Cele mai folosite quantile sunt:
1. Quartilele Quartilele sunt valori ale caracteristicii care împart volumul unei colectivităţi în 4
părţi egale. Poziţia celor trei quartile într-o distribuţie simetrică este prezentată în figura de
mai jos:
Figura 10. Poziţia quartilelor într-o distribuţie
Quartila unu ( Q1) Aflarea quartilei unu presupune parcurgerea următoarelor etape:
• se calculează unitatea quartilică unu: 4
n
U ii
Q1
∑= ;
• se calculează frecvenţele absolute cumulate crescător, Ni↓; • se află prima valoare Ni↓≥UQ1; • valoarea xi corespunzătoare frecvenţei Ni↓≥UQ1 este quartila unu.
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
31
Quartila doi ( Q2) Aflarea quartilei doi presupune parcurgerea următoarelor etape:
• se calculează unitatea quartilică doi: Meii
ii
Q U2
n
4
n2
U 2 ==⋅
=∑∑
. Quartila doi
este, deci, mediana. Quartila trei ( Q3) Aflarea quartilei trei presupune parcurgerea următoarelor etape:
• se calculează unitatea quartilică trei: 4
n3
U ii
Q3
∑⋅= ;
• se calculează frecvenţele absolute cumulate crescător, Ni↓; • se află prima valoare Ni↓≥UQ3; • valoarea xi corespunzătoare frecvenţei Ni↓≥UQ3 este quartila trei.
Exemplu Distribuţia studenţilor dintr-o serie după nota obţinută la un examen, în sesiunea
iunie 2009, se prezintă astfel:
Tabelul 2.14. Distribuţia studenţilor unei serii după nota obţinută la un examen în sesiunea iunie 2009
Nota Nr. studenţi 4 10 5 25 6 40 7 55 8 60 9 15
10 5 TOTAL 210
Se cere să se calculeze quartila unu şi quartila trei.
Rezolvare Quartila unu
• se calculează unitatea quartilică unu: 5,524
210
4
n
U ii
Q1 ===∑
;
• se calculează frecvenţele absolute cumulate crescător, Ni↓. Acestea sunt prezentate în tabelul de mai jos:
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
32
Tabelul 2.15. Frecvenţele absolute cumulate crescător xi ni ↓1N
4 10 10 5 25 35
Q1=6 40 75
7 55 130 8 60 190 9 15 205
10 5 210 TOTAL 210 -
• se află prima valoare Ni↓≥UQ1. Pentru exemplul dat, 5,52U75N 1Qi =≥↓= ;
• valoarea xi corespunzătoare primei frecvenţe Ni↓≥UMe este quartila unu. Pentru exemplul dat, Q1=6. Interpretare 25% din numărul total al studenţilor au luat la examenul din sesiunea iunie 2009 o
notă de până la 6, iar 75% au luat peste 6.
Quartila trei
• se calculează unitatea quartilică trei: 5,1574
2103
4
n3
U ii
Q3 =⋅
=⋅
=∑
;
• se calculează frecvenţele absolute cumulate crescător, Ni↓. Acestea sunt prezentate în tabelul de mai jos:
Tabelul 2.16. Frecvenţele absolute cumulate crescător
xi ni ↓1N
4 10 10 5 25 35 6 40 75 7 55 130
Q3=8 60 190
9 15 205 10 5 210
TOTAL 210 -
• se află prima valoare Ni↓≥UQ3. Pentru exemplul dat, .5,157U190N 3Qi =≥↓=
• valoarea xi corespunzătoare primei frecvenţe Ni↓≥UQ3 este quartila trei. Pentru exemplul dat, Q3=8.
Interpretare 75% din numărul total al studenţilor au luat la examenul din sesiunea iunie 2009 o
notă de până la 8, iar 25% au luat peste 8.
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
33
2. Decilele Decilele sunt valori ale caracteristicii care împart volumul unei colectivităţi în 10
părţi egale. Cele mai importante decile sunt decila unu şi decila nouă. Decila unu ( D1) Aflarea decilei unu presupune parcurgerea următoarelor etape:
• se calculează unitatea decilică unu: 10
n
U ii
D1
∑= ;
• se calculează frecvenţele absolute cumulate crescător, Ni↓; • se află prima valoare Ni↓≥UD1; • valoarea xi corespunzătoare frecvenţei Ni↓≥UD1 este decila unu.
Decila nouă (D9) Aflarea decilei nouă presupune parcurgerea următoarelor etape:
• se calculează unitatea decilică nouă: 10
n9
U ii
D9
∑⋅= ;
• se calculează frecvenţele absolute cumulate crescător, Ni↓; • se află prima valoare Ni↓≥UD9; • valoarea xi corespunzătoare ifrecvenţei Ni↓≥UD9 este decila nouă.
Exemplu Distribuţia studenţilor dintr-o serie după nota obţinută la un examen în sesiunea
iunie 2009 se prezintă astfel:
Tabelul 2.17. Distribuţia studenţilor unei serii după nota obţinută la un examen în sesiunea iunie 2009
Nota Nr. studenţi 4 10 5 25 6 40 7 55 8 60 9 15
10 5 TOTAL 210
Se cere să se calculeze decila unu şi decila nouă.
Rezolvare Decila unu
• se calculează unitatea decilică unu: 2110
210
10
n
U ii
D1 ===∑
;
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
34
• se calculează frecvenţele absolute cumulate crescător, Ni↓. Acestea sunt prezentate în tabelul de mai jos:
Tabelul 2.18. Frecvenţele absolute cumulate crescător xi ni ↓1N
4 10 10 D1=5 25 35
6 40 75 7 55 130 8 60 190 9 15 205
10 5 210 TOTAL 210 -
• se află prima valoare Ni↓≥UD1. Pentru exemplul dat, .21U35N 1Di =≥↓=
• valoarea xi corespunzătoare primei frecvenţe Ni↓≥UD1 este decila unu. Pentru exemplul dat, D1=5. Interpretare 10% din numărul total al studenţilor au luat la examenul din sesiunea iunie 2009 o
notă de până la 5, iar 90% au luat peste 5.
Decila nouă
• se calculează unitatea decilică nouă: 18910
2109
10
n9
U ii
D9 =⋅
=⋅
=∑
;
• se calculează frecvenţele absolute cumulate crescător, Ni↓. Acestea sunt prezentate în tabelul de mai jos:
Tabelul 2.19. Frecvenţele absolute cumulate crescător xi ni ↓1N
4 10 10 5 25 35 6 40 75 7 55 130
D9=8 60 190
9 15 205 10 5 210
TOTAL 210 -
• se află prima valoare Ni↓≥UD9. Pentru exemplul dat, .189U190N 9Di =≥↓=
• valoarea xi corespunzătoare primei frecvenţe Ni↓≥UD9 este decila nouă. Pentru
exemplul dat, D9=8.
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
35
Interpretare 90% din numărul total al studenţilor au luat la examenul din sesiunea iunie 2009 o
notă de până la 8, iar 10% au luat peste 8.
g. Reprezentarea diagramei „box-and-whiskers” sau „box-plot” Construirea diagramei „box-and-whiskers” presupune reprezentarea următoarelor
valori ale tendinţei centrale: quartila unu, mediana, quartila trei, decila unu şi decila nouă. Forma generală a diagramei „box-and-whiskers” este prezentată în figura de mai jos:
1
10,009,008,007,006,005,004,00
D1 Q1 Q2 Q3 D9
Figura 11. Diagrama „box-and-whiskers”
Diagrama „box-and-whiskers” este utilă în cercetarea statistică deoarece oferă
informaţii cu privire la indicatorii tendinţei centrale, la forma unei distribuţii, dar şi cu privire la gradul de dispersie al distribuţiei (fenomen prezentat în capitolul următor).
Într-o distribuţie perfect simetrică, valorile decilei unu şi nouă, respectiv ale quartilei unu şi trei, sunt reprezentate la aceeaşi distanţă faţă de mediană. Această situaţie este reprezentată în Figura 11.
2.4.2. Indicatori ai dispersiei Pentru caracterizarea unităţilor unei distribuţii nu este suficientă doar folosirea
indicatorilor tendinţei centrale. Pentru o caracterizare corectă a unei distribuţii trebuie să se ia în considerare gradul de variaţie a valorilor variabilei X faţă de nivelul mediu. O colectivitate caracterizată printr-o dispersie mare a valorilor xi ale unei variabile faţă de nivelul mediu este o colectivitate eterogenă iar media nu este reprezentativă pentru distribuţie.
a. Definirea fenomenului de dispersie Aprecierea variabilităţii valorilor unei variabile faţă de nivelul mediu se poate
realiza prin aprecierea fenomenului de dispersie. Dispersia exprimă gradul de împrăştiere
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
36
a valorilor individuale ale unei variabile faţă de nivelul mediu. Aprecierea fenomenului de dispersie al unei distribuţii permite identificarea gradului de reprezentativitate a mediei unei distribuţii.
b. Indicatorii dispersiei Principalii indicatori ai dispersiei sunt: 1. Amplitudinea de variaţie Amplitudinea de variaţie măsoară distanţa dintre nivelul maxim şi nivelul minim
al unei variabile. Se calculează pe baza relaţiei:
minmax xxA −= .
Acest indicator permite aprecierea întinderii domeniului de variaţie al variabilei X. Dezavantajul acestui indicator constă în faptul că nu „pătrunde” în interiorul distribuţiei, respectiv între cele două valori extreme ale variabilei.
2. Varianţa Varianţa este media pătratelor abaterilor valorilor xi de la nivelul mediu şi poate fi
calculată pe baza relaţiei:
n
)xx(
s
2
ii
2∑ −
= , pentru o serie simplă;
∑
∑ ⋅−=
ii
i2
ii
2
n
n)xx(
s , pentru o serie cu frecvenţe.
Varianţa nu are unitate de măsură şi nu se interpretează. 3. Abaterea medie pătratică (abaterea standard) Abaterea medie pătratică sau abaterea standard este rădăcina mediei pătratelor
abaterilor valorilor xi de la nivelul mediu şi poate fi calculată pe baza relaţiei:
n
)xx(
ss
2
ii
2∑ −
== , pentru o serie simplă;
∑
∑ ⋅−==
ii
i2
ii
2
n
n)xx(
ss , pentru o serie cu frecvenţe.
Abaterea standard se exprimă în aceeaşi unitate de măsură cu cea a variabilei X. Arată cu cât variază, în medie, valorile variabilei X de la nivelul mediu, în sens negativ şi pozitiv.
4. Coeficientul de variaţie Întrucât abaterea standard şi media se exprimă în aceeaşi unitate de măsură cu cea
a variabilei X, aceşti indicatori nu pot fi folosiţi pentru a compara două serii de date care sunt exprimate în unităţi de măsură diferite. Pentru a înlătura acest inconvenient, se calculează coeficientul de variaţie, după relaţia:
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
37
100x
sv ⋅= .
Prin evaluarea acestui coeficient se poate aprecia gradul de reprezentativitate a mediei unei distribuţii. În general, o valoare a coeficientului de variaţie mai mică de 50% arată că media este reprezentativă.
Exemplu Distribuţia studenţilor dintr-o serie după nota obţinută la un examen în sesiunea
iunie 2009 se prezintă astfel:
Tabelul 2.20. Distribuţia studenţilor unei serii după nota obţinută la un examen în sesiunea iunie 2009
Nota Nr. studenţi 4 10 5 25 6 40 7 55 8 60 9 15
10 5 TOTAL 210
Se cere să se calculeze indicatorii dispersiei. Rezolvare Cei mai importanţi indicatori ai dispersiei sunt: amplitudinea de variaţie, varianţa,
abaterea standard şi coeficientul de variaţie. Amplitudinea de variaţie Amplitudinea de variaţie se calculează pe baza relaţiei:
6410xxA minmax =−=−= .
Interpretare Diferenţa dintre nivelul maxim şi nivelul minim al variabilei X este egală cu 6. Varianţa Varianţa se calculează pe baza relaţiei:
∑
∑ ⋅−=
ii
i2
ii
2
n
n)xx(
s . Pentru această distribuţie, media este 93,6x = .
Elementele de calcul ale varianţei sunt prezentate în tabelul de mai jos:
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
38
Tabelul 2.21. Elemente de calcul ale varianţei xi ni xxi − 2
i )xx( − i2
i n)xx( ⋅−
4 10 -2,93 8,58 85,85 5 25 -1,93 3,72 93,12 6 40 -0,93 0,86 34,60 7 55 0,07 0,00 0,27 8 60 1,07 1,14 68,69 9 15 2,07 4,28 64,27
10 5 3,07 9,42 47,12 TOTAL 210 - - 393,93
Înlocuind în relaţia de mai sus, se obţine:
876,1210
93,393
n
n)xx(
s
ii
i2
ii
2 ==⋅−
=∑
∑.
Abaterea standard Abaterea standard se calculează pe baza relaţiei:
37,1876,1ss 2 === . Interpretare Notele obţinute de studenţii din seria dată variază, în medie, faţă de nota medie cu
1,37~1 punct, în sens pozitiv şi negativ. Coeficientul de variaţie Coeficientul de variaţie se calculează după relaţia:
%77,1910093,6
37,1100
x
sv =⋅=⋅= .
Interpretare Valoarea coeficientului de variaţie arată că distribuţia studenţilor după nota
obţinută la un examen în sesiunea iunie 2009 este o distribuţie omogenă, caracterizată printr-o dispersie mică (v<50%). Media este reprezentativă pentru această distribuţie.
c. Compararea fenomenului de dispersie pentru mai multe distribuţii Pentru două colectivităţi se înregistrează vârsta persoanelor şi se obţin
următoarele rezultate: ani2s,ani15x 11 == ;
ani2s,ani50x 22 == . Aceste rezultate arată că ambele colectivităţi se caracterizează printr-o dispersie
mică a vârstei persoanelor faţă de vârsta medie. Vârsta medie pentru unităţile din prima colectivitate este, însă, mult mai mică decât vârsta medie pentru unităţile din cea de-a doua colectivitate. Aceasta arată că prima colectivitate este formată din persoane foarte tinere, spre deosebire de persoanele din cea de-a doua colectivitate.
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
39
Reprezentarea grafică a două distribuţii caracterizate prin medii diferite şi aceeaşi dispersie este realizată în figura de mai jos:
Figura 12. Curba frecvenţelor pentru două distribuţii
Reprezentarea grafică a două distribuţii caracterizate prin aceeaşi medie şi
dispersii diferite este realizată în figura de mai jos:
Figura 13. Curba frecvenţelor pentru două distribuţii
d. Abaterea standard şi distribuţia normală Cunoscând nivelul mediu şi abaterea standard pentru o distribuţie, putem afla care
este proporţia unităţilor care înregistrează valori mai mari, de exemplu, decât ( sx + ).
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
40
Pentru aceasta, se calculează valori ale unei variabile standardizat Z, cunoscută şi sub denumirea de scor Zi, după relaţia:
s
xxz i
i
−= . Această mărime arată poziţia unei unităţi faţă de nivelul mediu ( x ),
folosind ca „unitate de măsură” abaterea standard. Variabila Z este o variabilă de medie 0 şi varianţă egală cu 1.
De exemplu, pentru o distribuţie caracterizată printr-o medie de 100x = şi o abatere standard de 20s = , pentru xi=140 putem afla valoarea zi, astfel:
220
100140=
−=iz . Aceasta arată că unitatea care înregistrează valoarea xi=140 se
găseşte la o distanţă faţă de nivelul mediu egală cu de două ori abaterea standard.
Odată calculată valoarea z, putem afla proporţia unităţilor care înregistrează valori
mai mari decât 140, de exemplu. Aceste valori sunt calculate pentru o distribuţie normală şi sunt tabelate (Anexa 1).
Tabelul care prezintă aceste rezultate este de forma:
0 0.01 K 0.05 K 0
0.1 0.2 M 1 0,341
1.1 0,375 M
Pe prima coloană sunt valorile lui z, întregul şi prima zecimală, iar valorile din
următoarele coloane reprezintă a doua zecimală a valorii zi. Valorile din interiorul tabelul
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
41
arată proporţia unităţilor care înregistrează valori cuprinse între nivelul mediu şi scorul z corespunzător.
De exemplu, pentru o valoare zi=1,15, se citeşte 0,375. Această valoare arată că
aproximativ 37,5% din unităţile distribuţiei înregistrează valori cuprinse între nivelul mediu şi valoarea zi=1,15.
În Tabelul Z nu sunt valori negative pentru zi, însă distribuţia normală este o distribuţie simetrică, deci aria suprafeţei cuprinse între nivelul mediu şi valoarea pozitivă sau negativă a lui Z este aceeaşi.
Exemple 1. Pentru o distribuţie normală de medie, x , şi abatere standard, s, să se afle
proporţia unităţilor care înregistrează valori cuprinse în intervalele ( sx ± ), ( s2x ⋅± ) şi ( s3x ⋅± ).
Rezolvare Pentru a afla proporţia unităţilor care înregistrează valori cuprinse în intervalul
)sx;sx( +− , se calculează scorul Z, astfel:
1s
xsx
s
xxz 1
1 −=−−
=−
=
1s
xsx
s
xxz 2
2 +=−+
=−
= .
Din tabelul Z se citeşte valoarea care corespunde unui nivel zi=1, şi anume 0,341.
0 0.01 K 0.05 K 0
0.1 0.2 M 1 0,341
1.1 0,375 M
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
42
Această valoare, 0,341, reprezintă aria suprafeţei cuprinse între nivelul mediu şi
zi=1. Proporţia unităţilor care înregistrează valori cuprinse în intervalul )sx;sx( +− este: 682,0341,02 =⋅ sau 68,2%.
În mod similar, se obţin valorile zi=±2, pentru limitele intervalului ( s2x ⋅± ).
Din tabelul Z, se citeşte valoarea care corespunde unui nivel zi=2, de 0,477.
0 K 0.05 K 0
0.1 0.2 M 2 0,477 M
Proporţia unităţilor care înregistrează valori cuprinse în intervalul
)s2x;s2x( ⋅+⋅− este: 954,0477,02 =⋅ sau 95,4%.
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
43
Pentru intervalul ( s3x ⋅± ), se obţin valorile zi=±3:
Pentru zi=±3, se citeşte valoarea corespunzătoare 0,499.
0 K 0.05 K 0
0.1 0.2 M 3 0,499
Proporţia unităţilor care înregistrează valori cuprinse în intervalul
)s3x;s3x( ⋅+⋅− este: 998,0499,02 =⋅ sau 99,8%.
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
44
Interpretare Într-o distribuţie normală, în intervalul ( sx ± ) sunt cuprinse 68,2% din unităţi, în
intervalul ( s2x ⋅± ) sunt cuprinse 95,4% din unităţi şi în intervalul ( s3x ⋅± ) sunt cuprinse 99,8% din unităţi.
2. Distribuţia unor studenţi după nota obţinută la un test urmează o lege normală
şi se caracterizează prin următoarele rezultate: 7x = şi s=2. Se cere să se afle proporţia studenţilor care au luat note mai mici decât 6.
Rezolvare Valoarea Zi care corespunde unei valori xi=6 se calculează astfel:
502
76,
s
xxz i
i −=−
=−
=
Din tabelul Z se citeşte valoarea care corespunde unui nivel zi=0,5, egală cu 0,191.
0 0.01 K 0.05 K
0 0.1 0.2 M
0,5 0,191 M
Proporţia studenţilor care au luat note mai mici decât 6 este f=0,5-0,191=0,309
sau 30,9%.
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
45
Observaţie Aria suprafeţei reprezentate în figura de mai sus este egală cu unu (după cum am
precizat anterior, suma proporţiilor este egală cu 1 sau 100%). Distribuţia normală este o distribuţie simetrică, deci proporţia unităţilor care au valori mai mari decât nivelul mediu este de 0,5.
3. Distribuţia unor persoane după vârstă urmează o lege normală şi se
caracterizează prin următoarele rezultate: 30x = ani şi s=4 ani. Se cere să se afle proporţia persoanelor care au o vârstă cuprinsă între 27 ani şi 35 ani.
Rezolvare Valorile lui Z corespunzătoare lui x1=27 şi x2=35 sunt:
75,04
3027
s
xxz 1
1 −=−
=−
=
25,14
3035
s
xxz 2
2 +=−
=−
= .
Din tabelul Z se citesc valorile corespunzătoare lui z1=-0,75 şi z2=+1,25, astfel:
0 K 0.05 K 0
0.1 0.2 M
0,7 0,273 M M
1,2 0,394 M M
Proporţia persoanelor care au o vârstă cuprinsă între 27 ani şi 35 ani este:
f=0,273+0,394=0,667 sau 66,7%.
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
46
4. Pentru o distribuţie normală de medie x , şi abatere standard s, să se afle
limitele intervalului care include 95% din unităţile statistice observate.
Rezolvare Această problemă poate fi prezentată grafic astfel:
Demersul urmat pentru rezolvarea acestei probleme este invers celui prezentat
anterior: se cunoaşte proporţia (95%) şi trebuie să aflăm valoarea zi care corespunde acestei proporţii.
Pentru a afla valoarea zi, se calculează aria suprafeţei cuprinsă între nivelul mediu
şi z, care este egală cu %5,472
%95= sau 0,475.
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
47
Pentru această proporţie egală cu 0,475, se citeşte valoarea zi corespunzătoare, de
1,96. 0 K 0.06 K
0 0.1 0.2 M
1,9 0,475 M M
Prin urmare, într-o distribuţie normală, 95% din unităţi au valori cuprinse în
intervalul [ ]s96,1x;s96,1x ⋅+⋅− .
Observaţie În estimarea parametrilor unei populaţii, problematică prezentată în partea a doua,
obiectivul urmărit este de a afla limitele unui interval care acoperă media unei populaţii, în 95% din cazuri, de exemplu.
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
48
2.4.3. Indicatori ai formei unei distribuţii
a. Asimetria O distribuţie este simetrică dacă valorile frecvenţelor sunt egal dispersate faţă de
valoarea centrală a seriei. Distribuţia normală este exemplul clasic al unei repartiţii simetrice. Graficul densităţii de repartiţie în cazul unei distribuţii normale are forma unui clopot simetric, cu axa de simetrie reprezentată de media seriei. O deviere de la forma simetrică a unei distribuţii evidenţiază fenomenul de asimetrie.
Asimetria poate fi apreciată pe cale grafică prin reprezentarea poligonului şi
curbei frecvenţelor, şi prin reprezentarea diagramei “box-and-whiskers”. Alura curbei frecvenţelor în cazul unei distribuţii simetrice, a unei distribuţii
asimetrice la dreapta sau la stânga este reprezentată grafic în figurile de mai jos:
10,008,006,004,00
Nota
50
40
30
20
10
0
Fre
qu
ency
Mean = 7,00
Std. Dev. =
1,54303
N = 190
Figura 14. Distribuţie simetrică
10,008,006,004,00
Nota
60
50
40
30
20
10
0
Fre
qu
enc
y
Mean = 6,4737
Std. Dev. =
1,43163
N = 190
Figura 15. Distribuţie asimetrică la dreapta
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
49
10,008,006,004,00
Nota
60
50
40
30
20
10
0
Fre
qu
ency
Mean = 7,5263
Std. Dev. =
1,43163
N = 190
Figura 16. Distribuţie asimetrică la stânga Alura diagramei “box-and-whiskers” în cazul unei distribuţii simetrice, a unei
distribuţii asimetrice la dreapta sau la stânga este reprezentată grafic în figurile de mai jos:
1
10,009,008,007,006,005,004,00
Figura 17. Distribuţie simetrică
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
50
Nota
10,009,008,007,006,005,004,00
Figura 18. Distribuţie asimetrică la dreapta
Nota
10,009,008,007,006,005,004,00
Figura 19. Distribuţie asimetrică la stânga
Cei mai importanţi indicatori ai asimetriei sunt: 1. Asimetria în mărime absolută Asimetria în mărime absolută poate fi calculată pe baza relaţiei:
MoxAs −= . O valoare pozitivă a acestui indicator arată o asimetrie la dreapta a distribuţiei, iar
o valoare negativă arată o asimetrie la stânga. O valoare nulă arată o distribuţie simetrică.
2. Coeficientul de asimetrie Pearson Coeficientul de asimetrie Pearson se calculează pe baza relaţiei:
32
23
1µ
µβ = , unde:
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
51
∑
∑ ⋅−=
ii
i3
ii
3 n
n)xx(
µ reprezintă momentul centrat de ordinul 3;
2
ii
i2
ii
2 sn
n)xx(
=⋅−
=∑
∑µ reprezintă momentul centrat de ordinul 2, adică
varianţa. Acest indicator este întotdeauna pozitiv. Sensul asimetriei este dat de semnul lui
µ3. Atunci când µ3>0, distribuţia este asimetrică la dreapta. Atunci când µ3<0, distribuţia este asimetrică la stânga.
3. Coeficientul de asimetrie Fisher Coeficientul de asimetrie Fisher se calculează pe baza relaţiei:
33
1s
µγ = .
Interpretarea valorii acestui coeficient este similară coeficientului de asimetrie Pearson.
Exemplu Distribuţia studenţilor dintr-o serie după nota obţinută la un examen în sesiunea
iunie 2009 se prezintă astfel:
Tabelul 2.22. Distribuţia studenţilor unei serii după nota obţinută la un examen în sesiunea iunie 2009
Nota Nr. studenţi 4 10 5 25 6 40 7 55 8 60 9 15
10 5 TOTAL 210
Se cere să se calculeze indicatorii asimetriei. Rezolvare Indicatorii asimetriei sunt: 1. Asimetria în mărime absolută
07,1893,6MoxAs −=−=−= .
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
52
Interpretare Valoarea indicatorului de asimetrie arată că distribuţia studenţilor dintr-o serie
după nota obţinută la un examen în sesiunea iunie 2009 prezintă o asimetrie la stânga (As<0).
2. Coeficientul de asimetrie Pearson Coeficientul de asimetrie Pearson se calculează pe baza relaţiei:
32
23
1µ
µβ = , unde:
∑
∑ ⋅−=
ii
i3
ii
3 n
n)xx(
µ reprezintă momentul centrat de ordinul 3;
2
ii
i2
ii
2 sn
n)xx(
=⋅−
=∑
∑µ reprezintă momentul centrat de ordinul 2, adică
varianţa. Elementele de calcul sunt prezentate în tabelul de mai jos:
Tabelul 2.23. Elemente de calcul xi ni )xx( i − 2
i )xx( − i2
i n)xx( ⋅− 3i )xx( − i
3i n)xx( ⋅−
4 10 -2,93 8,58 85,85 -25,15 -251,54 5 25 -1,93 3,72 93,12 -7,19 -179,73 6 40 -0,93 0,86 34,60 -0,80 -32,17 7 55 0,07 0,00 0,27 0,00 0,02 8 60 1,07 1,14 68,69 1,23 73,50 9 15 2,07 4,28 64,27 8,87 133,05
10 5 3,07 9,42 47,12 28,93 144,67 TOTAL 210 - - 393,93 - -112,20
Momentele centrate de ordinul doi şi trei sunt:
876,1210
93,393
n
n)xx(
ii
i2
ii
2 ==⋅−
=∑
∑µ
534,0210
20,112
n
n)xx(
ii
i3
ii
3 −=−
=⋅−
=∑
∑µ
Înlocuind în relaţia de mai sus, se obţine:
0432,06023,6
2852,0
876,1
)534,0(3
2
32
23
1 ==−
==µ
µβ .
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
53
Interpretare Valoarea coeficientului de asimetrie Pearson arată că distribuţia dată se
caracterizează printr-o asimetrie ( 01 ≠β ) la stânga (µ3<0). 3. Coeficientul de asimetrie Fisher Coeficientul de asimetrie Fisher se calculează pe baza relaţiei:
208,037,1
534,0
s 333
1 −=−
==µ
γ .
b. Boltirea Boltirea este definită prin compararea distribuţiei statistice cu distribuţia normală
din punctul de vedere al variaţiei variabilei X şi a frecvenţei ni. Boltirea poate fi apreciată pe cale grafică prin reprezentarea curbei frecvenţelor.
Alura curbei frecvenţelor în cazul unei distribuţii normale (mezocurtice) sau care prezintă un accentuat fenomen de boltire este reprezentată în figura de mai jos:
Figura 20. Boltirea unei distribuţii
În cazul unei distribuţii leptocurtice, se înregistrează o variaţie mică a valorilor
variabilei X şi o variaţie mare a frecvenţelor absolute, ni. În cazul unei distribuţii platicurtice, se înregistrează o variaţie mare a variabilei X şi o variaţie mică a frecvenţelor absolute, ni.
Boltirea poate fi apreciată pe cale numerică prin calculul indicatorilor boltirii: 1. Coeficientul de boltire Pearson Coeficientul de boltire Pearson se calculează pe baza relaţiei:
44
22
42
s
µ
µ
µβ == , unde:
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
54
∑
∑ ⋅−=
ii
i4
ii
4 n
n)xx(
µ reprezintă momentul centrat de ordinul 4.
O valoare a coeficientului de boltire Pearson 32 =β arată o distribuţie
mezocurtică. O valoare 32 >β arată o distribuţie leptocurtică iar o valoare 32 <β arată o distribuţie platicurtică.
2. Coeficientul de boltire Fisher Coeficientul de boltire Fisher se calculează pe baza relaţiei:
322 −= βγ .
O valoare a coeficientului de boltire Fisher 02 =γ arată o distribuţie mezocurtică.
O valoare 02 >γ arată o distribuţie leptocurtică iar o valoare 02 <γ arată o distribuţie platicurtică.
Exemplu Distribuţia studenţilor dintr-o serie după nota obţinută la un examen în sesiunea
iunie 2009 se prezintă astfel:
Tabelul 2.24. Distribuţia studenţilor unei serii după nota obţinută la un examen în sesiunea iunie 2009
Nota Nr. studenţi 4 10 5 25 6 40 7 55 8 60 9 15
10 5 TOTAL 210
Se cere să se calculeze indicatorii boltirii. Rezolvare Indicatorii boltirii sunt: Coeficientul de boltire Pearson se calculează pe baza relaţiei:
44
22
42
s
µ
µ
µβ == , unde:
∑
∑ ⋅−=
ii
i4
ii
4 n
n)xx(
µ reprezintă momentul centrat de ordinul 4.
Elementele de calcul sunt prezentate în tabelul de mai jos:
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
55
Tabelul 2.25. Elemente de calcul xi ni )xx( i − 4
i )xx( − i4
i n)xx( ⋅−
4 10 -2,93 -2,93000 73,70051 5 25 -1,93 -1,93000 13,87488 6 40 -0,93 -0,93000 0,74805 7 55 0,07 0,07000 0,00002 8 60 1,07 1,07000 1,31080 9 15 2,07 2,07000 18,36037
10 5 3,07 3,07000 88,82874 TOTAL 210 - - 1911,99746
Momentul centrat de ordinul patru este:
105,9210
99746,1911
n
n)xx(
ii
i4
ii
4 ==⋅−
=∑
∑µ
Înlocuind în relaţia de mai sus, se obţine:
59,2876,1
105,922
2
42 ===
µ
µβ .
Interpretare Valoarea coeficientului de boltire Pearson arată că distribuţia studenţilor după
nota obţinută la examen în sesiunea iunie 2009 este o distribuţie platicurtică ( 32 <β ) . Coeficientul de boltire Fisher se calculează pe baza relaţiei:
41,0359,2322 −=−=−= βγ . Interpretare Valoarea coeficientului de boltire Fisher arată că distribuţia studenţilor după nota
obţinută la examen în sesiunea iunie 2009 este o distribuţie platicurtică ( 02 <γ ).
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
56
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
57
CAPITOLUL 3. CARACTERIZAREA UNEI SERII STATISTICE DUPĂ O VARIABILĂ NUMERICĂ CONTINUĂ
Caracterizarea unităţilor statistice observate după o variabilă continuă se
realizează folosind metode grafice sau numerice. Reprezentarea grafică a unei serii după o variabilă discretă presupune folosirea următoarelor diagrame: histograma, poligonul frecvenţelor, curba frecvenţelor sau curba frecvenţelor cumulate. Indicatorii numerici prin care poate fi caracterizată o serie statistică după o variabilă continuă pot fi grupaţi, ca şi în cazul variabilelor discrete, în indicatori ai tendinţei centrale (mărimi medii), indicatori ai dispersiei, indicatori ai asimetriei şi boltirii.
3.1. Frecvenţe absolute şi relative cumulate crescător sau descrescător
Frecvenţele absolute şi relative cumulate crescător sau descrescător se calculează în mod similar modului de calcul prezentat în cazul variabilelor discrete.
Înaintea prelucrării unei serii după o variabilă continuă prezentată pe intervale de variaţie, dacă limitele intervalelor nu sunt precizate, acestea trebuie închise:
- în cazul intervalelor egale de variaţie, primul şi ultimul interval se închid luând în considerare aceeaşi mărime a intervalelor;
- în cazul intervalelor inegale de variaţie, primul interval se închide luând în considerare mărimea intervalului următor, iar ultimul interval se închide luând în considerare mărimea intervalului anterior.
Exemplu Distribuţia firmelor din judeţul Iaşi după valoarea vânzărilor zilnice (mil. Lei),
înregistrată în luna octombrie 2009, este prezentată în tabelul de mai jos:
Tabelul 3.1. Distribuţia firmelor din judeţul Iaşi după valoarea vânzărilor zilnice (mil. Lei), în luna octombrie 2009 Valoare vânzări Număr firme
până la 10 20 10-20 40 20-30 35 30-40 15
peste 40 10 TOTAL 110
Se cere să se calculeze frecvenţele absolute şi relative cumulate crescător sau
descrescător.
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
58
Rezolvare Închiderea intervalelor de variaţie Mărimea intervalelor de variaţie este l=10. Limita inferioară a primului interval
de variaţie se închide luând în considerare aceeaşi mărime, deci: 10-10=0. Limita superioară a ultimului interval de variaţie este: 40+10=50.
Frecvenţe absolute cumulate crescător şi descrescător Frecvenţele absolute cumulate crescător şi descrescător se calculează după
relaţiile:
∑=
− =+↓↓=i
1hhi1ii nnNN , respectiv ∑
=+ =+↑↑=
m
ihhi1ii nnNN .
Valorile frecvenţelor absolute cumulate crescător şi descrescător pentru exemplul dat sunt prezentate în tabelul de mai jos:
Tabelul 3.2. Frecvenţe absolute cumulate crescător şi descrescător
xi-1-xi ni ↓iN ↑iN
0- 10 20 20 120
10-20 40 60 100 20-30 35 95 60 30-40 15 110 25 40-50 10 120 10
TOTAL 120 - - Interpretare Un număr de 20 firme au realizat vânzări de până la 10 mil. Lei ( ↓1N ). Un
număr de 60 firme au realizat vânzări de până la 20 mil. Lei ( ↓2N ). În mod similar se interpretează celelalte valori din tabelul de mai sus.
Din numărul total al firme, 10 firme au realizat vânzări de peste 40 mil. Lei. Un număr de 25 de firme au realizat vânzări de peste 30 mil. Lei. În mod similar se interpretează celelalte valori din tabelul de mai sus.
Observaţie În interpretarea frecvenţelor absolute cumulate crescător se consideră limita
superioară a intervalului de variaţie, iar în interpretarea frecvenţelor absolute cumulate descrescător se consideră limita inferioară a intervalului de variaţie.
Frecvenţe relative cumulate crescător şi descrescător Frecvenţele relative cumulate crescător şi descrescător se calculează după
relaţiile:
∑=
− =+↓↓=i
1hhi1ii ffFF , respectiv ∑
=+ =+↑↑=
m
ihhi1ii ffFF .
Pentru exemplul dat, valorile calculate ale frecvenţelor relative cumulate crescător şi descrescător sunt prezentate în tabelul de mai jos:
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
59
Tabelul 3.3. Frecvenţe absolute cumulate crescător şi descrescător xi-1-xi ni fi ↓iF ↑iF
0 -10 20 16,67 16,67 100,00
10-20 40 33,33 50,00 83,33 20-30 35 29,17 79,17 50,00 30-40 15 12,50 91,67 20,83 40-50 10 8,33 100,00 8,33
TOTAL 120 100,00 - - Interpretare Ponderea firmelor care au realizat vânzări de până la 10 mil. Lei ( ↓1F ) este de
16,67%. Ponderea firmelor care au realizat vânzări de până la 20 mil. Lei ( ↓2F ) este de
50%. În mod similar se interpretează celelalte valori din Tabelul 3.3. Ponderea firmelor care au realizat vânzări de peste 40 mil. Lei este de 8,33%.
20,83% din numărul total al firmelor au realizat vânzări de peste 30 mil. Lei. În mod similar se interpretează celelalte valori din Tabelul 3.3.
3.2. Caracterizarea seriei folosind metode grafice O distribuţie statistică după o variabilă numerică continuă poate fi reprezentată
grafic folosind histograma, poligonul frecvenţelor, curba frecvenţelor şi curba frecvenţelor cumulate.
Histograma Construirea histogramei presupune ridicarea unor dreptunghiuri alăturate, cu baza
egală, în cazul intervalelor egale de variaţie, sau inegală, în cazul intervalelor inegale, de înălţime ni. Alura histogramei, considerând intervale egale de variaţie, este reprezentată în figura de mai jos:
10,008,006,004,00
5
4
3
2
1
0
Fre
qu
ency
Histogram
Figura 21. Histograma
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
60
Poligonul frecvenţelor Construirea poligonului frecvenţelor presupune găsirea locului geometric al
punctelor Ai de coordonate ( i'i n,x ) sau ( i
'i n,x ) şi unirea acestora prin segmente de
dreaptă. Valorile 'ix reprezintă mijlocul sau centrul intervalelor de variaţie, calculat ca
medie aritmetică simplă a limitelor intervalelor de variaţie:
2
xxx i1i'
i
+= − .
Curba frecvenţelor Construirea curbei frecvenţelor presupune ajustarea printr-o linie curbă, continuă
a poligonului frecvenţelor. Curba frecvenţelor pentru o distribuţie normală este reprezentată în figura de mai jos:
10,008,006,004,00
Nota
6
5
4
3
2
1
0
Freq
uenc
y
Figura 22. Curba frecvenţelor
Curba frecvenţelor cumulate Construirea curbei frecvenţelor cumulate presupune reprezentarea grafică a
funcţiei de repartiţie a frecvenţelor unei variabile: F(X<xi). Alura curbei frecvenţelor cumulate crescător este reprezentată în figura de mai jos:
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
61
5 6 7 8 9
nota
0%
25%
50%
75%
100%
Per
cen
t
Figura 23. Curba frecvenţelor cumulate crescător
3.3. Caracterizarea seriei folosind indicatori ai statisticii descriptive
3.3.1. Indicatori ai tendinţei centrale (mărimi medii)
a. Media aritmetică Media aritmetică pentru o serie statistică după o variabilă continuă se calculează
după relaţia:
∑
∑ ⋅=
ii
ii
'i
n
nx
x , unde 2
xxx i1i'
i
+= − .
Exemplu Distribuţia firmelor din judeţul Iaşi după valoarea vânzărilor zilnice (mil. Lei),
înregistrată în luna octombrie 2009, este prezentată în tabelul de mai jos:
Tabelul 3.4. Distribuţia firmelor din judeţul Iaşi după valoarea vânzărilor zilnice (mil. Lei), în luna octombrie 2009 Valoare vânzări Număr firme
- 10 20 10-20 40 20-30 35 30-40 15
peste 40 10 TOTAL 110
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
62
Se cere să se calculeze media aritmetică. Rezolvare
Media aritmetică se calculează după relaţia ∑
∑ ⋅=
ii
ii
'i
n
nx
x , unde 2
xxx i1i'
i
+= − .
Centrul intervalelor de variaţie se calculează astfel: 52
100
2
xxx 10'
1 =+
=+
= ;
152
2010
2
xxx 21'
2 =+
=+
= etc.
Elementele pentru calculul mediei aritmetice sunt prezentate în tabelul de mai jos:
Tabelul 3.5. Elemente pentru calculul mediei aritmetice xi-1-xi ni '
ix i'i nx ⋅
0 -10 20 5 100 10-20 40 15 600 20-30 35 25 875 30-40 15 35 525 40-50 10 45 450
TOTAL 120 - 2550
Înlocuind în relaţia de mai sus se obţine:
25,21120
2550
n
nx
x
ii
ii
'i
==⋅
=∑
∑ mil. Lei.
Interpretare Valoarea medie a vânzărilor zilnice realizate în luna octombrie 2009 de firmele
din judeţul Iaşi este de 21,25 milioane lei.
b. Modul (Mo) Pentru aflarea modului în cazul unei variabile continue, trebuie parcurse
următoarele etape: • se află frecvenţa maximă, nimax; • în dreptul acestei frecvenţe maxime, se citeşte intervalul modal (xi-1, xi); • în acest interval, modul se află prin interpolare, după relaţia:
21
11i dxMo
∆∆∆+
⋅+= − , unde:
xi-1, reprezintă limita inferioară a intervalului modal; d este mărimea intervalului modal, d= xi - xi-1;
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
63
1∆ este diferenţa dintre frecvenţa intervalului modal şi frecvenţa intervalului anterior:
1imaxi1 nn −−=∆ ;
2∆ este diferenţa dintre frecvenţa intervalului modal şi frecvenţa intervalului următor:
1imaxi1 nn +−=∆ .
Exemplu Distribuţia firmelor din judeţul Iaşi după valoarea vânzărilor zilnice (mil. Lei),
înregistrată în luna octombrie 2009, este prezentată în tabelul de mai jos:
Tabelul 3.6. Distribuţia firmelor din judeţul Iaşi după valoarea vânzărilor zilnice (mil. Lei), în luna octombrie 2009 Valoare vânzări Număr firme
0- 10 20 10-20 40
20-30 35 30-40 15 40-50 10
TOTAL 110
Se cere să se calculeze valoarea modului. Rezolvare Etapele aflării modului sunt:
• se află frecvenţa maximă, nimax=40; • în dreptul acestei frecvenţe maxime se citeşte intervalul modal (10-20); • în acest interval, modul se află prin interpolare, după relaţia:
21
11i dxMo
∆∆∆+
⋅+= − , unde:
xi-1 =10; d= xi - xi-1 =20-10=10 ;
202040nn 1imaxi1 =−=−= −∆ ;
53540nn 1imaxi1 =−=−= +∆ .
Înlocuind în relaţia de mai sus, se obţine:
18)3540()2040(
)2040(1010Mo =
−+−−
⋅+= mil. Lei.
Interpretare Cele mai multe firme din judeţul Iaşi au realizat în luna octombrie 2009 vânzări
zilnice de 18 mil. Lei.
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
64
c. Mediana (Me) Aflarea medianei presupune parcurgerea următoarelor etape:
• se calculează unitatea mediană: 2
n
U ii
Me∑
= ;
• se calculează frecvenţele absolute cumulate crescător, Ni↓; • se află prima valoare Ni↓≥UMe; • în dreptul primei valori Ni↓≥UMe, se citeşte intervalul median: (xi-1, xi); • în acest interval, mediana se află prin interpolare după relaţia:
i
1iMe
1i n
NUdxMe
↓−⋅+= −
− , unde:
xi-1, reprezintă limita inferioară a intervalului median; d este mărimea intervalului median, d= xi - xi-1;
↓−1iN este frecvenţa absolută cumulată corespunzătoare intervalului anterior intervalului
median; ni este frecvenţa absolută corespunzătoare intervalului median.
Exemplu Distribuţia firmelor din judeţul Iaşi după valoarea vânzărilor zilnice (mil. Lei),
înregistrată în luna octombrie 2009, este prezentată în tabelul de mai jos:
Tabelul 3.7. Distribuţia firmelor din judeţul Iaşi după valoarea vânzărilor zilnice (mil. Lei), în luna octombrie 2009 Valoare vânzări Număr firme
0- 10 20 10-20 40 20-30 35 30-40 15 40-50 10
TOTAL 120
Se cere să se calculeze mediana.
Rezolvare Etape pentru aflarea medianei:
• se calculează unitatea mediană: 602
120
2
n
U ii
Me ===∑
;
• se calculează frecvenţele absolute cumulate crescător, Ni↓. Acestea sunt prezentate în tabelul de mai jos:
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
65
Tabelul 3.8. Frecvenţele absolute cumulate crescător xi-1-xi ni ↓iN
0 - 10 20 20 10-20 40 60
20-30 35 95 30-40 15 110 40-50 10 120
TOTAL 120 -
• prima valoare Ni↓=60 ≥UMe=60; • în dreptul acestei valori, se citeşte intervalul median: (10-20); • în acest interval, mediana se află prin interpolare după relaţia:
i
1iMe
1i n
NUdxMe
↓−⋅+= −
− , unde:
xi-1=10; d= xi - xi-1=20-10=10;
20N 1i ↓=− ;
ni = 40.
Înlocuind în relaţia de mai sus, se obţine: 2040
20601010Me =
−⋅+= mil. Lei.
Interpretare Jumătate din numărul total al firmelor din judeţul Iaşi au realizat, în luna
octombrie 2009, vânzări zilnice de până la 20 mil. Lei, iar jumătate au realizat vânzări de peste 20 mil. Lei.
d. Generalizarea medianei: quantilele
1. Quartilele Quartila unu (Q1) Aflarea quartilei unu presupune parcurgerea următoarelor etape:
• se calculează unitatea quartilică unu: 4
n
U ii
Q1
∑= ;
• se calculează frecvenţele absolute cumulate crescător, Ni↓; • se află prima valoare Ni↓≥UQ1; • în dreptul primei valori Ni↓≥UQ1, se citeşte intervalul quartilic unu: (xi-1, xi); • în acest interval, quartila unu se află prin interpolare după relaţia:
1
1
Q
1iQ
1i1 n
NUdxQ
↓−⋅+= −
− , unde:
xi-1, reprezintă limita inferioară a intervalului quartilic unu; d este mărimea intervalului quartilic unu, d= xi - xi-1;
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
66
↓−1iN este frecvenţa absolută cumulată corespunzătoare intervalului anterior intervalului
quartilic unu; nQ1 este frecvenţa absolută corespunzătoare intervalului quartilic unu.
Quartila doi (Q2) După cum am arătat în cazul variabilelor discrete, quartila doi este egală cu
mediana, Q2=Me. Quartila trei (Q3) Aflarea quartilei trei presupune parcurgerea următoarelor etape:
• se calculează unitatea quartilică trei: 4
n3
U ii
Q3
∑⋅= ;
• se calculează frecvenţele absolute cumulate crescător, Ni↓; • se află prima valoare Ni↓≥UQ3; • în dreptul primei valori Ni↓≥UQ1 se citeşte intervalul quartilic trei: (xi-1, xi); • în acest interval, quartila trei se află prin interpolare după relaţia:
3
3
Q
1iQ
1i3 n
NUdxQ
↓−⋅+= −
− , unde:
xi-1, reprezintă limita inferioară a intervalului quartilic trei; d este mărimea intervalului quartilic trei, d= xi - xi-1;
↓−1iN este frecvenţa absolută cumulată corespunzătoare intervalului anterior intervalului
quartilic trei; nQ3 este frecvenţa absolută corespunzătoare intervalului quartilic trei.
Exemplu Distribuţia firmelor din judeţul Iaşi după valoarea vânzărilor zilnice (mil. Lei)
înregistrată în luna octombrie 2009 este prezentată în tabelul de mai jos:
Tabelul 3.8. Distribuţia firmelor din judeţul Iaşi după valoarea vânzărilor zilnice (mil. Lei), în luna octombrie 2009 Valoare vânzări Număr firme
0- 10 20 10-20 40 20-30 35 30-40 15 40-50 10
TOTAL 120
Se cere să se calculeze quartila unu şi quartila trei.
Rezolvare Quartila unu Etape pentru aflarea quartilei unu:
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
67
• se calculează unitatea quartilică unu: 304
120
4
n
U ii
Q1 ===∑
;
• se calculează frecvenţele absolute cumulate crescător, Ni↓. Acestea sunt prezentate în tabelul de mai jos:
Tabelul 3.8. Distribuţia firmelor din judeţul Iaşi după valoarea vânzărilor
zilnice (mil. Lei), în luna octombrie 2009 xi-1-xi ni ↓iN
0- 10 20 20 10-20 40 60
20-30 35 95 30-40 15 110 40-50 10 120
TOTAL 120 -
• prima valoare Ni↓=60 ≥UQ1=30; • în dreptul acestei valori se citeşte intervalul quartilic unu: (10-20); • în acest interval, quartila unu se află prin interpolare după relaţia:
1
1
Q
1iQ
1i1 n
NUdxQ
↓−⋅+= −
− , unde:
xi-1=10; d= xi - xi-1=20-10=10;
20N 1i ↓=− ;
ni = 40.
Înlocuind în relaţia de mai sus, se obţine: 5,1240
20301010Q1 =
−⋅+= mil. Lei.
Interpretare 25% din numărul total al firmelor din judeţul Iaşi au realizat vânzări zilnice de
până la 12,5 mil. Lei, iar 75% au realizat vânzări zilnice de peste 12,5 mil. Lei.
Quartila trei
• se calculează unitatea quartilică trei: 904
1203
4
n3
U ii
Q3 =⋅
=⋅
=∑
;
• prima valoare Ni↓=95 ≥UQ1=90; • în dreptul acestei valori se citeşte intervalul quartilic trei: (20-30); • în acest interval, quartila trei se află prin interpolare după relaţia:
3
3
Q
1iQ
1i3 n
NUdxQ
↓−⋅+= −
− , unde:
xi-1=20; d= xi - xi-1=30-20=10;
60N 1i ↓=− ;
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
68
ni = 35.
Înlocuind în relaţia de mai sus, se obţine: 57,2835
60901020Q3 =
−⋅+= mil. Lei.
Interpretare 75% din numărul total al firmelor din judeţul Iaşi au realizat vânzări zilnice de
până la 28,57 mil. Lei, iar 25% au realizat vânzări zilnice de peste 28,57 mil. Lei. 3.3.2. Indicatori ai dispersiei
Principalii indicatori ai dispersiei sunt: 1. Amplitudinea de variaţie Amplitudinea de variaţie măsoară distanţa dintre nivelul maxim şi nivelul minim
al unei variabile. Se calculează pe baza relaţiei:
minmax xxA −= .
2. Varianţa Varianţa se calculează pe baza relaţiei:
∑
∑ ⋅−=
ii
i2
i
'i
2
n
n)xx(
s . Varianţa nu are unitate de măsură şi nu se interpretează.
3. Abaterea medie pătratică (abaterea standard) Abaterea medie pătratică se calculează pe baza relaţiei:
∑
∑ ⋅−==
ii
i2
i
'i
2
n
n)xx(
ss . Abaterea medie pătratică reprezintă variaţia medie
a valorilor individuale ale variabilei X de la nivelul mediu, în sens pozitiv şi negativ. 4. Coeficientul de variaţie Coeficientul de variaţie se calculează după relaţia:
100x
sv ⋅= .
Exemplu Distribuţia firmelor din judeţul Iaşi după valoarea vânzărilor zilnice (mil. Lei)
înregistrată în luna octombrie 2009 este prezentată în tabelul de mai jos:
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
69
Tabelul 3.9. Distribuţia firmelor din judeţul Iaşi după valoarea vânzărilor zilnice (mil. Lei), în luna octombrie 2009
Valoare vânzări Număr firme 0- 10 20 10-20 40 20-30 35 30-40 15 40-50 10
TOTAL 120
Se cere să se calculeze abaterea standard şi coeficientul de variaţie. Rezolvare Abaterea standard Abaterea standard se calculează pe baza relaţiei:
∑
∑ ⋅−==
ii
i2
i
'i
2
n
n)xx(
ss .
Pentru această distribuţie, media aritmetică este 25,21x = mil. Lei. Elementele de calcul ale abaterii standard sunt prezentate în tabelul de mai jos:
Tabelul 3.10. Elemente de calcul ale abaterii standard xi-1-xi ni '
ix xx'i −
2'i )xx( − i
2'i n)xx( ⋅−
0 - 10 20 5 -16,25 264,06 5281,25 10-20 40 15 -6,25 39,06 1562,50 20-30 35 25 3,75 14,06 492,19 30-40 15 35 13,75 189,06 2835,94 40-50 10 45 23,75 564,06 5640,63
TOTAL 120 - - - 15812,50
Înlocuind în relaţia de mai sus se obţine:
48,11120
50,15812
n
n)xx(
ss
ii
i2
i
'i
2 ==⋅−
==∑
∑ mil. Lei.
Interpretare Vânzările zilnice ale firmelor din judeţul Iaşi, realizate în luna octombrie 2009,
variază, în medie, de la nivelul mediu al vânzărilor zilnice, cu ± 11,48 mil. Lei. Coeficientul de variaţie Coeficientul de variaţie se calculează după relaţia:
%02,5410025,21
48,11100
x
sv =⋅=⋅= .
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
70
Interpretare Valoarea coeficientului de variaţie arată că distribuţia firmelor după valoarea
vânzărilor zilnice realizate în luna octombrie 2009 este o distribuţie eterogenă, caracterizată printr-o dispersie mare (v>50%). Media nu este reprezentativă pentru această distribuţie. 3.3.3. Indicatori ai formei unei distribuţii
Asimetria Indicatorii asimetriei se calculează, în cazul unei variabile continue, astfel: 1. Asimetria în mărime absolută Asimetria în mărime absolută poate fi calculată pe baza relaţiei:
MoxAs −= . Modul de interpretare este identic cu cel prezentat în cazul variabilelor discrete.
2. Coeficientul de asimetrie Pearson Coeficientul de asimetrie Pearson se calculează pe baza relaţiei:
32
23
1µ
µβ = , unde:
∑
∑ ⋅−=
ii
i3
i
'i
3 n
n)xx(
µ reprezintă momentul centrat de ordinul 3, unde: 2
xxx i1i'
i
+= − ;
2
ii
i2
i
'i
2 sn
n)xx(
=⋅−
=∑
∑µ reprezintă momentul centrat de ordinul 2, adică varianţa.
Acest indicator este întotdeauna pozitiv. Sensul asimetriei este dat de semnul lui µ3. Atunci când µ3>0, distribuţia este asimetrică la dreapta. Atunci când µ3<0, distribuţia este asimetrică la stânga.
3. Coeficientul de asimetrie Fisher Coeficientul de asimetrie Fisher se calculează pe baza relaţiei:
33
1s
µγ = .
Interpretarea valorii acestui coeficient este similară coeficientului de asimetrie Pearson.
Boltirea Indicatorii boltirii se calculează după relaţiile 1. Coeficientul de boltire Pearson Coeficientul de boltire Pearson se calculează pe baza relaţiei:
44
22
42
s
µ
µ
µβ == , unde:
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
71
∑
∑ ⋅−=
ii
i4
i
'i
4 n
n)xx(
µ reprezintă momentul centrat de ordinul 4.
O valoare a coeficientului de boltire Pearson 32 =β arată o distribuţie
mezocurtică. O valoare 32 >β arată o distribuţie leptocurtică iar o valoare 32 <β arată o distribuţie platicurtică.
2. Coeficientul de boltire Fisher Coeficientul de boltire Fisher se calculează pe baza relaţiei:
322 −= βγ .
O valoare a coeficientului de boltire Fisher 02 =γ arată o distribuţie mezocurtică.
O valoare 02 >γ arată o distribuţie leptocurtică iar o valoare 02 <γ arată o distribuţie platicurtică.
Exemplu Distribuţia firmelor din judeţul Iaşi după valoarea vânzărilor zilnice (mil. Lei)
înregistrată în luna octombrie 2009 este prezentată în tabelul de mai jos:
Tabelul 3.11. Distribuţia firmelor din judeţul Iaşi după valoarea vânzărilor zilnice (mil. Lei), în luna octombrie 2009
Valoare vânzări Număr firme 0- 10 20 10-20 40 20-30 35 30-40 15 40-50 10
TOTAL 120
Se cere să se calculeze coeficientul de asimetrie Pearson şi coeficientul de boltire
Pearson. Rezolvare Coeficientul de asimetrie Pearson se calculează pe baza relaţiei:
32
23
1µ
µβ = , unde:
∑
∑ ⋅−=
ii
i3
i
'i
3 n
n)xx(
µ ; 2
ii
i2
i
'i
2 sn
n)xx(
=⋅−
=∑
∑µ .
Elementele de calcul ale momentelor centrate de ordinul doi şi trei sunt prezentate în tabelul de mai jos:
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
72
Tabelul 3.12. Elemente de calcul ale momentelor centrate de ordinul doi şi trei xi-1-xi ni '
ix xx'i −
2'i )xx( − i
2'i n)xx( ⋅−
3'i )xx( − i
3'i n)xx( ⋅−
0 - 10 20 5 -16,25 264,06 5281,25 -4291,02 -85820,31 10-20 40 15 -6,25 39,06 1562,50 -244,14 -9765,63 20-30 35 25 3,75 14,06 492,19 52,73 1845,70 30-40 15 35 13,75 189,06 2835,94 2599,61 38994,14 40-50 10 45 23,75 564,06 5640,63 13396,48 133964,84
TOTAL 120 - - - 15812,50 - 79218,75
Înlocuind în relaţiile de mai sus, se obţine:
16,660120
75,792183 ==µ ;
77,131120
5,158122 ==µ .
Coeficientul de asimetrie Pearson este: 19,02287966,38
435811,23
77,131
16,6603
2
1 ===β .
Interpretare Valoarea coeficientului de asimetrie Pearson arată că distribuţia dată prezintă o
asimetrie ( 01 ≠β ) la dreapta (µ3>0).
Coeficientul de boltire Pearson
44
22
42
s
µ
µ
µβ == , unde:
∑
∑ ⋅−=
ii
i4
i
'i
4 n
n)xx(
µ .
Elementele de calcul ale momentului centrat de ordinul patru sunt prezentate în tabelul de mai jos:
Tabelul 3.13. Elemente de calcul ale momentului centrat de ordinul patru
xi-1-xi ni 'ix xx'
i − 4'
i )xx( − i4'
i n)xx( ⋅−
0 - 10 20 5 -16,25 69729,00 1394580,08 10-20 40 15 -6,25 1525,88 61035,16 20-30 35 25 3,75 197,75 6921,39 30-40 15 35 13,75 35744,63 536169,43 40-50 10 45 23,75 318166,50 3181665,04
TOTAL 120 - - 5180371,09
Înlocuind în relaţiile de mai sus, se obţine:
43169,76120
09,51803714 ==µ .
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
73
Coeficientul de boltire Pearson este: 49,277,131
76,4316922 ==β .
Interpretare Valoarea coeficientului de boltire Pearson arată că distribuţia dată este o
distribuţie platicurtică ( 32 <β ).
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
74
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
75
CAPITOLUL 4. CARACTERIZAREA UNEI SERII STATISTICE DUPĂ O VARIABILĂ CATEGORIALĂ
4.1. Caracterizarea seriei folosind metode grafice
O distribuţie statistică după o variabilă categorială nominală sau ordinală poate fi reprezentată grafic folosind diagrame de structură: cercul de structură, dreptunghiul de structură etc.
Alura acestor grafice este prezentată în figurile de mai jos:
65,0%
35,0%
Feminin
Masculin
Sexul_persoanei
Figura 24. Cercul de structură
FemininMasculin
Sexul_persoanei
70,0%
60,0%
50,0%
40,0%
30,0%
20,0%
10,0%
0,0%
Per
cen
t
65,0%
35,0%
Figura 25. Dreptunghiul de structură
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
76
4.2. Caracterizarea seriei folosind indicatori ai statisticii descriptive
4.2.1. Mărimi relative
a. Mărimi relative de structură Pentru o distribuţie după o variabilă categorială nominală se pot calcula
frecvenţele relative, respectiv ponderea unităţilor din fiecare categorie în volumul total al colectivităţii, după relaţia:
100n
n100
n
nf i
ii
ii ⋅=⋅=∑
.
Exemplu Distribuţia studenţilor dintr-o grupă pe sexe, la 1 ianuarie 2009, se prezintă astfel:
Tabelul 4.1 Distribuţia studenţilor dintr-o grupă pe sexe, la 1 ianuarie 2009
Sexul persoanei Nr. studenţi Masculin 7 Feminin 13 TOTAL 20
Se cere să se calculeze frecvenţele relative. Rezolvare Frecvenţele relative se calculează după relaţia:
100n
n100
n
nf i
ii
ii ⋅=⋅=∑
.
Pentru exemplul dat, avem:
%3510020
7100
n
nf
ii
11 =⋅=⋅=∑
%6510020
13100
n
nf
ii
22 =⋅=⋅=
∑.
Interpretare Ponderea persoanelor de sex masculin este de 35%, iar ponderea persoanelor de
sex feminin este de 65%.
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
77
b. Mărimi relative de corespondenţă Mărimile relative de corespondenţă arată numărul de unităţi dintr-o grupă care
revin la 100 (1000) de unităţi dintr-o altă grupă, în cadrul aceleaşi populaţii. Mărimile relative de corespondenţă se calculează după relaţia:
,100X
XK
B
AB/A ⋅= respectiv 100
X
XK
A
BA/B ⋅= , unde:
XA, XB reprezintă numărul de unităţi din grupa A, respectiv B. Exemplu Distribuţia salariaţilor dintr-o regiune pe sexe, la 1 ianuarie 2009, se prezintă
astfel:
Tabelul 4.2 Distribuţia salariaţilor dintr-o regiune pe sexe, la 1 ianuarie 2009
Sexul persoanei Nr. studenţi Masculin 7000 Feminin 1300 TOTAL 830
Se cere să se calculeze mărimile relative de corespondenţă. Rezolvare Mărimile relative de corespondenţă se calculează după relaţia:
,100X
XK
B
AB/A ⋅= respectiv 100
X
XK
A
BA/B ⋅= .
Considerând grupa A, grupa formată din persoanele de sex masculin, şi grupa B cea a persoanelor de sex feminin, se obţine:
5,5381001300
7000100
X
XK
B
AB/A =⋅=⋅=
6,181007000
1300100
X
XK
A
BA/B =⋅=⋅= .
Interpretare La 100 de persoane de sex feminin revin 538,5~540 de persoane de sex masculin.
La 100 de persoane de sex masculin revin 18,6~19 persoane de sex feminin.
4.2.2 Mărimi medii În cazul unei distribuţii după o variabilă categorială nominală singura mărime
medie care poate fi calculată este modul. Modul arată categoria variabilei X cea mai frecvent observată, respectiv cea care corespunde frecvenţei maxime.
În cazul unei distribuţii după o variabilă categorială ordinală, mărimile medii care pot fi calculate sunt modul şi mediana.
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
78
Exemple Distribuţia salariaţilor dintr-o regiune pe sexe, la 1 ianuarie 2009 se prezintă
astfel:
Tabelul 4.3 Distribuţia salariaţilor dintr-o regiune pe sexe, la 1 ianuarie 2009
Sexul persoanei Nr. studenţi 1-Masculin 700 2-Feminin 130 TOTAL 830
Se cere să se afle valoarea modului. Rezolvare Pentru aflarea modului, se observă că nimax=700. Categoria care corespunde
acestei frecvenţe maxime este xi=1-Masculin. Interpretare Cele mai multe persoane din colectivitatea observată sunt de sex masculin.
2. Distribuţia salariaţilor unei firme după nivelul de studii (Primar, Gimnazial,
Liceal, Superior) se prezintă astfel:
Tabelul 4.4 Distribuţia salariaţilor unei firme după nivelul de studii
Nivel de studii Nr. persoane Primar 10
Gimnazial 25 Liceal 15
Superior 50 TOTAL 100
Se cere să se calculeze valorile modului şi medianei. Rezolvare Modul Pentru identificarea modului, se află nimax=50. Categoria care corespunde acestei
frecvenţe maxime este xi=Superior. Interpretare Cele mai multe persoane din colectivitatea observată au studii superioare.
Mediana
Pentru aflarea medianei, se află 502
100
2
n
U ii
Me ===∑
. Se calculează
frecvenţele absolute cumulate crescător, prezentate în tabelul de mai jos:
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
79
Tabelul 4.5 Frecvenţele absolute cumulate crescător
Nivel de studii Nr. persoane Ni↓ Primar 10 10
Gimnazial 25 35 Liceal 15 50
Superior 50 100 TOTAL 100 -
Prima valoare Ni↓=50 ≥UMe=50. Mediana este reprezentată de categoria Liceal. Interpretare Jumătate din numărul total al persoanelor sunt cu studii primare, gimnaziale şi
liceale, iar jumătate sunt cu studii superioare.
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
80
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
81
PARTEA A DOUA INFERENŢA STATISTICĂ
Inferenţa statistică are ca obiectiv cunoaşterea unei populaţii în mod indirect, prin prelucrarea datelor la nivelul unui eşantion extras aleatoriu din aceasta. Inferenţa statistică presupune estimarea parametrilor unei populaţii şi testarea ipotezelor statistice.
Capitolul 5. Noţiuni şi notaţii folosite în inferenţa statistică
5.1. Populaţie şi eşantion Observarea şi înregistrarea valorilor unei variabile pentru toate unităţile populaţiei
presupune o observare exhaustivă, totală. Acest procedeu se aplică, de exemplu, în cazul recensământului unei populaţii, când sunt înregistrate mai multe caracteristici ale populaţiei (vârsta, categoria socio-profesională, sexul persoanei etc.), la un moment de referinţă. Volumul unei populaţii se notează cu N.
Observarea şi înregistrarea valorilor unei variabile pentru anumite unităţi statistice extrase dintr-o populaţie presupune o observare parţială. În acest caz, se observă doar un eşantion reprezentativ extras din populaţie. Inferenţa statistică are ca obiectiv cunoaşterea unei populaţii în mod indirect, prin prelucrarea datelor la nivelul unui eşantion extras din aceasta. Volumul eşantionului se notează cu n. Avantajele cercetării prin sondaj decurg, în principal, din costurile reduse de obţinere a datelor statistice.
5.2. Parametri şi estimaţii Parametrii reprezintă mărimi reale dar necunoscute prin care poate fi caracterizată
o populaţie. De exemplu, o populaţie poate fi caracterizată folosind un indicator al tendinţei centrale, cum ar fi media populaţiei ( µ ), şi un indicator al dispersiei, cum ar fi abaterea medie pătratică (σ ).
Aceste mărimi sunt estimate prin prelucrarea datelor înregistrate la nivelul unui eşantion, proces în urma căruia se obţin estimaţii ale parametrilor populaţiei. De exemplu, prin înregistrarea valorilor unei variabile la nivelul unui eşantion, pot fi calculate media eşantionului ( x ) şi abaterea medie pătratică ( s ).
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
82
Notaţiile folosite pentru definirea parametrilor şi estimaţiilor sunt prezentate în tabelul de mai jos.
Estimaţii (eşantion)
Parametri (populaţie)
Media x µ Varianţa 2s 2σ
Abaterea standard s σ
Proporţia f p
5.3. Distribuţia de selecţie a mediei
O distribuţie de selecţie este distribuţia unui estimator. Un estimator este o funcţie de variabile aleatoare de selecţie şi se notează, de regulă, cu semnul „^” deasupra
parametrului respectiv. De exemplu, estimatorul mediei se notează µ̂ , al varianţei 2σ̂ , iar al proporţiei p̂ .
Pentru a forma distribuţia mediei de selecţie, să considerăm cele k eşantioane de
volum n care se pot extrage dintr-o populaţie de volum N. Pentru fiecare din cele k eşantioane, se pot calcula mediile eşantioanelor şi se pot determina frecvenţele de apariţie a fiecărei variante.
De exemplu, să considerăm o populaţie formată din 5 persoane pentru care se
înregistrează vârsta (ani) şi se obţin următoarele valori: 22, 25, 26, 24, 23. Caracterizarea acestei populaţii se poate realiza prin calculul unui indicator al
tendinţei centrale, media, de exemplu, şi a unui indicator al dispersiei, cum este abaterea standard:
Media populaţiei este: 245
2324262522
N
Xi
i
=++++
==∑
µ ani.
Abaterea standard este 2σσ = . Varianţa se calculează astfel:
25
)2423()2424()2426()2425()2422(
N
)X( 22222i
2i
2 =−+−+−+−+−
=−
=∑ µ
σ
Înlocuind în relaţia de mai sus, se obţine: 41,122 === σσ ani.
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
83
Considerând această populaţie de volum N=5, se pot forma nNCK = eşantioane
de volum n, extrase aleator nerepetat (o unitate extrasă şi înregistrată nu se mai
reintroduce în populaţie). Dacă n=2, 10)!25(!2
!5CCK 2
5nN =
−⋅=== eşantioane.
Valorile unităţilor celor 10 eşantioane sunt:
Eş. 1 Eş.2 Eş.3 Eş.4 Eş.5 Eş.6 Eş.7 Eş.8 Eş.9 Eş.10 22 25
22 26
22 24
22 23
25 26
25 24
25 23
26 24
26 23
24 23
Pentru fiecare din cele 10 eşantioane, se calculează mediile eşantioanelor, astfel:
Eşantionul 1: 5,232
2522x1 =
+= Eşantionul 6: 5,24
2
2425x6 =
+=
Eşantionul 2: 242
2622x2 =
+= Eşantionul 7: 24
2
2325x7 =
+=
Eşantionul 3: 232
2422x3 =
+= Eşantionul 8: 25
2
2426x8 =
+=
Eşantionul 4: 5,222
2322x4 =
+= Eşantionul 9: 5,24
2
2326x9 =
+=
Eşantionul 5: 5,252
2625x5 =
+= Eşantionul 10: 5,23
2
2324x10 =
+=
Distribuţia mediei de selecţie, µ̂ , se formează prin ordonarea mediilor
eşantioanelor şi determinarea probabilităţii (frecvenţei) de apariţie a fiecărei variante:
Tabelul 5.1. Distribuţia variabilei media de selecţie µ̂
ix Frecvenţa de apariţie
pi
22,5 I 1/10=0,1 23,0 I 1/10=0,1 23,5 II 2/10=0,2 24,0 II 2/10=0,2 24,5 II 2/10=0,2 25,0 I 1/10=0,1 25,5 I 1/10=0,1
TOTAL - 1 Distribuţia mediei de selecţie este o distribuţie de probabilitate a mediilor tuturor
eşantioanelor de volum n care se pot extrage aleatoriu dintr-o populaţie de volum N. Caracteristicile variabilei media de selecţie sunt:
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
84
- media mediei de selecţie este: 24pxMi
ii∑ =⋅= . Media mediei de selecţie
este, deci, egală cu media populaţiei ( µ ). - varianţa mediei de selecţie este:
75,02475,576)px(px)ˆ(V 2
i i
2iii
2i
2ˆ =−=⋅−⋅== ∑ ∑µσµ . Varianţa mediei
de selecţie este egală cu N
nN
n
22ˆ
−⋅=
σσ µ , în cazul unui sondaj aleator
nerepetat. Se demonstrează că în cazul unui sondaj aleator repetat, ⋅=n
22ˆ
σσ µ
- abaterea standard a mediei de selecţie este:
866,075,0)px(pxi i
2iii
2i
2ˆˆ ==⋅−⋅== ∑ ∑µµ σσ .
Tabelul 5.2. Elemente de calcul ale mediei şi varianţei variabilei µ̂
ix pi ii px ⋅ 2ix i
2i px ⋅
22,5 0,1 2,25 506,25 50,63 23,0 0,1 2,30 529,00 52,90 23,5 0,2 4,70 552,25 110,45 24,0 0,2 4,80 576,00 115,20 24,5 0,2 4,90 600,25 120,05 25,0 0,1 2,50 625,00 62,50 25,5 0,1 2,55 650,25 65,03
TOTAL 1,0 24,00 - 576,75
Reprezentarea grafică a distribuţiei mediei de selecţie este realizată în figura de
mai jos:
26,0025,0024,0023,0022,00
VAR00001
25
20
15
10
5
0
Freq
uen
cy
Mean = 24,00
Std. Dev. =
0,87039
N = 100
Figura 26. Reprezentarea grafică a distribuţiei mediei de selecţie, µ̂
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
85
După cum se observă, distribuţia mediei de selecţie urmează o lege normală, iar
mediile eşantioanelor „se grupează” în jurul mediei lor, adică a mediei populaţiei. Variabila media de selecţie se caracterizează prin legea normală - teorema limită
centrală, bazată pe legea numerelor mari: - dacă variabila aleatoare X urmează o lege normală, atunci µ̂ urmează o lege
normală oricare ar fi n; - dacă variabila aleatoare X nu urmează o lege normală, atunci µ̂ urmează o
lege normală doar pentru valori mari ale lui n, de regulă mai mari decât 30.
Folosind notaţiile prezentate, putem scrie: ),(N~ˆ 2µ̂σµµ sau )
n,(N~ˆ
2σµµ .
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
86
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
87
Capitolul 6. Estimarea parametrilor unei populaţii
Estimarea reprezintă procedeul de determinare a unui parametru al unei populaţii
(µ, σ2, p) prin prelucrarea datelor înregistrate la nivelul unui eşantion. Estimarea se poate realiza:
1. punctual: presupune aflarea unei valori posibile a estimatorului parametrului căutat.
2. prin interval de încredere (IC): presupune aflarea limitelor de încredere ale unui interval care acoperă valoarea unui parametru.
6.1. Estimarea mediei unei populaţii ( µ )
a. Estimarea punctuală a mediei unei populaţii Estimarea punctuală a mediei unei populaţii presupune aflarea unei valori posibile
a estimatorului parametrului µ̂ . În paragraful anterior, am arătat că media eşantionului, x , este o valoare a estimatorului µ̂ . Media eşantionului este, deci, o estimaţie punctuală a mediei populaţiei.
b. Estimarea prin interval de încredere a mediei unei populaţii Construirea IC se bazează pe variabila normală standard Z, prezentată în partea
întâi: )1,0(N~Z),(N~ˆ 2ˆ ⇒µσµµ .
Valoarea Z se calculează după relaţia: n/
xxz
ˆ σ
µ
σ
µ
µ
−=
−= . Astfel, se poate
determina: ασ
µ−=+≤
−≤− 1)z
n/
xz(P , unde:
α este un nivel al probabilităţii cuprins între zero şi unu. Acest nivel arată riscul asumat în estimare. De regulă, în economie se foloseşte un risc de 0,05 sau 5%.
Intervalul de încredere pentru media populaţiei, când se cunoaşte varianţa
populaţiei, este:
⋅±
nzx 2/
σα , unde:
x este media calculată la nivelul eşantionului;
2/zα este o valoare a statisticii Z care se citeşte din Tabelul Z pentru un risc α .
σ este abaterea standard la nivelul populaţiei; n este volumul eşantionului.
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
88
Atunci când nu se cunoaşte varianţa populaţiei, în estimarea mediei prin interval de încredere se foloseşte statistica t Student. Limitele intervalului de încredere pentru media populaţiei sunt definite de:
⋅±
n
'stx 2/α , unde:
x este media calculată la nivelul eşantionului;
2/tα este valoarea statisticii t Student care se citeşte din Tabelul Student pentru un risc α
şi n-1 grade de libertate; 's este abaterea standard corectată determinată la nivelul eşantionului, după relaţia:
1n
)xx(
's i
2i
−
−=∑
;
n este volumul eşantionului.
Observaţii Precizia estimării creşte (mărimea intervalului de încredere este mai mică), atunci când: - volumul eşantionului (n) creşte (“legea rădăcinii pătrate”: mărirea de 4 ori a
volumului eşantionului, dublează precizia estimării); - probabilitatea cu care se garantează rezultatele este mai mică; - varianţa eşantionului este mică (valorile aberante afectează mărimea intervalului
de încredere).
Exemple 1. La nivelul unui eşantion format din 25 de persoane, extras aleator simplu, s-au
obţinut următoarele rezultate privind vârsta (ani): ani2s,ani32x ' == . Să se estimeze prin interval de încredere vârsta medie a întregii populaţii din care a fost extras eşantionul, considerând un risc de 0,05.
Rezolvare • (n=20)≤30, în estimarea prin IC a mediei populaţiei se foloseşte statistica t Student. Din Tabelul repartiţiei Student se citeşte valoarea t0,025;20-1=2,093.
t K 0.025 K
M
19 K 2,093 K M
• IC este definit de:
⋅±
n
stx 2/α . Înlocuind cu valorile date, se obţine:
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
89
⋅±
25
2093,232 sau [ ]837,32;163,31 .
Interpretare Se poate garanta cu o probabilitate de 0,95 că vârsta medie a întregii populaţii din
care a fost extras eşantionul ( µ ) este acoperită de intervalul: [ ]837,32;163,31 ani.
2. La nivelul unui eşantion format din 9 persoane, extras aleator simplu, s-au
obţinut următoarele rezultate privind vârsta (ani): ani2s,ani32x ' == . Să se estimeze prin interval de încredere vârsta medie a întregii populaţii din care a fost extras eşantionul, considerând un risc de 0,05.
Rezolvare • (n=9)≤30, în estimarea prin IC a mediei populaţiei se foloseşte statistica t Student. Din Tabelul Student se citeşte valoarea t0,025;9-1=2,306.
t K 0.025 K
M
8 K 2,306 K M
• IC este definit de:
⋅±
n
'stx 2/α . Înlocuind cu valorile date, se obţine:
⋅±
9
2306,232 sau [ ]54,33;46,30 .
Interpretare Se poate garanta cu o probabilitate de 0,95 că vârsta medie a întregii populaţii din
care a fost extras eşantionul ( µ ) este acoperită de intervalul: [ ]54,33;46,30 ani. Observaţie Mărimea intervalului de încredere este, în acest caz, mai mare faţă de exemplul
anterior. Precizia estimării s-a micşorat datorită volumului redus al eşantionului.
6.2. Estimarea proporţiei unei populaţii (p)
a. Estimarea punctuală a proporţiei la nivelul unei populaţii Estimarea punctuală a proporţiei la nivelul unei populaţii presupune aflarea unei
valori posibile a estimatorului parametrului p̂ . Proporţia unei anumite categorii calculată
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
90
la nivelul eşantionului (f) este o estimaţie punctuală a proporţiei acestei categorii la nivelul populaţiei.
Exemplu În urma realizării unui sondaj electoral la nivelul unui eşantion format din 1500
persoane, se observă că 840 persoane au votat pentru candidatul A. Să se estimeze punctual proporţia persoanelor care au votat pentru candidatul A la nivelul întregii populaţii.
Rezolvare Proporţia persoanelor care au votat pentru candidatul A calculată la nivelul
eşantionului este: 56,01500
840
n
nf i === .
Interpretare Proporţia persoanelor care au votat pentru candidatul A la nivelul întregii
populaţii poate fi estimată punctual prin proporţia calculată la nivelul eşantionului, deci p=0,56 sau p=56%.
b. Estimarea prin interval de încredere a proporţiei unei populaţii
Variabila proporţia de selecţie ( p̂ ) se caracterizează prin: )n
)p1(p,p(N~p̂
−.
Construirea intervalului de încredere pentru proporţia calculată la nivelul unei populaţii se realizează în mod similar mediei unei populaţii. Intervalul de încredere pentru proporţia la nivelul unei populaţii este:
−⋅⋅±
n
)f1(ftf 2/α , atunci când nu se cunoaşte p̂σ .
Exemplu În urma realizării unui sondaj electoral la nivelul unui eşantion format din 1500
persoane, se observă că 840 persoane au votat pentru candidatul A. Să se estimeze prin interval de încredere proporţia persoanelor care au votat pentru candidatul A la nivelul întregii populaţii, considerând un risc de 0,05.
Rezolvare Proporţia persoanelor care au votat pentru candidatul A, la nivelul eşantionului,
este: 56,01500
840
n
nf i === sau 56%.
Limitele intervalului de încredere se calculează astfel:
−⋅⋅±
n
)f1(ftf 2/α , unde:
56,0f = ;
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
91
2/tα este valoarea statisticii t Student care se citeşte din Tabelul Student pentru un risc
05,0=α şi n-1 grade de libertate. Din Tabelul Student se citeşte: t0,025;1500-1=1,96.
t K 0.025 K
M
M K K
∞
K
1,96
K
Înlocuind în relaţia de mai sus, se obţine:
−⋅⋅±
1500
)56,01(56,096,156,0 sau [ ]59,0;53,0 .
Interpretare Se poate garanta cu o probabilitate de 0,95 că proporţia persoanelor care au votat
pentru candidatul A la nivelul întregii populaţii este cuprinsă între 0,53 sau 53% şi 0,59 sau 59%.
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
92
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
93
CAPITOLUL 7. TESTAREA IPOTEZELOR STATISTICE
Testarea ipotezelor statistice este un procedeu prin care se testează semnificaţia
egalităţii dintre valoarea unui parametru şi o valoare de referinţă sau dintre doi parametri (două medii ale populaţiei sau două proporţii de la nivelul unor populaţii).
7.1. Testarea ipotezelor cu privire la un parametru
Testarea ipotezelor cu privire la un parametru are ca obiectiv testarea egalităţii dintre media unei populaţii sau proporţia la nivelul unei populaţii faţă de valori de referinţă, cunoscute.
7.1.1 Demersul testării
• Verificarea ipotezelor care se formulează cu privire la populaţie. Inferenţa statistică presupune ca distribuţia populaţiei din care a fost extras eşantionul să urmeze o lege normală sau volumul eşantionului să fie suficient de ridicat (n>30).
• Formularea ipotezelor statistice O ipoteză este o presupunere cu privire la valoarea unui parametru: media unei
populaţii, varianţa unei populaţii sau proporţia unei anumite categorii dintr-o populaţie. Ipotezele care se formulează în statistică sunt:
- ipoteza nulă este ipoteza prin care se presupune că nu există diferenţe faţă de o valoare teoretică sau o valoare de referinţă considerată. Ipoteza nulă are un rol important în determinarea distribuţiei de selecţie care va fi folosită în procesul testării. Se notează cu H0.
- ipoteza alternativă este contrară ipotezei nule, deci este ipoteza prin care se presupune că există diferenţe faţă de o valoare teoretică sau o valoare de referinţă considerată. Se notează cu H1.
• Alegerea pragului de semnificaţie a testului
În testarea ipotezelor statistice, pragul de semnificaţie a testului, notat cu α , reprezintă probabilitatea (de regulă, egală cu 0.05, 0.01) bazată pe ipoteza că H0 este adevărată.
• Alegerea şi calcularea statisticii test
Testul statistic se alege în funcţie de legea urmată de distribuţia de selecţie a statisticii considerate. De exemplu, în paragraful anterior am arătat că distribuţia de selecţie a mediei de selecţie urmează o lege normală. În testarea semnificaţiei mediei unei populaţii, se foloseşte testul Z sau testul t Student.
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
94
• Definirea regulii de decizie Pentru definirea regulii de decizie, valoarea calculată a statisticii test, pe baza
datelor observate la nivelul unui eşantion, se compară cu valoarea teoretică, numită şi valoare critică, care se alege din tabelele teoretice. Decizia corectă poate fi adoptată şi prin compararea probabilităţii asociate statisticii test calculate cu riscul α . În mod sintetic, regula de decizie, în cazul folosirii repartiţiei Z, poate fi prezentată astfel:
Se respinge ipoteza H0 Se acceptă ipoteza H0 Folosind probabilitatea asociată statisticii test
dacă α<.obPr dacă α≥.obPr
Folosind valoarea calculată a statisticii test
dacă 2/calculat zz α−< sau
2/calculat zz α+>
dacă 2/calculat zz α−≥ sau
2/calculat zz α+≤
Reprezentarea grafică a regiunilor de respingere şi de acceptare a ipotezei H0 este
realizată în figura de mai jos:
HH
α/2
H
-z
1
α/2
0
1-α
zα/2
1
α/2Z
Figura 27. Regiunile de respingere şi de acceptare a ipotezei H0
7.1.2. Testarea semnificaţiei mediei unei populaţii
Ipoteze statistice În testarea semnificaţiei mediei unei populaţii se formulează următoarele ipoteze
statistice: - ipoteza nulă este ipoteza prin care se presupune că nu există diferenţe între
media unei populaţii, µ , estimată prin media calculată la nivelul eşantion, şi o valoare de
referinţă considerată, 0µ .
De exemplu, într-un studiu statistic cu privire la nivelul ratei şomajului în anumite ţări ale Uniunii Europene, în procesul testării statistice se poate urmări dacă există diferenţe semnificative între nivelul mediu al ratei şomajului pentru ansamblul ţărilor din
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
95
UE ( µ ) şi nivelul mediu al ratei şomajului din SUA ( 0µ ). Ipoteza nulă care se
formulează este: 00 :H µµ = .
- ipoteza alternativă este contrară ipotezei nule, deci este ipoteza prin care se
presupune că există diferenţe între valorile comparate. Pentru exemplul prezentat anterior, ipoteza alternativă se formulează astfel:
01 :H µµ ≠ (test bilateral), 01 :H µµ > (test unilateral la dreapta) sau 01 :H µµ < (test
unilateral la stânga).
Alegerea pragului de semnificaţie a testului
În testarea ipotezelor statistice, pragul de semnificaţie a testului, notat cu α , este, de regulă, egal cu 0.05 sau 0.01.
De exemplu, dacă pragul de semnificaţie a unui test este de 0,05, atunci ipoteza
00 :H µµ = va fi respinsă dacă media eşantionului extras din populaţie este atât de
îndepărtată, la stânga sau la dreapta, de valoarea fixă 0µ , încât se încadrează printre cele
5% cele mai puţin probabile medii ale eşantioanelor posibil de extras din populaţie. Pragul de semnificaţie a testului, α , arată probabilitatea de a respinge ipoteza H0
atunci când aceasta este adevărată. Eroarea comisă în respingerea ipotezei H0, atunci când aceasta este adevărată, poartă denumirea de eroare de tip I.
Eroarea de tip II se produce în momentul acceptării ipotezei H0, atunci când aceasta este falsă.
Alegerea şi calculul statisticii test
Atunci când se cunoaşte varianţa populaţiei )( 2σ , în testarea semnificaţiei mediei unei distribuţii se foloseşte statistica Z. Pe baza datelor observate la nivelul unui eşantion de volum n, se calculează statistica test Z astfel:
n/
xxz 0
ˆ
0calculat
σ
µσ
µ
µ
−=
−= .
Atunci când nu se cunoaşte varianţa populaţiei, în testarea semnificaţiei mediei
unei distribuţii se foloseşte statistica t Student. Pe baza datelor observate la nivelul unui eşantion de volum n, se calculează statistica test t Student astfel:
n/'s
x
s
xt 0
ˆ
0calculat
µµ
µ
−=
−= , unde
1n
)xx(
's i
2i
−
−=∑
.
Definirea regulii de decizie Considerând un test bilateral, regula de decizie poate fi definită astfel:
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
96
Se respinge ipoteza H0 Se acceptă ipoteza H0 Folosind probabilitatea asociată statisticii test
dacă α<.obPr dacă α≥.obPr
Folosind valoarea calculată a statisticii test
dacă 2/calculat zz α−< sau
2/calculat zz α+>
dacă 2/calculat zz α−≥ sau
2/calculat zz α+≤
Reprezentarea regiunii de acceptare şi de respingere a ipotezei H0 este realizată în
figura de mai jos:
HH
α/2
H
-z
1
α/2
0
1-α
zα/2
1
α/2Z
Figura 28. Regiunea de respingere şi de acceptare a ipotezei H0
în cazul unui test bilateral
Regula de decizie pentru un test unilateral poate fi definită astfel:
Se respinge ipoteza H0 Se acceptă ipoteza H0 Folosind probabilitatea asociată statisticii test
dacă α<.obPr dacă α≥.obPr
Test unilateral la dreapta
01 :H µµ > dacă αzz calculat +> dacă αzz calculat +≤
Test unilateral la stânga
01 :H µµ < dacă αzz calculat −< dacă αzz calculat −≥
Reprezentarea regiunilor de respingere şi de acceptare a ipotezei H0 pentru un test
unilateral este realizată în figura de mai jos:
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
97
Figura 29. Regiunea de respingere şi de acceptare a ipotezei H0
în cazul unui test unilateral la dreapta
Figura 30. Regiunea de respingere şi de acceptare a ipotezei H0
în cazul unui test unilateral la stânga
De exemplu, în cazul unui test bilateral, considerând un prag de semnificaţie 05,0=α , valoarea critică a statisticii test Z este z=1,96. Regiunea de respingere a
ipotezei Ho este definită de: 96,1z calculat −< , respectiv .96,1z calculat +>
În cazul unui test unilateral la dreapta, pentru care ipoteza 01 :H µµ > ,
considerând un prag de semnificaţie 05,0=α , valoarea critică a statisticii test Z este z=1,65. Regiunea de respingere a ipotezei Ho este, astfel, definită de: 65,1z calculat> .
În cazul unui test unilateral la stânga, pentru care ipoteza 01 :H µµ < ,
considerând un prag de semnificaţie 05,0=α , valoarea critică a statisticii test Z este 65,1z −= . Regiunea de respingere a ipotezei Ho este definită de: 65,1z calculat −< .
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
98
Exemple 1. La nivelul unui eşantion format din 100 de persoane, se înregistrează salariul
lunar obţinut şi se obţine .lei.mil14x = Ştiind că lei.mil4=σ , se cere să se testeze dacă există diferenţe semnificative între salariul mediu al întregii populaţii din care a fost extras eşantionul şi salariul mediu pe economie, de 13 mil. lei. Se consideră un risc
.05,0=α Rezolvare Formularea ipotezelor statistice
13:H0 =µ milioane lei (nu există diferenţe semnificative între salariul mediu al
întregii populaţii din care a fost extras eşantionul şi salariul mediu pe economie) 13:H1 ≠µ milioane lei (există diferenţe semnificative între salariul mediu al
întregii populaţii din care a fost extras eşantionul şi salariul mediu pe economie) Alegerea pragului de semnificaţie a testului
.05,0=α Statistica test Pentru testarea semnificaţiei mediei unei populaţii, atunci când se cunoaşte σ , se
foloseşte statistica test Z: n/
xz 0
σ
µ−= .
Calculul statisticii test Pe baza datelor obţinute la nivelul eşantionului, se obţine:
5,2100/4
1314zcakulat =
−= .
Regula de decizie Folosind probabilitatea asociată statisticii test calculate:
• dacă α<.obPr , atunci se respinge ipoteza H0; • dacă α≥.obPr , atunci se acceptă ipoteza H0.
Folosind statistica test: • dacă αzz calculat −< sau αzz calculat +> , atunci se respinge ipoteza H0;
• dacă αzz calculat −≥ sau αzz calculat +≤ , atunci se acceptă ipoteza H0.
Valoarea teoretică a statisticii test Se citeşte din tabelul Z pentru un risc 05,0=α . Această valoare este:
.96,1z 2/ =α
Probabilitatea asociată statisticii test calculate Valoarea probabilităţii asociate statisticii test calculate, 5,2zcakulat = , se citeşte
din tabelul Z, astfel: 006,0494,05,0)5,2Z(P =−=> . Această valoare este furnizată de
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
99
programele specializate de statistică şi poartă denumirea de Prob. sau p-value (programul E-VIEWS) sau Sig. (Significance Level) (programul SPSS).
Figura 31. Regiunea de respingere şi de acceptare a ipotezei H0
Interpretare
96,1z5,2z 025,0calculat =>= sau 05,0)012,0006,02.ob(Pr =<=⋅= α , se
respinge ipoteza Ho. Se poate garanta cu o probabilitate de 0,95 că există diferenţe semnificative între salariul mediu al întregii populaţii din care a fost extras eşantionul observat )( µ şi salariul mediu pe economie )( 0µ .
2. La nivelul unui eşantion format din 100 de persoane, se înregistrează salariul
lunar obţinut şi se obţine .lei.mil14x = Ştiind că lei.mil4=σ , se cere să se testeze dacă salariul mediu al întregii populaţii din care a fost extras eşantionul este mai mare decât salariul mediu pe economie, de 13 mil. lei. Se consideră un risc .05,0=α
Rezolvare Formularea ipotezelor statistice
13:H0 =µ milioane lei
13:H1 >µ milioane lei Alegerea pragului de semnificaţie a testului
.05,0=α Statistica test Pentru testarea semnificaţiei mediei unei populaţii, atunci când se cunoaşte σ , se
foloseşte statistica test Z: n/
xz 0
σ
µ−= .
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
100
Calculul statisticii test Pe baza datelor obţinute la nivelul eşantionului, se obţine:
5,2100/4
1314zcakulat =
−= .
Regula de decizie Folosind probabilitatea asociată statisticii test calculate:
• dacă α<.obPr , atunci se respinge ipoteza H0; • dacă α≥.obPr , atunci se acceptă ipoteza H0.
Folosind statistica test: • dacă αzz calculat +> , atunci se respinge ipoteza H0;
• dacă αzz calculat +≤ , atunci se acceptă ipoteza H0.
Valoarea teoretică a statisticii test Se citeşte din tabelul Z pentru un risc 05,0=α . Această valoare este:
.65,1z 2/ =α
Probabilitatea asociată statisticii test calculate Valoarea probabilităţii asociate statisticii test calculate, 5,2zcakulat = , se citeşte
din tabelul Z, astfel: 006,0494,05,0)5,2Z.(obPr =−=> .
Figura 32. Regiunea de respingere şi de acceptare a ipotezei H0 în cazul unui test
unilateral la dreapta Interpretare
65,1z5,2z 025,0calculat =>= sau 05,0006,0.obPr =<= α , se respinge ipoteza
Ho. Se poate garanta cu o probabilitate de 0,95 că salariul mediu al întregii populaţii din
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
101
care a fost extras eşantionul observat )( µ este mai mare decât salariul mediu pe
economie )( 0µ .
3. Pentru un eşantion format din 25 de persoane, se înregistrează salariul lunar
obţinut şi se obţin următoarele rezultate: .lei.mil2's,lei.mil15x == Se cere să se testeze dacă există diferenţe semnificative între salariul mediu al întregii populaţii din care a fost extras eşantionul şi salariul mediu de economie, de 13 mil. lei. Se consideră un risc .05,0=α
Rezolvare Formularea ipotezelor statistice
13:H0 =µ
13:H1 ≠µ Alegerea pragului de semnificaţie a testului
.05,0=α Statistica test Pentru testarea semnificaţiei mediei unei populaţii se foloseşte statistica test t
Student, n/'s
xt 0µ−
= .
Calculul statisticii test
Pe baza datelor obţinute la nivelul eşantionului, se obţine: 525/2
1315tcakulat =
−= .
Regula de decizie
• dacă 2/calculat tt α−< sau 2/calculat tt α+> , atunci se respinge ipoteza H0;
• dacă 2/calculat tt α−≥ sau 2/calculat tt α+≤ , atunci se acceptă ipoteza H0.
Valoarea teoretică a statisticii test Se citeşte din tabelul t Student pentru un risc 05,0=α şi n-1 grade de libertate.
Această valoare este: 064,2tt 24;025,01n;2/ ==−α .
t K 0.025 K
M
24 K 2,064 K M
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
102
Interpretare Regiunea de acceptare şi regiunea de respingere a ipotezei Ho sunt prezentate în
figura de mai jos:
0,025
HH
0,025
1
2,064-2,064
H 0
0,95
1
tt =5calc
Figura 33. Regiunea de respingere şi de acceptare a ipotezei H0
064,2t5t 24;025,0calculat =>= , se respinge ipoteza Ho. Se poate garanta cu o
probabilitate de 0,95 că există diferenţe semnificative între salariul mediu al întregii populaţii din care a fost extras eşantionul observat )( µ şi salariul mediu pe economie
)( 0µ .
7.1.3 Testarea semnificaţiei proporţiei unei populaţii
Demersul testării semnificaţiei unei proporţii este similar demersului prezentat în cazul mediei unei populaţii.
Ipoteze statistice Ipotezele care se formulează în testarea semnificaţiei unei proporţii sunt:
00 pp:H =
01 pp:H ≠ (test bilateral)
Alegerea pragului de semnificaţie a testului
05,0=α .
Alegerea şi calculul statisticii test Atunci când nu se cunoaşte varianţa populaţiei, în testarea semnificaţiei
proporţiei unei distribuţii se foloseşte statistica t Student. Pe baza datelor observate la nivelul unui eşantion de volum n, se calculează statistica test t astfel:
n/)f1(f
pf
s
pft 0
p̂
0calculat
−
−=
−= .
Definirea regulii de decizie
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
103
Adoptarea decizie corecte presupune compararea valorii calculate a statisticii test cu valoarea teoretică. De exemplu, considerând un test bilateral, atunci când nu se cunoaşte varianţa populaţiei, regula de decizie poate fi definită astfel:
Se respinge ipoteza H0 Se acceptă ipoteza H0 Folosind probabilitatea asociată statisticii test
dacă α>.obPr dacă α≥.obPr
Folosind valoarea calculată a statisticii test
dacă 2/calculat tt α−< sau
2/calculat tt α+>
dacă 2/calculat tt α−≥ sau
2/calculat tt α+≤
Exemplu La nivelul unui eşantion de volum n=25 de persoane, se observă că ponderea
persoanelor care votează pentru candidatul A este de 49%. Se cere să se testeze dacă există diferenţe semnificative între proporţia persoanelor care votează pentru candidatul A la nivelul întregii populaţii şi proporţia persoanelor care au votat pentru acest candidat la alegerile anterioare, de 51%. Se consideră un risc .05,0=α
Rezolvare Formularea ipotezelor statistice
%51p:H0 =
%51p:H1 ≠ Alegerea pragului de semnificaţie a testului
.05,0=α Statistica test Pentru testarea semnificaţiei mediei unei populaţii se foloseşte statistica test t
Student, n/)f1(f
pft 0
−⋅
−= .
Calculul statisticii test Pe baza datelor obţinute la nivelul eşantionului, se obţine:
2,025/)49100(49
5149tcalculat −=
−⋅
−= .
Regula de decizie
• dacă 2/calculat tt α−< sau 2/calculat tt α+> , atunci se respinge ipoteza H0;
• dacă 2/calculat tt α−≥ sau 2/calculat tt α+≤ , atunci se acceptă ipoteza H0.
Valoarea teoretică a statisticii test Se citeşte din tabelul t Student pentru un risc 05,0=α şi n-1 grade de libertate.
Această valoare este: 064,2tt 24;025,01n;2/ ==−α .
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
104
Interpretare
064,2t2,0t 24;025,0calculat =<= , se acceptă ipoteza Ho. Se poate garanta cu o
probabilitate de 0,95 că nu există diferenţe semnificative între proporţia persoanelor care votează pentru candidatul A la nivelul întregii populaţii, p, şi proporţia persoanelor care au votat pentru acest candidat la alegerile anterioare, p0.
7.2 Testarea ipotezelor cu privire la doi parametri Testarea ipotezelor cu privire la doi parametri poate viza două medii ale unor
populaţii, 1µ şi 2µ , sau două proporţii, 1p şi 2p .
7.2.1 Testarea diferenţei dintre două medii a. Cazul eşantioanelor independente
În cazul eşantioanelor independente, statistica test folosită în testarea ipotezelor statistice este statistica Z sau t.
Ipoteze statistice
0:H 210 =− µµ
0:H 211 ≠− µµ Alegerea pragului de semnificaţie a testului α Alegerea şi calculul statisticii test
Atunci când 22
21 σσ = şi nu se cunosc varianţele populaţiilor, statistica test se
calculează astfel:
2
22
1
21
21calculat
n
s
n
s
xxt
+
−= .
Atunci când 22
21 σσ ≠ şi nu se cunosc varianţele populaţiilor, statistica test se
calculează astfel:
21p
21calculat
n
1
n
1s
xxt
+
−=
⋅
, unde:
2nn
)1n(s)1n(ss
21
2221
21
p −+
−+−= .
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
105
Definirea regulii de decizie Regula de decizie se defineşte în mod similar testării semnificaţiei unui parametru
al unei populaţii. Valoarea teoretică a statisticii test se alege însă pentru n1+n2-2 grade de libertate.
Exemple 1. Pentru două eşantioane extrase aleator simplu de volum n1=n2=625 persoane
s-a înregistrat vârsta şi s-au obţinut următoarele rezultate: ani32x,ani35x 21 == ;
ani4s,ani2s 21 == . Să se testeze ipoteza potrivit căreia între vârstele medii ale celor două populaţii din care au fost extrase eşantioanele observate există diferenţe semnificative. Se consideră un risc de 0,05.
Rezolvare Ipoteze statistice: H0: 21 µµ = (nu există diferenţe semnificative între vârstele medii ale celor două populaţii din care au fost extrase eşantioanele) H1: 21 µµ ≠ (există diferenţe semnificative între vârstele medii ale celor două populaţii din care au fost extrase eşantioanele) Alegerea pragului de semnificaţie a testului
.05,0=α Statistica test Când nu se cunosc varianţele populaţiilor, pentru testarea ipotezelor statistice se
foloseşte statistica t, calculată după relaţia:
2
22
1
21
21
n
s
n
s
xxt
+
−=
Regula de decizie
• dacă 2/calc tt α> , se respinge ipoteza H0;
• dacă 2/calc tt α≤ , se acceptă ipoteza H0.
Regiunea de acceptare şi regiunea de respingere a ipotezei Ho sunt prezentate în figura de mai jos:
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
106
0
-t t
1-α
tα/2 α/2
α/2α/2
H H H 11
Figura 34. Regiunea de respingere şi de acceptare a ipotezei H0
Calculul statisticii test Statistica test este:
7,16
625
42
3235t
22=
+
−=
Valoarea teoretică a statisticii test Valoarea teoretică a statisticii t se citeşte din Tabelul Student pentru un risc
α=0,05 şi n1+n2-2 grade de libertate: t α /2=1,96.
Interpretare ( ) ( ),96,1t7,16t 025,0calc =>= se respinge ipoteza H0. Se poate garanta cu o
probabilitate de 0,95 că există diferenţe semnificative între vârstele medii ale populaţiilor din care au fost extrase eşantioanele observate.
2. Pentru două eşantioane, extrase aleator simplu, formate din 7 persoane de sex masculin, iar al doilea din 9 persoane de sex feminin, se înregistrează salariul lunar obţinut şi se obţin următoarele rezultate: leisute25x,leisute24x FM == ;
2s,3s FM == . Să se testeze ipoteza potrivit căreia între salariul mediu al persoanelor
de sex masculin şi salariul mediu al persoanelor de sex feminin există diferenţe semnificative, la nivelul populaţiei din care au fost extrase eşantioanele observate. Se consideră un risc de 0,05.
Rezolvare Ipoteze statistice H0: FM µµ =
H1: FM µµ ≠
Alegerea pragului de semnificaţie a testului .05,0=α
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
107
Statistica test Când nu se cunosc varianţele populaţiilor, pentru testarea ipotezelor statistice se
foloseşte statistica t, calculată după relaţia:
2
2
1
2
n
s
n
s
xxt
FM
FM
+
−=
Regula de decizie • dacă 2/calc tt α> , se respinge ipoteza H0;
• dacă 2/calc tt α≤ , se acceptă ipoteza H0.
Regiunea de acceptare şi regiunea de respingere a ipotezei Ho sunt prezentate în figura de mai jos:
0
-t t
1-α
tα/2 α/2
α/2α/2
H H H 11
Figura 35. Regiunea de respingere şi de acceptare a ipotezei H0
Calculul statisticii test Statistica test este:
76,0
9
2
7
3
2524t
22=
+
−=
Valoarea teoretică a statisticii test Valoarea teoretică a statisticii t se citeşte din Tabelul Student pentru un risc
α=0,05 şi n1+n2-2 grade de libertate: t α /2; 7+9-2=2,145.
Interpretare ( ) ( ),145,2t76,0t 025,0calc =<= se acceptă ipoteza H0. Se poate garanta cu o
probabilitate de 0,95 că nu există diferenţe semnificative între salariul mediu al persoanelor de sex masculin şi salariul mediu al persoanelor de sex feminin, la nivelul populaţiilor din care au fost extrase eşantioanele observate.
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
108
b. Cazul eşantioanelor dependente În cazul eşantioanelor dependente, unităţile statistice observate sunt aceleaşi. De
exemplu, pentru a studia efectele unui tratament asupra unui lot de bolnavi, se înregistrează anumiţi parametri înainte şi după tratament, pentru aceleaşi persoane. În acest caz, se va estima diferenţa dintre valorile înregistrate la parametrii respectivi înainte şi după tratament.
Ipoteze statistice
0:H 210 =− µµ
0:H 211 ≠− µµ Alegerea pragului de semnificaţie a testului α Alegerea şi calculul statisticii test Statistica test se calculează astfel:
n/s
xxt
d
21calculat
−= , unde sd este abaterea standard a diferenţelor dintre valorile
înregistrate de unităţile statistice între cele două momente observate. Regula de decizie
• dacă 2/calc tt α> , se respinge ipoteza H0;
• dacă 2/calc tt α≤ , se acceptă ipoteza H0.
Valoarea critică a statisticii test ( 2/tα ) se alege pentru n-1 grade de libertate.
Exemplu Pentru două eşantioane formate din 5 persoane, se înregistrează punctajele
obţinute la două teste susţinute în primul şi al doilea semestru, şi se obţin următoarele rezultate:
Persoana Punctaj test
Semestrul I Semestrul II A 65 58 B 69 65 C 88 82 D 73 70 E 75 71
Se cere să se testeze dacă există diferenţe semnificative între punctajele medii
obţinute la testele susţinute în semestrul I şi semestrul II, la nivelul populaţiilor din care au fost extrase eşantioanele. Se consideră un risc de 0,05.
Rezolvare Ipoteze statistice H0: 0semIIsemI =− µµ
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
109
H1: 0semIIsemI ≠− µµ
Alegerea pragului de semnificaţie a testului
.05,0=α Statistica test Pentru testarea ipotezelor statistice se foloseşte statistica t, calculată după relaţia:
n/s
xt
d
dcalculat = , unde:
dx este media diferenţelor dintre valorile înregistrate între cele două momente:
n
d
n
)xx(
x ii
i2i1i
d
∑∑=
−= ;
1n
)xd(
s i
2di
d −
−=∑
este abaterea standard a diferenţelor di.
Regula de decizie
• dacă 2/calc tt α> , se respinge ipoteza H0;
• dacă 2/calc tt α≤ , se acceptă ipoteza H0.
Regiunea de acceptare şi regiunea de respingere a ipotezei Ho sunt prezentate în figura de mai jos:
0
-t t
1-α
tα/2 α/2
α/2α/2
H H H 11
Figura 36. Regiunea de respingere şi de acceptare a ipotezei H0
Calculul statisticii test Pe baza datelor înregistrate la nivelul eşantioanelor, se calculează statistica test
astfel:
n/s
xxt
d
21calculat
−= .
Elementele de calcul ale mediilor şi abaterii standard sunt prezentate în tabelul de mai jos:
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
110
Tabelul 7.1. Elemente de calcul ale mediilor şi abaterii standard Persoana Sem_I
(xi1) Sem_II
(xi2) di= 2i1i xx − )xd( di −
2di )xd( −
A 65 58 7 2,2 4,84 B 69 65 4 -0,8 0,64 C 88 82 6 1,2 1,44 D 73 70 3 -1,8 3,24 E 75 71 4 -0,8 0,64
TOTAL 370 346 24 - 10,8
Media diferenţelor, dx , este: 8,45
24
n
d
x ii
d ===∑
.
Abaterea standard a diferenţelor dintre valorile înregistrate în cele două momente
este: 64,17,215
8,10sd ==
−= .
Statistica test se calculează astfel:
55,65/64,1
8,4tcalculat == .
Valoarea teoretică a statisticii test Valoarea teoretică a statisticii t se citeşte din Tabelul Student pentru un risc
α=0,05 şi n-1 grade de libertate: t α /2; 5-1=2,776.
Interpretare ( ) ( ),776,2t55,6t 025,0calc =>= se respinge ipoteza H0. Se poate garanta cu o
probabilitate de 0,95 că există diferenţe semnificative între punctajele medii obţinute la testele susţinute în semestrul I şi semestrul II, la nivelul populaţiilor din care au fost extrase eşantioanele.
7.2.2 Testarea diferenţei dintre două proporţii
Ipoteze statistice 0pp:H 210 =−
0pp:H 211 ≠− Alegerea pragului de semnificaţie a testului α Alegerea şi calculul statisticii test Statistica test se calculează astfel:
2
22
1
11
21calculat
n
)f1(f
n
)f1(f
fft
−⋅+
−⋅
−= .
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
111
Regula de decizie • dacă 2nn;2/calc 21
tt −+> α , se respinge ipoteza H0;
• dacă 2nn;2/calc
21tt
−+≤
α, se acceptă ipoteza H0.
Exemplu Pentru două eşantioane extrase aleator simplu de volum n1=n2=625 persoane s-a
înregistrat proporţia persoanelor care au votat pentru candidatul A în anul 2009 şi în anul 2005 şi s-au obţinut următoarele rezultate: %49f;%,51f 21 == . Să se testeze ipoteza potrivit căreia între proporţia persoanelor care au votat pentru candidatul A în cele două momente, la nivelul populaţiilor, există diferenţe semnificative. Se consideră un risc de 0,05.
Rezolvare Ipoteze statistice: H0: 21 pp = (nu există diferenţe semnificative între proporţia persoanelor care au votat pentru candidatul A în anul 2009 şi anul 2005) H1: 21 pp ≠ (există diferenţe semnificative între proporţia persoanelor care au votat pentru candidatul A în anul 2009 şi anul 2005) Alegerea pragului de semnificaţie a testului
.05,0=α Statistica test Statistica t se calculează după relaţia:
2
22
1
11
21calculat
n
)f1(f
n
)f1(f
fft
−⋅+
−⋅
−=
Regula de decizie
• dacă 2nn;2/calc 21tt −+> α , se respinge ipoteza H0;
• dacă 2nn;2/calc
21tt
−+≤
α, se acceptă ipoteza H0.
Calculul statisticii test Pe baza datelor înregistrate la nivelul eşantioanelor, se calculează statistica test
astfel:
71,0
625
)49100(49)51100(51
4951tcalculat =
−⋅+−⋅
−= .
Valoarea teoretică a statisticii test Valoarea teoretică a statisticii t se citeşte din Tabelul Student pentru un risc
α=0,05 şi n1+n2-2 grade de libertate: t α /2=1,96.
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
112
Interpretare ( ) ( ),96,1t71,0t 025,0calc =<= se acceptă ipoteza H0. Se poate garanta cu o
probabilitate de 0,95 că nu există diferenţe semnificative între proporţia persoanelor care au votat pentru candidatul A în anul 2009 şi în anul 2005, la nivelul populaţiilor din care au fost extrase eşantioanele observate.
7.3. Estimare versus testare Estimarea prin interval de încredere presupune construirea unui interval pentru
valoarea unui parametru, plecând de la rezultatele obţinute prin prelucrarea datelor la nivelul unui eşantion extras din populaţie.
Prin testarea ipotezelor statistice se formulează o ipoteză asupra valorii unui parametru şi se verifică dacă această ipoteză este sau nu „contrazisă” de observaţiile de la nivelul unui eşantion extras din populaţie.
De exemplu, în estimarea şi testarea semnificaţiei mediei unei populaţii, să presupunem că se înregistrează salariul lunar obţinut de persoanele dintr-un eşantion de volum n şi se află limitele intervalului de încredere pentru salariul mediu la nivelul populaţiei. În urma prelucrării datelor, considerând un risc de 0,05, se obţin următoarele rezultate pentru intervalul de încredere a mediei populaţiei: [ ]18;14 mil. Lei. Dacă testarea statistică are ca obiectiv verificarea egalităţii dintre salariul mediu la nivelul populaţiei şi salariul mediu pe economie, 120 =µ mil. Lei, atunci, cu o probabilitate de
0,95, se poate conchide că se respinge ipoteza egalităţii dintre cele două valori. În procesul testării statistice, ipotezele care se formulează, în exemplul dat, sunt următoarele: 12:H;12:H 10 ≠= µµ . Cunoscând limitele intervalului de încredere
pentru media populaţiei, 1814 ≤≤ µ , se observă, astfel, că aceasta nu poate fi egală cu 12 mil. Lei.
În mod similar, dacă intervalul de încredere calculat pentru un parametru θ nu include valoarea zero, atunci se respinge ipoteza H0 prin care se admite că valoarea acelui parametru este nulă ( 0:H0 =θ ), considerând o probabilitate de α−1 .
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
113
ANEXE
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
114
Repartiţia Laplace:
∫−
=z
0
2
t
dte2
1)z(
2
πΦ
0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0 0.000 0.004 0.008 0.012 0.016 0.020 0.024 0.028 0.032 0.036
0.1 0.040 0.044 0.048 0.052 0.056 0.060 0.064 0.067 0.071 0.075 0.2 0.079 0.083 0.087 0.091 0.095 0.099 0.103 0.106 0.110 0.114 0.3 0.118 0.122 0.126 0.129 0.133 0.137 0.141 0.144 0.148 0.152 0.4 0.155 0.159 0.163 0.166 0.170 0.174 0.177 0.181 0.184 0.188 0.5 0.191 0.195 0.198 0.202 0.205 0.209 0.212 0.216 0.219 0.222 0.6 0.226 0.229 0.232 0.236 0.239 0.242 0.245 0.249 0.252 0.255 0.7 0.258 0.261 0.264 0.267 0.270 0.273 0.276 0.279 0.282 0.285 0.8 0.288 0.291 0.294 0.297 0.300 0.302 0.305 0.308 0.311 0.313 0.9 0.316 0.319 0.321 0.324 0.326 0.329 0.331 0.334 0.336 0.339
1 0.341 0.344 0.346 0.348 0.351 0.353 0.355 0.358 0.360 0.362 1.1 0.364 0.367 0.369 0.371 0.373 0.375 0.377 0.379 0.381 0.383 1.2 0.385 0.387 0.389 0.391 0.393 0.394 0.396 0.398 0.400 0.401 1.3 0.403 0.405 0.407 0.408 0.410 0.411 0.413 0.415 0.416 0.418 1.4 0.419 0.421 0.422 0.424 0.425 0.426 0.428 0.429 0.431 0.432 1.5 0.433 0.434 0.436 0.437 0.438 0.439 0.441 0.442 0.443 0.444 1.6 0.445 0.446 0.447 0.448 0.449 0.451 0.452 0.453 0.454 0.454 1.7 0.455 0.456 0.457 0.458 0.459 0.460 0.461 0.462 0.462 0.463 1.8 0.464 0.465 0.466 0.466 0.467 0.468 0.469 0.469 0.470 0.471 1.9 0.471 0.472 0.473 0.473 0.474 0.474 0.475 0.476 0.476 0.477
2 0.477 0.478 0.478 0.479 0.479 0.480 0.480 0.481 0.481 0.482 2.1 0.482 0.483 0.483 0.483 0.484 0.484 0.485 0.485 0.485 0.486 2.2 0.486 0.486 0.487 0.487 0.487 0.488 0.488 0.488 0.489 0.489 2.3 0.489 0.490 0.490 0.490 0.490 0.491 0.491 0.491 0.491 0.492 2.4 0.492 0.492 0.492 0.492 0.493 0.493 0.493 0.493 0.493 0.494 2.5 0.494 0.494 0.494 0.494 0.494 0.495 0.495 0.495 0.495 0.495 2.6 0.495 0.495 0.496 0.496 0.496 0.496 0.496 0.496 0.496 0.496 2.7 0.497 0.497 0.497 0.497 0.497 0.497 0.497 0.497 0.497 0.497 2.8 0.497 0.498 0.498 0.498 0.498 0.498 0.498 0.498 0.498 0.498 2.9 0.498 0.498 0.498 0.498 0.498 0.498 0.498 0.499 0.499 0.499
3 0.499 0.499 0.499 0.499 0.499 0.499 0.499 0.499 0.499 0.499
0 z
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
115
Repartiţia Student: p=P(t>tdf)
df α = 0.1 0.05 0.025 0.01 0.005 0.001 0.0005
1 3.078 6.314 12.706 31.821 63.656 318.289 636.578
2 1.886 2.920 4.303 6.965 9.925 22.328 31.600
3 1.638 2.353 3.182 4.541 5.841 10.214 12.924
4 1.533 2.132 2.776 3.747 4.604 7.173 8.610
5 1.476 2.015 2.571 3.365 4.032 5.894 6.869
6 1.440 1.943 2.447 3.143 3.707 5.208 5.959
7 1.415 1.895 2.365 2.998 3.499 4.785 5.408
8 1.397 1.860 2.306 2.896 3.355 4.501 5.041
9 1.383 1.833 2.262 2.821 3.250 4.297 4.781
10 1.372 1.812 2.228 2.764 3.169 4.144 4.587
11 1.363 1.796 2.201 2.718 3.106 4.025 4.437
12 1.356 1.782 2.179 2.681 3.055 3.930 4.318
13 1.350 1.771 2.160 2.650 3.012 3.852 4.221
14 1.345 1.761 2.145 2.624 2.977 3.787 4.140
15 1.341 1.753 2.131 2.602 2.947 3.733 4.073
16 1.337 1.746 2.120 2.583 2.921 3.686 4.015
17 1.333 1.740 2.110 2.567 2.898 3.646 3.965
18 1.330 1.734 2.101 2.552 2.878 3.610 3.922
19 1.328 1.729 2.093 2.539 2.861 3.579 3.883
20 1.325 1.725 2.086 2.528 2.845 3.552 3.850
21 1.323 1.721 2.080 2.518 2.831 3.527 3.819
22 1.321 1.717 2.074 2.508 2.819 3.505 3.792
23 1.319 1.714 2.069 2.500 2.807 3.485 3.768
24 1.318 1.711 2.064 2.492 2.797 3.467 3.745
25 1.316 1.708 2.060 2.485 2.787 3.450 3.725
26 1.315 1.706 2.056 2.479 2.779 3.435 3.707
27 1.314 1.703 2.052 2.473 2.771 3.421 3.689
28 1.313 1.701 2.048 2.467 2.763 3.408 3.674
29 1.311 1.699 2.045 2.462 2.756 3.396 3.660
30 1.310 1.697 2.042 2.457 2.750 3.385 3.646
∞ 1.282 1.645 1.960 2.326 2.576 3.091 3.291
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
116
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
117
BIBLIOGRAFIE 1. Andrei, T., Statistică şi econometrie, Editura Economica, Bucureşti, 2003.
2. Andrei, T. şi Stancu, S., Statistică - teorie şi aplicaţii , Editura All, Bucureşti, 1995
3. Bărbat, Al. , Teoria statisticii sociale, Editura Didactică şi Pedagogică, Bucureşti, 1972.
4. Baron, T.; Biji, E.; Tövissi, L., ş.a., Statistică teoretică şi economică, Editura Didactică şi Pedagogică, Bucureşti, 1991.
5. Biji, M.; Biji, El., Statistica teoretică, Editura Didactică şi Pedagogică, Bucureşti, 1979.
2. Biji, M.; Stoichiţă, I. , Metoda selectivă a cercetării statistice, Editura Ştiinţifică, Bucureşti, 1957.
3. Capanu, I; Wagner, P.; Mitruţ, C., Sistemul conturilor naţionale şi agregate macroeconomice, Editura All, Bucureşti, 1994.
4. Chelcea, S., Chestionarul în investigaţia sociologică, Editura Ştiinţifică şi Enciclopedică, Bucureşti, 1975.
3. Galton, Fr., Natural Inheritance, Macmillan, London, 1889
4. Georgescu Roegen, N. , Metoda statistică - elemente de statistică matematică, I.S.C.S., Bucureşti, 1933.
5. Glenberg, A.M., Andrzejewski, M.E., Learning from data. An Introduction to Statistical Reasoning, Taylor and Francis Group, New York, 2008.
6. Isaic-Maniu, Al.; Grădinaru, A.; Voineagu, V.; Mitruţ, C. - Statistică teoretică şi economică, Editura Tehnică, Chişinău, 1994.
7. Jaba, E., Grama, A., Analiza statistică cu SPSS sub Windows, Ed. Polirom, Iaşi, 2004
8. Jaba, E., Statistica, Ediţia a treia, Editura Economica, Bucureşti, 2002
9. Jaba, E., Pintilescu, C., Iosub F., Statistică descriptivă. Teste grilă şi probleme, Editura Sedcom Libris, Iaşi, 2001.
10. Jaba, E., Pintilescu, C., Statistică. Teste grilă şi probleme, Editura Sedcom Libris, Iaşi, 2005.
11. Jemna, D., Econometrie, Editura Sedcom Libris, Iaşi, 2009.
12. Jemna, D., Pintilescu, C., Turturean, C., Chirilă V., Chirilă, C, Viorică, D., Econometrie. Probleme şi teste grilă, Editura Sedcom Libris, Iaşi, 2009.
13. Lecaillon, J.; Labrousse, C., Statistique descriptive, Editura Cujas, Paris, 1988
14. Mallinvaud, E. - Méthodes statistique de l'économetrie, Dunod, Paris, 1981
15. Marinescu, I. , Analiza factorială, Editura Ştiinţifică şi Enciclopedică, Bucureşti, 1984.
16. McClave, J.T.; Benson, P.G. , Statistics for Business and Economics, Dellen Publishing Company, San Francisco, 1985.
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
118
17. Mills, Fr.G., Statistical Methods, 3rd ed., Henry Holt, New York, 1955.
18. Milton Smith, G. - Ghid simplificat de statistică pentru psihologie şi pedagogie, E.D.P., Bucureşti 1971.
19. Minium, E.W., Clarke, R., C., Coladarci, T., Elements of Statistical Reasoning, John Wiley and Sons, 1999.
20. Pecican, E.S. - Econometrie, Editura All, Bucureşti, 1994
21. Pintilescu, C., Analiza datelor, Editura Junimea, Iaşi, 2002.
22. Pintilescu, C., Analiză statistică multivariată, Editura Universităţii “Alexandru Ioan Cuza” Iaşi, 2007.
23. Saporta, G., Probabilités, analyse des données et statistique, Editura Technip, Paris, 1990
24. Tövissi, L.; Isaic-Maniu, Al., Statistica, A.S.E., Bucureşti, 1984.
25. Trebici, V.(coord.) - Mica enciclopedie de statistică, Editura Ştiinţifică şi Enciclopedică, Bucureşti, 1985.
26. Ţarcă, M. , Statistică, vol.I şi II, Universitatea "Al.I.Cuza" Iaşi, 1979.
27. Yule, U.G.; Kendall, M.C. - Introducere în teoria statisticii, Editura Ştiinţifică, Bucureşti, 1969.
28. Wonnacott, T.H., Wonnacott, R.J., Statistique, Economica, Paris, 1991.