stec - capitolul 1
DESCRIPTION
Statistica si EconometrieTRANSCRIPT
4
Capitolul 1 – Introducere în statistică
Una din definițiile destul de generale spune că statistica este știința colectării,
clasificării, prezentării și interpretării datelor, dar și a folosirii acestora pentru a
formula concluzii și a lua decizii.
Obiectul de studiu al statisticii îl reprezintă fenomenele de masă – fenomene
complexe, atipice, rezultate din acţiunea combinată a unui număr mare de factori de
influenţă. Statistica studiază fenomenele de masă din punct de vedere cantitativ şi le
interpretează ca fenomene probabile folosind raţionamente de tip inductiv şi
utilizând detaliul individual pentru a propune caracterizări de ansamblu. Prin urmare,
generalizările deduse dintr-o investigaţie statistică sunt adevărate doar în medie,
fiind pus în evidenţă doar comportamentul tipic al tuturor obiectelor luate în studiu,
nu comportamentul elementelor individuale, luate separat.
Noţiuni fundamentale ale statisticii
o Colectivitatea statistică Colectivitatea statistică, denumită în mod frecvent şi populaţia statistică,
reprezintă principala formă sub care se delimitează şi se definesc fenomenele de
masă, desemnând totalitatea elementelor de aceeaşi natură care sunt supuse
studiului statistic. Dat fiind modul de definire al populaţiei statistice, elementele care
formează colectivitatea sunt (sau ar trebui să fie) omogene. Astfel, chiar dacă
populaţia statistică prezintă variabilitate, iar unităţile statistice sunt diferite,
informaţiile culese de la aceste unităţi trebuie să fie comparabile. De aceea, una
dintre problemele esenţiale ale unei cercetări statistice o reprezintă delimitarea
colectivităţii statistice în timp şi spaţiu.
Exemplu: Dacă scopul unui sondaj îl reprezintă măsurarea preferinţelor electorale la
nivelul ţării la un anumit moment dat, atunci colectivitatea statistică va fi
reprezentată doar de persoanele cu drept de vot (rezidenţi cu vârsta peste 18 ani).
Prin urmare, persoanele minore, cu domiciliul în străinătate sau alte persoane care
nu au drept de vot, ar trebui excluse din populaţia statistică.
Exemplu: Dacă dorim să colectăm opinii ale consumatorilor privind calitatea unui
anumit tip de telefon mobil, atunci populaţia statistică va trebui probabil să cuprindă
acele persoane care au folosit sau folosesc acel tip de telefon, nu toţi utilizatorii de
telefoane mobile. Dacă însă se are în vedere lansarea unui nou tip de telefon, un
sondaj care să încerce măsurarea aşteptărilor consumatorilor ar trebui să se
adreseze tuturor clienţilor potenţiali (atât celor care posedă un telefon mobil,
indiferent de model, producător etc., cât şi celor care nu au în acest moment un
telefon mobil).
5
o Unitatea statistică
Unitatea statistică este entitatea (persoana, obiectul, evenimentul, agentul
economic etc.) purtătoare a informaţiei. Unităţile statistice pot fi simple (de
exemplu, persoana fizică, angajatul, produsul etc.) sau complexe, formate din mai
multe unităţi simple, organizate în funcţie de anumite criterii (de exemplu,
gospodăria, grupa de studenţi, firma, judeţul etc.).
o Caracteristica statistică
Denumită şi variabila statistică, caracteristica statistică desemnează însuşirea,
trăsătura sau proprietatea comună tuturor unităţilor statistice dintr-o populaţie, care
capătă valori diferite de la o unitate la alta şi care este măsurată prin investigaţia
statistică.
Exemple: Vârsta, greutatea, înălţimea, nivelul studiilor sau nivelul venitului unei
persoane, cifra de afaceri a unei întreprinderi.
Caracteristicile statistice se mai numesc variabile statistice, întrucât au
proprietatea de a-şi modifica valoarea de la o unitate la alta. Variabilele statistice se
pot clasifica după anumite o serie de criterii.
Astfel, după modul de exprimare putem distinge variabile calitative,
exprimate prin cuvinte care desemnează apartenenţa la o categorie, şi variabile
cantitative, exprimate numeric). La rândul lor, variabilele calitative pot fi nominale
sau ordinale. Variabilele calitative nominale nu implică o anumită ordine între valori,
în timp ce variabilele calitative ordinale presupun existenţa unei relaţii de ordine, a
unei ierarhii.
Exemplu: Starea civilă este o variabilă calitativă, deseori definită binar, respectiv
„căsătorit” sau „necăsătorit”. Starea civilă poate fi definită și mai detaliat, putând lua
valorile „celibatar/niciodată căsătorit”, „căsătorit”, „văduv”, „divorţat”, detalierea
fiind decisă de cercetător, în conformitate cu scopurile analizei. Întrucât între aceste
valori nu există o ordine anume, variabila stare civilă este o variabilă calitativă
nominală. Alte exemple de variabile calitative nominale: culoarea ochilor, sexul,
ocupaţia.
Exemplu: Nivelul studiilor poate fi exprimat prin numărul de ani petrecuţi în sistemul
de învăţământ, caz în care avem de-a face cu o variabilă cantitativă, sau prin
alegerea unuia din posibilele răspunsuri posibile:
• studii primare;
• studii gimnaziale;
• studii liceale;
6
• studii postliceale;
• studii universitare;
• studii postuniversitare – masterat;
• studii postuniversitare – doctorat,
În cel de-al doilea caz, avem de-a face cu o variabilă calitativă ordinală, alegerea unei
valori superioare corespunzând unui nivel superior al studiilor.
Atenţie! Este de dorit să se evite atribuirea unor valori numerice variabilelor
calitative, fie ele şi ordinale. De exemplu, pentru nivelul studiilor unei persoane, dacă
atribuim studiilor liceale valoarea 3 şi celor universitare valoarea 5, putem afirma că
facultatea oferă un nivel de studii cu 67% mai ridicat decât liceul? În aceeaşi ordine
de idei, dacă atribuim studiilor doctorale valoarea 7, înseamnă acest lucru că
diferenţa de instruire dintre aceste studii şi cele universitare (valoarea numerică a
diferenţei este 2) este egală cu diferenţa de pregătire dintre studiile universitare şi
cele liceale (pentru care valoarea diferenţei este tot 2)? Evident, nu.
Concluzia care se poate trage de aici este aceea că variabilele calitative ordinale
implică existenţa unei ierarhii, dar că pe aceste scale nu are sens definirea distanţei
între valorile variabilei calitative ordinale.
După cardinalul mulţimii observaţiilor, există variabile statistice binare
(numite și alternative, dihotomice sau booleene), când spaţiul de observaţii e
compus din două valori (0/1, masculin/feminin, rural/urban), variabile statistice cu
un număr finit de valori numerice (aici se încadrează variabilele calitative şi cele
cantitative discrete) şi variabile cantitative continue, când mulţimea specifică a
valorilor individuale este un interval de numere reale. Acest ultim tip de variabile
statistice este rar folosit din raţionamente practice şi datorită impreciziei măsurării.
Exemplu: Teoretic vorbind, înălţimea unei persoane este o variabilă cantitativă
continuă, înălțimea putând lua orice valoare într-un interval. În practică se va aplica
însă o aproximare suficient de bună, de exemplu în centimetri, şi se va folosi ca o
variabilă cantitativă discretă (să zicem, între 140cm şi 230cm).
o Variabilele aleatoare
Variabilele aleatoare reprezintă o clasă distinctă de variabile întâlnită în
cercetările statistice, prin intermediul cărora evenimentele pot fi descrise cu ajutorul
unor valori numerice reale. În general, prin variabilă aleatoare se înţelege o funcţie
reală de evenimente elementare care, în raport cu rezultatul unui eveniment, poate
lua o valoare reală dintr-o mulţime bine definită. Din cauza factorilor întâmplători
care influenţează evenimentul, valoarea variabilei aleatoare nu poate fi cunoscută
înaintea realizării experimentului.
7
Exemplu: Să presupunem că experimentul este reprezentat de aruncarea unui zar.
Cu toate că avem de-a face cu un experiment relativ simplu, nu putem şti dinainte ce
număr apare în urma aruncării zarului, pentru că rezultatul depinde de factori
întâmplători. Ce ştim însă este că mulţimea valorilor posibile pentru această variabilă
aleatoare este 1, 2, 3, 4, 5 sau 6. Mai ştim că (pentru un zar corect, nemăsluit)
probabilitatea de apariţie a fiecăreia dintre aceste valori este 1/6.
Datorită celor de mai sus, reprezentarea unei variabile aleatoare se poate
face sub forma
n
n
p
x
pp
xxX
...
...
21
21 , unde pi reprezintă probabilitatea ca variabila X
să ia valoarea xi. pi=1 este probabilitatea evenimentului sigur, pi=0 este
probabilitatea evenimentului imposibil. Pentru exemplul de mai sus, al aruncării
zarului, variabila aleatoare este complet determinată (se numeşte astfel când se
cunosc toate valorile şi toate probabilităţile), dar acest lucru nu este foarte des
întâlnit în practică.
Culegerea datelor statistice
Orice investigaţie statistică se bazează pe date, iar culegerea acestor date se
realizează prin diverse metode: observări totale, numite şi exhaustive, care cuprind
în cercetarea statistică toate unităţile colectivităţii statistice, sau observări parţiale,
care presupun culegerea de date de la un număr redus de unităţi din populaţie, dar
numărul este stabilit după criterii precise.
Culegerea datelor se poate realiza prin observări directe (field research), când
înregistrarea datelor se face de către operator de la unităţile colectivităţii, sau prin
observări indirecte (desk research), când datele se preiau de la surse care au
consemnat anterior fenomenul studiat.
Principalele metode de culegere a datelor sunt:
- Recensământul: Cea mai veche metodă de observare statistică, prin intermediul căreia se culeg date de la toate unităţile colectivităţii. Date fiind costurile ridicate, recensămintele au un caracter periodic. De exemplu, recensământul populaţiei se realizează din 10 în 10 ani. Documentele istorice arată că primele recensăminte au fost organizate în antichitate (Egipt, 3000 IC, China 2238 IC). În România, primul recensământ modern a avut loc în anul 1838, ultimul recensământ al populaţiei şi locuinţelor fiind organizat în octombrie 2011.
- Rapoartele statistice: Observări totale, permanente, prin intermediul cărora se culeg date referitoare la anumite procese şi fenomene economice din domeniile de activitate ale agenţilor economici. Este vorba, de exemplu, de raportările pe care firmele trebuie să le depună cu privire la capitalul fix, forţa de muncă, materii prime şi materiale.
8
- Sondajul statistic: Metodă de culegere a datelor prin completarea unui chestionar de către un eşantion reprezentativ extras din populaţia de interes. Sondajul statistic este caracterizat de costuri mult reduse faţă de recensământ, dar utilitatea informaţiilor obţinute depinde de gradul de reprezentativitate al eşantionului.
- Ancheta statistică: Formă de observare parţială a informației care, spre deosebire de sondaj, nu presupune reprezentativitatea eşantionului. De exemplu, chestionarul este completat în cadrul târgurilor şi expoziţiilor.
- Observarea părţii principale (a masivului principal): Metodă operativă de culegere parţială a datelor doar de la cele mai semnificative unităţi ale colectivităţii (masivul principal). Evident, subiectivitatea criteriilor după care este ales masivul principal, cât şi subiectivitatea unităţilor din acest masiv, pot constitui impedimente majore în alegerea acestei metode. Pe de altă parte, avantajul principal îl constituie operativitatea şi rapiditatea observării.
- Monografia: Metodă de observare aprofundată a fenomenelor şi progreselor care au loc în activitatea unui agent economic sau grup de agenţi economici. Monografia presupune nu doar culegerea, ci şi interpretarea datelor.
Cercetarea statistică
Cercetarea statistică reprezintă un ansamblu complex de activităţi. Paşii ce
sunt urmaţi, în general, în cercetările statistice pot fi rezumaţi după cum urmează:
1 - Observarea statistică a fenomenului studiat (culegerea datelor). Aceasta este o etapă fundamentală în procesul cercetării statistice, deoarece calitatea cercetării depinde într-o mare măsură de cantitatea şi calitatea informaţiilor culese.
2 - Prelucrarea şi modelarea statistică a datelor culese, pe baza unei teorii adecvate fenomenului studiat. Astfel, asupra datelor pot fi aplicate metode din categoria statisticii descriptive şi analizei primare a datelor sau a statisticii inferenţiale.
3 - Analiza şi interpretarea rezultatelor obţinute.
Statistica descriptivă şi analiza primară a datelor: sintetizează masivele de
date printr-un număr restrâns de indicatori, pentru caracterizarea diverselor aspecte
ale populaţiei sau eşantionului. Se realizează astfel clasificarea şi gruparea unităţilor
statistice după diverse criterii, caracterizarea nivelului mediu şi a tendinţei centrale,
analiza dispersării unităţilor statistice, măsurarea dependenţei dintre diverse
caracteristici etc. Rolul statisticii descriptive şi al analizei datelor este de a reduce
masivele de date la un număr restrâns de indicatori, de a pune în evidenţă anumite
proprietăţi ale fenomenului analizat, de a formula anumite ipoteze în aplicarea
statisticii inferenţiale. Vom atinge subiecte de statistică descriptivă în capitolul 2, în
timp ce elemente de analiză primară a datelor vor fi prezentate în capitolul 5.
9
Statistica inferenţială: asigură caracterizarea populaţiilor totale prin
extinderea la nivelul acestora a rezultatelor obţinute la nivelul subpopulaţiilor sau a
eşantioanelor. Prin urmare, principalele etape ale statisticii inferenţiale sunt:
- estimarea parametrilor populaţiei pe baza rezultatelor obţinute prin prelucrarea datelor de la nivelul unei subpopulaţii sau a eşantionului prelevat;
- verificarea ipotezelor statistice; - efectuarea de previziuni, luând în considerare dependenţele dintre variabile
şi seriile de date disponibile.
Serii de date
Seriile de date pot fi de mai multe feluri, în funcţie de cercetarea statistică
efectuată. Astfel, statisticianul poate lucra cu:
- Date longitudinale (în engleză, cross-section data) – Culese prin diverse modalităţi, una dintre acestea fiind sondajul statistic, aceste serii ilustrează situaţia la un moment dat pentru un anumit număr de unităţi statistice (observaţii). Forma uzuală a seriilor longitudinale este:
Exemplu: La un anumit moment dat, un grup de 50 de indivizi este chestionat
şi se culeg date privind înălţimea (variabila x) si greutatea (variabila y) fiecărui
respondent. Organizate sub forma unui tabel ca cel de mai sus, aceste date
vor forma un set de date longitudinale.
Reprezentarea grafică a acestui tip de date se poate face, printre altele, prin
grafice tip plăcintă (piechart: diagramă cu structură radială) și histograme
(bar chart: grafice cu coloane).
Variabila x Variabila y
Unitatea 1 x1 y1
Unitatea 2 x2 y2
… … …
Unitatea i xi yi
… … …
Unitatea n xn yn
10
- Date cronologice, numite şi serii de timp (în engleză, time series data) – Culese, în general, din aria macroeconomică, acestea reprezintă evoluţia unor caracteristici (variabile) în timp. Forma uzuală a seriilor de timp este:
Frecvenţa datelor depinde de variabila măsurată, datele putând reprezenta
serii zilnice, săptămânale, lunare, trimestriale, anuale etc. De exemplu, cursul
de schimb interbancar se publică zilnic, inflaţia se calculează cu frecvenţă
lunară, în timp ce PIB-ul este un indicator ce se publică trimestrial și anual.
Timp t1 t2 … tj … tm
Variabila x x1 x2 … xj … xm
Variabila y y1 y2 … yj … ym
Fig. 1.2 Venitul mediu pe
persoană în câteva țări în
anul 2000, USD
Fig. 1.1 Cotele estimate de
piață ale distribuitorilor
retail de carburanți în
anul 2012
11
timp Variabila x Variabila y
Unitatea 1 t1 x11 y11
Unitatea 1 t2 x12 y12
Unitatea 1 t3 x13 y13
Unitatea 2 t1 x21 y21
Unitatea 2 t2 x22 y22
Unitatea 2 t3 x23 y23
- Date de tip panel (în engleză, panel data) – Sunt structuri complexe de date,
care combină avantajele seriilor cronologice cu cele ale datelor longitudinale,
oferind spre analiză o cantitate suplimentară de informaţii. Astfel, valorile
variabilelor statistice sunt măsurate pentru fiecare unitate statistică repetat,
pentru o anumită perioadă de timp. În Statele Unite, unul din cele mai
elaborate proiecte care a condus la realizarea unui panel uriaş îl reprezintă
PSID (Panel Study of Income Dynamics) al University of Michigan. Acest
studiu a început în 1968, eşantionul fiind reprezentativ atât pentru populaţia
SUA (bărbaţi, femei şi copii), cât şi la nivel de gospodărie. Sondajul a fost
repetat asupra aceloraşi indivizi, PSID colectând astfel informaţii de la
aproximativ 65.000 de indivizi pe parcursul a 36 de ani. Studiul s-a axat
asupra aspectelor economice (în principal urmărirea dinamicii veniturilor),
dar şi sociale (mobilitatea populaţiei, educaţie, formarea familiei).
Tabelul din dreapta ilustrează
un set de date de tip panel,
cu precizarea că acesta este
un panel echilibrat (fiecare
unitate statistică este
observată pe aceeaşi
perioadă, deci lungimea
seriei cronologice este egală
pentru fiecare unitate).
Fig. 1.3 Evoluția lunară a vânzărilor retail de carburant în perioada 2009-2012, mii de tone
12
timp Variabila x Variabila y
Unitatea 1 t1 x11 y11
Unitatea 1 t2 x12 y12
Unitatea 2 t1 x21 y21
Unitatea 2 t2 x22 y22
Unitatea 2 t3 x23 y23
Unitatea 3 t1 x31 y31
Tabelul următor reprezintă
un panel neechilibrat. Un
astfel de set de date se
obţine atunci când lungimea
seriei de timp este diferită
pentru diverse unităţi
statistice. Astfel, în acest
tabel, prima unitate este
observată pentru două momente de timp, a doua unitate statistică este
observată pentru trei momente de timp, în vreme ce a treia unitate statistică
este observată doar o dată.