stec - capitolul 1

4

Capitolul 1 – Introducere în statistică

Una din definițiile destul de generale spune că statistica este știința colectării,

clasificării, prezentării și interpretării datelor, dar și a folosirii acestora pentru a

formula concluzii și a lua decizii.

Obiectul de studiu al statisticii îl reprezintă fenomenele de masă – fenomene

complexe, atipice, rezultate din acţiunea combinată a unui număr mare de factori de

influenţă. Statistica studiază fenomenele de masă din punct de vedere cantitativ şi le

interpretează ca fenomene probabile folosind raţionamente de tip inductiv şi

utilizând detaliul individual pentru a propune caracterizări de ansamblu. Prin urmare,

generalizările deduse dintr-o investigaţie statistică sunt adevărate doar în medie,

fiind pus în evidenţă doar comportamentul tipic al tuturor obiectelor luate în studiu,

nu comportamentul elementelor individuale, luate separat.

Noţiuni fundamentale ale statisticii

o Colectivitatea statistică Colectivitatea statistică, denumită în mod frecvent şi populaţia statistică,

reprezintă principala formă sub care se delimitează şi se definesc fenomenele de

masă, desemnând totalitatea elementelor de aceeaşi natură care sunt supuse

studiului statistic. Dat fiind modul de definire al populaţiei statistice, elementele care

formează colectivitatea sunt (sau ar trebui să fie) omogene. Astfel, chiar dacă

populaţia statistică prezintă variabilitate, iar unităţile statistice sunt diferite,

informaţiile culese de la aceste unităţi trebuie să fie comparabile. De aceea, una

dintre problemele esenţiale ale unei cercetări statistice o reprezintă delimitarea

colectivităţii statistice în timp şi spaţiu.

Exemplu: Dacă scopul unui sondaj îl reprezintă măsurarea preferinţelor electorale la

nivelul ţării la un anumit moment dat, atunci colectivitatea statistică va fi

reprezentată doar de persoanele cu drept de vot (rezidenţi cu vârsta peste 18 ani).

Prin urmare, persoanele minore, cu domiciliul în străinătate sau alte persoane care

nu au drept de vot, ar trebui excluse din populaţia statistică.

Exemplu: Dacă dorim să colectăm opinii ale consumatorilor privind calitatea unui

anumit tip de telefon mobil, atunci populaţia statistică va trebui probabil să cuprindă

acele persoane care au folosit sau folosesc acel tip de telefon, nu toţi utilizatorii de

telefoane mobile. Dacă însă se are în vedere lansarea unui nou tip de telefon, un

sondaj care să încerce măsurarea aşteptărilor consumatorilor ar trebui să se

adreseze tuturor clienţilor potenţiali (atât celor care posedă un telefon mobil,

indiferent de model, producător etc., cât şi celor care nu au în acest moment un

telefon mobil).

5

o Unitatea statistică

Unitatea statistică este entitatea (persoana, obiectul, evenimentul, agentul

economic etc.) purtătoare a informaţiei. Unităţile statistice pot fi simple (de

exemplu, persoana fizică, angajatul, produsul etc.) sau complexe, formate din mai

multe unităţi simple, organizate în funcţie de anumite criterii (de exemplu,

gospodăria, grupa de studenţi, firma, judeţul etc.).

o Caracteristica statistică

Denumită şi variabila statistică, caracteristica statistică desemnează însuşirea,

trăsătura sau proprietatea comună tuturor unităţilor statistice dintr-o populaţie, care

capătă valori diferite de la o unitate la alta şi care este măsurată prin investigaţia

statistică.

Exemple: Vârsta, greutatea, înălţimea, nivelul studiilor sau nivelul venitului unei

persoane, cifra de afaceri a unei întreprinderi.

Caracteristicile statistice se mai numesc variabile statistice, întrucât au

proprietatea de a-şi modifica valoarea de la o unitate la alta. Variabilele statistice se

pot clasifica după anumite o serie de criterii.

Astfel, după modul de exprimare putem distinge variabile calitative,

exprimate prin cuvinte care desemnează apartenenţa la o categorie, şi variabile

cantitative, exprimate numeric). La rândul lor, variabilele calitative pot fi nominale

sau ordinale. Variabilele calitative nominale nu implică o anumită ordine între valori,

în timp ce variabilele calitative ordinale presupun existenţa unei relaţii de ordine, a

unei ierarhii.

Exemplu: Starea civilă este o variabilă calitativă, deseori definită binar, respectiv

„căsătorit” sau „necăsătorit”. Starea civilă poate fi definită și mai detaliat, putând lua

valorile „celibatar/niciodată căsătorit”, „căsătorit”, „văduv”, „divorţat”, detalierea

fiind decisă de cercetător, în conformitate cu scopurile analizei. Întrucât între aceste

valori nu există o ordine anume, variabila stare civilă este o variabilă calitativă

nominală. Alte exemple de variabile calitative nominale: culoarea ochilor, sexul,

ocupaţia.

Exemplu: Nivelul studiilor poate fi exprimat prin numărul de ani petrecuţi în sistemul

de învăţământ, caz în care avem de-a face cu o variabilă cantitativă, sau prin

alegerea unuia din posibilele răspunsuri posibile:

• studii primare;

• studii gimnaziale;

• studii liceale;

6

• studii postliceale;

• studii universitare;

• studii postuniversitare – masterat;

• studii postuniversitare – doctorat,

În cel de-al doilea caz, avem de-a face cu o variabilă calitativă ordinală, alegerea unei

valori superioare corespunzând unui nivel superior al studiilor.

Atenţie! Este de dorit să se evite atribuirea unor valori numerice variabilelor

calitative, fie ele şi ordinale. De exemplu, pentru nivelul studiilor unei persoane, dacă

atribuim studiilor liceale valoarea 3 şi celor universitare valoarea 5, putem afirma că

facultatea oferă un nivel de studii cu 67% mai ridicat decât liceul? În aceeaşi ordine

de idei, dacă atribuim studiilor doctorale valoarea 7, înseamnă acest lucru că

diferenţa de instruire dintre aceste studii şi cele universitare (valoarea numerică a

diferenţei este 2) este egală cu diferenţa de pregătire dintre studiile universitare şi

cele liceale (pentru care valoarea diferenţei este tot 2)? Evident, nu.

Concluzia care se poate trage de aici este aceea că variabilele calitative ordinale

implică existenţa unei ierarhii, dar că pe aceste scale nu are sens definirea distanţei

între valorile variabilei calitative ordinale.

După cardinalul mulţimii observaţiilor, există variabile statistice binare

(numite și alternative, dihotomice sau booleene), când spaţiul de observaţii e

compus din două valori (0/1, masculin/feminin, rural/urban), variabile statistice cu

un număr finit de valori numerice (aici se încadrează variabilele calitative şi cele

cantitative discrete) şi variabile cantitative continue, când mulţimea specifică a

valorilor individuale este un interval de numere reale. Acest ultim tip de variabile

statistice este rar folosit din raţionamente practice şi datorită impreciziei măsurării.

Exemplu: Teoretic vorbind, înălţimea unei persoane este o variabilă cantitativă

continuă, înălțimea putând lua orice valoare într-un interval. În practică se va aplica

însă o aproximare suficient de bună, de exemplu în centimetri, şi se va folosi ca o

variabilă cantitativă discretă (să zicem, între 140cm şi 230cm).

o Variabilele aleatoare

Variabilele aleatoare reprezintă o clasă distinctă de variabile întâlnită în

cercetările statistice, prin intermediul cărora evenimentele pot fi descrise cu ajutorul

unor valori numerice reale. În general, prin variabilă aleatoare se înţelege o funcţie

reală de evenimente elementare care, în raport cu rezultatul unui eveniment, poate

lua o valoare reală dintr-o mulţime bine definită. Din cauza factorilor întâmplători

care influenţează evenimentul, valoarea variabilei aleatoare nu poate fi cunoscută

înaintea realizării experimentului.

7

Exemplu: Să presupunem că experimentul este reprezentat de aruncarea unui zar.

Cu toate că avem de-a face cu un experiment relativ simplu, nu putem şti dinainte ce

număr apare în urma aruncării zarului, pentru că rezultatul depinde de factori

întâmplători. Ce ştim însă este că mulţimea valorilor posibile pentru această variabilă

aleatoare este 1, 2, 3, 4, 5 sau 6. Mai ştim că (pentru un zar corect, nemăsluit)

probabilitatea de apariţie a fiecăreia dintre aceste valori este 1/6.

Datorită celor de mai sus, reprezentarea unei variabile aleatoare se poate

face sub forma

n

n

p

x

pp

xxX

...

...

21

21 , unde pi reprezintă probabilitatea ca variabila X

să ia valoarea xi. pi=1 este probabilitatea evenimentului sigur, pi=0 este

probabilitatea evenimentului imposibil. Pentru exemplul de mai sus, al aruncării

zarului, variabila aleatoare este complet determinată (se numeşte astfel când se

cunosc toate valorile şi toate probabilităţile), dar acest lucru nu este foarte des

întâlnit în practică.

Culegerea datelor statistice

Orice investigaţie statistică se bazează pe date, iar culegerea acestor date se

realizează prin diverse metode: observări totale, numite şi exhaustive, care cuprind

în cercetarea statistică toate unităţile colectivităţii statistice, sau observări parţiale,

care presupun culegerea de date de la un număr redus de unităţi din populaţie, dar

numărul este stabilit după criterii precise.

Culegerea datelor se poate realiza prin observări directe (field research), când

înregistrarea datelor se face de către operator de la unităţile colectivităţii, sau prin

observări indirecte (desk research), când datele se preiau de la surse care au

consemnat anterior fenomenul studiat.

Principalele metode de culegere a datelor sunt:

- Recensământul: Cea mai veche metodă de observare statistică, prin intermediul căreia se culeg date de la toate unităţile colectivităţii. Date fiind costurile ridicate, recensămintele au un caracter periodic. De exemplu, recensământul populaţiei se realizează din 10 în 10 ani. Documentele istorice arată că primele recensăminte au fost organizate în antichitate (Egipt, 3000 IC, China 2238 IC). În România, primul recensământ modern a avut loc în anul 1838, ultimul recensământ al populaţiei şi locuinţelor fiind organizat în octombrie 2011.

- Rapoartele statistice: Observări totale, permanente, prin intermediul cărora se culeg date referitoare la anumite procese şi fenomene economice din domeniile de activitate ale agenţilor economici. Este vorba, de exemplu, de raportările pe care firmele trebuie să le depună cu privire la capitalul fix, forţa de muncă, materii prime şi materiale.

8

- Sondajul statistic: Metodă de culegere a datelor prin completarea unui chestionar de către un eşantion reprezentativ extras din populaţia de interes. Sondajul statistic este caracterizat de costuri mult reduse faţă de recensământ, dar utilitatea informaţiilor obţinute depinde de gradul de reprezentativitate al eşantionului.

- Ancheta statistică: Formă de observare parţială a informației care, spre deosebire de sondaj, nu presupune reprezentativitatea eşantionului. De exemplu, chestionarul este completat în cadrul târgurilor şi expoziţiilor.

- Observarea părţii principale (a masivului principal): Metodă operativă de culegere parţială a datelor doar de la cele mai semnificative unităţi ale colectivităţii (masivul principal). Evident, subiectivitatea criteriilor după care este ales masivul principal, cât şi subiectivitatea unităţilor din acest masiv, pot constitui impedimente majore în alegerea acestei metode. Pe de altă parte, avantajul principal îl constituie operativitatea şi rapiditatea observării.

- Monografia: Metodă de observare aprofundată a fenomenelor şi progreselor care au loc în activitatea unui agent economic sau grup de agenţi economici. Monografia presupune nu doar culegerea, ci şi interpretarea datelor.

Cercetarea statistică

Cercetarea statistică reprezintă un ansamblu complex de activităţi. Paşii ce

sunt urmaţi, în general, în cercetările statistice pot fi rezumaţi după cum urmează:

1 - Observarea statistică a fenomenului studiat (culegerea datelor). Aceasta este o etapă fundamentală în procesul cercetării statistice, deoarece calitatea cercetării depinde într-o mare măsură de cantitatea şi calitatea informaţiilor culese.

2 - Prelucrarea şi modelarea statistică a datelor culese, pe baza unei teorii adecvate fenomenului studiat. Astfel, asupra datelor pot fi aplicate metode din categoria statisticii descriptive şi analizei primare a datelor sau a statisticii inferenţiale.

3 - Analiza şi interpretarea rezultatelor obţinute.

Statistica descriptivă şi analiza primară a datelor: sintetizează masivele de

date printr-un număr restrâns de indicatori, pentru caracterizarea diverselor aspecte

ale populaţiei sau eşantionului. Se realizează astfel clasificarea şi gruparea unităţilor

statistice după diverse criterii, caracterizarea nivelului mediu şi a tendinţei centrale,

analiza dispersării unităţilor statistice, măsurarea dependenţei dintre diverse

caracteristici etc. Rolul statisticii descriptive şi al analizei datelor este de a reduce

masivele de date la un număr restrâns de indicatori, de a pune în evidenţă anumite

proprietăţi ale fenomenului analizat, de a formula anumite ipoteze în aplicarea

statisticii inferenţiale. Vom atinge subiecte de statistică descriptivă în capitolul 2, în

timp ce elemente de analiză primară a datelor vor fi prezentate în capitolul 5.

9

Statistica inferenţială: asigură caracterizarea populaţiilor totale prin

extinderea la nivelul acestora a rezultatelor obţinute la nivelul subpopulaţiilor sau a

eşantioanelor. Prin urmare, principalele etape ale statisticii inferenţiale sunt:

- estimarea parametrilor populaţiei pe baza rezultatelor obţinute prin prelucrarea datelor de la nivelul unei subpopulaţii sau a eşantionului prelevat;

- verificarea ipotezelor statistice; - efectuarea de previziuni, luând în considerare dependenţele dintre variabile

şi seriile de date disponibile.

Serii de date

Seriile de date pot fi de mai multe feluri, în funcţie de cercetarea statistică

efectuată. Astfel, statisticianul poate lucra cu:

- Date longitudinale (în engleză, cross-section data) – Culese prin diverse modalităţi, una dintre acestea fiind sondajul statistic, aceste serii ilustrează situaţia la un moment dat pentru un anumit număr de unităţi statistice (observaţii). Forma uzuală a seriilor longitudinale este:

Exemplu: La un anumit moment dat, un grup de 50 de indivizi este chestionat

şi se culeg date privind înălţimea (variabila x) si greutatea (variabila y) fiecărui

respondent. Organizate sub forma unui tabel ca cel de mai sus, aceste date

vor forma un set de date longitudinale.

Reprezentarea grafică a acestui tip de date se poate face, printre altele, prin

grafice tip plăcintă (piechart: diagramă cu structură radială) și histograme

(bar chart: grafice cu coloane).

Variabila x Variabila y

Unitatea 1 x1 y1

Unitatea 2 x2 y2

… … …

Unitatea i xi yi

… … …

Unitatea n xn yn

10

- Date cronologice, numite şi serii de timp (în engleză, time series data) – Culese, în general, din aria macroeconomică, acestea reprezintă evoluţia unor caracteristici (variabile) în timp. Forma uzuală a seriilor de timp este:

Frecvenţa datelor depinde de variabila măsurată, datele putând reprezenta

serii zilnice, săptămânale, lunare, trimestriale, anuale etc. De exemplu, cursul

de schimb interbancar se publică zilnic, inflaţia se calculează cu frecvenţă

lunară, în timp ce PIB-ul este un indicator ce se publică trimestrial și anual.

Timp t1 t2 … tj … tm

Variabila x x1 x2 … xj … xm

Variabila y y1 y2 … yj … ym

Fig. 1.2 Venitul mediu pe

persoană în câteva țări în

anul 2000, USD

Fig. 1.1 Cotele estimate de

piață ale distribuitorilor

retail de carburanți în

anul 2012

11

timp Variabila x Variabila y

Unitatea 1 t1 x11 y11






- Date de tip panel (în engleză, panel data) – Sunt structuri complexe de date,

care combină avantajele seriilor cronologice cu cele ale datelor longitudinale,

oferind spre analiză o cantitate suplimentară de informaţii. Astfel, valorile

variabilelor statistice sunt măsurate pentru fiecare unitate statistică repetat,

pentru o anumită perioadă de timp. În Statele Unite, unul din cele mai

elaborate proiecte care a condus la realizarea unui panel uriaş îl reprezintă

PSID (Panel Study of Income Dynamics) al University of Michigan. Acest

studiu a început în 1968, eşantionul fiind reprezentativ atât pentru populaţia

SUA (bărbaţi, femei şi copii), cât şi la nivel de gospodărie. Sondajul a fost

repetat asupra aceloraşi indivizi, PSID colectând astfel informaţii de la

aproximativ 65.000 de indivizi pe parcursul a 36 de ani. Studiul s-a axat

asupra aspectelor economice (în principal urmărirea dinamicii veniturilor),

dar şi sociale (mobilitatea populaţiei, educaţie, formarea familiei).

Tabelul din dreapta ilustrează

un set de date de tip panel,

cu precizarea că acesta este

un panel echilibrat (fiecare

unitate statistică este

observată pe aceeaşi

perioadă, deci lungimea

seriei cronologice este egală

pentru fiecare unitate).

Fig. 1.3 Evoluția lunară a vânzărilor retail de carburant în perioada 2009-2012, mii de tone

12

timp Variabila x Variabila y







Tabelul următor reprezintă

un panel neechilibrat. Un

astfel de set de date se

obţine atunci când lungimea

seriei de timp este diferită

pentru diverse unităţi

statistice. Astfel, în acest

tabel, prima unitate este

observată pentru două momente de timp, a doua unitate statistică este

observată pentru trei momente de timp, în vreme ce a treia unitate statistică

este observată doar o dată.

stec - capitolul 1

Documents