stec - capitolul 2

28
13 Capitolul 2 – Descrierea numerică şi grafică a datelor Pe parcursul acestui curs voi face referire în mod repetat la un proiect de statistică ce poate fi găsit în cadrul Bibliotecii Digitale de pe site-ul Academiei de Studii Economice. Este vorba de unul dintre ultimele capitole ale cărţii Statistică, de E. Lilea, M. Vatui, D. Boldeanu şi Z. Goschin 1 . Cred că ar fi util să descărcaţi acest proiect pentru că vom acoperi o parte semnificativă a lui. 2.1 Elemente introductive Procesul prelucrării seriilor de date începe cu analiza prestatistică a datelor, urmată de sistematizarea datelor statistice. Analiza prestatistică a datelor urmăreşte depistarea eventualelor valori aberante şi surprinderea unor caracteristici ale seriei, fapt pentru care în această fază a analizei se utilizează, în principal, reprezentarea grafică a seriei. Sistematizarea datelor statistice presupune clasificări şi grupări ale datelor pentru formarea de clase sau grupe cât mai omogene de unităţi statistice. Clasificarea datelor (gruparea unităţilor elementare ale unei populaţii după anumite criterii) ocupă un loc important în cadrul statisticii descriptive. În funcţie de modul de constituire al claselor, avem de-a face cu: Clasificări artificiale, atunci când, pentru sistematizarea informaţiilor disponibile, clasele sunt definite pe baza unor criterii pragmatice. De cele mai multe ori, criteriile alese nu sunt esenţiale, putând fi considerate chiar arbitrare. Un exemplu de clasificare artificială este cel al prezentării locuitorilor cu drept de vot dintr-o localitate prin liste zonale (în ideea că această grupare nu are nimic în comun cu intenţiile de vot). Clasificări naturale, care permit definirea claselor în funcţie de criterii esenţiale. În acest caz se asigură atât sistematizarea datelor statistice, cât şi surprinderea unor caracteristici esenţiale ale populaţiei statistice. Un exemplu de clasificare naturală îl reprezintă clasificarea firmelor din economie (sau dintr-un eşantion) pe ramuri de activitate. Astfel, orice societate din România trebuie să prevadă în statutul său unul sau mai multe obiecte de activitate, toate acestea fiind incluse în Clasificarea Activităților din Economia Națională (CAEN). Clasificarea pornește de la cel mai agregat nivel, fiind implementate 21 de secțiuni (de la A la U), ce reprezintă sectoare 1 Link: http://www.biblioteca-digitala.ase.ro/biblioteca/carte2.asp?id=95&idb=6 Dacă acest link nu funcționează, accesați Biblioteca Digitală de pe site-ul Academiei de Studii Economice (link: http://www.biblioteca-digitala.ase.ro/biblioteca/model/index2.asp), intrați în secțiunea Finanţe, Asigurări, Bănci şi Burse de Valori și căutați cartea în listă (în februarie 2014 era la poziția 31).

Upload: roxana

Post on 27-Sep-2015

42 views

Category:

Documents


1 download

DESCRIPTION

statistica

TRANSCRIPT

  • 13

    Capitolul 2 Descrierea numeric i grafic a datelor

    Pe parcursul acestui curs voi face referire n mod repetat la un proiect de

    statistic ce poate fi gsit n cadrul Bibliotecii Digitale de pe site-ul Academiei de

    Studii Economice. Este vorba de unul dintre ultimele capitole ale crii Statistic, de

    E. Lilea, M. Vatui, D. Boldeanu i Z. Goschin1. Cred c ar fi util s descrcai acest

    proiect pentru c vom acoperi o parte semnificativ a lui.

    2.1 Elemente introductive

    Procesul prelucrrii seriilor de date ncepe cu analiza prestatistic a datelor,

    urmat de sistematizarea datelor statistice.

    Analiza prestatistic a datelor urmrete depistarea eventualelor valori aberante i surprinderea unor caracteristici ale seriei, fapt pentru care n aceast faz a analizei se utilizeaz, n principal, reprezentarea grafic a seriei.

    Sistematizarea datelor statistice presupune clasificri i grupri ale datelor pentru formarea de clase sau grupe ct mai omogene de uniti statistice.

    Clasificarea datelor (gruparea unitilor elementare ale unei populaii dup

    anumite criterii) ocup un loc important n cadrul statisticii descriptive. n funcie de

    modul de constituire al claselor, avem de-a face cu:

    Clasificri artificiale, atunci cnd, pentru sistematizarea informaiilor disponibile, clasele sunt definite pe baza unor criterii pragmatice. De cele mai multe ori, criteriile alese nu sunt eseniale, putnd fi considerate chiar arbitrare. Un exemplu de clasificare artificial este cel al prezentrii locuitorilor cu drept de vot dintr-o localitate prin liste zonale (n ideea c aceast grupare nu are nimic n comun cu inteniile de vot).

    Clasificri naturale, care permit definirea claselor n funcie de criterii eseniale. n acest caz se asigur att sistematizarea datelor statistice, ct i surprinderea unor caracteristici eseniale ale populaiei statistice. Un exemplu de clasificare natural l reprezint clasificarea firmelor din economie (sau dintr-un eantion) pe ramuri de activitate. Astfel, orice societate din Romnia trebuie s prevad n statutul su unul sau mai multe obiecte de activitate, toate acestea fiind incluse n Clasificarea Activitilor din Economia Naional (CAEN). Clasificarea pornete de la cel mai agregat nivel, fiind implementate 21 de seciuni (de la A la U), ce reprezint sectoare

    1 Link: http://www.biblioteca-digitala.ase.ro/biblioteca/carte2.asp?id=95&idb=6 Dac acest link nu

    funcioneaz, accesai Biblioteca Digital de pe site-ul Academiei de Studii Economice (link:

    http://www.biblioteca-digitala.ase.ro/biblioteca/model/index2.asp), intrai n seciunea Finane,

    Asigurri, Bnci i Burse de Valori i cutai cartea n list (n februarie 2014 era la poziia 31).

  • 14

    vaste ale economiei, dup care niveul de detaliu crete, clasificarea coninnd coduri CAEN cu 2, 3 i 4 cifre (cel mai ridicat nivel de detaliu). Exemplu: Seciunea P nvmnt, 85 nvmnt, 854 nvmnt superior, 8542 nvmnt superior universitar2. O alt clasificare a firmelor este realizat dup dimensiunea acestora, prin prisma numrului de angajai i a cifrei de afaceri. Astfel, EUROSTAT, biroul de statistic al Uniunii Europene, clasific firmele n microntreprinderi (1-9 angajai, cifr de afaceri anual sub 2 milioane de euro), ntreprinderi mici (10-49 angajai, cifr de afaceri anual sub 10 milioane de euro), ntreprinderi mijlocii (50-249 angajai, cifr de afaceri anual sub 50 de milioane de euro) i ntreprinderi mari (peste 250 de angajai). n fine, o alt clasificare a firmelor se poate face dup forma de proprietate a acestora.

    n cazul unei clasificri, grupele trebuie s satisfac urmtoarele patru

    principii de baz:

    Principiul completitudinii, n virtutea cruia fiecare valoare din cadrul seriei iniiale de valori se ncadreaz ntr-o anumit o grup.

    Principiul unicitii, potrivit cruia o unitate din cadrul seriei de valori va fi inclus doar ntr-o singur grup de valori.

    Principiul omogenitii, care postuleaz faptul c grupele sunt astfel definite nct unitile din fiecare grup s fie omogene (se mai spune c unitile ce aparin unei anumite grupe sunt echivalente).

    Principiul organizrii ierarhice a grupelor, ce recomand acea form de organizare a datelor astfel nct s fie permise agregri succesive de clase adiacente pentru creterea gradului de generalitate a gruprii.

    O metod des ntlnit de grupare este cea pe intervale de variaie egale, n

    acest sens trebuind parcuri urmtorii doi pai:

    1. Definirea grupelor Se consider c fiecare grup este complet definit dac sunt precizate limita inferioar (xinf) i limita superioar (xsup). Diferena dintre valoarea minim i maxim a unei serii de date poart numele de amplitudine a acelei serii (As), fapt pentru care, n mod similar, n cazul grupelor vorbim de amplitudinea grupei (Ag). ntruct discutm acum cazul intervalelor de variaie egale, amplitudinea tuturor grupelor va fi aceeai. n teoria statistic s-au propus mai multe formule de calcul pentru

    determinarea amplitudinii grupelor. Menionm aici doar cteva din aceste

    propuneri:

    Propunerea lui D. V. Huntsberger (unele surse atribuie aceast propunere lui H. A. Sturges), potrivit creia Ag = As/p, unde p=1+3,3logn iar n reprezint numrul de observaii al seriei.

    2 Unul dintre site-urile care prezint clasificarea activitilor din economia naional (CAEN rev 2) este

    http://coduricaen.info/

  • 15

    De exemplu, pentru n=40, log40=1,6, fapt pentru care p=6,28. Cum

    numrul de grupe (p) nu poate fi dect un numr ntreg, alegem p=6.

    Dac avem n vedere datele din proiectul de statistic menionat mai

    sus, pentru variabila vechime, Ag=As/6=35/6=5,836.

    Atenie! Dac este cazul, rotunjirea trebuie fcut prin adaos. Altfel,

    riscm ca cele mai ridicate valori ale seriei de date s nu fie incluse n

    ultimul interval definit, ceea ce ar contraveni primului dintre cele

    patru principii enunate mai sus.

    Exerciiu: Determinai amplitudinea grupelor pentru variabila producie din acelai

    proiect de statistic.

    Propunerea lui Brooks i Carruthers, potrivit creia Ag=As/p, unde p trebuie s satisfac relaia p

  • 16

    folosi clasificarea deja enunat, care face distincia ntre microntreprinderi,

    ntreprinderi mici, mijlocii i mari.

    Prin urmare, putem folosi aceste grupe (inegale), care ns conduc la o grupare

    uzual (chiar natural) a datelor. Prezentarea acestei grupri se realizeaz similar cu

    cea a gruprilor n intervale egale: prin intermediul tabelelor de repartiie sau prin

    grafice adecvate (diagrama prin bare sau prin coloane inegale, asemntoare

    histogramei).

    Serii statistice

    Seriile statistice reprezint o modalitate frecvent de prezentare a datelor,

    care rezult din sistematizarea i/sau gruparea datelor primare. Aceste serii definesc

    corespondena dintre dou iruri de date statistice, n care primul reprezint variaia

    caracteristicii urmrite, iar al doilea ir cuprinde frecvenele de apariie a variantelor

    caracteristicii (frecvenele putnd fi absolute sau relative). Astfel, o serie statistic cu

    o singur caracteristic are urmtoarea form:

    p

    p

    n

    x

    nn

    xxX

    K

    K

    21

    21

    unde x1, x2, ..., xp sunt variantele nregistrate pentru caracteristica X, iar n1, n2, , np

    sunt frecvenele de apariie ale variantelor caracteristicii X. Aa cum spuneam mai

    sus, aceste frecvene pot fi absolute, reprezentnd numrul efectiv de observaii

    pentru fiecare valoare xi, sau relative, reprezentnd ponderea observaiilor care au

    valoarea xi n numrul total de observaii.

    Seriile statistice sunt clasificate n:

    - serii de distribuie, pentru care caracteristica urmrit este numeric;

    - serii teritoriale, care prezint variaia n spaiu a caracteristicii analizate, valorile caracteristicii referindu-se la unitile teritoriale din care fac parte;

    - serii enumerative, care se prezint sub forme de liste a unitilor dup o anumit caracteristic.

    Cel mai frecvent ntlnite n practic sunt seriile de distribuie, n particular

    cele unidimensionale (cnd este urmrit o singur caracteristic). Cu toate acestea,

    vom trece succint n revist cteva caracteristici ale seriilor de distribuie

    bidimensionale.

    n mod uzual, seriile de distribuie bidimensionale sunt prezentate prin

    intermediul tabelelor de contingen precum cel de mai jos.

  • 17

    Y

    X y1 y2 ... yj ... yp Total

    x1 n11 n12 ... n1j ... n1p n1.

    x2 n21 n22 ... n2j ... n2p n2.

    ... ... ... ... ... ... ... ...

    xi ni1 ni2 ... nij ... nip ni.

    ... ... ... ... ... ... ... ...

    xk nk1 nk2 ... nkj ... nkp nk.

    Total n.1 n.2 ... n.j ... n.p n..

    n acest tabel,

    x1,x2,...,xi,...,xk reprezint variantele nregistrate dup caracteristica X,

    y1,y2,...,yj,...,yp reprezint variantele nregistrate dup caracteristica Y,

    nij reprezint frecvena absolut a observaiilor pentru care X=xi i Y=yj,

    ni. reprezint numrul total de observaii pentru care X=xi, indiferent de valorile lui Y,

    n.j reprezint numrul total de observaii pentru care Y=yj, indiferent de valorile lui X.

    Tabelul de mai sus conine p+k+3 distribuii, dup cum urmeaz:

    - o distribuie bidimensional de frecvene absolute;

    - p+k distribuii condiionate, unidimensionale, de frecvene absolute. Acestea sunt reprezentate de cele k linii i p coloane ale tabelului de mai sus (n1j,n2j,...,nij,...,nkj reprezint distribuia valorilor lui X condiionat de yj, j=1,2,...,p, iar ni1,ni2,...,nij,...,nip reprezint distribuia valorilor lui Y condiionat de xi, i=1,2,...,k);

    - dou distribuii marginale, unidimensionale, de frecvene absolute. Acestea sunt reprezentate de ultimul rnd i ultima coloan din tabelul de mai sus. n1.,n2.,...,ni.,...,nk. reprezint distribuia marginal a valorilor lui X, iar n.1,n.2,...,n.j,...,n.p reprezint distribuia marginal a valorilor lui Y.

    Exerciiu: Pentru datele din proiectul de statistic, construii un tabel care s

    evidenieze distribuia bidimensional a vechimii n munc i a produciei, folosind

    gruparea pe 6 intervale egale realizat anterior. Reprezentai grafic distribuia

    bidimensional astfel determinat prin graficul norului de puncte i tragei

    eventualele concluzii.

    Rezolvarea acestui exerciiu se gsete n proiectul de statistic.

    Aa cum spuneam mai sus, seriile de distribuie unidimensionale sunt printre

    cele mai frecvente n practic, fapt pentru care n continuare ne vom concentra

    asupra caracterizrii acestora. Astfel, analiza primar (grafic i numeric) a datelor

    cuprinde calcularea mai multor indicatori:

  • 18

    - Indicatori pentru caracterizarea tendinei centrale a unei serii de distribuie: o mrimi medii (media aritmetic, ptratic, geometric, armonic), o indicatori medii de poziie (mediana, valoarea modal, cuartilele);

    - Indicatori pentru caracterizarea gradului de dispersare a unei serii de distribuie fa de tendina central: abaterea medie absolut, dispersia, abaterea medie ptratic, coeficientul de variaie;

    - Indicatori pentru caracterizarea asimetriei i aplatizrii unei serii de distribuie.

    2.2 Indicatori pentru caracterizarea tendinei centrale a seriilor de

    distribuie

    Indicatorii folosii pentru caracterizarea aspectelor eseniale ale tendinei

    centrale a unei serii statistice univariate (unidimensionale) sunt clasificai, n raport

    cu valorile utilizate pentru calculare, n dou clase:

    - Mrimi medii, calculate pe baza valorilor numerice ale seriei de distribuie;

    - Indicatori medii de poziie, calculai pe baza rangurilor sau a statisticilor de ordine (aceti indicatori se pot calcula i pentru caracteristici calitative).

    n 1945, statisticianul britanic George Udny Yule a definit ase proprieti pe

    care ar trebui s le aib un indicator al tendinei centrale:

    a) S fie o msur definit obiectiv, independent de dorina utilizatorului i, n acelai timp, invariabil n timp i spaiu.

    b) S in seama de toate valorile nregistrate.

    c) S aib o semnificaie concret i uor de neles chiar i de nespecialiti.

    d) S aib o formul de calcul simpl i rapid.

    e) S fie o msur puin sensibil la fluctuaia eantionului (s nu prezinte valori semnificativ diferite dac se calculeaz pe baza mai multor eantioane de

    acelai volum, extrase prin acelai procedeu din aceeai colectivitate).

    f) S se preteze la calcule algebrice, care s asigure comparabilitatea mai multor serii statistice.

    Din pcate, n statistica descriptiv nu exist o msur a tendinei centrale

    care s satisfac simultan toate cele ase proprieti. De aceea, orice rezultat va fi

    interpretat cu precauie, lund n considerare caracteristicile valorilor observate.

  • 19

    2.2.1 Mrimi medii

    Pentru calcularea indicatorilor medii va trebui s avem n vedere urmtoarele

    aspecte:

    1. Calcularea mrimilor medii este fezabil i devine util atunci cnd seria de distribuie include un numr suficient de mare de valori. Unii practicieni consider 12 drept numrul minim de observaii i vd seturile de date de peste 30 de observaii drept ideale.

    Exemplu: S presupunem c dispunem de datele privind venitul lunar a dou

    persoane: 500 RON i 10.000 RON. Indiferent de tipul ales al mediei, acest indicator

    nu va fi reprezentativ pentru aceast serie de date ntruct avem de-a face cu doar

    dou valori, i acelea puternic disparate.

    2. Omogenitatea seriei de date este foarte important atunci cnd se calculeaz media sa. De exemplu, dac n cadrul seriei sunt observate dou sau mai multe grupe de valori ce au caracteristici diferite, atunci se recomand calcularea indicatorilor medii la nivelul fiecrei grupe, aceti indicatori fiind mai aproape de trstura seriei, dect o singur mrime, ce nu caracterizeaz niciuna dintre grupele de valori. Altfel spus, mediile se calculeaz numai atunci cnd exist o valoare central n jurul creia graviteaz valorile individuale ale seriei. Dac n urma reprezentrii grafice (de exemplu, prin histogram sau poligonul frecvenelor) se observ mai multe centre n jurul crora se grupeaz valorile, se recomand calcularea mediei pentru fiecare subgrup i, numai dac este cazul, se calculeaz un indicator mediu pentru ntreaga serie.

    Exemplu: Reeaua de distribuie carburani a unei companii petroliere conine unele

    staii (benzinrii) mai bune i unele mai puin performante. Staiile mai bune sunt, n

    mod evident, cele localizate n zone cu potenial economic ridicat, cu trafic intens

    (att autoturisme, ct i utilitare i camioane), cu acces facil i beneficiind de o bun

    vizibilitate din trafic. Alte staii nu ntrunesc ns toate aceste condiii, rezultatul

    observndu-se n vnzrile de carburani. Presupunnd c o companie are o reea

    polarizat, n care un grup de staii sunt performante, cu vnzri ridicate, n timp ce

    un grup distinct sunt localizate mai prost sau mai greu accesibile, care au vnzri

    reduse, atunci calcularea vnzrii medii zilnice pe staie nu are o mare semnificaie.

    Aceasta pentru c valoarea medie obinut nu va reprezenta n mod real

    performana medie a reelei, niciuna dintre staiile existente nefiind reprezentat de

    media calculat. Calcularea a dou medii, una pentru grupul de staii performante i

    una pentru grupul de staii cu vnzri reduse ar putea oferi informaii mai valoroase

    managementului companiei, care ar putea adopta decizii adecvate pentru creterea

    vnzrilor reelei prin impulsionarea vnzrilor unora dintre staiile mai puin

    performante.

  • 20

    Clopotul lui Gauss este un tip special de grafic la care se face deseori

    referire, chiar i de ctre nespecialiti. Chiar dac distribuia normal (Gauss-

    Laplace) va fi prezentat ntr-un capitol ulterior, referirea la aceast

    distribuie special poate fi util n contextul prezentrii mrimilor medii.

    n graficul de mai sus, pe axa OX sunt reprezentate valorile posibile pe care le

    poate lua variabila statistic, n timp ce nlimea graficului indic numrul de

    observaii al fiecrei valori individuale. Forma particular a acestui grafic

    (forma de clopot) implic faptul c sunt observate foarte puine valori foarte

    reduse ale variabilei i, n aceeai msur, foarte puine valori foarte ridicate

    ale acesteia, majoritatea observaiilor fiind plasate n zona de mijloc a

    valorilor posibile.

    Atenie! Chiar dac clopotul lui Gauss este deseori menionat n cele mai variate

    domenii, chiar de ctre persoane care n-au avut vreodat tangene cu statistica, s-a

    artat c puine fenomene din zona economic genereaz astfel de distribuii,

    exemplele de distribuii normale venind mai degrab din zona tiinelor naturale.

    Graficul de mai jos arat distribuia greutii la natere a fetielor nscute la

    termen. Acesta este un caz n care calcularea mediei are sens: distribuia

    prezint o tendin central, iar media calculat (n acest exemplu,

    media=3,39kg) este un indicator al acestei tendine centrale.

  • 21

    Exist ns i situaii n care fenomenele studiate nu prezint o unic tendin

    central, aa cum este cazul, de exemplu, pentru distribuiile bimodale.

    Graficul de mai sus arat existena a dou tendine n cadrul seriei de date,

    ceea ce nseamn c media calculat nu va fi un bun indicator al unei

    tendine centrale. Acest grafic este potrivit pentru discuia anterioar privind

    o reea de distribuie de carburani polarizat, cu multe benzinrii cu vnzri

    reduse i multe benzinrii cu vnzri ridicate.

    O alt situaie aparte este prezentat n graficul de mai jos, care ilustreaz

    distribuia femeilor i brbailor dup nlime. Dup cum se poate observa,

    att distribuia femeilor(cea din stnga), ct i cea a brbailor (cea din

    dreapta), au forme apropiate clopotului lui Gauss (chiar dac sunt uor

    asimetrice spre stnga).

    Aceasta nseamn c, cel mai probabil, media calculat va fi un bun indicator

    al tendinei centrale avnd n vedere nlimea indivizilor. Dar probabil doar

    n cazul n care media este calculat separat pentru femei i pentru brbai

  • 22

    n graficul ce urmeaz, linia punctat reprezint valorile cumulate pentru

    ambele sexe. Chiar dac i aceste valori sunt oarecum distribuite sub forma

    unui clopot, ele provin din cele dou distribuii distincte de mai sus.

    Diferenele evidente existente ntre cele dou distribuii implic faptul c

    analiza ar trebui fcut separat pe sexe, nu folosind datele cumulate.

    3. Indicatorii medii sunt sensibili n ceea ce privete existena valorilor extreme (acele valori care se ndeprteaz n mare msur de ansamblul seriei de date). De aceea, nainte de calcularea acestor indicatori, valorile aberante trebuie eliminate, dar aceast eliminare trebuie fcut cu mare precauie i doar pentru acele valori pentru care exist certitudinea c sunt ntr-adevr aberante. Continund exemplul de mai sus privind vnzrile de carburani, unele condiii speciale i/sau temporare pot face ca una sau mai multe staii s aib vnzri extraordinare pe o anumit perioad de timp. O astfel de staie de distribuie, cu o valoare foarte mare a vnzrilor, nu ar trebui totui lsat n afara calculului mediei celorlalte staii. Cu toate acestea, decizia privind excluderea uneia sau mai multor staii din calculul mediei trebuie s in cont de caracteristicile particulare ale acesteia i de valorile nregistrate efectiv pn la urm, decizia de excludere este subiectiv i trebuie bazat pe cunoaterea fenomenului studiat.

    4. Nu este obligatoriu ca valoarea calculat a mediei s se regseasc printre valorile seriei de distribuie (de fapt, acest lucru poate fi considerat chiar ntmpltor). Cu toate acestea, n mod ideal, seria de distribuie ar trebui s conin valori apropiate mediei, altfel ne-am putea gsi n situaia descris la punctul 2.

  • 23

    Media aritmetic (momentul iniial de ordinul 1)

    Media aritmetic este, de departe, mrimea medie calculat cel mai adesea,

    ea prezentnd ceea ce este tipic, comun, n evoluia fenomenului cercetat.

    Pentru o serie simpl de valori x1, x2, ..., xn, media aritmetic, notat ax , se

    calculeaz prin intermediul relaiei =

    =n

    iia xn

    x1

    1.

    Pentru o serie de distribuie (serie de distribuie dup variante), unde

    x1,x2,...,xp reprezint variantele nregistrate pentru caracteristica X, iar n1,n2,...,np

    reprezint frecvenele de apariie ale acestor variante, pentru calcularea mediei

    aritmetice se aplic relaia i

    p

    iia nxn

    x =

    =1

    1. Aceasta mai poart numele de medie

    aritmetic ponderat, ni reprezentnd ponderile (sau greutile) valorilor xi.

    Exemplu: Se cunosc urmtoarele date reprezentnd notele unei grupe de studeni la

    cursul de statistic. S se calculeze media aritmetic a acestei serii de distribuie.

    Note (xi): 4 5 6 7 8 9 10

    Frecvene (ni): 6 8 16 17 8 3 0

    Observaie: Dac seria de valori a caracteristicii X este prezentat pe intervale (serie

    de distribuie pe intervale), fr a exista posibilitatea analizei datelor primare, atunci,

    prin convenie, pentru calcularea mediei aritmetice va fi folosit mijlocul fiecrui

    interval. n acest caz, ns, valoarea calculat va fi doar apropiat de valoarea real a

    mediei.

    Media aritmetic a caracteristicilor alternative

    n general, unitile unei populaii statistice pot fi mprite n dou grupe

    complementare. Astfel, prezena sau absena unui anumit fenomen va fi

    reprezentat prin intermediul unei variabile binare (numit i variabil alternativ,

    dihotomic sau boolean).

    Exemplu: Starea civil curent a persoanelor dintr-un eantion poate fi ncadrat n

    categoria cstorit sau necstorit (fr a ine deci cont de diversele categorii n

    care o persoan necstorit se poate afla).

    Presupunem c avem urmtoarele date:

    Stare civil (xi): Cstorit (x1=1) Necstorit (x2=0)

    Frecvene (ni): n1=50 n2=100

    Media aritmetic a acestei caracteristici va fi calculat folosind formula prezentat

    mai sus, fapt pentru care media este (1*50+0*100)/150=50/150=0,33.

  • 24

    n cazul general, se consider o populaie de mrime N, din care P uniti

    posed o proprietate (caracteristica binar ia valoarea 1), iar Q=N-P uniti nu

    posed acea proprietate (caracteristica binar ia valoarea 0). Media caracteristicii

    binare este (1*P+0*Q)/(P+Q)=P/N, uneori notat p, reprezentnd ponderea unitilor

    care posed proprietatea respectiv n totalul unitilor populaiei.

    Media ptratic (momentul iniial de ordinul 2)

    Pentru o serie simpl de valori, media ptratic se calculeaz pe baza relaiei

    =

    =n

    iip xn

    x1

    21

    Pentru o serie de distribuie dup variante

    p

    p

    n

    x

    nn

    xxx

    K

    K

    21

    21 , formula de

    calcul a mediei ptratice este =

    =p

    iiip nxn

    x1

    21

    Media ptratic se folosete atunci cnd se dorete acordarea unei

    importane sporite valorilor mari absolute din cadrul unei serii. n calcularea mediei

    ptratice, valorile pozitive i cele negative din cadrul seriei nu se compenseaz (aa

    cum se ntmpl n calculul mediei aritmetice). De fapt, ntruct ridicarea la ptrat a

    valorilor caracteristicii elimin semnul acestora, calcularea mediei ptratice are sens

    doar pentru serii de distribuie cu valori pozitive (altfel returneaz valori ce nu

    prezint relevan n raport cu seria pentru care e calculat).

    Exerciiu: Calculai media ptratic pentru datele din exemplul de pe pagina

    anterioar (notele unei grupe de studeni la cursul de statistic).

    Material opional: Media armonic

    Pentru o serie simpl de valori, media armonic se determin astfel:

    =

    =n

    i i

    h

    x

    nx

    1

    1

    Pentru o serie de distribuie, media armonic se calculeaz astfel:

    i

    p

    i i

    h

    nx

    nx

    =

    =

    1

    1

    Media armonic se aplic pentru cazuri speciale de serii de date, nlocuind

    media aritmetic, n special n domeniul indicilor statistici. n plus, media armonic

    este egal cu media aritmetic, calculat din valorile inverse ale termenilor seriei de

    distribuie.

  • 25

    Datorit metodei de calcul, n determinarea mediei armonice valorile pozitive

    le pot compensa pe cele negative.

    Exerciiu: Calculai media armonic pentru aceleai date folosite mai sus.

    Material opional: Media geometric

    Formula de calcul a mediei geometrice pentru o serie simpl este:

    n

    n

    iig xx

    =

    =1

    n cazul unei serii de distribuie, formula de calcul este np

    i

    nig

    ixx =

    =1

    Aceast msur statistic se utilizeaz mai rar pentru caracterizarea tendinei

    centrale pentru o serie de distribuie, fiind recomandat doar atunci cnd seria

    prezint variaii foarte mari ntre termeni sau se caracterizeaz printr-un pronunat

    caracter de asimetrie.

    Material opional: Inegalitatea mediilor

    ntre mediile prezentate mai sus exist urmtoarea relaie de ordine:

    pagh xxxx .

    Material opional: Media de ordinul k (momentul iniial de ordinul k)

    Pentru o serie de distribuie, media de ordinul k se calculeaz conform

    formulei:

    kp

    ii

    ki

    knx

    nx

    1

    1

    1

    =

    =

    n funcie de valorile parametrului k se obin o serie de cazuri particulare:

    - pentru k=1 se obine formula de calcul a mediei aritmetice; - pentru k=2 se obine formula mediei ptratice; - pentru k=-1 se obine relaia de calcul a mediei armonice; - pentru k0 se obine formula de calcul a mediei geometrice.

    2.2.2 Indicatori medii de poziie

    Avantajul indicatorilor medii de poziie este oferit de faptul c acetia in

    seama nu numai de valorile seriei de date, dar i de forma de distribuie a acestora.

    n plus, indicatorii medii de poziie se pot determina i pentru variabile nenumerice.

  • 26

    Grupe de note ni

    [2, 4) 10

    [4, 6) 30

    [6, 8) 45

    [8, 10] 15

    Total 100

    Valoarea modal (valoarea dominant)

    Valoarea modal (notat n acest curs Mo) a unei serii de distribuie este acea

    valoare a caracteristicii cu cea mai mare frecven de apariie, fapt pentru care se

    mai numete valoarea dominant a seriei.

    n cazul n care k variante nregistrate (k>1) au frecven de apariie egal,

    atunci seria de distribuie are k valori modale. Cu toate acestea, considerm c

    determinarea Mo nu are sens pentru seriile de distribuie pentru care toate

    variantele nregistreaz aceeai frecven de apariie.

    Pentru seriile de distribuie pe intervale, Mo se determin n doi pai:

    - n primul rnd, se determin intervalul modal ca fiind cel cu frecvena cea mai ridicat. Notm acest interval prin IMo=[xi

    inf, xi

    sup).

    - Apoi, Mo se calculeaz folosind diverse formule de interpolare, bazate pe anumite presupuneri. Cele mai uzitate sunt:

    i) Mo=(xiinf

    +xisup

    )/2, dac se consider c n cadrul tuturor intervalelor,deci i

    al intervalului modal, frecvenele sunt distribuite uniform. Prin urmare, n

    acest caz Mo coincide cu centrul intervalului modal;

    ii) Mo=xiinf

    +li1/(1+2), unde li=xisup

    -xiinf reprezint mrimea intervalului

    modal, 1=ni-ni-1 reprezint diferena dintre frecvena intervalului modal i

    frecvena intervalului precedent, iar 2=ni-ni+1 reprezint diferena dintre

    frecvena intervalului modal i cea a intervalului urmtor. Aceast formul de

    interpolare se aplic atunci cnd se presupune c valorile din distribuia

    iniial urmeaz o repartiie normal.

    Observaie: Dac 1=2, atunci cele dou formule returneaz aceeai valoare.

    Exemplu: S presupunem c distribuia notelor la un examen

    se prezint conform datelor din tabelul alturat.

    Pentru determinarea Mo, primul pas const n determinarea

    intervalului modal. Acesta este intervalul [6, 8).

    Dac presupunem c notele sunt distribuite uniform n cadrul

    acestui interval, atunci Mo=(6+8)/2=7.Dac ns avem indicii

    potrivit crora valorile sunt distribuite normal n cadrul

    intervalelor, atunci Mo va fi determinat pe baza formulei prezentate mai sus,

    respectiv Mo=6+(8-6)*(45-30)/[(45-30)+(45-15)]=6,67.

    Observaie: Dac nu avem indicii privind distribuia valorilor n cadrul intervalelor,

    aplicarea uneia dintre metodele de interpolare de mai sus poate duce la rezultate

    eronate. De exemplu, date fiind datele din tabel, este posibil ca valoarea 5 s apar

    de 28 de ori n cadrul seriei iniiale de date, n timp ce valorile 6 i 7 s apar de 20,

  • 27

    respectiv 25 de ori. Calculele precedente indic Mo ca fiind 7 sau 6,67, nu 5. Aceast

    eroare apare datorit faptului c nu beneficiem de observaiile originale, ci de datele

    agregate. Lipsa de informaie este suplinit de ipoteze, care pot fi adevrate sau nu.

    Valoarea median (cuantila de ordinul 2)

    Mediana seriei de distribuie (notat n acest curs Me) este acea valoare care

    mparte seria n dou grupuri egale din punct de vedere al numrului elementelor

    existente de cele dou pri ale acestei valori. Altfel spus, numrul valorilor

    individuale mai mari dect mediana va fi egal cu numrul valorilor individuale mai

    mici dect mediana.

    Me se determin pentru seriile de distribuie ale cror valori sunt ordonabile

    cresctor sau descresctor, fapt pentru care acest indicator mediu de poziie nu se

    calculeaz pentru caracteristici nominale (ale cror valori nu pot fi ordonate).

    Pentru o serie simpl de valori, determinarea Me presupune, n primul rnd,

    ordonarea cresctoare sau descresctoare a valorilor individuale ale caracteristicii.

    Dup ordonare, mediana se identific astfel:

    - Dac seria ordonat are un numr impar de termeni, n, Me corespunde valorii de rang (n+1)/2;

    Exemplu: n seria (5, 6, 13, 20, 34, 40, 61), Me=20.

    - Dac seria ordonat cresctor este format dintr-un numr par de termeni atunci, n mod convenional, Mese determin ca medie aritmetic ntre valoarea individual de rang n/2 i cea de rang n/2+1.

    Exemplu: n seria (13, 28, 34, 40, 58, 61), Me=(34+40)/2=37.

    Observaie: n cazul seriei simple cu numr impar de valori, mediana determinat

    respect pe deplin definiia de mai sus, n timp ce n cazul seriei cu numr par de

    valori, mediana se determin n mod convenional i nu respect pe deplin definiia

    dat.

    n cazul unei serii de distribuie dup variante (valori individuale cu frecvene

    de apariie), semnificaia Me este afectat de metoda de calcul. n aceast situaie,

    Me este considerat a fi acea valoare individual a caracteristicii corespunztoare

    primei frecvene cumulate care depete (n+1)/2.

    Exemplu: Tabelul de mai jos cuprinde informaii cu privire la numrul de aparate

    defecte (xi) dintr-o sut de loturi de aparate.

    Din tabel se observ c prima frecven cumulat cresctor care depete

    (100+1)/2=50,5 este 70, aceasta corespunznd numrului median de 2 aparate

    defecte ntr-un lot. Me astfel determinat nu respect ntru totul definiia dat,

    deoarece observm c valoarea 2 nu mparte seria n dou pri egale: numai 30%

  • 28

    Grupe

    de

    note

    ni Frecvene

    Cumulate

    cresctor

    [2-4) 10 10

    [4-6) 30 40

    [6-8) 45 85

    [8-10] 15 100

    Total 100

    din loturi au un numr de defecte mai mic dect 2 i nu 50%, cum cere definiia. Din

    aceast cauz, n asemenea situaii, folosirea medianei ca indicator mediu de poziie

    nu este cea mai bun practic.

    n cazul unei serii de distribuie pe intervale (cnd datele i pierd

    individualitatea), Me se determin doar n mod aproximativ, printr-un procedeu de

    interpolare liniar bazat pe ipoteza repartizrii uniforme a frecvenelor n intervalul

    median. Procedeul de determinare a valorii mediane se desfoar n urmtoarele

    etape:

    - Se identific intervalul median, cel care corespunde primei frecvene cumulate cresctor care depete (n+1)/2. Notm acest interval prin IMe=[xi

    inf, xi

    sup).

    - Me se determin cu ajutorul relaiei i

    i

    jj

    ii n

    nn

    lxMe

    =

    +

    +=

    1

    1inf 2

    1

    , unde li=xisup

    -

    xiinf reprezint mrimea intervalului median, ni este frecvena intervalului

    median, iar

    =

    1

    1

    i

    jjn este suma frecvenelor precedente intervalului median.

    Exemplu: Vom determina valoarea median pentru

    datele din exemplul de la pagina 26 (date privind notele

    obinute la un examen). Pentru aceasta, trebuie mai

    nti s calculm frecvenele absolute cumulate

    cresctor.

    Intervalul median este [6, 8), ntruct frecvena

    cumulat cresctor pentru acesta este prima care

    depete valoarea (100+1)/2=50,5. Apoi, folosind

    relaia de mai sus, Me=6+(8-6)*(50,5-40)/45=6+2*10,5/45=6,47.

    Numr de

    aparate

    cu defecte

    ntr-un lot (xi)

    Numr de

    loturi de

    aparate (ni)

    Numr cumulat

    cresctor de

    loturi de

    aparate

    0 10 10

    1 20 30

    2 40 70

    3 15 85

    4 10 95

    5 5 100

    Total 100

  • 29

    Cuartilele (cuantilele de ordinul 4)

    Cuartilele sunt valori localizate ntr-o serie ordonat, care mpart aceast

    serie n patru pri egale, astfel nct fiecare diviziune conine 25% din valorile

    individuale nregistrate pentru acea variabil numeric. Procedeul de determinare a

    celor 3 cuartile (Q1, Q2, Q3) este asemntor cu cel de determinare a valorii mediane.

    Observaie: Q2=Me

    Mult mai rar folosite sunt decilele (cuantilele de ordinul 10) i centilele

    (cuantilele de ordinul 100). Cele 9 decile mpart seria de distribuie n 10 grupe,

    fiecare dintre acestea cuprinznd 10% din numrul de observaii, iar cele 99 de

    centile mpart seria n 100 de grupe, fiecare dintre acestea cuprinznd 1% din

    numrul de observaii.

    Observaii privind indicatorii tendinei centrale

    Atunci cnd caracteristica pe baza creia s-a definit seria de valori este una

    nominal, se poate determina doar Mo.

    Pentru o serie de date a unei caracteristici ordinale se pot determina Me sau

    Mo, calcularea mediei fiind imposibil. Dac seria este numeric, dintre aceti doi

    indicatori va fi aleas Me, aceasta fiind o msur mai stabil fa de Mo.

    Media aritmetic este cel mai frecvent folosit indicator al tendinei centrale,

    dar aceast medie este sensibil la existena valorilor aberante i nu este potrivit

    pentru o distribuie multimodal sau cu o asimetrie pronunat. Pentru astfel de serii

    de distribuie se recomand folosirea Me sau Mo, care sunt mai robuste la prezena

    valorilor extreme.

    2.3 Indicatori pentru caracterizarea dispersrii seriilor de distribuie

    Indicatorii tendinei centrale, n special valoarea calculat a mediei, sunt

    reprezentativi numai n msura n care seria de date este omogen (seria are, ntr-

    adevr, o tendin central). Verificarea omogenitii valorilor individuale necesit

    msurarea i analiza mprtierii/concentrrii fa de valorile tipice calculate.

    Exemplu: S presupunem c, n dou populaii, aceeai variabil nregistreaz valorile

    (2,2,2,10,18,18,18) i (9,9,9,9,10,11,11,11,11). Cele dou serii au aceeai medie

    aritmetic i aceeai valoare median, ambele egale cu 10, dar mprtierea valorilor

    individuale este diferit, a doua serie fiind evident mai omogen.

    Indicatorii mprtierii utilizai n analizele statistice sunt de mai multe feluri.

    Astfel, n funcie de numrul de variante luate n calcul (sau dup gradul lor de

    sintez) exist indicatori simpli i indicatori sintetici.

  • 30

    Indicatorii simpli ai dispersrii sunt msuri statistice obinute dintr-un numr

    redus de valori individuale, n general prin compararea sub form de diferen cu

    indicatorul tendinei centrale, fapt pentru care se exprim n unitatea de msur a

    variabilei observate. Un exemplu de indicator simplu al dispersrii este amplitudinea

    seriei, calculat n valoare absolut (xmax-xmin) sau n procente, relativ la media seriei

    de distribuie. Un alt exemplu l reprezint abaterea intercuantilic, calculat ca

    diferen ntre cuantila superioar i cea inferioar, ambele avnd acelai ordin.

    ntruct informaiile despre variabilitate oferite sunt relativ reduse, indicatorii simpli

    ai mprtierii sunt folosii destul de rar.

    Spre deosebire de indicatorii simpli, indicatorii sintetici ai mprtierii

    exprim printr-o singur valoare numeric variaia tuturor valorilor individuale fa

    de tendina central. La baza determinrii indicatorilor sintetici stau abaterile

    individuale dar, pentru a se evita compensarea celor cu valori pozitive cu cele cu

    valori negative, abaterile vor fi luate n modul sau se va opera cu ptratele acestora.

    Principalii indicatori sintetici ai mprtierii fa de tendina central sunt abaterea

    medie absolut, dispersia, abaterea medie ptratic i coeficientul de variaie.

    Abaterea medie absolut (abaterea medie liniar)

    Abaterea medie absolut reprezint media aritmetic (simpl sau ponderat)

    a abaterilor absolute ale termenilor seriei de la tendina lor central, caracterizat cu

    ajutorul mediei sau medianei. Dac notm prin c valoarea tipic a tendinei centrale

    fa de care se analizeaz dispersia seriei (valoarea medie sau median), atunci se

    folosesc urmtoarele relaii:

    pentru o serie simpl =

    =n

    iic cxn

    d1

    1

    pentru o serie de distribuie dup variante (cu frecvene) i

    p

    iic ncxn

    d =

    =1

    1

    n cazul seriilor de distribuie pe intervale, pentru calculul abaterii medii

    liniare se iau n considerare centrele intervalelor. Prin urmare, calculul se face

    folosind formula enunat mai sus, valabil i n cazul seriilor de distribuie pe dup

    variante.

    Abaterea medie absolut se exprim n aceeai unitate de msur cu cea a

    caracteristicii, fapt pentru care acest indicator nu se poate utiliza pentru a compara

    dispersarea seriilor de date pentru caracteristici diferite (exprimate n uniti de

    msur diferite).

    Exemplu: Se consider seria simpl (1,2,4,5,7,8,9,10,11,13). Media acestei serii este

    7, iar mediana este 7,5. Tabelul de mai jos conine abaterile absolute fa de medie

    i median, precum i sumele corespunztoare.

  • 31

    xi 1 2 4 5 7 8 9 10 11 13 Total

    |xi-7| 6 5 3 2 0 1 2 3 4 6 32

    |xi-7,5| 6,5 5,5 3,5 2,5 0,5 0,5 1,5 2,5 3,5 5,5 32

    Potrivit formulelor de mai sus, 2,3== Mex dd . Aceast egalitate nu are loc foarte frecvent, n general cei doi indicatori avnd valori distincte. De fapt, n general

    xMe dd .

    Dispersia (variana, momentul centrat de ordinul 2)

    Variana unei serii de distribuie se calculeaz ca medie aritmetic a

    ptratelor abaterilor valorilor individuale de la media aritmetic a acesteia.

    Prin urmare, pentru o serie simpl de repartiie, formula de calcul a dispersiei este

    n

    xxn

    ii

    =

    = 1

    2

    2

    )( , iar pentru o serie de distribuie dup variante

    n

    nxxp

    iii

    =

    = 1

    2

    2

    )(

    Date fiind aceste formule, se poate observa c, la fel ca n cazul mediei,

    dispersia este sensibil la prezena valorilor aberante.

    Variana este un indicator intermediar pentru aprecierea gradului de

    dispersare al unei serii de distribuie. Acest indicator sintetic al mprtierii nu se

    exprim ntr-o unitate concret de msur (de fapt, se poate exprima n ptratul

    unitii de msur a seriei, dar unitatea de msur este cel mai frecvent ignorat, din

    considerente practice). Mrimea varianei este influenat direct de ordinul de

    mrime al valorilor seriei de distribuie (variana nu este o msur normalizat). De

    exemplu, dac valorile individuale ale unei serii sunt multiplicate cu 10, valoarea

    calculat a varianei va fi de 100 de ori mai mare dect cea obinut din datele

    originale.

    Pentru o serie simpl de valori sau de distribuie, cu ct valoarea varianei

    este mai apropiat de zero, cu att dispersarea acestei serii n jurul mediei este mai

    redus (variana unei serii de valori constante este egal cu zero).

    Tem: Calculai valoarea varianei pentru datele din exemplul precedent.

    Material opional: Regula de adunare a dispersiilor

    Pentru o populaie mprit n p grupe, dac 2x reprezint variana total,

    calculat pentru ansamblul seriei, 2xi, cu i=1,2,...,p reprezint varianele la nivelul

    grupelor, ni reprezint numrul de valori din cadrul fiecrei grupe i, iar ix media

    caracteristicilor la nivelul grupei i, atunci

  • 32

    22int

    1

    2

    1

    2

    2

    )(

    ext

    p

    iii

    p

    iixi

    x n

    nxx

    n

    n

    +=

    +=

    ==

    2int reprezint media varianelor grupelor. Aceasta cuantific dispersia din

    interiorul grupelor, deci dispersia datorat aciunii factorilor locali, ce au impact la

    nivelul acestor grupe. 2ext, variana mediilor de grup, este un indicator al dispersrii

    acestor medii n jurul mediei seriei de date. 2ext cuantific dispersarea datorat

    factorului de grupare, prin intermediul acestui factor msurndu-se disimilaritile

    dintre grupe.

    Pe baza egalitii de mai sus a fost enunat regula de adunare a dispersiilor,

    care spune c dispersia total este egal cu suma dintre media dispersiilor i

    dispersia mediilor.

    Urmtorii indicatori relativi sunt calculai i interpretai n practica statistic:

    o Coeficientul de determinare, k1=2

    ext/2

    x. Acest indicator msoar influena factorului de grupare, n funcie de care s-a structurat colectivitatea general, asupra varianei caracteristicii urmrite.

    o Coeficientul de nedeterminare, k2=2

    int/2

    x=1-k1. Acest indicator exprim msura n care variaia caracteristicii urmrite (dispersia total) este influenat de variaia factorilor aleatori, care acioneaz n interiorul subcolectivitilor.

    Exemplu: Considerm valorile variabilei X (productivitatea muncii) pentru dou grupe

    (dou secii ale unei ntreprinderi), sub forma seriilor urmtoare:

    Grupa A (20, 30, 27, 9, 6, 40, 50, 32, 39, 43, 26, 15, 18), n1=13

    Grupa B (10, 20, 31, 37, 39, 40, 20, 6, 8, 25, 31, 10, 10, 22, 21, 30, 5), n2=17

    Aplicnd formulele de pn acum, obinem urmtoarele rezultate:

    La nivelul grupei A, 31,2713/3551 ==x iar 85,16621 =x .

    La nivelul grupei B, 47,2117/3652 ==x iar 39,13222 =x .

    La nivelul ntregii serii de distribuie, 2430/720 ==x iar 69,1552 =x .

    Variana la nivelul grupelor este 32,14730

    1739,1321385,1662int =

    += .

    Variana dintre grupe este 37,830

    17)2447,21(13)2431,27( 222 =+=ext .

    Regula de adunare a dispersiilor enunat mai sus este verificat, ntruct

    .69,15537,832,147 222int xext ==+=+ Nu n ultimul rnd, coeficienii pentru msurarea influenei celor dou

    categorii de factori n cadrul dispersiei totale a seriei de distribuie sunt

    k1=8,37/155,69=0,054, iar k2=147,32/155,69=0,946.

  • 33

    Aceste rezultate arat c cele dou grupe nu se deosebesc prea mult n ceea

    ce privete dispersia valorilor n jurul mediilor din grup, ntruct dispersia

    productivitii la nivelul ntregii ntreprinderi este explicat ntr-o msur

    covritoare (94,6%) de variaia productivitii ca urmare a factorilor specifici i

    aleatori care acioneaz n cadrul fiecrei secii A i B. Calculele de mai sus arat c

    dispersia productivitii generale este explicat doar ntr-o mic msur (5,4%) de

    mprtierea productivitilor medii ale seciilor fa de productivitatea medie a

    ntreprinderii. Altfel spus, influena factorului de grupare asupra varianei

    productivitii este foarte redus.

    Dispersia caracteristicilor alternative

    Dup cum am vzut deja, prezena sau absena unui anumit fenomen este

    reprezentat prin intermediul unei variabile binare (numit i variabil alternativ,

    dihotomic sau boolean). n cazul general, se consider o populaie de mrime N,

    din care P uniti posed o proprietate, iar Q=N-P uniti nu posed acea

    proprietate. Prin convenie, caracteristica binar va lua valoarea 1 pentru acele

    uniti care posed proprietatea i valoarea 0 pentru cele care nu posed acea

    proprietate. De aceea, media caracteristicii binare este (1*P+0*Q)/(P+Q)=P/N,

    reprezentnd ponderea unitilor care posed proprietatea n totalul unitilor

    populaiei.Variana caracteristicii binare este

    N

    Q

    N

    P

    QP

    PQNPQ

    QP

    QNPPNQ

    QP

    QNPPNP =+

    +=+

    +=+

    +)(

    )(/

    )(

    )/()/(

    )(

    )/0()/1( 22222

    Dac notm p=P/N, atunci dispersia variabilei binare poate fi scris ca p(1-p),

    reprezentnd produsul dintre ponderea n totalul unitilor populaiei a unitilor

    care posed proprietatea i ponderea unitilor care nu posed acea proprietate.

    Exerciiu: Considerm o populaie caracterizat printr-o variabil binar 0/1

    reprezentnd, de exemplu, mediul de reziden urban/rural, sexul masculin/feminin,

    mrimea firmei mic/mare etc. Care este media celei mai eterogene astfel de

    populaii?

    Pentru a rspunde acestei ntrebri, s ne gndim mai nti care ar putea fi

    cea mai omogen populaie caracterizat de o variabil binar. Este acea populaie

    n care toate unitile posed proprietatea urmrit sau, din contr, nicio unitate nu

    posed acea proprietate. De exemplu, dac variabila binar reprezint mediul de

    reziden urban/rural, cea mai omogen populaie este cea n care toi indivizii

    provin din mediul urban sau toi provin din mediul rural. Prin comparaie, o

    populaie n care 99% din indivizi provin din mediul urban, n timp ce 1% provin din

    mediul rural este tot o populaie cu o omogenitate ridicat, dar totui uor inferioar

    celei n care absolut toi indivizii aparin unui mediu de reziden. Continund n

  • 34

    acest sens, acea populaie n care 50% din indivizi provin din mediul urban i 50%

    provin din mediul rural este cea mai eterogen populaie caracterizat prin aceast

    variabil binar. Dac notm cu 1 apartenena la mediul urban i cu 0 pe cea la

    mediul rural, media va fi p=P/N=0,5.

    Care este dispersia celei mai eterogene astfel de populaii? Cu alte cuvinte,

    care este valoarea maxim a dispersiei pentru o variabil alternativ? Dup cum

    spuneam mai sus, media celei mai eterogene populaii este p=P/N=0,5, ceea ce

    nseamn c dispersia este p(1-p)=0,5*0,5=0,25.

    Abaterea medie ptratic (abaterea standard)

    Abaterea standard se calculeaz ca rdcin ptrat din dispersie, .2 = Aceasta este o msur statistic utilizat frecvent pentru caracterizarea

    gradului de dispersare a valorilor seriei n jurul mediei, indicatorul fiind recomandat,

    n principal, datorit faptului c se calculeaz pe baza unei relaii simple.

    Faptul c acest indicator se exprim ntr-o unitate concret de msur (n

    unitatea seriei de date) poate fi vzut drept un avantaj, ntruct interpretarea

    rezultatelor este facilitat de aceast trstur, dar i drept un dezavantaj, ntruct

    acest indicator nu poate fi folosit pentru compararea dispersrii unor serii de date

    diferite.

    De regul, abaterea standard este folosit pentru caracterizarea distribuiilor

    teoretice. ntruct detalii despre aceste aspecte vor fi prezentate ulterior,

    menionm doar c dac distribuia unitilor din colectivitatea investigat, dup

    caracteristica urmrit, este sub form de clopot (fie i uor asimetric), atunci

    intervalul ( ) + xx , conine aproximativ 68% din observaii, intervalul ( ) 2,2 + xx conine puin peste 95% din observaii iar aproape toate observaiile (99,74% din acestea) sunt situate n intervalul ( ) 3,3 + xx .

    Coeficientul de variaie (de omogenitate)

    ntruct att media, ct i abaterea standard, sunt indicatori exprimai n

    unitatea de msur a caracteristicii analizate, aceti indicatori nu pot fi folosii

    pentru a compara dou serii de date ce sunt exprimate n uniti de msur diferite.

    De exemplu, nu putem compara media i abaterea standard calculate pentru o serie

    ce se refer la vnzarea unui produs, cu valori exprimate fizic, cu msurile similare

    ale altei serii exprimate n uniti monetare.

    Coeficientul de variaie nltur acest inconvenient, ntruct este o mrime

    adimensional ce se calculeaz prin raportarea abaterii standard la nivelul mediu al

    seriei de distribuie: .100/ = xCV Datorit modului de calcul, o valoare mai mic a coeficientului de variaie va

    indica o omogenitate mai ridicat a seriei supuse analizei. n practic se consider c

  • 35

    Grupe de intrri

    n cont (mii lei)

    Numr de

    intrri (ni)

    [3, 4) 26

    [4, 5) 33

    [5, 6) 64

    [6, 7) 7

    [7, 8] 10

    Total 140

    CV

  • 36

    Formula pentru determinarea medianei este i

    i

    jj

    ii n

    nn

    lxMe

    =

    +

    +=

    1

    1inf 2

    1

    , fapt pentru

    care Me=5+(70,5-59)/64=5+11,5/64=5,18 (mii lei).

    Abaterea medie absolut fa de media aritmetic este 121,02/140=0,864 (mii lei).

    (Nu am mai calculat abaterea medie absolut fa de median, dar aceasta se poate

    determina n mod similar.)

    Formula de calcul a dispersiei este 143,1140/993,159)(1

    1

    22 === =

    p

    iii nxxn

    .

    Abaterea medie ptratic se calculeaz ca radical din dispersie, deci =1,069 (mii lei).

    Coeficientul de variaie se calculeaz conform formulei ,100/ = xCV fapt pentru care CV=1,069/5,09*100=21%.

    ntruct coeficientul de variaie este inferior pragului de 35%, populaia care a

    produs seria de distribuie de mai sus poate fi considerat drept omogen. Prin

    urmare, media aritmetic determinat anterior (5,09 mii lei) este vzut drept un

    bun indicator al tendinei centrale a seriei de distribuie.

    2.4 Indicatori pentru caracterizarea formei seriilor de distribuie

    Pentru caracterizarea asimetriei i/sau aplatizrii unei serii de distribuie se

    poate recurge la reprezentarea grafic a acesteia sau la un ansamblu de indicatori

    statistici. Metoda grafic, ce se recomand a fi aplicat ca punct de plecare, se poate

    utiliza pentru orice fel de variabile (calitative i cantitative), seria de distribuie fiind

    reprezentat prin intermediul histogramei sau a poligonului frecvenelor. Indicatorii

    pe care i vom prezenta n continuare, utilizai pentru verificarea caracterului normal

    al distribuiei seriei de valori, se pot calcula doar pentru caracteristici numerice.

    2.4.1 Indicatori ai asimetriei seriilor de distribuie

    O distribuie este asimetric dac valorile sale, reprezentate prin frecvene

    (absolute sau relative), sunt inegal dispersate de o parte i de alta a valorii centrale.

    Asimetrie spre dreapta Asimetrie spre stnga

  • 37

    Compararea indicatorilor tendinei centrale

    Simpla inspectare vizual a distribuiei valorilor seriei poate arta dac

    aceasta este asimetric sau nu. n plus, compararea principalilor indicatori ai

    tendinei centrale, respectiv valoarea medie ( x ), valoarea median (Me) i valoarea

    modal (Mo) indic direcia asimetriei. Pentru o distribuie simetric, x = Me = Mo.

    n cazul distribuiilor asimetrice spre dreapta, MoMex

  • 38

    ntruct n cazul unei serii de distribuie cu asimetrie redus se verific relaia

    ),(3 xMexMo pentru caracterizarea asimetriei unei astfel de serii se poate

    folosi indicatorul calculat potrivit relaiei ./)(3 MexCasP = Fiind un indicator adimensional, coeficientul de asimetrie propus de Pearson

    se utilizeaz i n analiza comparativ a asimetriei pentru mai multe serii de

    distribuie.

    Coeficientul de asimetrie al lui Fisher

    Determinat pe baza relaiei dintre momentele centrate de ordinul 2 i 3.

    Pentru o serie de distribuie dup variante (cu frecvene), momentul centrat

    de ordinul k se calculeaz pe baza relaiei =

    =p

    ii

    kik nxxn 1

    )(1 . Dup cum se poate

    observa, momentul centrat de ordinul 1 reprezint media abaterilor valorilor

    individuale de la media seriei de distribuie, n timp ce momentul centrat de ordinul

    2 este dispersia seriei de distribuie.

    Momentul centrat de ordinul 3 (notat 3) este un indicator al asimetriei, fr

    ca acesta s pun ns n eviden intensitatea asimetriei. Astfel, dac 30, distribuia este asimetric spre stnga.

    Propunerea lui Fisher a fost de a calcula un indicator pe baza relaiei

    CasF=3/3.

    Informaiile oferite de acest indicator permit att caracterizarea sensului, ct

    i a intensitii asimetriei. De remarcat c, ntruct >0, semnul CasF este dat de

    semnul momentului centrat de ordinul 3, fapt pentru care interpretarea este similar

    cu a celor de mai sus: CasF0 indic asimetrie

    spre stnga, iar CasF=0 indic faptul c seria de distribuie este simetric. Intensitatea

    asimetriei seriei de distribuie este indicat de mrimea coeficientului CasF, cu ct

    acesta este mai mare (n valoare absolut), cu att asimetria este mai pronunat.

    2.4.2 Indicatori ai aplatizrii seriilor de distribuie

    O serie de distribuie este aplatizat dac la variaii mari ale valorii

    caracteristicii observm variaii limitate ale frecvenelor. Aprecierea gradului de

    aplatizare (de boltire) a seriei se face, ntr-o prim etap, prin compararea curbei

    frecvenelor acesteia cu cea a repartiiei normale (Gauss-Laplace) ce are aceeai

    medie i abatere standard cu a seriei de date investigate. Acest raionament este

    vizualizat n figura de mai jos, unde curba indicat prin linia roie continu este curba

    normal (denumit i mezocurtic), cea indicat prin linia albastr punctat este o

    curb leptocurtic, iar cea indicat de linia mov punctat fin este o curb platicurtic.

  • 39

    Rdcinile etimologice ale denumirilor utilizate sunt greceti: kurtos = cocoat, platys

    = larg, lat, leptos = ngust, subire.

    Analitic, pentru caracterizarea aplatizrii (boltirii) seriei de distribuie se

    calculeaz coeficienii lui Pearson i lui Fisher pentru aplatizare.

    Coeficientul lui Pearson pentru aplatizare

    Determinat pe baza momentelor centrate de ordinul 2 i 4. Formula de calcul

    este

    CapP=4/22=4/

    4.

    Pentru repartiia normal, valoarea acestui indicator este egal cu 3. Prin

    urmare, pentru a aprecia boltirea unei serii, valoarea indicatorului calculat va fi

    comparat cu 3 (pentru majoritatea seriilor economice, valoarea indicatorului se

    situeaz ntre 2 i 6). Astfel, dac valoarea calculat a CapP3, atunci seria de

    distribuie urmeaz o repartiie aproximativ normal (este mezocurtic). Dac

    CapP>3, atunci curba frecvenelor este leptocurtic, distribuia fiind mai ascuit

    dect cea normal. n fine, dac CapP

  • 40

    Tem: Caracterizai asimetria i aplatizarea distribuiei punctelor obinute de 60 de

    studeni (atenie, va trebui s calculai cuartilele, ntr-un mod similar calculului Me).

    Punctajul 0-20 20-40 40-60 60-80 80-100 100-120 Total

    Nr. studeni (ni) 4 8 11 19 12 6 60