stec - capitolul 3

41

Capitolul 3 – Probabilităţi şi distribuţii

3.1 Conceptele de experiment, eveniment şi probabilitate

Experimentele aleatorii, care fac obiectul teoriei probabilităţilor şi al statisticii

matematice, sunt acele experimente în urma cărora rezultatele se obţin cu un

anumit grad de incertitudine (un anumit rezultat nu se generează în mod cert).

Exemplu: Aruncarea unui zar constituie un experiment aleatoriu, iar rezultatul

acestui experiment este incert. Cu toate acestea, se cunoaşte ansamblul rezultatelor

posibile, definit prin mulţimea E={1, 2, 3, 4, 5, 6}. Aruncarea unei monede constituie

un alt experiment aleatoriu, ansamblul rezultatelor posibile în acest caz fiind

reprezentat de mulţimea E={C, P} (C = cap, P = pajură).

Un eveniment reprezintă un subansamblu de elemente ale lui E. După

numărul de elemente ale subansamblului, se definesc:

- evenimentele simple, caz în care subansamblul are un singur element;

- evenimentele compuse, care formează partiţii cu cel puţin două elemente simple.

Exemplu: Pentru primul experiment de mai sus, elementele simple sunt reprezentate

de {1}, {2}, {3}, {4}, {5}, {6}. Pentru evenimentul compus C, definit ca „obţinerea

sumei 5 din două aruncări succesive”, se obţine C={(1, 4), (2, 3), (3, 2), (4, 1)}.

Un eveniment este imposibil dacă nu are loc pentru nicio realizare a

experimentului, acest eveniment fiind notat Φ. Un eveniment se numeşte cert dacă

are loc pentru orice realizare a experimentului, acest eveniment fiind notat E.

Exemplu: Evenimentul definit ca „obţinerea sumei 13 din două aruncări succesive ale

unui zar” este un eveniment imposibil, notat Φ. Evenimentul definit ca „obţinerea

unuia dintre numerele mulţimii {1, 2, 3, 4, 5, 6} la aruncarea unui zar” este un

eveniment cert, notat prin E.

Dacă A şi B sunt două evenimente incluse în E, atunci se definesc următoarele

operaţii:

i) Evenimentul complementar lui A, notat A . Acesta este evenimentul care se realizează dacă şi numai dacă nu se realizează A. În particular, evenimentul

imposibil este complementar evenimentului cert, și invers: E=φ şi φ=E .

Exemplu: Dacă evenimentul A este definit drept „obţinerea numărului 2 la aruncarea

unui zar”, atunci evenimentul complementar va fi definit drept „obţinerea numerelor

1, 3, 4, 5 sau 6 la aruncarea unui zar”.

42

ii) Intersecţia lui A cu B, care se notează BA∩ şi presupune realizarea simultană a celor două evenimente, }.|{ BxsiAxxBA ∈∈=∩ În cazul în

care φ=∩ BA , se spune că cele două evenimente sunt incompatibile.

iii) Reuniunea lui A şi B, care se notează BA∪ şi presupune realizarea cel puţin a unuia dintre ele, }.|{ BxsauAxxBA ∈∈=∪

iv) Diferenţa a două evenimente, notată A\B şi definită prin realizarea lui A şi nerealizarea lui B, }.|{\ BxsiAxxBA ∉∈=

Exemplu: Fie evenimentul A, definit drept „obţinerea sumei 6 la aruncarea a două

zaruri”, fapt pentru care A={(1, 5), (2, 4), (3, 3), (4, 2), (5, 1)} şi evenimentul B, definit

drept „obţinerea unei sume mai mare decât 4 şi mai mică sau egală decât 6 la

aruncarea a două zaruri”, fapt pentru care B={(1, 4), (1, 5), (2, 3), (2, 4), (3, 2), (3, 3),

(4, 1), (4, 2), (5, 1)}.

Intersecţia lui A cu B este {(1, 5), (2, 4), (3, 3), (4, 2), (5, 1)}, în acest caz chiar

evenimentul A, iar reuniunea lui A şi B este {(1, 4), (1, 5), (2, 3), (2, 4), (3, 2), (3, 3), (4,

1), (4, 2), (5, 1)}, în acest caz chiar evenimentul B (acest lucru se întâmplă pentru că

mulţimea B include mulţimea A). Diferenţa dintre evenimentele B şi A definite mai

sus este {(1, 4), (2, 3), (3, 2), (4, 1)}.

Dacă niCAi ,...,2,1, =∈ sunt elementele unui sistem de evenimente pentru

care Un

iijii EAjiAAA

1

,,,,=

=≠=∩≠ φφ atunci sistemul se spune că este

complet.

În abordarea clasică, conceptul de probabilitate a fost definit prin intermediul

frecvenţei relative ce se obţine pentru un eveniment repetat de un număr mare de

ori (eventual repetat pe termen lung). M.G. Bulmer numeşte acest concept drept

probabilitate statistică, diferit de probabilitatea inductivă (care reprezintă gradul de

certitudine ce poate fi atribuit unui eveniment). Astfel, dacă un experiment aleatoriu

pentru care evenimentele posibile au aceeaşi şansă de apariţie se repetă de N ori şi

dacă un anumit eveniment A s-a realizat de n ori, atunci probabilitatea

evenimentului A este dată de relaţia P(A)=n/N. Dezavantajul acestei formule este că

permite determinarea probabilităţii doar în cazul experimentelor cu un număr finit

de evenimente egal probabile.

Pentru a înţelege mai bine conceptul de probabilitate vom alege exemplul

datului cu banul. Nimeni nu poate spune cu certitudine în ce fel va cădea moneda

înainte ca aceasta să fie aruncată, dar posibilităţile sunt doar două, numite aici cap

sau pajură. Dat fiind că experimentul este unul foarte simplu, probabilitatea de

apariție a fiecărei variante (cap sau pajură) poate fi dedusă în mod direct: este 50%.

Unii statisticieni folosesc termenul de probabilitate matematică pentru acest gen de

situații, în care probabilitatea poate fi dedusă pe baza caracteristicilor și modului de

43

desfășurare a experimentului. Evident, probabilitatea (statistică, de această dată)

este tot 50%, acest rezultat fiind obținut și dacă acest experiment simplu este

repetat de un număr foarte mare de ori. De-a lungul timpului au existat pasionați

care chiar au verificat aceasta identitate între cele două probabilități. De exemplu, în

timpul celui de-al doilea război mondial, aflându-se internat într-un spital din

Danemarca, statisticianul sud-african John Kerrich a aruncat o monedă de 10.000 de

ori şi a notat rezultatul fiecărei aruncări. La finalul experimentului, proporţia „cap” a

fost 0,5067 iar „pajură” 0,4933. Evoluţia celor două proporţii pe parcursul repetării

acestui experiment este ilustrată în graficul de mai jos.

După cum se poate observa, proporţiile fluctuează puternic la începutul

experimentului, dar se apropie din ce în ce mai mult de o anumită valoare (0,5)

odată cu creşterea numărului de aruncări. Putem presupune că fluctuaţiile vor

continua să se reducă dacă acest experiment ar fi continuat la infinit, proporţia „cap”

şi „pajură” apropiindu-se din ce în ce mai mult de 0,5. Această valoare limită

reprezintă probabilitatea (statistică) pentru „cap”, dar şi pentru „pajură”.

Experimente similare au fost realizate și de alți oameni de știință interesați de

acest subiect. Astfel, Contele Buffon, naturalist francez ce a trăit între anii 1707 și

1788, a dat cu banul de 4.040 de ori, rezultatul final fiind „cap” de 2.048 de ori (deci

o proporție 0,5069), în timp ce, în jurul anului 1900, statisticianul englez Karl Pearson

a dat cu banul de 24.000 de ori, rezultatul final fiind „cap” de 12.012 ori (deci o

proporție 0,5005).

Dacă notăm prin C clasa de partiţii a mulţimii E, atunci se numeşte

probabilitate pe C funcţia P:C→R care satisface axiomele:

i) CAAP ∈∀≥ )(,0)( , deci probabilitatea asociată oricărui eveniment este un

număr nenegativ;

44

ii) P(E)=1, deci probabilitatea evenimentului cert este 1;

iii) Dacă CBA ∈, şi φ=∩ BA , atunci )()()( BPAPBAP +=∪ . Aceasta

înseamnă că, pentru oricare două evenimente A şi B ale aceluiaşi experiment (aparţin aceleiaşi clase de repartiţii) dar incompatibile (se exclud reciproc), probabilitatea evenimentului obţinut prin reuniunea celor două este egală cu suma probabilităţilor celor două evenimente. Această proprietate se mai numeşte legea de adunare a probabilităţilor.

Exemplu: La aruncarea unui zar, probabilitatea de a obţine numărul 2 sau 3 este

P(x=2 sau x=3)=P(x=2)+P(x=3)=1/6+1/6=1/3.

iv) Dacă A şi B sunt două evenimente ale aceluiaşi experiment şi φ≠∩ BA ,

atunci avem ).()()()( BAPBPAPBAP ∩−+=∪

Exemplu: Pentru evenimentul A, definit drept „obţinerea sumei 6 la aruncarea a

două zaruri”, fapt pentru care A={(1, 5), (2, 4), (3, 3), (4, 2), (5, 1)} şi evenimentul B,

definit drept „obţinerea unei sume mai mare decât 4 şi mai mică sau egală decât 6 la

aruncarea a două zaruri”, fapt pentru care B={(1, 4), (1, 5), (2, 3), (2, 4), (3, 2), (3, 3),

(4, 1), (4, 2), (5, 1)}, se obţine P(A)=5/36, P(B)=9/36=1/4, P(A∩B)=5/36, fapt pentru

care P(AUB)=P(A)+P(B)-P(A∩B)=1/4.

v) Dacă B este un eveniment pentru care P(B)≠0, atunci probabilitatea evenimentului A condiţionat de evenimentul B se defineşte prin P(A|B)=P(A∩B)/P(B). Această egalitate se mai poate scrie ca P(A∩B)=P(B) X

P(A|B) şi poartă numele de legea multiplicării probabilităţilor.

Exemplu: Să se determine probabilitatea ca, în urma aruncării unui zar de două ori,

numărul punctelor adunate să fie mai mic sau egal cu 4, dacă la prima aruncare

numărul a fost 1. Pentru aceasta se definesc evenimentele:

B„la prima aruncare a zarului să iasă 1, indiferent de numărul obţinut la a doua

aruncare”. Deci B={(1, 1), (1, 2), (1, 3), (1, 4), (1, 5), (1, 6)}, fapt pentru care

P(B)=6/36.

A„din două aruncări ale zarului, totalul să fie mai mic sau egal cu 4”. Deci A={(1, 1),

(1, 2), (1, 3), (2, 1), (2, 2), (3, 1)}, fapt pentru care P(A)=6/36.

A∩B={(1, 1), (1, 2), (1, 3)}, deci P(A∩B)=3/36. Prin urmare, P(A|B)=P(A∩B)/P(B)=3/6.

Două evenimente se numesc independente dacă P(A∩B)=P(A)*P(B).

Exemplu: Să se determine probabilitatea ca, în urma aruncării unui zar de două ori,

să se obţină doi de 6. Pentru aceasta, definim evenimentele A„la prima aruncare să

iasă 6” şi B„la a doua aruncare să iasă 6”. Întrucât P(A∩B)=P(A)*P(B)=1/6*1/6=1/36,

cele două evenimente sunt independente.

45

3.2 Variabile aleatoare

Variabilele aleatoare sunt variabile pentru care sunt specificate valorile

posibile și probabilitățile de apariție a acestor valori, fiind folosite pentru descrierea

evenimentelor. În acest curs, vom considera că rezultatul unui experiment este un

număr real, sub forma X(ω)=x, x în R. Astfel, notele obţinute de un grup de studenţi

la un examen, numărul de defecţiuni ale unui aparat într-o anumită perioadă de timp

şi numărul de produse defecte într-un lot sunt câteva exemple de variabile

aleatoare. Chiar dacă După efectuarea experimentului știm rezultatul obținut (nota

de la examen, numărul de defecțiuni ale aparatului, numărul de produse defecte

etc.), înaintea acestuia cunoaștem doar posibilele rezultate și probabilitățile de

apariție ale fiecărui rezultat.

După numărul de valori ale variabilei X, distingem:

i) variabile aleatoare cu un număr finit de valori: X={x1, x2, …, xn};

ii) variabile aleatoare cu un număr infinit de valori discrete: X={x1, x2, …, xn, …};

iii) variabile aleatoare cu un număr infinit nenumărabil de valori X=[a, b] în R.

Dacă X are un număr finit sau numărabil de elemente, atunci X este o

variabilă aleatoare discretă. Dacă X are un număr infinit şi nenumărabil de elemente,

atunci X este o variabilă aleatoare continuă.

Notă: Orice mulţime finită este numărabilă. O mulţime infinită este numărabilă dacă

poate fi indexată (este în bijecţie cu mulţimea numerelor naturale N).

Distribuţii de probabilitate (legi sau repartiţii)

Exemplu: Dintr-o urnă care conţine două bile, una albă şi cealaltă neagră, se extrag

succesiv două bile, după prima extragere bila reintroducându-se în urnă. Se defineşte

variabila aleatoare X pentru combinaţiile posibile de culori ale celor două bile la

finalul experimentului. Se obţine deci variabila aleatoare descrisă de tabelul de mai

jos.

Eveniment

elementar

Variabila

aleatoare (X)

Probabilităţi

P(X=xi)

A, A x1 1/4

A, N

N, A x2 1/4+1/4=1/2

N, N x3 1/4

Total 1

46

Exemplul de mai sus arată că fiecărei valori a variabilei aleatoare X={x1, x2, x3}

i se asociază o anumită probabilitate (deci fiecare eveniment are ataşată o

probabilitate). Pentru toate valorile variabilei aleatoare s-a definit astfel o lege de

probabilitate.

Trecerea de la distribuţia frecvenţelor empirice, obţinute în urma observării

repetate a rezultatelor experimentului, la o lege de probabilitate se face în virtutea

legii numerelor mari. Astfel, dacă fi reprezintă frecvenţa relativă de apariţie a

evenimentului X=xi, iar pi este probabilitatea de apariţie a acestui eveniment, atunci,

dacă numărul de observaţii este suficient de mare, poligonul frecvenţelor relative

aproximează graficul unei legi de probabilitate: fi → pi când n → ∞.

Atenţie! Până acum, histograma sau poligonul frecvenţelor au fost trasate

reprezentând pe axa 0Y frecvenţele absolute (ni, numărul efectiv de observaţii din

fiecare grupă). Aceste grafice pot fi realizate în egală măsură şi pe baza frecvenţelor

relative, fi (graficele sunt absolut identice, se modifică doar scala lor). Pentru orice

grupă k, frecvenţa relativă se defineşte prin relaţia fk=nk/n, unde nk este frecvenţa

absolută a grupei k, iar n este numărul total de observaţii. Uneori fk se exprimă

procentual, fapt pentru care relaţia de mai sus se înmulţeşte cu 100.

Variabile aleatoare discrete

Considerăm o variabilă aleatoare discretă pentru care mulţimea valorilor

posibile se prezintă sub forma X={x1, x2, …, xn}. Astfel, fiecare eveniment se notează

prin X=xi, pentru care se asociază o probabilitate pi=P(X=xi). Prin urmare, variabilele

aleatoare discrete se notează, în general, prin

=

i

i

p

xX , cu i=1, 2,…, n, xi

reprezentând valorile posibile şi pi probabilitatea de apariţie a fiecărei valori xi.

Întrucât, în general, evenimentele X=xi formează un sistem complet, are loc

egalitatea ∑=

==n

iixXP

1

1)( .

Exemplul 4.17 din „Statistică, Teorie şi Aplicaţii” de Andrei, Stancu şi Pele (2002).

Distribuţia populaţiei de sex feminin în vârstă de 15 ani şi peste, după numărul

copiilor născuţi vii, la recensământul populaţiei din 7 ianuarie 1992, se prezintă în

tabelul de mai jos (date preluate din Anuarul statistic al României, 1993):

Ideea de bază este aceea că, beneficiind de un număr foarte mare de

observații în tabelul de mai jos (atât numărul total de femei cu copii – peste 6,5

milioane, cât și numărul de femei cu 1, 2, 3… copii), putem considera frecvențele

relative ca reprezentând probabilități (statistice) de apariție a acestor evenimente.

Se impune precizarea că datele reprezintă numărul de copii născuți vii pentru

femeile din România anului 1992, deoarece valoarea 0 copii nu apare în tabel. Prin

47

0

10

20

30

40

1 2 3 4 5 6 7 8 9 10

fi%

k

0

25

50

75

100

1 2 3 4 5 6 7 8 9 10

F(x)

k

Nr. de copii născuţi vii (k)

Numărul de femei

fi=ni/n*100 fi↑

1 1.824.383 27,84 27,84

2 2.402.224 36,66 64,50

3 1.060.094 16,18 80,68

4 631.270 9,63 90,31

5 299.858 4,58 94,89

6 137.317 2,10 96,99

7 76.840 1,17 98,16

8 47.576 0,73 98,89

9 28.624 0,44 99,33

≥10 44.031 0,67 100

Total 6.552.187 100 --

urmare, pe baza acestui tabel,

putem afirma că probabilitatea

ca o femeie din România care

are copii să aibă doi copii era

36,66%, în timp ce

probabilitatea ca o femeie din

România care are copii să aibă

patru copii era 9,63%.

Frecvențele relative cumulate

crescător pot fi și ele

interpretate în termeni

probabilistici. De exemplu,

putem afirma că probabilitatea

ca o femeie din România care are copii să aibă unul sau doi copii era 64,5%, în timp

ce probabilitatea ca o femeie din România care are copii să fi avut în 1992 cel mult

patru copii era 90,31%. Întrucât variantele expuse în tabel sunt toate cele posibile

pentru femeile cu copii din România anului 1992, frecvența relativă cumulată

crescător pentru valoarea „≥10” este 100%.

Pe baza datelor din tabel se construiesc două grafice, histograma din stânga

pentru distribuţia frecvenţelor relative (f) iar graficul din dreapta pentru distribuţia

frecvenţelor relative cumulate crescător (F). Faptul că distribuția frecvențelor

relative nu are forma acelui clopot simetric nu are importanță în acest punct.

Într-un curs anterior am calculat media şi dispersia unei variabile binare.

Aceşti indicatori se calculează în mod similar şi pentru variabilele aleatoare discrete

(unde numărul de variante de mai mare decât 2).

Media variabilei aleatoare discrete: ∑=

==n

iii pxXEx

1

)(

48

Momentul centrat de ordinul k: ∑=

−=−=n

ii

ki

kk pxxxXE

1

)(])[(µ .

La fel ca până acum, momentul centrat de ordinul 2 reprezintă dispersia

(varianţa) variabilei aleatoare discrete. Apoi, într-un mod similar cursurilor

anterioare, se pot calcula coeficientul de variaţie şi ceilalţi indicatori prezentaţi.

Exemplu: Tabelul de mai jos prezintă notele obținute de 130 de studenți la un anumit

curs.

Note Număr de studenți

fi(%) fi↑

0-1 3 2,31 2,31

1-2 9 6,92 9,23

2-3 18 13,85 23,08

3-4 22 16,92 40,00

4-5 23 17,69 57,69

5-6 20 15,38 73,08

6-7 15 11,54 84,62

7-8 12 9,23 93,85

8-9 6 4,62 98,46

9-10 2 1,54 100

Total 130 100 --

În continuare vom ignora faptul că numărul total de observații nu este foarte

mare și, mai ales, că numărul de observații pentru câteva grupe de note este chiar

redus (alternativ, ne-am putea gândi că valorile din coloana 2 reprezintă mii sau zeci

de mii de studenți care au susținut acel curs pe parcursul mai multor ani în cadrul

mai multor facultăți). Graficele de mai jos prezintă frecvențele relative, f(x), și

frecvențele relative cumulate crescător, F(x). Interpretarea datelor din ultimele două

coloane ale tabelului se face în mod similar cu exemplul anterior, frecvențele relative

putând fi interpretate ca probabilități. De exemplu, se poate afirma că probabilitatea

2.31

6.92

13.85

16.9217.69

15.38

11.54

9.23

4.62

1.54

0

4

8

12

16

20

0-1 1-2 2-3 3-4 4-5 5-6 6-7 7-8 8-9 9-10

Note

2.31

9.23

23.08

40.00

57.69

73.08

84.62

93.85 98.46 100.00

0

10

20

30

40

50

60

70

80

90

100

0-1 1-2 2-3 3-4 4-5 5-6 6-7 7-8 8-9 9-10

Note

F(x)f(x)

49

ca un student să ia o notă între 5 și 6 la acest curs este 15,38%, în timp ce

probabilitatea ca un student să ia o notă sub 4 la acest curs este 40%.

Variabile aleatoare continue

Pentru orice variabilă aleatoare continuă X, poligonul frecvenţelor relative

devine o curbă ce reprezintă probabilitatea de apariţie a fiecărei posibile valori x a

acelei variabile aleatoare. Practic, această curbă este reprezentarea grafică a unei

funcţii numite densitatea de probabilitate, funcţie care caracterizează complet

variabila aleatoare X. În afară de densitatea de probabilitate, pentru variabilele

aleatoare continue se mai determină funcţia de repartiţie, funcţie care dă ponderea

unităţilor care au valoarea caracteristicii mai mică decât o anumită valoare, fixată.

Prin urmare, în timp ce densitatea de probabilitate este echivalenta

distribuţiei frecvenţelor relative pentru variabilele discrete, funcţia de repartiţie este

echivalenta frecvenţelor relative cumulate crescător. Vom prezenta aceste concepte

pentru repartiţia cel mai des întâlnită în practica şi teoria statistică, respectiv pentru

legea normală.

3.3 Legea normală

Matematicianul și fizicianul german Johann Carl Friederich Gauss (1777-

1855), unul dintre cei mai influenți oameni de știință din istorie, considerat de mulți

drept cel mai important matematician după cei antici, formalizează în anul 1810

distribuția normală (de unde și termenul foarte uzual de „clopot al lui Gauss”): fie X o

variabilă aleatoare continuă care urmează o repartiţie normală de medie m şi

abatere standard σ, notată N(m, σ2). Densitatea de probabilitate, notată f, cu

f:R→[0,1], este:

2

2

2

)(

2

1)( σ

πσ

mx

exf−

−=

Dacă se construieşte o nouă variabilă aleatoare Y, astfel încât Y=(X-m)/σ,

atunci această nouă variabilă va urma o repartiţie normală caracterizată de medie

zero şi abatere standard unitară, notată N(0,1). Această repartiţie particulară se

numeşte repartiţia normală normată sau repartiţia normală centrată redusă.

Înlocuind m=0 şi σ=1 în expresia de mai sus se obţine densitatea de

probabilitate a variabilei Y~N(0,1):

2

2

2

1)(

y

eyf−

=π

Graficul de mai jos ilustrează densitatea de probabilitate (aici notată prin φ)

pentru câteva valori ale mediei (aici notată prin μ) şi dispersiei σ2.

50

După cum se poate observa, graficul repartiţiei normale se prezintă sub

forma unui clopot simetric, axa de simetrie fiind dată de media seriei de date. Aşa

cum am arătat în secţiunea referitoare la forma seriilor de distribuţie, pentru

repartiţiile simetrice valoarea modală coincide cu cea mediană, ambele fiind egale şi

cu media seriei.

Pentru legea normală, în timp ce media (notată m sau μ) determină poziţia

curbei faţă de axa 0Y, abaterea standard σ (indicator al dispersării unităţilor

populaţiei în jurul mediei) determină deschiderea clopotului, o valoare mai ridicată a

σ indicând un grad de dispersare mai mare, deci o curbă mai aplatizată.

Pentru variabila aleatoare X descrisă mai sus, funcţia de repartiţie

(echivalenta frecvenţelor relative cumulate crescător), notată F, este dată de relația:

∫ ∫∞− ∞−

−−==<=

x x mt

dtedttfxXPxF2

2

2

)(

2

1)()()( σ

πσ

Graficul de mai jos (vezi pagina următoare) ilustrează forma funcţiilor de

repartiţie (aici notate prin Φ) pentru cele patru distribuţii normale din graficul

anterior.

Ambele grafice ilustrate aici seamănă foarte mult cu graficele prezentate mai

sus, pentru exemplul notelor celor 130 de studenți. Diferența esențială vine din

faptul că, în timp ce exemplul nostru anterior se referea la o variabilă aleatoare

discretă, acum vorbim de variabile aleatoare continue. În rest, lucrurile sunt similare

conceptual, densitatea de probabilitate fiind corespondenta frecvenței relative, în

timp ce funcția de repartiție este corespondenta frecvenței relative cumulate

51

crescător. Prin urmare, aceste două funcții vor fi utilizate în mod similar utilizării

frecvențelor relative, pentru a calcula anumite probabilități de apariție a unui

fenomen de interes.

Caracteristicile legii normale:

i) media, uneori notată şi E(X), este mdxxxf =∫∞

∞−

)(

ii) dispersia, uneori notată şiV(X), este 22 )()( σ=−∫∞

∞−

dxxfmx

iii) coeficienţii de asimetrie CasYK=CasP=CasF=0

iv) coeficientul de aplatizare CapP=3

Din simetria legii normale se obţine:

i) f(m+x)=f(m-x), Rx ∈∀)( . În particular, dacă m=0, f(x)=f(-x).

ii) ∫+

+∈=+<<−xm

m

RxdttfxmXxmP *,)(2)( .

Pentru m=0 avem ∫ +∈=+<<−x

RxdttfxXxP0

*,)(2)(

Graficul de mai jos ilustrează din nou densitatea de probabilitate a distribuţiei

normale, fiind reprezentată o distribuție de medie zero și dispersie σ2, deci

X˜N(0,σ2). Ceea ce ar trebui reținut este faptul că, pentru o distribuție normală,

aproximativ 68% din observații se încadrează în intervalul de valori (m-σ, m+σ), deci

diferă de medie cu cel mult o abatere standard (în plus sau în minus). Apoi,

52

aproximativ 95% din observații se încadrează în intervalul de valori (m-2σ, m+2σ),

deci diferă de medie cu cel mult două abateri standard (din nou, în plus sau în

minus). În fine, graficul de mai jos arată că aproximativ 99% din observațiile seriei se

încadrează în intervalul de valori (m-3σ, m+3σ), deci diferă de medie cu cel mult trei

abateri standard.

P(m-σ<X<m+σ)=68,2%, P(m-2σ<X<m+2σ)=95,44%,P(m-3σ<X<m+3σ)=99,74%

Material opțional: Utilizarea tabelelor legii normale

În operaţiile practice, pentru calcularea valorilor funcţiei de repartiţie

∫∞−

=x

dttfxF )()( , se utilizează tabelele întocmite pentru repartiţia normală normată

N(0,1). Aşa cum menţionam mai sus, F(x) reprezintă probabilitatea ca variabila

aleatoare X să ia o valoare sub valoarea x, respectiv F(x)=P(X<x).

Majoritatea cărţilor de statistică conţin în anexe tabelele repartiţiei normale

normate. În cele ce urmează, vom folosi tabelul prezentat în Anexa 1, similar cu cel

din „Statistică, Teorie şi aplicaţii” de Andrei, Stancu şi Pele (2002), pag. 561. Acest

tabel, construit pentru funcţia de repartiţie N(0,1), indică probabilităţile P(X<z)=F(z).

Prima coloană indică partea întreagă a valorii lui z, în timp ce prima linie indică a

doua sa zecimală. Prin urmare, valorile de la intersecţia liniilor şi coloanelor indică

probabilitatea ca X să fie mai mic decât z (exprimat cu două zecimale).

Folosind acest tabel se pot determina mai multe probabilităţi, printre care:

i) P(X<x), probabilitatea ca valoarea variabilei să fie mai mică decât o valoare dată x>0.

Exemplu: Determinaţi P(X<1,43). Folosind tabelul din Anexa 1, se observă că

F(1,43)=P(X<1,43)=0,92364.

ii) P(X>x), probabilitatea ca X să fie superioară unei valori date x>0. Întrucât P(X<x)+P(X>x)=1,rezultă că P(X>x)=1-P(X<x).

53

Exemplu: Determinaţi P(X>1,43). Întrucât P(X>1,43)=1-P(X<1,43) şi

P(X<1,43)=0,92364, rezultă că P(X>1,43)=1-0,92364=0,07636.

iii) P(x1<X<x2), probabilitatea ca X să se încadreze între valorile x1 şi x2, cu x1<x2.

Întrucât ∫=<<2

1

)()( 21

x

x

dttfxXxP , ∫ ∫ ∫ ∫∞

∞− ∞−

∞

=++=1 2

1 2

1)()()()(x x

x x

dttfdttfdttfdttf

şi ∫ ∫∞

∞−

−=2

2

)(1)(x

x

dttfdttf , se obţine

∫ ∫∞− ∞−

−=<−<=−=<<2 1

)()()()()()()( 121221

x x

xFxFxXPxXPdttfdttfxXxP

Exemplu: Să se determine probabilitatea ca X să aparţină intervalului (1,32;

1,37). Folosind formulele de mai sus, se obţine P(1,32<X<1,37)=P(X<1,37)-

P(X<1,32)=F(1,37)-F(1,32)=0,91466-0,90658=0,00808

iv) P(|X|<x), probabilitatea ca |X|<x, cu x un număr real pozitiv. Pentru o astfel de valoare a lui x, din simetria legii normale reiese că P(X<-x)=P(X>x). Prin urmare

∫ ∫∫∫−

−

∞−

∞−

∞−

−<−=−=

+−==<

x

x

x

x

x

xXPdttfdttfdttfdttfxXP .)(21)(21)()(1)()|(|

P(X<-x)=P(X>x)=1-P(X<x), fapt pentru care formula de mai sus devine 2P(X<x)-

1.

Exemplu: Să se determine probabilitatea ca |X|<1,96. Conform celor de mai

sus, P(|X|<1,96)=1-2P(X<-1,96)=2P(X<1,96)-1.Tabelul din Anexa 1 arată că

P(X<1,96)=0,975, fapt pentru care P(|X|<1,96)=2*0,975-1=0,95.

De cele mai multe ori, repartiţia unei populaţii nu este definită direct prin

normala centrată redusă N(0,1), ci printr-o lege normală de medie m şi dispersie σ2,

N(m,σ2). De exemplu, dacă am analiza înălțimea unor indivizi, atunci media

populației ar fi probabil m=165cm pentru femei și m=175cm pentru bărbați, nu zero.

De aceea, pentru utilizarea tabelului repartiţiei N(0,1) se realizează schimbarea de

variabilă menţionată anterior, respectiv Y=(X-m)/σ, care asigură trecerea de la

distribuția normală observată în practică la legea normală normată. Prin această

schimbare se obţine egalitatea ),()()( yYPmxmX

PxXP <=−<−=<σσ

ultima

valoare citindu-se din tabelul legii N(0,1).

Exemplu: Fie variabila aleatoare X distribuită N(3;2,42). Să se determine P(X<6) şi

P(2<X<6).

.89435,0)25,1()4,2

36

4,2

3()6( =<=−<−=< YP

XPXP

54

)42,0()25,1()25,142,0()4,2

36

4,2

3

4,2

32()62( −<−<=<<−=−<−<−=<< YPYPYP

XPXP

Simetria distribuţiei normale implică P(Y<-0,42)=P(Y>0,42)=1-P(Y<0,42). De aceea,

P(2<X<6)=P(Y<1,25)-1+P(Y<0,42)=0,89435-1+0,66276=0,55711.

Exemplu: Dacă ne gândim la cei 130 de studenți care au susținut cursul și ale căror

note sunt cuprinse în tabelul de la pagina 45 ca fiind reprezentativi pentru o

populație distribuită normal cu medie m=4,65 și dispersie σ2=4,21 (acestea fiind

valorile calculate pe baza celor 130 de observații care stau la baza tabelului), atunci

putem determina anumite probabilități de interes pentru trei studenți care se

gândesc să urmeze acest curs.

Astfel, un prim student ar putea fi interesat care este probabilitatea de a lua notă de

trecere la curs, deci P(X>5), unde X~N(4,65; 4,21):

P(X>5)=1-P(X<5)=1-P((X-4,65)/2,05<(5-4,65)/2,05)=1-P(Y<0,17)=1-0,5675=0,4325

Un alt student, care încearcă să obțină bursă de studii, ar putea fi interesat de

probabilitatea de a lua o notă peste 8 la curs, deci P(X>8), unde X~N(4,65; 4,21):

P(X>8)=1-P(X<8)=1-P((X-4,65)/2,05<(8-4,65)/2,05)=1-P(Y<1,63)=1-0,9484=0,0516

În fine, ne-am putea gândi că un al treilea student ar putea fi interesat de

probabilitatea de a lua o notă între 6 și 8 la acest curs, deci P(6<X<8):

P(6<X<8)=P((6-4,65)/2,05<(X-4,65)/2,05<(8-4,65)/2,05)=P(0,66<Y<1,63)=P(Y<1,63)-

P(Y<0,66)=0,9484-0,7454=0,203

Material opțional: Operatorii E și V

Calcularea mediei unei variabile aleatoare, uneori denumită şi valoarea

aşteptată a variabilei (în engleză, expected value) se mai realizează prin utilizarea

operatorului E. Astfel, E(X) este uneori notaţia folosită pentru a calcula media

variabilei aleatoare X, notaţie alternativă lui ,x m sau μ.

Pentru o variabilă binară, E(X)=P/N=p, unde P reprezintă numărul

observaţiilor pentru care variabila prezintă acea caracteristică, în timp ce N este

numărul total de observaţii.

Pentru o variabilă aleatoare discretă, ∑=

=n

iii pxXE

1

)( , unde pi reprezintă

probabilitatea de apariţie a fiecărei valori xi.

Pentru o variabilă aleatoare continuă, ∫∞

∞−

= ,)()( dxxxfXE unde f(x) este

densitatea de probabilitate a variabilei X.

55

Notaţiile folosite până acum pentru media variabilei X, respectiv x , m sau μ,

sunt notaţii absolut potrivite pentru media unei singure variabile. Operatorul E este

însă util atunci când se doreşte calcularea valorii aşteptate (a mediei) pentru o

expresie formată din una sau mai multe variabile aleatoare, de exemplu, E(X2),

E(X+Y), E(X2+Y

2) etc.

Considerăm, de exemplu, momentul centrat de ordinul k. Formula de calcul a

acestui indicator este ∑=

−=n

ii

kik pxx

1

)(µ . Practic, aceasta reprezintă media

diferenţei dintre X şi media sa, această diferenţă fiind ridicată la puterea k, fapt

pentru care se mai notează prin ])[(k

xXE − .

Întrucât momentul centrat de ordinul 2 reprezintă dispersia unei variabile

aleatoare, 22 ])[( σ=− xXE , notată uneori V(X). Se introduce astfel un alt operator,

V, V(X) indicând dispersia variabilei aleatoare X (în engleză, variance). La fel ca

operatorul E, și operatorul V este util pentru calcularea dispersiei pentru o expresie

formată din una sau mai multe variabile aleatoare.

stec - capitolul 3

Documents