stec - capitolul 3
DESCRIPTION
STECTRANSCRIPT
41
Capitolul 3 – Probabilităţi şi distribuţii
3.1 Conceptele de experiment, eveniment şi probabilitate
Experimentele aleatorii, care fac obiectul teoriei probabilităţilor şi al statisticii
matematice, sunt acele experimente în urma cărora rezultatele se obţin cu un
anumit grad de incertitudine (un anumit rezultat nu se generează în mod cert).
Exemplu: Aruncarea unui zar constituie un experiment aleatoriu, iar rezultatul
acestui experiment este incert. Cu toate acestea, se cunoaşte ansamblul rezultatelor
posibile, definit prin mulţimea E={1, 2, 3, 4, 5, 6}. Aruncarea unei monede constituie
un alt experiment aleatoriu, ansamblul rezultatelor posibile în acest caz fiind
reprezentat de mulţimea E={C, P} (C = cap, P = pajură).
Un eveniment reprezintă un subansamblu de elemente ale lui E. După
numărul de elemente ale subansamblului, se definesc:
- evenimentele simple, caz în care subansamblul are un singur element;
- evenimentele compuse, care formează partiţii cu cel puţin două elemente simple.
Exemplu: Pentru primul experiment de mai sus, elementele simple sunt reprezentate
de {1}, {2}, {3}, {4}, {5}, {6}. Pentru evenimentul compus C, definit ca „obţinerea
sumei 5 din două aruncări succesive”, se obţine C={(1, 4), (2, 3), (3, 2), (4, 1)}.
Un eveniment este imposibil dacă nu are loc pentru nicio realizare a
experimentului, acest eveniment fiind notat Φ. Un eveniment se numeşte cert dacă
are loc pentru orice realizare a experimentului, acest eveniment fiind notat E.
Exemplu: Evenimentul definit ca „obţinerea sumei 13 din două aruncări succesive ale
unui zar” este un eveniment imposibil, notat Φ. Evenimentul definit ca „obţinerea
unuia dintre numerele mulţimii {1, 2, 3, 4, 5, 6} la aruncarea unui zar” este un
eveniment cert, notat prin E.
Dacă A şi B sunt două evenimente incluse în E, atunci se definesc următoarele
operaţii:
i) Evenimentul complementar lui A, notat A . Acesta este evenimentul care se realizează dacă şi numai dacă nu se realizează A. În particular, evenimentul
imposibil este complementar evenimentului cert, și invers: E=φ şi φ=E .
Exemplu: Dacă evenimentul A este definit drept „obţinerea numărului 2 la aruncarea
unui zar”, atunci evenimentul complementar va fi definit drept „obţinerea numerelor
1, 3, 4, 5 sau 6 la aruncarea unui zar”.
42
ii) Intersecţia lui A cu B, care se notează BA∩ şi presupune realizarea simultană a celor două evenimente, }.|{ BxsiAxxBA ∈∈=∩ În cazul în
care φ=∩ BA , se spune că cele două evenimente sunt incompatibile.
iii) Reuniunea lui A şi B, care se notează BA∪ şi presupune realizarea cel puţin a unuia dintre ele, }.|{ BxsauAxxBA ∈∈=∪
iv) Diferenţa a două evenimente, notată A\B şi definită prin realizarea lui A şi nerealizarea lui B, }.|{\ BxsiAxxBA ∉∈=
Exemplu: Fie evenimentul A, definit drept „obţinerea sumei 6 la aruncarea a două
zaruri”, fapt pentru care A={(1, 5), (2, 4), (3, 3), (4, 2), (5, 1)} şi evenimentul B, definit
drept „obţinerea unei sume mai mare decât 4 şi mai mică sau egală decât 6 la
aruncarea a două zaruri”, fapt pentru care B={(1, 4), (1, 5), (2, 3), (2, 4), (3, 2), (3, 3),
(4, 1), (4, 2), (5, 1)}.
Intersecţia lui A cu B este {(1, 5), (2, 4), (3, 3), (4, 2), (5, 1)}, în acest caz chiar
evenimentul A, iar reuniunea lui A şi B este {(1, 4), (1, 5), (2, 3), (2, 4), (3, 2), (3, 3), (4,
1), (4, 2), (5, 1)}, în acest caz chiar evenimentul B (acest lucru se întâmplă pentru că
mulţimea B include mulţimea A). Diferenţa dintre evenimentele B şi A definite mai
sus este {(1, 4), (2, 3), (3, 2), (4, 1)}.
Dacă niCAi ,...,2,1, =∈ sunt elementele unui sistem de evenimente pentru
care Un
iijii EAjiAAA
1
,,,,=
=≠=∩≠ φφ atunci sistemul se spune că este
complet.
În abordarea clasică, conceptul de probabilitate a fost definit prin intermediul
frecvenţei relative ce se obţine pentru un eveniment repetat de un număr mare de
ori (eventual repetat pe termen lung). M.G. Bulmer numeşte acest concept drept
probabilitate statistică, diferit de probabilitatea inductivă (care reprezintă gradul de
certitudine ce poate fi atribuit unui eveniment). Astfel, dacă un experiment aleatoriu
pentru care evenimentele posibile au aceeaşi şansă de apariţie se repetă de N ori şi
dacă un anumit eveniment A s-a realizat de n ori, atunci probabilitatea
evenimentului A este dată de relaţia P(A)=n/N. Dezavantajul acestei formule este că
permite determinarea probabilităţii doar în cazul experimentelor cu un număr finit
de evenimente egal probabile.
Pentru a înţelege mai bine conceptul de probabilitate vom alege exemplul
datului cu banul. Nimeni nu poate spune cu certitudine în ce fel va cădea moneda
înainte ca aceasta să fie aruncată, dar posibilităţile sunt doar două, numite aici cap
sau pajură. Dat fiind că experimentul este unul foarte simplu, probabilitatea de
apariție a fiecărei variante (cap sau pajură) poate fi dedusă în mod direct: este 50%.
Unii statisticieni folosesc termenul de probabilitate matematică pentru acest gen de
situații, în care probabilitatea poate fi dedusă pe baza caracteristicilor și modului de
43
desfășurare a experimentului. Evident, probabilitatea (statistică, de această dată)
este tot 50%, acest rezultat fiind obținut și dacă acest experiment simplu este
repetat de un număr foarte mare de ori. De-a lungul timpului au existat pasionați
care chiar au verificat aceasta identitate între cele două probabilități. De exemplu, în
timpul celui de-al doilea război mondial, aflându-se internat într-un spital din
Danemarca, statisticianul sud-african John Kerrich a aruncat o monedă de 10.000 de
ori şi a notat rezultatul fiecărei aruncări. La finalul experimentului, proporţia „cap” a
fost 0,5067 iar „pajură” 0,4933. Evoluţia celor două proporţii pe parcursul repetării
acestui experiment este ilustrată în graficul de mai jos.
După cum se poate observa, proporţiile fluctuează puternic la începutul
experimentului, dar se apropie din ce în ce mai mult de o anumită valoare (0,5)
odată cu creşterea numărului de aruncări. Putem presupune că fluctuaţiile vor
continua să se reducă dacă acest experiment ar fi continuat la infinit, proporţia „cap”
şi „pajură” apropiindu-se din ce în ce mai mult de 0,5. Această valoare limită
reprezintă probabilitatea (statistică) pentru „cap”, dar şi pentru „pajură”.
Experimente similare au fost realizate și de alți oameni de știință interesați de
acest subiect. Astfel, Contele Buffon, naturalist francez ce a trăit între anii 1707 și
1788, a dat cu banul de 4.040 de ori, rezultatul final fiind „cap” de 2.048 de ori (deci
o proporție 0,5069), în timp ce, în jurul anului 1900, statisticianul englez Karl Pearson
a dat cu banul de 24.000 de ori, rezultatul final fiind „cap” de 12.012 ori (deci o
proporție 0,5005).
Dacă notăm prin C clasa de partiţii a mulţimii E, atunci se numeşte
probabilitate pe C funcţia P:C→R care satisface axiomele:
i) CAAP ∈∀≥ )(,0)( , deci probabilitatea asociată oricărui eveniment este un
număr nenegativ;
44
ii) P(E)=1, deci probabilitatea evenimentului cert este 1;
iii) Dacă CBA ∈, şi φ=∩ BA , atunci )()()( BPAPBAP +=∪ . Aceasta
înseamnă că, pentru oricare două evenimente A şi B ale aceluiaşi experiment (aparţin aceleiaşi clase de repartiţii) dar incompatibile (se exclud reciproc), probabilitatea evenimentului obţinut prin reuniunea celor două este egală cu suma probabilităţilor celor două evenimente. Această proprietate se mai numeşte legea de adunare a probabilităţilor.
Exemplu: La aruncarea unui zar, probabilitatea de a obţine numărul 2 sau 3 este
P(x=2 sau x=3)=P(x=2)+P(x=3)=1/6+1/6=1/3.
iv) Dacă A şi B sunt două evenimente ale aceluiaşi experiment şi φ≠∩ BA ,
atunci avem ).()()()( BAPBPAPBAP ∩−+=∪
Exemplu: Pentru evenimentul A, definit drept „obţinerea sumei 6 la aruncarea a
două zaruri”, fapt pentru care A={(1, 5), (2, 4), (3, 3), (4, 2), (5, 1)} şi evenimentul B,
definit drept „obţinerea unei sume mai mare decât 4 şi mai mică sau egală decât 6 la
aruncarea a două zaruri”, fapt pentru care B={(1, 4), (1, 5), (2, 3), (2, 4), (3, 2), (3, 3),
(4, 1), (4, 2), (5, 1)}, se obţine P(A)=5/36, P(B)=9/36=1/4, P(A∩B)=5/36, fapt pentru
care P(AUB)=P(A)+P(B)-P(A∩B)=1/4.
v) Dacă B este un eveniment pentru care P(B)≠0, atunci probabilitatea evenimentului A condiţionat de evenimentul B se defineşte prin P(A|B)=P(A∩B)/P(B). Această egalitate se mai poate scrie ca P(A∩B)=P(B) X
P(A|B) şi poartă numele de legea multiplicării probabilităţilor.
Exemplu: Să se determine probabilitatea ca, în urma aruncării unui zar de două ori,
numărul punctelor adunate să fie mai mic sau egal cu 4, dacă la prima aruncare
numărul a fost 1. Pentru aceasta se definesc evenimentele:
B„la prima aruncare a zarului să iasă 1, indiferent de numărul obţinut la a doua
aruncare”. Deci B={(1, 1), (1, 2), (1, 3), (1, 4), (1, 5), (1, 6)}, fapt pentru care
P(B)=6/36.
A„din două aruncări ale zarului, totalul să fie mai mic sau egal cu 4”. Deci A={(1, 1),
(1, 2), (1, 3), (2, 1), (2, 2), (3, 1)}, fapt pentru care P(A)=6/36.
A∩B={(1, 1), (1, 2), (1, 3)}, deci P(A∩B)=3/36. Prin urmare, P(A|B)=P(A∩B)/P(B)=3/6.
Două evenimente se numesc independente dacă P(A∩B)=P(A)*P(B).
Exemplu: Să se determine probabilitatea ca, în urma aruncării unui zar de două ori,
să se obţină doi de 6. Pentru aceasta, definim evenimentele A„la prima aruncare să
iasă 6” şi B„la a doua aruncare să iasă 6”. Întrucât P(A∩B)=P(A)*P(B)=1/6*1/6=1/36,
cele două evenimente sunt independente.
45
3.2 Variabile aleatoare
Variabilele aleatoare sunt variabile pentru care sunt specificate valorile
posibile și probabilitățile de apariție a acestor valori, fiind folosite pentru descrierea
evenimentelor. În acest curs, vom considera că rezultatul unui experiment este un
număr real, sub forma X(ω)=x, x în R. Astfel, notele obţinute de un grup de studenţi
la un examen, numărul de defecţiuni ale unui aparat într-o anumită perioadă de timp
şi numărul de produse defecte într-un lot sunt câteva exemple de variabile
aleatoare. Chiar dacă După efectuarea experimentului știm rezultatul obținut (nota
de la examen, numărul de defecțiuni ale aparatului, numărul de produse defecte
etc.), înaintea acestuia cunoaștem doar posibilele rezultate și probabilitățile de
apariție ale fiecărui rezultat.
După numărul de valori ale variabilei X, distingem:
i) variabile aleatoare cu un număr finit de valori: X={x1, x2, …, xn};
ii) variabile aleatoare cu un număr infinit de valori discrete: X={x1, x2, …, xn, …};
iii) variabile aleatoare cu un număr infinit nenumărabil de valori X=[a, b] în R.
Dacă X are un număr finit sau numărabil de elemente, atunci X este o
variabilă aleatoare discretă. Dacă X are un număr infinit şi nenumărabil de elemente,
atunci X este o variabilă aleatoare continuă.
Notă: Orice mulţime finită este numărabilă. O mulţime infinită este numărabilă dacă
poate fi indexată (este în bijecţie cu mulţimea numerelor naturale N).
Distribuţii de probabilitate (legi sau repartiţii)
Exemplu: Dintr-o urnă care conţine două bile, una albă şi cealaltă neagră, se extrag
succesiv două bile, după prima extragere bila reintroducându-se în urnă. Se defineşte
variabila aleatoare X pentru combinaţiile posibile de culori ale celor două bile la
finalul experimentului. Se obţine deci variabila aleatoare descrisă de tabelul de mai
jos.
Eveniment
elementar
Variabila
aleatoare (X)
Probabilităţi
P(X=xi)
A, A x1 1/4
A, N
N, A x2 1/4+1/4=1/2
N, N x3 1/4
Total 1
46
Exemplul de mai sus arată că fiecărei valori a variabilei aleatoare X={x1, x2, x3}
i se asociază o anumită probabilitate (deci fiecare eveniment are ataşată o
probabilitate). Pentru toate valorile variabilei aleatoare s-a definit astfel o lege de
probabilitate.
Trecerea de la distribuţia frecvenţelor empirice, obţinute în urma observării
repetate a rezultatelor experimentului, la o lege de probabilitate se face în virtutea
legii numerelor mari. Astfel, dacă fi reprezintă frecvenţa relativă de apariţie a
evenimentului X=xi, iar pi este probabilitatea de apariţie a acestui eveniment, atunci,
dacă numărul de observaţii este suficient de mare, poligonul frecvenţelor relative
aproximează graficul unei legi de probabilitate: fi → pi când n → ∞.
Atenţie! Până acum, histograma sau poligonul frecvenţelor au fost trasate
reprezentând pe axa 0Y frecvenţele absolute (ni, numărul efectiv de observaţii din
fiecare grupă). Aceste grafice pot fi realizate în egală măsură şi pe baza frecvenţelor
relative, fi (graficele sunt absolut identice, se modifică doar scala lor). Pentru orice
grupă k, frecvenţa relativă se defineşte prin relaţia fk=nk/n, unde nk este frecvenţa
absolută a grupei k, iar n este numărul total de observaţii. Uneori fk se exprimă
procentual, fapt pentru care relaţia de mai sus se înmulţeşte cu 100.
Variabile aleatoare discrete
Considerăm o variabilă aleatoare discretă pentru care mulţimea valorilor
posibile se prezintă sub forma X={x1, x2, …, xn}. Astfel, fiecare eveniment se notează
prin X=xi, pentru care se asociază o probabilitate pi=P(X=xi). Prin urmare, variabilele
aleatoare discrete se notează, în general, prin
=
i
i
p
xX , cu i=1, 2,…, n, xi
reprezentând valorile posibile şi pi probabilitatea de apariţie a fiecărei valori xi.
Întrucât, în general, evenimentele X=xi formează un sistem complet, are loc
egalitatea ∑=
==n
iixXP
1
1)( .
Exemplul 4.17 din „Statistică, Teorie şi Aplicaţii” de Andrei, Stancu şi Pele (2002).
Distribuţia populaţiei de sex feminin în vârstă de 15 ani şi peste, după numărul
copiilor născuţi vii, la recensământul populaţiei din 7 ianuarie 1992, se prezintă în
tabelul de mai jos (date preluate din Anuarul statistic al României, 1993):
Ideea de bază este aceea că, beneficiind de un număr foarte mare de
observații în tabelul de mai jos (atât numărul total de femei cu copii – peste 6,5
milioane, cât și numărul de femei cu 1, 2, 3… copii), putem considera frecvențele
relative ca reprezentând probabilități (statistice) de apariție a acestor evenimente.
Se impune precizarea că datele reprezintă numărul de copii născuți vii pentru
femeile din România anului 1992, deoarece valoarea 0 copii nu apare în tabel. Prin
47
0
10
20
30
40
1 2 3 4 5 6 7 8 9 10
fi%
k
0
25
50
75
100
1 2 3 4 5 6 7 8 9 10
F(x)
k
Nr. de copii născuţi vii (k)
Numărul de femei
fi=ni/n*100 fi↑
1 1.824.383 27,84 27,84
2 2.402.224 36,66 64,50
3 1.060.094 16,18 80,68
4 631.270 9,63 90,31
5 299.858 4,58 94,89
6 137.317 2,10 96,99
7 76.840 1,17 98,16
8 47.576 0,73 98,89
9 28.624 0,44 99,33
≥10 44.031 0,67 100
Total 6.552.187 100 --
urmare, pe baza acestui tabel,
putem afirma că probabilitatea
ca o femeie din România care
are copii să aibă doi copii era
36,66%, în timp ce
probabilitatea ca o femeie din
România care are copii să aibă
patru copii era 9,63%.
Frecvențele relative cumulate
crescător pot fi și ele
interpretate în termeni
probabilistici. De exemplu,
putem afirma că probabilitatea
ca o femeie din România care are copii să aibă unul sau doi copii era 64,5%, în timp
ce probabilitatea ca o femeie din România care are copii să fi avut în 1992 cel mult
patru copii era 90,31%. Întrucât variantele expuse în tabel sunt toate cele posibile
pentru femeile cu copii din România anului 1992, frecvența relativă cumulată
crescător pentru valoarea „≥10” este 100%.
Pe baza datelor din tabel se construiesc două grafice, histograma din stânga
pentru distribuţia frecvenţelor relative (f) iar graficul din dreapta pentru distribuţia
frecvenţelor relative cumulate crescător (F). Faptul că distribuția frecvențelor
relative nu are forma acelui clopot simetric nu are importanță în acest punct.
Într-un curs anterior am calculat media şi dispersia unei variabile binare.
Aceşti indicatori se calculează în mod similar şi pentru variabilele aleatoare discrete
(unde numărul de variante de mai mare decât 2).
Media variabilei aleatoare discrete: ∑=
==n
iii pxXEx
1
)(
48
Momentul centrat de ordinul k: ∑=
−=−=n
ii
ki
kk pxxxXE
1
)(])[(µ .
La fel ca până acum, momentul centrat de ordinul 2 reprezintă dispersia
(varianţa) variabilei aleatoare discrete. Apoi, într-un mod similar cursurilor
anterioare, se pot calcula coeficientul de variaţie şi ceilalţi indicatori prezentaţi.
Exemplu: Tabelul de mai jos prezintă notele obținute de 130 de studenți la un anumit
curs.
Note Număr de studenți
fi(%) fi↑
0-1 3 2,31 2,31
1-2 9 6,92 9,23
2-3 18 13,85 23,08
3-4 22 16,92 40,00
4-5 23 17,69 57,69
5-6 20 15,38 73,08
6-7 15 11,54 84,62
7-8 12 9,23 93,85
8-9 6 4,62 98,46
9-10 2 1,54 100
Total 130 100 --
În continuare vom ignora faptul că numărul total de observații nu este foarte
mare și, mai ales, că numărul de observații pentru câteva grupe de note este chiar
redus (alternativ, ne-am putea gândi că valorile din coloana 2 reprezintă mii sau zeci
de mii de studenți care au susținut acel curs pe parcursul mai multor ani în cadrul
mai multor facultăți). Graficele de mai jos prezintă frecvențele relative, f(x), și
frecvențele relative cumulate crescător, F(x). Interpretarea datelor din ultimele două
coloane ale tabelului se face în mod similar cu exemplul anterior, frecvențele relative
putând fi interpretate ca probabilități. De exemplu, se poate afirma că probabilitatea
2.31
6.92
13.85
16.9217.69
15.38
11.54
9.23
4.62
1.54
0
4
8
12
16
20
0-1 1-2 2-3 3-4 4-5 5-6 6-7 7-8 8-9 9-10
Note
2.31
9.23
23.08
40.00
57.69
73.08
84.62
93.85 98.46 100.00
0
10
20
30
40
50
60
70
80
90
100
0-1 1-2 2-3 3-4 4-5 5-6 6-7 7-8 8-9 9-10
Note
F(x)f(x)
49
ca un student să ia o notă între 5 și 6 la acest curs este 15,38%, în timp ce
probabilitatea ca un student să ia o notă sub 4 la acest curs este 40%.
Variabile aleatoare continue
Pentru orice variabilă aleatoare continuă X, poligonul frecvenţelor relative
devine o curbă ce reprezintă probabilitatea de apariţie a fiecărei posibile valori x a
acelei variabile aleatoare. Practic, această curbă este reprezentarea grafică a unei
funcţii numite densitatea de probabilitate, funcţie care caracterizează complet
variabila aleatoare X. În afară de densitatea de probabilitate, pentru variabilele
aleatoare continue se mai determină funcţia de repartiţie, funcţie care dă ponderea
unităţilor care au valoarea caracteristicii mai mică decât o anumită valoare, fixată.
Prin urmare, în timp ce densitatea de probabilitate este echivalenta
distribuţiei frecvenţelor relative pentru variabilele discrete, funcţia de repartiţie este
echivalenta frecvenţelor relative cumulate crescător. Vom prezenta aceste concepte
pentru repartiţia cel mai des întâlnită în practica şi teoria statistică, respectiv pentru
legea normală.
3.3 Legea normală
Matematicianul și fizicianul german Johann Carl Friederich Gauss (1777-
1855), unul dintre cei mai influenți oameni de știință din istorie, considerat de mulți
drept cel mai important matematician după cei antici, formalizează în anul 1810
distribuția normală (de unde și termenul foarte uzual de „clopot al lui Gauss”): fie X o
variabilă aleatoare continuă care urmează o repartiţie normală de medie m şi
abatere standard σ, notată N(m, σ2). Densitatea de probabilitate, notată f, cu
f:R→[0,1], este:
2
2
2
)(
2
1)( σ
πσ
mx
exf−
−=
Dacă se construieşte o nouă variabilă aleatoare Y, astfel încât Y=(X-m)/σ,
atunci această nouă variabilă va urma o repartiţie normală caracterizată de medie
zero şi abatere standard unitară, notată N(0,1). Această repartiţie particulară se
numeşte repartiţia normală normată sau repartiţia normală centrată redusă.
Înlocuind m=0 şi σ=1 în expresia de mai sus se obţine densitatea de
probabilitate a variabilei Y~N(0,1):
2
2
2
1)(
y
eyf−
=π
Graficul de mai jos ilustrează densitatea de probabilitate (aici notată prin φ)
pentru câteva valori ale mediei (aici notată prin μ) şi dispersiei σ2.
50
După cum se poate observa, graficul repartiţiei normale se prezintă sub
forma unui clopot simetric, axa de simetrie fiind dată de media seriei de date. Aşa
cum am arătat în secţiunea referitoare la forma seriilor de distribuţie, pentru
repartiţiile simetrice valoarea modală coincide cu cea mediană, ambele fiind egale şi
cu media seriei.
Pentru legea normală, în timp ce media (notată m sau μ) determină poziţia
curbei faţă de axa 0Y, abaterea standard σ (indicator al dispersării unităţilor
populaţiei în jurul mediei) determină deschiderea clopotului, o valoare mai ridicată a
σ indicând un grad de dispersare mai mare, deci o curbă mai aplatizată.
Pentru variabila aleatoare X descrisă mai sus, funcţia de repartiţie
(echivalenta frecvenţelor relative cumulate crescător), notată F, este dată de relația:
∫ ∫∞− ∞−
−−==<=
x x mt
dtedttfxXPxF2
2
2
)(
2
1)()()( σ
πσ
Graficul de mai jos (vezi pagina următoare) ilustrează forma funcţiilor de
repartiţie (aici notate prin Φ) pentru cele patru distribuţii normale din graficul
anterior.
Ambele grafice ilustrate aici seamănă foarte mult cu graficele prezentate mai
sus, pentru exemplul notelor celor 130 de studenți. Diferența esențială vine din
faptul că, în timp ce exemplul nostru anterior se referea la o variabilă aleatoare
discretă, acum vorbim de variabile aleatoare continue. În rest, lucrurile sunt similare
conceptual, densitatea de probabilitate fiind corespondenta frecvenței relative, în
timp ce funcția de repartiție este corespondenta frecvenței relative cumulate
51
crescător. Prin urmare, aceste două funcții vor fi utilizate în mod similar utilizării
frecvențelor relative, pentru a calcula anumite probabilități de apariție a unui
fenomen de interes.
Caracteristicile legii normale:
i) media, uneori notată şi E(X), este mdxxxf =∫∞
∞−
)(
ii) dispersia, uneori notată şiV(X), este 22 )()( σ=−∫∞
∞−
dxxfmx
iii) coeficienţii de asimetrie CasYK=CasP=CasF=0
iv) coeficientul de aplatizare CapP=3
Din simetria legii normale se obţine:
i) f(m+x)=f(m-x), Rx ∈∀)( . În particular, dacă m=0, f(x)=f(-x).
ii) ∫+
+∈=+<<−xm
m
RxdttfxmXxmP *,)(2)( .
Pentru m=0 avem ∫ +∈=+<<−x
RxdttfxXxP0
*,)(2)(
Graficul de mai jos ilustrează din nou densitatea de probabilitate a distribuţiei
normale, fiind reprezentată o distribuție de medie zero și dispersie σ2, deci
X˜N(0,σ2). Ceea ce ar trebui reținut este faptul că, pentru o distribuție normală,
aproximativ 68% din observații se încadrează în intervalul de valori (m-σ, m+σ), deci
diferă de medie cu cel mult o abatere standard (în plus sau în minus). Apoi,
52
aproximativ 95% din observații se încadrează în intervalul de valori (m-2σ, m+2σ),
deci diferă de medie cu cel mult două abateri standard (din nou, în plus sau în
minus). În fine, graficul de mai jos arată că aproximativ 99% din observațiile seriei se
încadrează în intervalul de valori (m-3σ, m+3σ), deci diferă de medie cu cel mult trei
abateri standard.
P(m-σ<X<m+σ)=68,2%, P(m-2σ<X<m+2σ)=95,44%,P(m-3σ<X<m+3σ)=99,74%
Material opțional: Utilizarea tabelelor legii normale
În operaţiile practice, pentru calcularea valorilor funcţiei de repartiţie
∫∞−
=x
dttfxF )()( , se utilizează tabelele întocmite pentru repartiţia normală normată
N(0,1). Aşa cum menţionam mai sus, F(x) reprezintă probabilitatea ca variabila
aleatoare X să ia o valoare sub valoarea x, respectiv F(x)=P(X<x).
Majoritatea cărţilor de statistică conţin în anexe tabelele repartiţiei normale
normate. În cele ce urmează, vom folosi tabelul prezentat în Anexa 1, similar cu cel
din „Statistică, Teorie şi aplicaţii” de Andrei, Stancu şi Pele (2002), pag. 561. Acest
tabel, construit pentru funcţia de repartiţie N(0,1), indică probabilităţile P(X<z)=F(z).
Prima coloană indică partea întreagă a valorii lui z, în timp ce prima linie indică a
doua sa zecimală. Prin urmare, valorile de la intersecţia liniilor şi coloanelor indică
probabilitatea ca X să fie mai mic decât z (exprimat cu două zecimale).
Folosind acest tabel se pot determina mai multe probabilităţi, printre care:
i) P(X<x), probabilitatea ca valoarea variabilei să fie mai mică decât o valoare dată x>0.
Exemplu: Determinaţi P(X<1,43). Folosind tabelul din Anexa 1, se observă că
F(1,43)=P(X<1,43)=0,92364.
ii) P(X>x), probabilitatea ca X să fie superioară unei valori date x>0. Întrucât P(X<x)+P(X>x)=1,rezultă că P(X>x)=1-P(X<x).
53
Exemplu: Determinaţi P(X>1,43). Întrucât P(X>1,43)=1-P(X<1,43) şi
P(X<1,43)=0,92364, rezultă că P(X>1,43)=1-0,92364=0,07636.
iii) P(x1<X<x2), probabilitatea ca X să se încadreze între valorile x1 şi x2, cu x1<x2.
Întrucât ∫=<<2
1
)()( 21
x
x
dttfxXxP , ∫ ∫ ∫ ∫∞
∞− ∞−
∞
=++=1 2
1 2
1)()()()(x x
x x
dttfdttfdttfdttf
şi ∫ ∫∞
∞−
−=2
2
)(1)(x
x
dttfdttf , se obţine
∫ ∫∞− ∞−
−=<−<=−=<<2 1
)()()()()()()( 121221
x x
xFxFxXPxXPdttfdttfxXxP
Exemplu: Să se determine probabilitatea ca X să aparţină intervalului (1,32;
1,37). Folosind formulele de mai sus, se obţine P(1,32<X<1,37)=P(X<1,37)-
P(X<1,32)=F(1,37)-F(1,32)=0,91466-0,90658=0,00808
iv) P(|X|<x), probabilitatea ca |X|<x, cu x un număr real pozitiv. Pentru o astfel de valoare a lui x, din simetria legii normale reiese că P(X<-x)=P(X>x). Prin urmare
∫ ∫∫∫−
−
∞−
∞−
∞−
−<−=−=
+−==<
x
x
x
x
x
xXPdttfdttfdttfdttfxXP .)(21)(21)()(1)()|(|
P(X<-x)=P(X>x)=1-P(X<x), fapt pentru care formula de mai sus devine 2P(X<x)-
1.
Exemplu: Să se determine probabilitatea ca |X|<1,96. Conform celor de mai
sus, P(|X|<1,96)=1-2P(X<-1,96)=2P(X<1,96)-1.Tabelul din Anexa 1 arată că
P(X<1,96)=0,975, fapt pentru care P(|X|<1,96)=2*0,975-1=0,95.
De cele mai multe ori, repartiţia unei populaţii nu este definită direct prin
normala centrată redusă N(0,1), ci printr-o lege normală de medie m şi dispersie σ2,
N(m,σ2). De exemplu, dacă am analiza înălțimea unor indivizi, atunci media
populației ar fi probabil m=165cm pentru femei și m=175cm pentru bărbați, nu zero.
De aceea, pentru utilizarea tabelului repartiţiei N(0,1) se realizează schimbarea de
variabilă menţionată anterior, respectiv Y=(X-m)/σ, care asigură trecerea de la
distribuția normală observată în practică la legea normală normată. Prin această
schimbare se obţine egalitatea ),()()( yYPmxmX
PxXP <=−<−=<σσ
ultima
valoare citindu-se din tabelul legii N(0,1).
Exemplu: Fie variabila aleatoare X distribuită N(3;2,42). Să se determine P(X<6) şi
P(2<X<6).
.89435,0)25,1()4,2
36
4,2
3()6( =<=−<−=< YP
XPXP
54
)42,0()25,1()25,142,0()4,2
36
4,2
3
4,2
32()62( −<−<=<<−=−<−<−=<< YPYPYP
XPXP
Simetria distribuţiei normale implică P(Y<-0,42)=P(Y>0,42)=1-P(Y<0,42). De aceea,
P(2<X<6)=P(Y<1,25)-1+P(Y<0,42)=0,89435-1+0,66276=0,55711.
Exemplu: Dacă ne gândim la cei 130 de studenți care au susținut cursul și ale căror
note sunt cuprinse în tabelul de la pagina 45 ca fiind reprezentativi pentru o
populație distribuită normal cu medie m=4,65 și dispersie σ2=4,21 (acestea fiind
valorile calculate pe baza celor 130 de observații care stau la baza tabelului), atunci
putem determina anumite probabilități de interes pentru trei studenți care se
gândesc să urmeze acest curs.
Astfel, un prim student ar putea fi interesat care este probabilitatea de a lua notă de
trecere la curs, deci P(X>5), unde X~N(4,65; 4,21):
P(X>5)=1-P(X<5)=1-P((X-4,65)/2,05<(5-4,65)/2,05)=1-P(Y<0,17)=1-0,5675=0,4325
Un alt student, care încearcă să obțină bursă de studii, ar putea fi interesat de
probabilitatea de a lua o notă peste 8 la curs, deci P(X>8), unde X~N(4,65; 4,21):
P(X>8)=1-P(X<8)=1-P((X-4,65)/2,05<(8-4,65)/2,05)=1-P(Y<1,63)=1-0,9484=0,0516
În fine, ne-am putea gândi că un al treilea student ar putea fi interesat de
probabilitatea de a lua o notă între 6 și 8 la acest curs, deci P(6<X<8):
P(6<X<8)=P((6-4,65)/2,05<(X-4,65)/2,05<(8-4,65)/2,05)=P(0,66<Y<1,63)=P(Y<1,63)-
P(Y<0,66)=0,9484-0,7454=0,203
Material opțional: Operatorii E și V
Calcularea mediei unei variabile aleatoare, uneori denumită şi valoarea
aşteptată a variabilei (în engleză, expected value) se mai realizează prin utilizarea
operatorului E. Astfel, E(X) este uneori notaţia folosită pentru a calcula media
variabilei aleatoare X, notaţie alternativă lui ,x m sau μ.
Pentru o variabilă binară, E(X)=P/N=p, unde P reprezintă numărul
observaţiilor pentru care variabila prezintă acea caracteristică, în timp ce N este
numărul total de observaţii.
Pentru o variabilă aleatoare discretă, ∑=
=n
iii pxXE
1
)( , unde pi reprezintă
probabilitatea de apariţie a fiecărei valori xi.
Pentru o variabilă aleatoare continuă, ∫∞
∞−
= ,)()( dxxxfXE unde f(x) este
densitatea de probabilitate a variabilei X.
55
Notaţiile folosite până acum pentru media variabilei X, respectiv x , m sau μ,
sunt notaţii absolut potrivite pentru media unei singure variabile. Operatorul E este
însă util atunci când se doreşte calcularea valorii aşteptate (a mediei) pentru o
expresie formată din una sau mai multe variabile aleatoare, de exemplu, E(X2),
E(X+Y), E(X2+Y
2) etc.
Considerăm, de exemplu, momentul centrat de ordinul k. Formula de calcul a
acestui indicator este ∑=
−=n
ii
kik pxx
1
)(µ . Practic, aceasta reprezintă media
diferenţei dintre X şi media sa, această diferenţă fiind ridicată la puterea k, fapt
pentru care se mai notează prin ])[(k
xXE − .
Întrucât momentul centrat de ordinul 2 reprezintă dispersia unei variabile
aleatoare, 22 ])[( σ=− xXE , notată uneori V(X). Se introduce astfel un alt operator,
V, V(X) indicând dispersia variabilei aleatoare X (în engleză, variance). La fel ca
operatorul E, și operatorul V este util pentru calcularea dispersiei pentru o expresie
formată din una sau mai multe variabile aleatoare.