probabilita

11
1 Eventi Consideriamo solo eventi decidibili per i quali si possa dire che sono o veri o falsi. Gli eventi aleatori non sono determinabili con certezza Esempio - Esperimenti aleatori 1 Lancio di una moneta (T,C); 2 Lancio di un dado (1,2,3,4,5,6). Indichiamo con Ω l’evento certo (accade sempre). Esso ` e formato dalla partizione di eventi elementari. Esempio - Ω e gli ω i {ω 1 = T,ω 2 = C}; {ω 1 =12 =2,...,ω 6 =6}. 2 σ - algebra e i tre assiomi della probabilit` a Su Ω si definisce un insieme di eventi ai quali si vuole assegnare una probabilit` a. Tale insieme che ` e chiuso rispetto alle operazioni di negazione, intersezione (e quindi unione grazie alla legge di DeMorgan: A B = ¯ A ¯ B) prende il nome di algebra degli eventi o σ - algebra. Esempio - A 1 A = {T,C, Ø, Ω}; 2 A = {1, 2, 3, 4, 5, 6, Tutte le intersezioni, Tutte le unioni, Ø, Ω}. La probabilit` a non ` e definita univocamente ed esistono tre definizioni: definizione razionalista La probabilit` a` e il quoziente tra i casi favorevoli e quelli possibili. Utile per giocare a carte, ma poco utile se si vuole calcolare la probabilit` a che un aereo precipiti. definizione frequentista In infinite prove sperimentali tutte uguali, la probabilit` a di un esito sperimentale ` e il limite del quoziente tra il numero di successi e numero di prove. Utile per capire se un dado ` e truccato ed ` e molto utilizzata nell’analisi di simulazione di numeri pseudo casuali. Tuttavia ` e di scarso interesse se volessi calcolare la probabilit` a che precipiti l’aereo su cui sto per salire. definizione soggettivistica La probabilit` a` e il grado di fiducia che un individuo attribuisce ad un evento. Esso ` e collegato al concetto epistemico di probabilit` a, in cui la probabilit` a` e la quantit` a di moneta disposto a pagare per scommettere su un evento e quindi ricevere un premio pari a 1 unit` a di moneta. 1

Upload: riccardo

Post on 12-Jan-2016

4 views

Category:

Documents


0 download

DESCRIPTION

Bayes probabilità

TRANSCRIPT

Page 1: probabilita

1 Eventi

Consideriamo solo eventi decidibili per i quali si possa dire che sono o veri ofalsi. Gli eventi aleatori non sono determinabili con certezza

Esempio - Esperimenti aleatori

1 Lancio di una moneta (T,C);

2 Lancio di un dado (1,2,3,4,5,6).

Indichiamo con Ω l’evento certo (accade sempre). Esso e formato dallapartizione di eventi elementari.

Esempio - Ω e gli ωi

1 Ωω1 = T, ω2 = C;

2 Ωω1 = 1, ω2 = 2, . . . , ω6 = 6.

2 σ − algebra e i tre assiomi della probabilita

Su Ω si definisce un insieme di eventi ai quali si vuole assegnare una probabilita.Tale insieme che e chiuso rispetto alle operazioni di negazione, intersezione (e

quindi unione grazie alla legge di DeMorgan: A ∪ B = A ∩ B) prende il nomedi algebra degli eventi o σ − algebra.

Esempio - A

1 A = T, C, Ø, Ω;

2 A = 1, 2, 3, 4, 5, 6, Tutte le intersezioni, Tutte le unioni, Ø, Ω.

La probabilita non e definita univocamente ed esistono tre definizioni:

• definizione razionalista La probabilita e il quoziente tra i casi favorevolie quelli possibili. Utile per giocare a carte, ma poco utile se si vuolecalcolare la probabilita che un aereo precipiti.

• definizione frequentista In infinite prove sperimentali tutte uguali, laprobabilita di un esito sperimentale e il limite del quoziente tra il numerodi successi e numero di prove. Utile per capire se un dado e truccatoed e molto utilizzata nell’analisi di simulazione di numeri pseudo casuali.Tuttavia e di scarso interesse se volessi calcolare la probabilita che precipitil’aereo su cui sto per salire.

• definizione soggettivistica La probabilita e il grado di fiducia che unindividuo attribuisce ad un evento. Esso e collegato al concetto epistemicodi probabilita, in cui la probabilita e la quantita di moneta disposto apagare per scommettere su un evento e quindi ricevere un premio pari a1 unita di moneta.

1

Page 2: probabilita

I calcoli di probabilita sugli eventi si basano su 3 assiomi per il calcolo delleprobabilita utilizzati nel corso sono i seguenti.

1 ∀A ∈ A, e associato un numero reale 0 ≤ Pr(A) ≤ 1;

2 Pr(Ω) = 1;

3 ∀A, B ∈ A, con A ∩ B = Ø, ⇒ Pr(A ∪ B) = Pr(A) + Pr(B).

Tale sistema di assiomi si completano con la definizione di probabilita con-dizionata per gli eventi A, B ∈ A, con Pr(B) > 0. Si definisce probabilita di Acondizionata all’accadere di B o, piu semplicemente, di A dato B il rapporto

Pr(A | B) =Pr(A ∩ B)

Pr(B),

che nella versionePr(A ∩ B) = Pr(A | B) Pr(B)

prende il nome di teorema delle probabilita composte.La terna Ω,A, P e detta spazio di probabilita.

3 Indipendenza

Due eventi si dicono indipendenti stocasticamente se

Pr(A | B) = Pr(A).

A parole la definizione puo avere la seguente interpretazione: la conoscenzadi B non ci apporta nulla sulla conoscenza di A. La dipendenza stocasticanon e insita negli eventi, ma nell’assegnazione della probabilita agli eventi.Dall’indipendenza discende che

Pr(A ∩ B) = Pr(A) Pr(B).

4 Teorema di Bayes

La seguente formula permette di ricostruire la probabilita di un evento a partiredalle probabilita condizionate:

Pr(E) = Pr(H) Pr(E | H) + Pr(H) Pr(E | H), ∀H, E ⊂ Ω.

Il Teorema di Bayes ci permette di aggiornare la nostra credenza a priori suun’ipotesi H in seguito all’esito E dell’esperimento. Dato l’evento E ⊂ Ω e lapartizione dell’evento certo Hj , j = 1, . . . , k, con Pr(E) > 0 e Pr(Hj) > 0, ∀j,si ha

Pr(Hj | E) = Pr(Hj) ·Pr(E | Hj)

Pr(E)=

Pr(Hj) Pr(E | Hj)∑k

i=1 Pr(Hi) Pr(E | Hi).

2

Page 3: probabilita

E’ conveniente rappresentare il teorema di Bayes tramite un albero.Esempio - Teorema di Bayes

Supponiamo che una malattia rara,H abbia una certa incidenza sulla popolazio-

ne Pr(H)=110−4 (quindi Pr(H) = 1 − Pr(H) = 1 − 10−4) e che esista una procedura

di test che rileva la malattia E (E rappresenta l’esito del test, l’evidenza em-pirica) con le seguenti probabilita: quando il soggetto e malato la probabilitache il test sia positivo e Pr(E | H) = 0.9, mentre se e sano l’errore del test ePr(E | H) = 0.1. Calcolare la probabilita che una persona sia malata quando iltest e positivo.

Pr(H | E) =Pr(E | H) Pr(H)

Pr(E | H) Pr(H) + Pr(E | H) Pr(H)

=0.9 · 10−4

0.9 · 10−4 + 0.1 · (1 − 10−4)

≈ 9 · 10−4,

Ovvero la nostra credenza sul fatto che la persona abbia la malattia e aumentatadi circa 9 volte, tuttavia e sempre una probabilita relativamente piccola.

5 Variabili Aleatorie

Per un dato spazio di probabilita Ω,A, P, La variabile aleatoria (v.a.) X ∈ Xe una applicazione X(ω) su Ω. A seconda di X , la v.a. puo essere quantitativa(continua, discreta) o qualitativa (ordinabile/non ordinabile). Indichiamo conx la realizzazione della v.a. La legge di probabilita di X e quella indotta da Psu A.

6 Alcuni risultati elementari

Alcuni risultati elementari per il calcolo delle probabilita

• ∀A ∈ A, Pr(A) + Pr(A) = 1.

• Pr(Ø) = 0.

• ∀A ∈ A, Pr(A) ≤ 1.

• Se A ⊂ B ⇒ Pr(A) ≤ Pr(B).

• ∀A, B ∈ A si ha Pr(A ∪ B) = Pr(A) + Pr(B) − Pr(A ∩ B).

• Per ogni collezione A1, A2, . . . , An ∈ A si ha Pr(⋃n

j=1 Aj) ≤∑n

j=1 Pr(Aj).

• ∀A, B ∈ A si ha Pr(A ∪ B) ≥ Pr(A) + Pr(B) − 1.

• Teorema delle probabilita totali. Per ogni collezione di eventi mutua-mente incompatibili A1, A2, . . . , An ∈ A si ha Pr(

⋃n

j=1 Aj) =∑n

j=1 Pr(Aj).

3

Page 4: probabilita

Esempio - Variabile Aleatoria

1 A = T, C, Ø, Ω, supponiamo che Pr(T ) = Pr(C), allora la v.a. X comevale 1 se ω = T e 0 altrimenti ha la seguente legge di probabilita: Pr(X =1) = Pr(X = 0) = 0.5;

2a A = 1, 2, 3, 4, 5, 6, Ø, Ω, supponiamo che il dado sia equilibrato e cheX conti il punteggio in 1 lancio del dado. Allora Pr(X = x) = 1/6, x =1, . . . , 6.

2b A = 1, 2, 3, 4, 5, 6, Ø, Ω, supponiamo che il dado sia equilibrato allorala v.a. X definita come vale 1 se il risultato e pari e 0 altrimenti ha laseguente legge di probabilita: Pr(X = 1) = Pr(X = 0) = 0.5.

7 Funzione di ripartizione e densita

Si definisce funzione di ripartizione (in sigla f.r.) o funzione cumulata di probabilita

della v.a. X ∈ X la funzione F (x) = Pr(X < x).Valgono le intuitive proprieta: (i) limx→−∞ F (x) = 0, limx→+∞ F (x) = 1;

(ii) ∀x1 < x2 ⇒ F (x1) ≤ F (x2); (iii) F (x) = F (x−). E facile vedere chePr(x ≤ X < x + h) = F (x + h) − F (x), ∀h > 0.Se la v.a. X e discreta si ha F (x) =

u<x Pr(X = u) =∑

u<x f(u), essendof(u) = Pr(X = u), inoltre

x∈X f(x) = 1. Se la v.a. X assume valori reali edesiste il limite

limh↓0

Pr(x ≤ X < x + h)

h= lim

h↓0

F (x + h) − F (x)

h= f(x) , x ∈ X ,

la v.a. X e detta assolutamente continua (in sigla a.c.) in x. Il limite f(x)prende il nome di funzione di densita di probabilita (in sigla f.d.p.) della v.a. X .

La f.r. F (x) e una funzione integrale, potendosi rappresentare come integraledi una certa funzione f(x) ≥ 0: F (x) =

∫ x

−∞f(u) du. Ed ancora: dF (x) =

f(x)dx ∼=∫ x+dx

xf(u)du = Pr(x ≤ X < x + dx), Pr(X ∈ E) =

x∈Ef(x)dx,

x∈Xf(x)dx = 1, etc.

8 Speranza matematica, Varianza e Momenti

Si definisce speranza matematica della funzione aleatoria ϕ(X), la quantita cer-

ta (se esiste) E[ϕ(X)] =∑

x∈X ϕ(x) f(x), nel caso discreto, e E[ϕ(X)] =∫

Xϕ(x) f(x)dx, nel caso continuo.

La speranza matematica di ϕ(X) = Xk, k ∈ N, µ′k = E(Xk) =

x∈X xkf(x),

caso discreto, e µ′k = E(Xk) =

Xxkf(x)dx, caso continuo, prende il nome di

momento k−esimo della v.a. X .Se k = 1, si ha µ′

1 = µ = E(X), che prende il nome di media. La speranzamatematica di ϕ(X) = (X − µ)2, indicata con σ2 = V ar(X) = E[(X − µ)2],

4

Page 5: probabilita

prende il nome di varianza della v.a. X . La quantita σ =√

σ2 prende il nomedi s.q.m. o s.d. della v.a. X .

Se la v.a. X ha momento k−esimo, k ∈ N, allora essa possiede tutti imomenti di ordine inferiore a k. Non e detto il viceversa.

Si definisce coefficiente di variazione della la v.a. X > 0 il rapporto γV =s

µ.

I momenti godono di utili proprieta in parte gia viste in precedenza:

• V ar(X) = E(X2) − [E(X)]2

• E(aX + b) = a E(X) + b.

• V ar(aX + b) = a2 V ar(X).

• E(c) = c, V ar(c) = 0, E[(X − a)2] = V ar(X) + (µ − a)2.

La diseguaglianza di Tchebycheff (1821-1894) e di estrema importanza nelcalcolo delle probabilita e nell’analisi statistica: per ogni k > 0 reale si ha che

Pr(|X − µ| ≥ kσ) ≤ 1

k2.

Esempio: supponiamo di non conoscere la distribuzione di X , ma sappiamo solola media µ = 100 e la varianza σ2 = 4, allora la Pr(|X − 100| ≥ 3) ≤ 0.44.

9 Modelli Probabilistici

I modelli introdotti di seguito trovano amplia applicazione in statistica. Con ilsimbolo X ∼ p(x | θ) si simboleggia il fatto che la v.a. X e distribuita secondo lalegge p conoscendone gli opportuni parametri θ. Distingueremo tra leggi discretee continue. Tra loro e possibile trovare delle relazioni che le accomunano. Inparticolare si vedra in seguito il teorema del limite centrale.

10 Leggi discrete

10.1 Uniforme Discreta

Consideriamo X partizionato in k < ∞ classi e assegniamo ad ogni classe laprobabilita p = 1/k. La legge dice che ogni classe e equiprobabile. Esempio: ilpunteggio nel lancio di un dado equilibrato segue una legge uniforme discretasull’insieme X = 1, 2, 3, 4, 5, 6 con p = 1/6.

10.2 Bernoulli Bin(1, p)

Questo modello determina la probabilita di successo o insuccesso in 1 provaessendo p la probabilita di successo. X = 1 se si e verificato un successo.

5

Page 6: probabilita

Consideriamo X = 0, 1 e p = Pr(X = 1) rappresenta la probabilita disuccesso. La legge di Bernoulli ha la seguente forma

Pr(X = x | p) = px(1 − p)1−x.

La media e µ = p e la varianza e σ2 = p(1−p). Esempio: Lancio di una monetaequilibrata dove T rappresenta il successo. Pertanto Pr(X = x) = 0.5x0.51−x.Il punteggio medio e 0.5 e la varianza e 0.25. Si noti che per p = 0.5 la varianzae massima e la distribuzione e simmetrica.

10.3 Binomiale Bin(n, p)

Questo modello determina la probabilita di successo o insuccesso in n provebernoulliane indipendenti e identicamente distribuite con probabilita di succes-so p. X conta il numero di successi in n prove. La somma di n v.a. di Ber-noulli indipendenti e identicamente distribuite (nel seguito iid) segue la leggeBinomiale

Pr(X = x | p) =

(

n

x

)

px(1 − p)n−x, X ∈ X = 0, 1, 2, . . . , n,

dove(

n

x

)

e il coefficiente binomiale(

n

x

)

=n!

x!(n − x)!.

La media della somma di n v.a. di bernoulli e la media della binomiale µ = npe la varianza della somma di n v.a. bernoulliane indipendenti e σ2 = np(1− p).Esempio: in 10 lanci di una moneta la probabilita di osservare piu di 2 teste e

Pr(X > 2) = 1−Pr(X ≤ 1) = 1−Pr(X = 0)−Pr(X = 1) = 1−0.00097−0.00986 = 0.9892.

10.4 Geometrica G(p)

Questo modello determina la probabilita di ottenere 1 successo in X prove. Xconta il numero delle prove necessarie per ottenere 1 successo, cioe il successo eottenuto alla x-esima prova.

Pr(X = x | p) = p(1 − p)x−1.

E(X) = 1/p, V ar(X) = (1 − p)/p2.

10.5 Pascal

Questo modello determina la probabilita di ottenere k ≥ 1 successi in X prove.X conta il numero delle prove necessarie per ottenere k successi, cioe il successok-esimo e ottenuto alla x-esima prova.

Pr(X = x | p) =

(

(x − 1)

k − 1

)

pk(1 − p)x−k.

E(X) = k/p, V ar(X) = k(1 − p)/p2.

6

Page 7: probabilita

10.6 Binomiale negativa BiNeg(p)

Questo modello determina la probabilita di ottenere k ≥ 1 successi dopo Yinsuccessi. Y conta il numero di insuccessi necessari per ottenere k successi,cioe il successo k-esimo e ottenuto dopo l’y-esimo insuccesso. Il modello siottiene dal modello Pascal sostituendo x = k + y

Pr(Y = y | p) =

(

(k + y − 1)

k − 1

)

pk(1 − p)y.

E(Y ) = k(1 − p)/p−, V ar(Y ) = k(1 − p)/p2.

10.7 Ipergeometrica

Questo modello determina la probabilita di X successi in n estrazioni da un urnache contiene N oggetti di cui D determinano successi e N − D insuccessi. Lacomposizione le urne precedenti corrispondono al caso N = ∞. La probabilitadi X = x e data dal quoziente tra il numero di casi favorevoli su quelli possibili(

N

n

)

Pr(X = x | D, N) =

(

D

x

)(

N−D

n−x

)

(

Nn

) .

La media e nDN

e la varianza e nDN

(

1 − DN

)

(

N−nN−1

)

.

10.8 Poisson Poisson(λ)

Questo modello determina la probabilita di X eventi rari in un numero infinitodi prove. Si ottiene come limite per n → ∞, np → λ > 0 della legge binomiale:

Pr(X = x | λ) =n!

x!(n − x)!px(1 − p)n−x

=n(n − 1) · · · (n − x + 1)

x!

(

λ

n

)x (

1 − λ

n

)n−x

=n(n − 1) · · · (n − x + 1)

nx

λx

x!

(

1 − λ

n

)n (

1 − λ

n

)−x

≈ λx

x!e−λ

Questa legge ha la caratteristica che la media e la varianza sono uguali e paria λ. Il parametro λ e anche chiamata intensita del processo di Poisson nell’in-tervallo di tempo unitario. Esempio1: il numero di chiamate ad un centralinotelefonico e pari a 5 all’ora. Calcolare la probabilita che ci siano esattamente 5chiamate in 2 ore. L’intensita del processo in 2 ore e pari a 2λ = 10, dunquela probabilita cercata e Pr(X = 5) = 105/5!e−10 = 0.0378. Esempio2: Sup-poniamo nell’esempio precedente che la probabilita di ricevere una chiamata alminuto sia p = 5/60. Calcoliamo la probabilita di ricevere 5 chiamate in 2 ore.

7

Page 8: probabilita

Utilizzando il modello binomiale n = 60∗2 = 120 si ottiene Pr(X = 5) = 0.0345simile a quella ottenuta con il modello di Poisson che approssima la probabilitaottenuta con il modello Binomiale. Quando n e elevato non e possibile calcolarela probabilita di successo con il modello Binomiale (numericamente difficile pervia del coefficiente binomiale) e occorre utilizzare il modello di Poisson comeapprossimazione.

11 Leggi continue

Le leggi qui presentate fanno riferimento a una v.a. X ∈ X ⊂ R.

11.1 Uniforme U(0, 1)

La variabile X ha legge uniforme nell’intervallo di lunghezza finita [a, b] assegnaad ogni punto in [a, b] la stessa densita

f(x | a, b) =1

b − a.

La media e a+b2 e la varianza e (a−b)2

12

11.2 Normale N(µ, σ)

La variabile −∞ < X < ∞ e distribuita con legge normale con media µ evarianza σ2 se possiede la seguente densita

f(x | µ, σ) =1√2π

1

σe

(x−µ)2

2σ2 .

Questa legge e molto importante in quanto e la legge limite del teorema del teo-

rema del limite centrale. Una v.a. normale X con media µ e sd σ puo esseretrasformata in un’altra v.a. normale Z applicando la seguente trasformazione(detta standardizzazione)

Z =X − µ

σ∼ N(0, 1) = Ψ(z).

La v.a. Z ha media 0 e varianza 1.

11.3 Esponenziale Exp(λ)

La variabile X > 0 e distribuita con legge esponenziale con media λ e varianzaλ2 se possiede la seguente densita

f(x | λ) =1

λe−λx.

8

Page 9: probabilita

Il tempo di attesa tra due eventi in un processo di Poisson segue la legge espo-nenziale di parametro λ. La seguente proprieta e caratterizzante della leggeesponenziale ed e nota come assenza di memoria della legge esponenziale

Pr(X < t + t′ | X > t′) = Pr(X < t).

La media della esponenziale e λ e la varianza λ2.

11.4 Gamma Gamma(a, λ)

La v.a. X > 0 e distribuita con legge Gamma di parametri a, s se possiede laseguente densita:

f(x | a, λ) =aλ

Γ(a)xa−1e−λx.

con media a/λ e varianza a/λ2. La somma di n v.a. Gamma indipendenti diparametri ai, λi, i = 1, . . . , n e ancora una gamma con parametro a =

∑n

i=1 ai,λ =

∑n

i=1 λi. Tale proprieta e nota come proprieta riproduttiva della Gamma.Casi particolari della Gamma sono:

• distribuzione esponenziale = Gamma(1,λ);

• distribuzione χ2 con n gradi di liberta (vedi prossima sezione)= Gamma(ν2 , 12 ).

11.5 Chi-Quadrato χ2

ν

La distribuzione χ2 con parametro ν (gradi di liberta) e una Gamma(ν2 , 12 ). La

media e ν e la varianza 2ν. La somma di n v.a. normali standardizzate (µ = 0,σ = 1) ha una distribuzione χ2 con ν = n gdl. Esempio, sia X ∼ N(µ, σ2)allora la v.a. Z2 = (X − µ)2/σ2 ha una distribuzione χ2 con 1 gdl.

11.6 T -Student tν

Consideriamo due v.a. indipendenti: Z, normale standard e Cν ∼ χ2ν allora la

v.a.

T :=Z

Cn/n∼ tν = n,

e distribuita T -Student con ν gradi di liberta (gdl). Per ν ≥ 50 la T-studentcoincide numericamente con la distribuzione normale standard.

11.7 F -Fisher n, m

Consideriamo due v.a. indipendenti: Cn ∼ χ2n, Cm ∼ χ2

m, allora la v.a.

F :=Cn/n

Cm/m∼ Fn,m,

e distribuita con legge F -Fisher con n gradi di liberta al numeratore e m gradidi liberta al denominatore. Si noti che il quantile α di Fα,n,m = 1/F1−α,m,n. Sidimostra inoltre che se Tn ∼ tn allora T 2

n ∼ F1,n.

9

Page 10: probabilita

12 Teorema del limite centrale (TLC, CLT)

Assieme alla diseguaglianza di Tchebycheff questo teorema permette di caratte-rizzare il comportamento di v.a. per le quali non si assume un modello probabi-listico. In particolare questo teorema riguarda la somma di v.a.. L’enunciato eil seguente: sia Sn =

∑n

i=1 Xi la somma di v.a. i.i.d. con media µ e varianza σ2

allora per n → ∞ Sn ∼ N(nµ, nσ2). Pertanto se abbiamo la somma di n v.a.indipendenti e identicamente distribuite, di cui non conosciamo la distribuzione,possiamo applicare il teorema del limite centrale. La versione piu utilizzata delTLC e la seguente:

Sn − µ

σ∼ N(0, 1).

Se invece di considerare Sn considerassimo la media X = Sn/n allora la mediadi X e sempre µ, ma la varianza e σ2/n. Applicando il TLC si ha che

X − µ√

σ2/n∼ N(0, σ2/n → 0) → Dirac(0),

cioe la media X tende in probabilita alla media della popolazione µ. Talerisultato che si puo ottenere come applicazione del TLC o della diseguaglianzadi Tchebycheff e noto come legge debole dei grandi numeri.

Il TLC ha anche un’importanza pratica per approssimare la distribuzionedi v.a.. Consideriamo, ad esempio, la somma, Sn, di n v.a. Bernoulli i.i.d. diparametro p, allora Sn ∼ Bin(n, p). Tuttavia per n molto grande non possiamocalcolare il coefficiente binomiale e ricorriamo all’approssimazione di Poissoncon parametro λ = limn→∞np. Possiamo inoltre ricorrere alla distribuzionenormale per approssimare Bin(n, p). Lo facciamo utilizzando il teorema dellimite centrale:

Sn − np√

np(1 − p)∼ N(0, 1).

13 Distribuzione di media e varianza campiona-ria per popolazioni normali

In questo paragrafo studiamo la distribuzione della media e della varianza cam-pionaria nel caso di popolazioni normali. Tali distribuzioni sono utili sia nelcaso in cui la popolazione che produce le v.a. sia normale, sia quando non sianormale, ma possa essere approssimata dalla legge normale grazie al TLC. Con-sideriamo n v.a. normali Xi per i = 1, 2, . . . , n i.i.d con media µ e varianza σ2

e definiamo le v.a. media e varianza campionaria (diversa dalla varianza dellapopolazione, σ2, che non e una v.a. aleatoria, ma una costante)

X =1

n

n∑

i=1

Xi, e S2 =1

n − 1

n∑

i=1

(Xi − X).

10

Page 11: probabilita

E’ possibile dimostrare che X e S2 sono v.a. indipendenti con

X ∼ N(µ,σ2

n), (n − 1)

S2

σ2∼ χ2

n−1.

Da tale risultato discende l’importante corollario (corollario “delle casse di

birra”... dal racconto su Gosset):

X − µ

S/√

n∼ tn−1.

L’importanza di questo corollario risiede nel fatto che se non conoscessimo lavarianza della popolazione σ2, allora possiamo sostituirla con S2 e la standar-dizzazione della v.a. X ha una distribuzione conosciuta.

11