statistica descrittiva: scatter plotbassetti/didattica/ctf/lezione22_ctf.pdfstatistica descrittiva:...
TRANSCRIPT
.
Statistica descrittiva: scatter plot
Nel caso in cui si abbia a che fare con dati multivariatie utile considerare uno scatter plot.
Ad esempio
pressione:X1,X2,. . .
eta:Y1,Y2,. . .
Si rappresentano le osservazioni (X1,Y1), (X2,Y2), . . . come puntinel piano cartesiano (x , y), ottenendo cosı una ”nube di punti”come negli esempi successivi...
.
Scatter Plot
.
Correlazione
Con uno scatter plot si puo riconoscere se i dati si concentranoattorno a qualche curva (”legge”).L’esempio piu semplice e il caso in cui la legge e una legge lineare.Quanto una distribuzione di probabilita di un vettore (X ,Y ) siconcentra attorno ad una retta?
Y = aX + b + errore piccolo
.
Correlazione & Covarianza
Covarianza:
cov [X ,Y ] = E[(X −mX )(Y −mY )]
dove mX e mY medie di X e Y .
Per variabili discrete
cov [X ,Y ] =∑x ,y
(x −mX )(y −mY )P{X = x ,Y = y}
Correlazione:
ρ(X ,Y ) =cov [X ,Y ]√
Var(X )Var(Y )
Se X ,Y sono indipendenti ρ(X ,Y ) = 0 (non vale il viceversa!).
.
Esercizio.
Si supponga che la distribuzione del vettore aleatorio discreto(X ,Y ) sia data da
X/Y 2 5 6
0 0.3 0.1 0 0.4
1 0.2 0 0 0.2
2 0 0 0.4 0.4
0.5 0.1 0.4
Calcolare Cov(X ,Y ).
.
Correlazione
Correlazione e Dipendenza lineare
−1 ≤ ρ ≤ 1
|ρ| vicino ad unoY = aX + b + ε
con ε “piccolo”
|ρ| = 1 allora P{Y = aX + b} = 1
.
Statistica Matematica: dati e variabili aleatorie
Nella statistica matematica i dati sono pensati come realizzazionidi variabili aleatorie.
Variabili aleatorie:
X1, . . . ,Xn
(Modello)
Osservazioni:
x1, . . . , xn(Dati)
.
Osservazioni indipendenti
Spesso (ma non sempre) si ipotizza che le osservazioni sianoindipendenti e con la stessa legge (IID).
.
Principio di sostituzione
Se le osservazioni sono indipendenti ed identicamente distribuiteallora l’istogramma delle osservazioni (per n grande) approssima ladistribuzione teorica (incognita!!).[Ancora una volta legge dei grandi numeri...]
n=200
data
Density
-3 -2 -1 0 1 2 3
0.0
0.1
0.2
0.3
n=1500
data
Density
-4 -2 0 2
0.0
0.1
0.2
0.3
0.4
.
Cumulata e funzione di sopravvivenza
Cumulata (CDF)
F (x) = P{X ≤ x}
Nel caso continuo
F (x) =
∫ x
−∞f (u)du
.
Cumulata e funzione di sopravvivenza
Funzione di ripartizione empirica
Fn(x) =numero di Xi tali che Xi ≤ x
n
.
Cumulata e funzione di sopravvivenza
Funzione di sopravvivenza
S(x) = P{X > x}
Ovviamente S(x) = 1− F (x).Nel caso continuo
S(x) =
∫ +∞
xf (u)du
.
Cumulata e funzione di sopravvivenza
Funzione di sopravvivenza empirica
Sn(t) =numero di Xi tali che Xi > t
n
Tipicamente: Xi tempo di morte...Sn(t) frazione di sopravvissuti almeno fino a t.
.
Cumulata e funzione di sopravvivenza
.
Statistica Matematica
Dati: si pensano i dati come realizzazioni di variabili aleatorie:
X1, . . . ,Xn.
Modello: si ipotizza che la legge di probabilita di X1, . . . ,Xn
dipenda da un parametro θ incognito, fθ. Il parametro θappartiene ad un insieme di parametri Θ.
Inferenza: si cerca di rispondere a domande su θ.
.
Statistica
Date le osservazioni
X1(ω) = x1, . . . ,Xn(ω) = xn
Stima puntuale: stimare il vero valore di θ o una sua funzioneτ(θ).
Stima per intervalli di confidenza: Determinare un intervallo alquale appartiene θ.
Test: θ appartiene a Θ0 oppure a Θ1 (con Θ = Θ0 ∪Θ1)?
.
Running example: campioni gaussiani.
Le osservazioni X1, . . . ,Xn sono IID Gaussiane di media m e divarianza σ2.In altre parole (proprieta delle v.a. gaussiane)
Xi = m + σ2εi
con ε1, . . . , εn IID Gaussiane di media nulla e varianza 1.
m quantita di interesse,
1/σ2 parametro che determina la precisione della misurazione,
εi errori che affliggono le misurazioni.
In questo casoθ = (m, σ2).