analisi delle statistiche di vendita - riani.it · dai valori utilizzati nel calcolo della retta...
TRANSCRIPT
Marco Riani - Analisi delle statistiche di vendita 1
ANALISI DELLE ANALISI DELLE STATISTICHE DI VENDITASTATISTICHE DI VENDITA
Marco RianiMarco [email protected]@unipr.it
http://www.riani.ithttp://www.riani.it
ORARIO LEZIONI ORARIO LEZIONI
• Mercoledì 11 – 13 (aula Lauree)• Mercoledì 14 – 16 (aula Lauree)• Giovedì 11 – 13 (Esercitazione)
• Seminari?
LIBRI DI TESTOLIBRI DI TESTO
• Teoria• Riani M., Laurini F. (2008), (seconda
edizione) Modelli statistici per l’economia con applicazioni aziendali Pitagoracon applicazioni aziendali, Pitagora, Bologna.
MODALITÀ DI ESAMEMODALITÀ DI ESAME
• Prova pratica al computer (computer portatile)
• + interpretazione dei risultatiP l• Prova orale
LA REGRESSIONE LA REGRESSIONE LINEARELINEARE
(semplice o multipla)(semplice o multipla)
Perché si adatta una funzione?Perché si adatta una funzione?
• Riassumere l’andamento dei punti con una formula che esprima il legame tra y e le esplicative
• verificare una legge scientifica (ad es• verificare una legge scientifica (ad es. prezzi e vendite)
• effettuare previsioni
Marco Riani - Analisi delle statistiche di vendita 2
LA REGRESSIONE LINEARELA REGRESSIONE LINEARE
• Esiste una relazione (lineare) tra X e Y?• In caso affermativo:• Come varia una variabile (dipendente)
i f i d ll’ lt ( li ti )?in funzione dell’altra (esplicativa)?• Per convenzione:Y = variabile dipendenteX = variabile esplicativa
EsempiEsempi
• Relazione tra comportamenti di acquisto e caratteristiche dei consumatori
• Relazione tra numero di esami• Relazione tra numero di esami sostenuti nei primi due anni di corso e voto alla maturità
• Relazione tra prezzo di vendita e quantità venduta di un bene
Relazioni di tipo lineareRelazioni di tipo lineare
Motivi che spingono ad adottare Motivi che spingono ad adottare modelli di regressione linearemodelli di regressione lineare
• Semplicità facilità di interpretazione dei parametri
• yi = a + bxi + ei i = 1, …, ndove:dove:• a + bxi rappresenta una retta:• a = ordinata all’origine → intercetta• b = coeff. angolare → coeff. di
regressione• ei è un termine di errore (accidentale)
Motivi che spingono ad adottare Motivi che spingono ad adottare modelli di regressione linearemodelli di regressione lineare
• Effettiva linearità molte relazioni sono molto vicine alla linearità
• Trasformazioni la relazione è lineare dopo aver trasformato opportunamente la p ppdipendente e/o l’esplicativa
• Es. y = a bx
• log y = log a + (log b) x• y’ = a’ + b’ x
Motivi che spingono ad adottare Motivi che spingono ad adottare modelli di regressione linearemodelli di regressione lineare
• Limitatezza dell’intervallo
Marco Riani - Analisi delle statistiche di vendita 3
Motivi che spingono ad adottare Motivi che spingono ad adottare modelli di regressione linearemodelli di regressione lineare
• Ragioni di teoria statistica: lo studio delle funzioni lineari nei parametri ha una trattazione più agevole
Diagramma di dispersioneDiagramma di dispersione
4
5
6
7
8
= ve
ndite
• Come variano le vendite in funzione del numero di dipendenti?
0
1
2
3
0 10 20 30 40
X = N. dipendenti
Y =
MODELLO DI REGRESSIONEMODELLO DI REGRESSIONE
• yi = a + bxi + ei i = 1, …, ndove:• a + bxi rappresenta una retta:• a = ordinata all’origine → intercetta• b = coeff. angolare → coeff. di
regressione• ei è un termine di errore (accidentale)
RETTA DI REGRESSIONERETTA DI REGRESSIONE
• i = 1, …, nii bxay +=ˆ
= valore teorico (valore stimato)iy = valore teorico (valore stimato)
di yi → funzione lineare dii = 1, …, n
Residui
iii yye ˆ−=
Come si calcolano i parametri Come si calcolano i parametri aa e e bb??
• METODO DEI MINIMI QUADRATI
∑ ∑ =−=n n
iii yye 22 min )ˆ(∑ ∑= =i i
iii1 1
Le incognite sono i parametri della retta
ii bxay +=ˆ
Visualizzazione grafica dei residuiVisualizzazione grafica dei residui
Marco Riani - Analisi delle statistiche di vendita 4
Sistema di equazioni normaliSistema di equazioni normali
∑=
=n
iie
1
0
∑=
=n
iiiex
1
0
Formule per il calcolo di a e b (p. 33)Formule per il calcolo di a e b (p. 33)
xbyxxn
yxxxya
ii
iiiii −=−−
=∑ ∑
∑ ∑ ∑ ∑22
2
)(
∑∑
∑ ∑∑ ∑ ∑
−
−=
−
−= 222 )(
)()( xx
xxyxxnyxyxn
bi
ii
ii
iiii
aa e e bb sono funzioni lineari delle sono funzioni lineari delle osservazioni yosservazioni yii
ESEMPIO (7 supermercati) ESEMPIO (7 supermercati) rrxyxy=0,96=0,96N. dipendenti
(X)Fatturato
in milioni di € (Y)A 10 1,9B 18 3,1C 20 3 2C 20 3,2D 8 1,5E 30 6,2F 12 2,8G 14 2,3
Scatter con retta di regressioneScatter con retta di regressione
4
5
6
7
8
vend
ite
0
1
2
3
0 10 20 30 40X = N. dipendenti
Y =
v
• Come variano le vendite in funzione del numero di dipendenti?
Calcolo di a e bCalcolo di a e bxi yi xi
2 yi2 xiyi
A 10 1,9 100 3,61 19B 18 3,1 324 9,61 55,8C 20 3,2 400 10,24 64D 8 1,5 … … …
E 30 6,2 … … …
F 12 2,8 … … …
G 14 2,3 … … …
Tot. 112 21 2128 77,28 402,6
17,0352.2
2,403112128.27
6,402112128.2212 −=−=
−⋅⋅−⋅
=a
∑ ∑−∑ ∑ ∑ ∑−
= 22
2
)( ii
iiiii
xxnyxxxya
Calcolo di a e bCalcolo di a e bxi yi xi
2 yi2 xiyi
A 10 1,9 100 3,61 19B 18 3,1 324 9,61 55,8C 20 3,2 400 10,24 64D 8 1,5 … … …
E 30 6,2 … … …
F 12 2,8 … … …
G 14 2,3 … … …
Tot. 112 21 2128 77,28 402,6
198,0352.2
2,466112128.27
211126,40272 ==
−⋅⋅−⋅
=b
∑ ∑−∑ ∑ ∑−
= 22 )( ii
iiii
xxnyxyxnb
Marco Riani - Analisi delle statistiche di vendita 5
BONTA’ DI ADATTAMENTOBONTA’ DI ADATTAMENTO• Retta di regressione: ii bxay +=ˆ
DEVIANZA TOTALE
∑n
MyYDEV 2)()( DEVIANZA DI∑=
−=i
yi MyYDEV1
)()( DEVIANZA DI REGRESSIONE
∑=
−=n
iyi MyYDEV
1
2)ˆ()ˆ(DEVIANZA RESIDUA
∑ ∑= =
=−=n
i
n
iiii eyyEDEV
1 1
22)ˆ()(
Scomposizione della devianza di Scomposizione della devianza di YY
• L’adattamento è buono quando DEV(E) è “piccola”
)()ˆ()( EDEVYDEVYDEV +=
piccola
• Problemi:• DEV(E) cresce all’aumentare del numero di
osservazioni (n)• DEV(E) dipende dall’unità di misura e
dall’ordine di grandezza di Y
EsercizioEsercizio
• Dimostrare la relazione
)()ˆ()( EDEVYDEVYDEV += )()()( EDEVYDEVYDEV +
Indice di determinazione lineareIndice di determinazione lineare(R(R22) )
)()(1
)()ˆ(
YDEVEDEV
YDEVYDEV
−==δ
∑ 0)ˆ( 2δ 1 ∑ =− 0)ˆ( 2ii yy•δ =1 se
•δ =0 se ∑ =− 0)ˆ( 2yi My
Calcolo di RCalcolo di R2 2 ((δδ))xi yi
A 10 1,9 1,81 0,008 1,416B 18 3,1 3,394 0,086 0,155C 20 3,2 3,79 0,348 0,624D 8 1,5 1,414 … …E 30 6 2 5 77
iy 2)ˆ( yi My −2ie
10*0,198 0,17- ˆ1 +=y
E 30 6,2 5,77 … …F 12 2,8 2,206 … …G 14 2,3 2,602 … …Tot. 112 21 21 1,079 13,201
DevTOT=DevREGR+DevRES
14,28 = 13,20 + 1,08924,0
28,1408,11
28,1420,13
=−==δ
oppureδ = (0,9615)2 = 0,924
Grafico dei residuiGrafico dei residui
0 5
0
0.5
1
0 10 20 30 40Res
idui
• Modello soddisfacente: distribuzione casuale dei residui → componente erratica
-1
-0.5 0 10 20 30 40
N. dipendenti
R
Marco Riani - Analisi delle statistiche di vendita 6
ESTRAPOLAZIONEESTRAPOLAZIONE
• Si tenta di valutare in maniera attendibile il valore che assumerà la variabile dipendente in corrispondenza di un valore noto della variabile esplicativa.
• CONDIZIONI– Validità della retta di regressione (δ prossimo ad
1)– valore noto della variabile esplicativa non lontano
dai valori utilizzati nel calcolo della retta
(Vendite, nr. di dip.) scomposizione di y(Vendite, nr. di dip.) scomposizione di yii
iyie
yy − y
ix
y
x
yyi −
xxi −
iy )( xxb i −
Stimare i parametri della retta Stimare i parametri della retta di regressione, trovare i valori di regressione, trovare i valori stimati, verificare i vincoli del stimati, verificare i vincoli del sistema di equazioni normali sistema di equazioni normali
e la bontà di adattamentoe la bontà di adattamentoe la bontà di adattamento e la bontà di adattamento con Excelcon Excel
Funzione regr.linFunzione regr.lin
• Ordine in cui vengono restituite le statistiche aggiuntive di regressione dalla funzione di Excel REGR.LIN
Interpretazione di bInterpretazione di b
• b= indica l’entità della variazione
teorica della variabile
dipendente in corrispondenza di
un incremento unitario della
variabile esplicativa
Componente aggiuntivo Componente aggiuntivo analisi dei datianalisi dei dati
Marco Riani - Analisi delle statistiche di vendita 7
Introduzione agli elementi Introduzione agli elementi aleatorialeatori
Teoria campionaria e legame con Teoria campionaria e legame con l’universol’universo
Schema logico con cui si affrontano Schema logico con cui si affrontano i problemi di inferenza statisticai problemi di inferenza statistica
• Si immagina di conoscere l’universo• Si costruiscono gli strumenti statistici
adatti a risolvere i problemi in esameSi t t l’ ffid bilità di t li t ti• Si testa l’affidabilità di tali strumenti statistici
Esempio: universo composto da 1000 Esempio: universo composto da 1000 az. di distribuzione di prodotti az. di distribuzione di prodotti
enogastronomicienogastronomici
• X = utile di esercizio
Grafico ad istogrammi dell’utile di Grafico ad istogrammi dell’utile di esercizio esercizio
Estrazione campioniEstrazione campioni
• Funzione CASUALE.TRA• Funzione INDICE
• v. a. Media campionaria
Distribuzione media campionaria (100 Distribuzione media campionaria (100 campioni di numerosità n=100)campioni di numerosità n=100)
253035404550
nze
asso
lu
05
101520
18.5 --19
19 --19.5
19.5 --20
20 --20.5
20.5 --21
21 --21.5
oltre 21.5
classi
frequ
e
Marco Riani - Analisi delle statistiche di vendita 8
v.a. Media campionariav.a. Media campionaria Distribuzione media campionaria Distribuzione media campionaria standardizzatastandardizzata
Confronto con la v.a. N(0,1)Confronto con la v.a. N(0,1) Distribuzione media campionariaDistribuzione media campionaria
Introduzione agli elementi aleatoriIntroduzione agli elementi aleatori
N. dipendent
i(X)
Venditein milioni di € (Y)
A 10 1 9
Prezzi in Euro (x)
Vendite (Y)
A 1.55 410B 1.60 380A 10 1,9
B 18 3,1C 20 3,2D 8 1,5E 30 6,2F 12 2,8G 14 2,3
C 1.65 350D 1.60 400E 1.50 440F 1.65 380G 1.45 450H 1.50 420
Introduzione agli elementi aleatoriIntroduzione agli elementi aleatori
• Le vendite sono dovute in parte ai prezzi e in parte a fattori di natura aleatoria e perciò sono esse stesse delle v.c.
• Al contrario I dipendenti e/o i prezzi non sono v.c. poiché sono del tutto prevedibili dalla compagnia che li stabilisce
Marco Riani - Analisi delle statistiche di vendita 9
Introduzione agli elementi aleatoriIntroduzione agli elementi aleatori
• Una successione di valori fissi• x1, x2, … xn
• a cui sono associate n v c indipendenti• a cui sono associate n v.c. indipendenti• Y1, Y2, … Yn
• Il punto cruciale consiste nel descrivere in modo appropriato tali v.c.
• E(Yi)? var(Yi)? Distribuzione di Yi?
Assunzioni su YAssunzioni su Yii
• Tutte le osservazioni sono caratterizzate dallo stesso grado di incertezza
• var(Yi) = σ2 i=1 2 nvar(Yi) σ i 1, 2, …, n
• σ2 è un parametro incognito da stimare
• cov(Yi, Yj)=0 i≠j
Assunzioni su YAssunzioni su Yii
• E(Yi) = µi i=1, 2, …, n• i valori osservati della variabili dipendente
provengono da n distribuzioni di probabilità con medie incogniteprobabilità con medie incognite
• Ip. le medie delle distribuzioni variano linearmente con la variabili indipendente
• µi = E(Yi) = α+β xi
Assunzioni su YAssunzioni su Yi i (continua)(continua)
• Ip: µi = E(Yi) = α+β xi• Questa ipotesi equivale ad affermare che i
punti(x1 µ1) (x2 µ2) (x µ )(x1, µ1), (x2, µ2), …, (xn, µn)stiano tutti su una retta con parametri α, β
• Oss: questa assunzione non implica che tutti i punti (xi, yi) stiano sulla retta ma che i valori medi delle distribuzioni da cui i punti provengono verificano l’equazione della retta
Interpretazione di Interpretazione di αα e e ββ
• I parametri α e β rappresentano l’intercetta ed il coeff. angolare della retta sulla quale giacciono le medie incognite dellegiacciono le medie incognite delle distribuzioni Y1, …, Yn
Interpretazione di Interpretazione di αα e e ββ
Marco Riani - Analisi delle statistiche di vendita 10
OsservazioneOsservazione
• Dato il modello di regressione• Yi = α +β xi +εi
• L’ip: µi = E(Yi) = α+β xi
• equivale ad affermare che
• E(εi)=0
Stima dei parametriStima dei parametri
• I parametri da stimare sono• α, β, µ1, µ2, …, µn, σ2
• La conoscenza di α β consente di• La conoscenza di α, β consente di ricostruire tutte le medie incognite µ1, µ2,…, µn
Stime di Stime di αα e e ββ
• Pensando di ripetere più volte l’esperimento che ha generato le osservazioni y1, …, yn, per valori fissi di x1,
x si ottiene una distribuzione…, xn si ottiene una distribuzione campionaria di valori
xY βα ˆˆ −= ∑∑
−
−= 2)(
)(ˆxxYxx
i
iiβ
Stime di Stime di µµii
Coeff. di regressione campionari e Coeff. di regressione campionari e nella popolazionenella popolazione
iii xy εβα ++=
iii exy ++= βα ˆˆ
Coeff. di regressione campionari e Coeff. di regressione campionari e nella popolazione nella popolazione
iii xy εβα ++=iii exy ++= βα ˆˆ
7
8 xy βα +=ε
0
1
2
3
4
5
6
0 10 20 30 40X = N. dipendenti
Y =
vend
ite
xy βα ˆˆˆ +=iε
ii xyE βα+=)(
ie
ii xyE βα ˆˆ)( +=
Stima di Stima di σσ22
• σ2= dispersione verticale attorno alla retta che unisce i valori medi delle popolazioni
• Dato che σ2=E(εi2)
D t h è ti di b• Dato che ei è una stima di εi sembra naturale utilizzare come stimatore di σ2 la seguente espressione
22)ˆ( 22
2
−=
−−
= ∑∑ne
ny
s iii μ
Marco Riani - Analisi delle statistiche di vendita 11
Stima di Stima di σσ22
• Utilizziamo gli scostamenti dalle medie delle popolazioni
ˆ 22 ∑∑22
)ˆ( 222
−=
−−
= ∑∑ne
ny
s iii μ
Stima di Stima di σσ22
• Excel definisce s come “errore standard nella stima di Y”
2
2
−= ∑
ne
s i
Funzione regr.linFunzione regr.lin
• Ordine in cui vengono restituite le statistiche aggiuntive di regressione dalla funzione di Excel REGR.LIN
Ip. aggiuntivaIp. aggiuntiva
• Le distribuzioni Yi sono normali• y1 è una realizzazione di Y1 ~ N(µ1, σ2)• y2 è una realizzazione di Y2 ~ N(µ2, σ2)• …• yn è una realizzazione di Yn ~ N(µn, σ2)
• Y1, Y2, …, Yn sono indipendenti
Richiami sulla v.c. normaleRichiami sulla v.c. normale
• se Y ~N(µ, σ2)• Z=(Y- µ)/ σ ~ N(0,1)
• Pr(-1.96 < Z <1.96) =0.95
• aY+b ~ N(b+ µ, a2σ2)
Richiami sulla costruzione degli int. Richiami sulla costruzione degli int. di confidenzadi confidenza
95.096.1)(96.1Pr =⎟⎟⎞
⎜⎜⎛
<−
<−XEX)var( ⎟
⎠⎜⎝ X
95.096.1)var(
96.1Pr =⎟⎟⎠
⎞⎜⎜⎝
⎛<
−<−
XX μ
( ) 95.0)var(96.1)var(96.1Pr =+<<− XXXX μ
Marco Riani - Analisi delle statistiche di vendita 12
ObiettivoObiettivo
Costruire intervalli di confidenza e Costruire intervalli di confidenza e test di verifica d’ipotesi sul coeff. test di verifica d’ipotesi sul coeff.
angolare angolare
β
Studio della distribuzione di Studio della distribuzione di β
∑∑
−−
= 2)()(ˆxxYxx
i
iiβ
iii xy εβα ++=
iii exy ++= βα ˆˆ
Studio della distribuzione di Studio della distribuzione di β
∑∑
−−
= 2)()(ˆxxYxx
i
iiβ
?)ˆ( =βE ββ =)ˆ(E
?)ˆvar( =β ∑ −= 2
2
)()ˆvar(
xxi
σβ
Varianza di beta cappelloVarianza di beta cappello
⎟⎟⎟⎟
⎠
⎞
⎜⎜⎜⎜
⎝
⎛
−
−=
∑
∑
=
=n
ii
i
n
ii
xx
Yxx
1
2
1
)(
)(var)ˆvar(β
⎞⎛⎟⎠
⎞⎜⎝
⎛−
⎥⎦
⎤⎢⎣
⎡−
= ∑∑ =
=
i
n
iin
ii
Yxxxx
12
1
2
)(var)(
1)ˆvar(β
⎟⎠
⎞⎜⎝
⎛−
⎥⎦
⎤⎢⎣
⎡−
= ∑∑ =
=
i
n
iin
ii
Yxxxx
12
1
2
)var()(
1)ˆvar(β
Varianza di beta cappelloVarianza di beta cappello
⎟⎠
⎞⎜⎝
⎛−
⎥⎦
⎤⎢⎣
⎡−
= ∑∑ =
=
i
n
iin
ii
Yxxxx
12
1
2
)var()(
1)ˆvar(β
⎟⎞
⎜⎛∑n
2)(1)ˆ(β ⎟⎠
⎞⎜⎝
⎛−
⎥⎦
⎤⎢⎣
⎡−
= ∑∑ =
=
ii
in
ii
Yxxxx 1
22
1
2
var)()(
1)var(β
⎟⎠
⎞⎜⎝
⎛−
⎥⎦
⎤⎢⎣
⎡−
= ∑∑ =
=
n
iin
ii
xxxx
1
222
1
2
)()(
1)ˆvar( σβ
∑=
−= n
ii xx
1
2
2
)()ˆvar( σβ
Al posto di Al posto di σσ22 sostituiamo il suo sostituiamo il suo stimatorestimatore
∑ −== 2
22
)()ˆ())ˆ(var(
xxssStimai
ββ
• La radice quadrata della stima della varianza di uno stimatore è l’errore standard (standard error, SE) dello stimatore
∑ −==
2ˆ)(
)ˆ(xx
sSEsi
ββ
Marco Riani - Analisi delle statistiche di vendita 13
Interpretazione dello standard error Interpretazione dello standard error di beta cappellodi beta cappello
• Rappresenta l’errore quadratico medio che si commette quando si stima il coefficiente di regressione con le formule dei minimi quadratiquadrati
Studio della distribuzione di Studio della distribuzione di αxY βα ˆˆ −=
?)ˆ( =αE αα =)ˆ(E
?)ˆvar( =α ⎥⎥⎦
⎤
⎢⎢⎣
⎡
−+=∑ 2
22
)(1)ˆvar(
xxx
n i
σα
Esercizio: nell’esempio dei 7 Esercizio: nell’esempio dei 7 supermercati calcolare lo supermercati calcolare lo
standard error di beta standard error di beta cappello e alpha cappellocappello e alpha cappellocappello e alpha cappellocappello e alpha cappello
Sol. Sol. 0.025
)()ˆ(
2ˆ =−
==∑ xx
sSEsi
ββ
44.0)(
1)ˆ( 2
2
ˆ =−
+==∑ xx
xn
sSEsi
αα
Costruzione di intervalli di Costruzione di intervalli di confidenza dei parametriconfidenza dei parametri
Punto di partenza: lo scostamento Punto di partenza: lo scostamento standardizzato di beta capello ha standardizzato di beta capello ha
una distribuzione N(0,1)una distribuzione N(0,1)
γβ
ββγγ −=⎟⎟
⎠
⎞
⎜⎜
⎝
⎛<
−<− 1
)ˆvar(
)ˆ(ˆPr ZEZ
• Se 1-γ=0.95
β ⎠⎝ )var(
95.0)96.1)ˆvar(
)ˆ(ˆ96.1Pr( =<
−<−
β
ββ E
95.0)96.1)ˆvar(
)ˆ(ˆ96.1Pr( =<
−<−
β
ββ E
ˆ ⎟⎟⎞
⎜⎜⎛
ββ
Problema: Problema: σσ22 è ignoto (occorre è ignoto (occorre sostituire il suo stimatore ssostituire il suo stimatore s22))
95.096.1
)(
96.1Pr
2
2=
⎟⎟⎟⎟
⎠⎜⎜⎜⎜
⎝
<
−
−<−
∑ xxiσββ
Marco Riani - Analisi delle statistiche di vendita 14
Studio della distribuzione di sStudio della distribuzione di s22
• Si può dimostrare che
Sostituendo al posto di Sostituendo al posto di σσ22 il suo il suo stimatorestimatore
95.096.1
)(
ˆ96.1Pr
2
2=
⎟⎟⎟⎟⎟
⎠
⎞
⎜⎜⎜⎜⎜
⎝
⎛
<
−
−<−
∑ xxiσββ
Costruzione di un intervallo di Costruzione di un intervallo di confidenza per il coeff. angolareconfidenza per il coeff. angolare
• Dove tγ è il quantile (percentile) associato alla distribuzione T di Student con (n-2) gradi di libertà tale che (v. p. 44)
Costruzione di intervalli di Costruzione di intervalli di confidenza dei parametriconfidenza dei parametri
Esercizio: nell’esempio dei 7 Esercizio: nell’esempio dei 7 supermercati costruire un supermercati costruire un intervallo di confidenza al intervallo di confidenza al
95%95% ββ dd i t t ii t t i95% per 95% per ββ eded interpretare i interpretare i risultati ottenutirisultati ottenuti
Costruzione di un intervallo di Costruzione di un intervallo di confidenza al 95% per il coeff. angolareconfidenza al 95% per il coeff. angolare
• t0.05(5)=+2.5706 (=INV.T(0.05;5)• (Oss: Pr.(T(5)>2.5706)=0.025)
• Pr(0.198-2.5706×0.0253<β<0.198+2.5706×0.0253)=0.95
• Pr(0.133<β< 0.263)=0.95
Marco Riani - Analisi delle statistiche di vendita 15
InterpretazioneInterpretazione
• L'intervallo di confidenza del coefficiente di regressione, con probabilità uguale a 0.95, va da 0,133 a 0,263.
• Questo significa che nell'universo di riferimento, all'aumento di un dipendente può corrispondereall aumento di un dipendente può corrispondere un aumento delle vendite compreso tra 133 mila Euro e 263 mila Euro circa (con probabilità del 95%).
• Oss: l'intervallo è piuttosto ampio e questo dipende dalla ridotta numerosità campionaria (solo 7 supermercati).
Intervallo di confidenza Intervallo di confidenza per l’intercettaper l’intercetta
Costruzione di un intervallo di Costruzione di un intervallo di confidenza al 95% per l’intercettaconfidenza al 95% per l’intercetta
• t0.05(5)=+2.5706 (=INV.T(0.05;5)• (Oss: Pr.(T(5)>2.5706)=0.025)
• Pr(1.31<α< 0.96)=0.95
Costruzione di un intervallo di Costruzione di un intervallo di confidenza al 95% per confidenza al 95% per σσ22
Punto di partenza
• per trovare χ20.975 utilizzo
=INV.CHI(0.025;5)=0.83• per trovare χ2
0.025 utilizzo• =INV.CHI(0.975;5)=12.83
• Pr(0.08< σ2< 1.30)=0.95
Costruzione di test di Costruzione di test di ipotesi peripotesi perαα ββ σσ22
Marco Riani - Analisi delle statistiche di vendita 16
Dato cheDato che
2~)ˆ(
ˆ−
−ntSE β
ββ
Sotto HSotto H00: : ββ =0=0
2~)ˆ(
ˆ−ntSE β
β
Funzione regr.linFunzione regr.lin
• Ordine in cui vengono restituite le statistiche aggiuntive di regressione dalla funzione di Excel REGR.LIN
Calcolo delle statistiche t con Excel Calcolo delle statistiche t con Excel e del relativo pe del relativo p--valuevalue
• p value Funzione distrib.T
Esercizio: nell’esempio dei 7 Esercizio: nell’esempio dei 7 supermercati testare supermercati testare HH00::ββ=0, =0, trovare il relativo ptrovare il relativo p--value ed value ed
interpretare il risultato del testinterpretare il risultato del test
ttββ=7.82=7.82 pp--value = value = 0.000548
Interpretazione : rifiuto decisamente Interpretazione : rifiuto decisamente l’ipotesi nullal’ipotesi nulla
Esercizio: nell’esempio dei 7 Esercizio: nell’esempio dei 7 supermercati testare supermercati testare HH00::αα=0, =0, trovare il relativo ptrovare il relativo p--value ed value ed
interpretare il risultato del testinterpretare il risultato del test
ttαα=0.39=0.39 pp--value = value = 0.714
Interpretazione : non posso rifiutare Interpretazione : non posso rifiutare l’ipotesi nullal’ipotesi nulla
Intervallo di confidenza delle Intervallo di confidenza delle previsioni con il metodo dei previsioni con il metodo dei
minimi quadratiminimi quadrati
Marco Riani - Analisi delle statistiche di vendita 17
Strumenti necessari (p. 189)Strumenti necessari (p. 189) Calcolo della var. dell’errore di Calcolo della var. dell’errore di previsioneprevisione
Calcolo della var. dell’errore di Calcolo della var. dell’errore di previsioneprevisione
Bande di confidenza dell’errore di Bande di confidenza dell’errore di previsione (p. 55)previsione (p. 55)
Costruzione di un intervallo di Costruzione di un intervallo di confidenza per yconfidenza per y00
• Tenendo presente che
)1,0(~)var()(
0
00 NeeEe −
)2(~)r(av)(
0
00 −− nTeeEe
)2(~)r(av 0
0 −nTe
e
)2(~)r(av
ˆ
0
00 −− nTeyy
Costruzione di un intervallo di Costruzione di un intervallo di confidenza per yconfidenza per y00
⎟⎞
⎜⎛ ˆ
)2(~)r(av
ˆ
0
00 −− nTeyy
γγγ −=⎟⎟⎠
⎞⎜⎜⎝
⎛<
−<− 1
)r(avPr
0
00 teyyt
vedi p. 56 vedi p. 56
Marco Riani - Analisi delle statistiche di vendita 18
Esercizio: per un numero di dipendenti Esercizio: per un numero di dipendenti pari a 16 costruire un intervallo di pari a 16 costruire un intervallo di previsione delle vendite al 95%previsione delle vendite al 95%
95.0)4966.057.234966.057.23Pr( 0 =×+<<×− y
95.0)28.472.1Pr( 0 =<< y
Regressione multiplaRegressione multipla
Forma generale del modello di Forma generale del modello di regressioneregressione
• Il modello è ancora lineare nei coefficientiβ ma la sostanziale differenza rispetto alβj ma la sostanziale differenza rispetto al modello lineare semplice risiede nella presenza d'un maggior numero di variabili indipendenti Xj
In forma matricialeIn forma matriciale ObiettivoObiettivo:: adattare un piano adattare un piano “iperpiano” di regressione“iperpiano” di regressione
Marco Riani - Analisi delle statistiche di vendita 19
Generalizzazione delle assunzioni Generalizzazione delle assunzioni per la regr. lineare sempliceper la regr. lineare semplice
• che implica
Assunzione sulla varianza dei Assunzione sulla varianza dei termini di disturbotermini di disturbo
Richiami sulla matr. var. cov. di un Richiami sulla matr. var. cov. di un vettore aleatorio (p. 188)vettore aleatorio (p. 188) Assunzione sulla matrice XAssunzione sulla matrice X
• X = fissa non stocastica, non dipende in alcun modo da ε
X h i• X ha rango pieno
Ripasso sulle matriciRipasso sulle matrici
• Addizione tra matrici• Moltiplicazione• Matrice diagonale• Matrice identità• Matrice trasposta (trasposta del prodotto)• Matrice inversa• Traccia• Traccia• Matrice idempotente• Somma di quadrati (ponderata) in forma
matriciale• Forme quadratiche (positive, negative definite)• Forme quadratiche idempotenti• Scomposizione spettrale
Marco Riani - Analisi delle statistiche di vendita 20
Valore atteso e var di comb. di v.c.Valore atteso e var di comb. di v.c.
• x vettore casuale• A = matrice non stocastica• E(A x) = A E(x)• var(A x) = A var(x) A’ (v. p. 189)
Derivate di vettori e matrici Derivate di vettori e matrici (pp. 182(pp. 182--183)183)
• x vettore casuale
⎟⎟⎞
⎜⎜⎛xx1
⎟⎟⎟⎞
⎜⎜⎜⎛
∂∂∂
fxf
1
⎟⎟⎟⎟⎟
⎠⎜⎜⎜⎜⎜
⎝
=
px
x
...
...2
x
⎟⎟⎟⎟⎟⎟⎟
⎠⎜⎜⎜⎜⎜⎜⎜
⎝ ∂∂
∂∂
=∂∂
pxf
xf
xf
...
...2
Derivate di vettori e matriciDerivate di vettori e matrici
• Se a’=(a1, …, ap)
⎟⎟⎞
⎜⎜⎛xx1
⎟⎞
⎜⎛⎟
⎟⎞
⎜⎜⎛∂∂
axf
11
⎟⎟⎟⎟⎟
⎠⎜⎜⎜⎜⎜
⎝
=
px
x
...
...2
x axx
xa=
⎟⎟⎟⎟⎟⎟
⎠⎜⎜⎜⎜⎜⎜
⎝
=
⎟⎟⎟⎟⎟⎟⎟⎟
⎠⎜⎜⎜⎜⎜⎜⎜⎜
⎝ ∂∂
∂∂
=∂
+++=
∂∂
p
p
pp
a
a
xf
xf
xaxaxa
...
...
...
......'
222211
Derivate di vettori e matriciDerivate di vettori e matrici
Derivate di vettori e matriciDerivate di vettori e matrici Stima di Stima di ββ
• Occorre trova il β che minimizza la seguente espressione
Marco Riani - Analisi delle statistiche di vendita 21
Stima di Stima di ββ
• Occorre trova il β che minimizza laOccorre trova il β che minimizza la seguente espressione
Stima di Stima di ββ
• Se la matrice X’X quadrata di ordine k tt i ll l l i èammette inversa, allora la soluzione è
File di input svFile di input sv--regrregr--multipla.xlsmultipla.xls
Ripasso: vincoli del sistema di Ripasso: vincoli del sistema di equazioni normali nella regressione equazioni normali nella regressione
semplicesemplice
∑=
=n
iie
1
0
∑=
=n
iiiex
1
0
vincoli del sistema di equazioni vincoli del sistema di equazioni normali nella regressione multiplanormali nella regressione multipla
• L’equazione
• implica X’e=0
Interpretazione dei parametri Interpretazione dei parametri nella regressione lineare nella regressione lineare
multiplamultipla
Marco Riani - Analisi delle statistiche di vendita 22
Modello di regressione multiploModello di regressione multiplo Interpretazione dei parametri nella Interpretazione dei parametri nella regressione lineare multiplaregressione lineare multipla
Criterio alternativo per trovare I coefficienti Criterio alternativo per trovare I coefficienti di regr. lineare multipla (p. 70)di regr. lineare multipla (p. 70)
• Es. trovare il coeff. di regressione parziale del PIL
• 1) Regressione Investimenti su tutte le variabili tranne il PILvariabili tranne il PIL
• 2) Regressione del PIL su tutte le altre variabili esplicative
• 3) Regressione tra i residui di 1) e i residui di 2)
In generale In generale
• Dato y = 1 β0 +X1 β1 + X2 β2+…+ Xi βi +…+Xk-1 βk-1+ε• Per trovare beta cappello_i
– Si regredisce y su tutte le variabili tranne Xi e siSi regredisce y su tutte le variabili tranne Xi e si prendono i residui (di INPUT)
– Si regredisce Xi su tutte le altre variabili esplicative e si prendono i residui (di OUTPUT)
– Il coefficiente di regressione semplice calcolato sulle due serie dei residui produce beta cappello_i
Modello di regressione nellModello di regressione nell--universo e nel campioneuniverso e nel campione
εβ += Xy
• Qual è la relazione tra e ed ε?
eXy += β
Analisi dei valori previstiAnalisi dei valori previsti
βˆ Xy =
yXXXXy ')'(ˆ 1−= yXXXXy )(
Hyy =ˆ
')'( 1XXXXH −=
Marco Riani - Analisi delle statistiche di vendita 23
Analisi della matrice HAnalisi della matrice H
• Simmetrica e idempotente
Analisi degli elementi sulla Analisi degli elementi sulla diagonale principale della matrice diagonale principale della matrice
HH
• Gli elementi sulla diagonale principale sono compresi tra 0 e 1
Nel modello di regressione Nel modello di regressione semplice (p. 77)semplice (p. 77)
• Di conseguenza hii è elevato se xi è distante dalla nuvola dei punti
• In letteratura le osservazioni a cui corrisponde
• vengono detti punti di leverage
Analisi dei residuiAnalisi dei residui
εβ += Xy
eXy += β
εMe =
HIXXXXIM −=−= − ')'( 1
Analisi dei residuiAnalisi dei residui
Marco Riani - Analisi delle statistiche di vendita 24
Caratteristiche della matrice MCaratteristiche della matrice M
• Simmetrica • Idempotente
• La somma dei quadrati dei residui si può scrivere come
εε Meeen
ii ''2 ==∑
=
• Forma quadratica idempotente
Ulteriore interpretazione dei punti di Ulteriore interpretazione dei punti di leverageleverage
• I punti in cui hii è grande sono i valori influenti nella regressione, ossia quelli che attirano a sé l’iperpiano di regressione
Analisi della bontà di adattamentoAnalisi della bontà di adattamento
• R2 nei modelli di regressione lineare multipla
Analisi della varianza e coeff. di Analisi della varianza e coeff. di correlazione lineare multipla correlazione lineare multipla
(modelli senza intercetta)(modelli senza intercetta)
• Indice di bontà di adattamento
Modelli con intercettaModelli con intercetta Coeff. correlazione lineare multiplaCoeff. correlazione lineare multipla
Marco Riani - Analisi delle statistiche di vendita 25
Studio della distribuzione di Studio della distribuzione di β
ββ =)ˆ(E
12 )'()ˆvar( −= XXσβ
Teorema di Gauss Markov Teorema di Gauss Markov (efficienza degli stimatori OLS)(efficienza degli stimatori OLS)
Stima di Stima di σσ22
• E(s2)?
• Qual è la distribuzione di s2 (somma dei quadrati dei residui diviso i gradi di libertà)
Caratteristiche delle devianzeCaratteristiche delle devianze
• Dev residua
• Dev totaleDev totale
• Dev regressione
Come si distribuiscono le Come si distribuiscono le forme quadratiche forme quadratiche
idempotenti?idempotenti?
Come si distribuiscono le forme Come si distribuiscono le forme quadratiche idempotenti?quadratiche idempotenti?
• Premessa: numero di autovalori diversi da zero di una matrice = rango della matrice (p. 176)
• Gli autovalori di una matrice idempotente sono 0 o 1(p. 177)(p )
• La somma degli autovalori è uguale alla traccia (p.182)
• rango e traccia della matrice idempotente coincidono
Marco Riani - Analisi delle statistiche di vendita 26
Distribuzione delle forme Distribuzione delle forme quadratiche nella regressionequadratiche nella regressione
• Devianza residua
Distribuzione delle forme Distribuzione delle forme quadratiche nella regressionequadratiche nella regressione
• Devianza residua
Distribuzione della devianza Distribuzione della devianza residua e’eresidua e’e
• e’e=ε’ M ε• Scomposizione spettrale di M• M= PΛP’M PΛP• e’e = ε’ P ΛP’ ε Ponendo P’ ε=v• e’e= v’ Λ v v~N(0, σ2In)
Distribuzione della devianza Distribuzione della devianza residua e’eresidua e’e
• e’e = v’ Λ v v~N(0, σ2In)
Distribuzione della devianza Distribuzione della devianza residua e’eresidua e’e Distribuzione della devianza totaleDistribuzione della devianza totale
• Scomposizione spettrale di A• A= PΛP’• y’Ay=ε’ P ΛP’ ε Ponendo P’ ε=v• y’Ay= v’ Λ v v~N(0, σ2In)
Marco Riani - Analisi delle statistiche di vendita 27
Distribuzione della devianza totaleDistribuzione della devianza totale
• y’Ay= v’ Λ v v~N(0 σ2I )y Ay v Λ v v N(0, σ In)
Affermazioni equivalenti (p. 86)Affermazioni equivalenti (p. 86)
Distribuzione delle forme Distribuzione delle forme quadratiche nella regressionequadratiche nella regressione
• Devianza di regressione
Riassunto finaleRiassunto finale
• Le forme quadratiche idempotenti hanno una distribuzione chi quadrato (dato che gli autovalori sono 0 e 1)
• Il numero di gradi di libertà è dato dal• Il numero di gradi di libertà è dato dal numero di autovalori uguali ad 1 (traccia ossia rango della matrice idempotente)
Scomposizione della devianza Scomposizione della devianza totale e distribuzione delle forme totale e distribuzione delle forme
quadratiche (p. 86)quadratiche (p. 86)
Inferenza su un generico coeff. di Inferenza su un generico coeff. di regressione parziale (p. 87)regressione parziale (p. 87)
Marco Riani - Analisi delle statistiche di vendita 28
Inferenza su un generico coeff. di Inferenza su un generico coeff. di regressione parzialeregressione parziale H0: H0: ββjj=0=0
• Analisi della distribuzione del test tj
tj presenta una distribuzione T di Student con n-k gradi di libertà
Intervallo di conf. di un generico Intervallo di conf. di un generico coeff. di regressione parzialecoeff. di regressione parziale Criteri per confrontare i modelliCriteri per confrontare i modelli
• In assenza di relazione lineare tra X e y qual è il valore attesto di R2
Criteri per confrontare i modelliCriteri per confrontare i modelli Criteri per confrontare i modelliCriteri per confrontare i modelli
• tende a 0 in assenza di dipendenza lineare e tende a 1 in presenza di dipendenza lineare perfetta.
Marco Riani - Analisi delle statistiche di vendita 29
Criteri per confrontare i modelliCriteri per confrontare i modelli
• Dopo semplici passaggi
Ripasso sullle v.cRipasso sullle v.c
• Normale (standadizzata)• chi^2 (forme quadratiche idempotenti)• T di Student• F (rapporto tra forme quadratiche
idempotenti indipendenti)
Test di verifica di ipotesi su Test di verifica di ipotesi su combinazioni lineari dei coefficienti combinazioni lineari dei coefficienti • Esempi
Test di verifica di ipotesi su Test di verifica di ipotesi su combinazioni lineari dei coefficienti combinazioni lineari dei coefficienti • Se vogliano testare simultaneamente q
ipotesi la forma generale è• Rβ=r
d R ( k) di t ti t• dove R (q × k) di costanti note• r= vettore noto di q elementi
Test di verifica di ipotesi su Test di verifica di ipotesi su combinazioni lineari dei coefficienticombinazioni lineari dei coefficienti
Test di verifica di ipotesi su Test di verifica di ipotesi su combinazioni lineari dei coefficienticombinazioni lineari dei coefficienti
Marco Riani - Analisi delle statistiche di vendita 30
Test di verifica di ipotesi su Test di verifica di ipotesi su combinazioni lineari dei coefficienticombinazioni lineari dei coefficienti EsercizioEsercizio
• Supponiamo che k=5. Determinare la matrice R ed il vettore r per testare simultaneamente le seguenti ipotesi
• β +3β =1• β2+3β4=1• β1-5β2=0• β3=0• β3+β4+β5=2
EsercizioEsercizio
• β2+3β4=1• β1-5β5=0• β3=0• β3+β4+β5=2
⎟⎟⎟⎟⎟
⎠
⎞
⎜⎜⎜⎜⎜
⎝
⎛−
=
111000010050001
03010
R
⎟⎟⎟⎟⎟⎟
⎠
⎞
⎜⎜⎜⎜⎜⎜
⎝
⎛
=
5
4
3
2
1
βββββ
β
⎟⎟⎟⎟⎟
⎠
⎞
⎜⎜⎜⎜⎜
⎝
⎛
=
2001
r
Test di verifica di ipotesi su Test di verifica di ipotesi su combinazioni lineari dei coefficienticombinazioni lineari dei coefficienti
Test di verifica di ipotesi su Test di verifica di ipotesi su combinazioni lineari dei coefficienticombinazioni lineari dei coefficienti EsercizioEsercizio
• Supponiamo che k=6. Determinare la matrice R ed il vettore r per testare simultaneamente le seguenti ipotesi
• β =β =β = β =0• β3=β4=β5= β6=0
Marco Riani - Analisi delle statistiche di vendita 31
EsercizioEsercizio
• β3=β4=β5= β6=0
⎟⎟⎞
⎜⎜⎛
001000000100
⎟⎟⎟⎟⎞
⎜⎜⎜⎜⎛
2
1
βββ
⎟⎟⎞
⎜⎜⎛00
⎟⎟⎟⎟
⎠⎜⎜⎜⎜
⎝
=
100000010000001000
R
⎟⎟⎟⎟⎟
⎠⎜⎜⎜⎜⎜
⎝
=
6
5
4
3
ββββ
β
⎟⎟⎟⎟
⎠⎜⎜⎜⎜
⎝
=
000
r
Statistica testStatistica test
DimostrazioneDimostrazione
• Il numeratore si può scrivere ε’Q ε
Devo dimostrare che QQ=QDevo dimostrare che QQ=Q
• ε’Q ε = forma quadratica idempotente
εε’Q ’Q εε ~ ~ σσ2 2 chi^2chi^2
• chi^2(q) dove q è il numero di righe della matrice R (numero di vincoli)
Distribuzione del test FDistribuzione del test F
Numeratore ε’Q ε/q
Denominatore ε’M ε/(n-k)HIXXXXIM −=−= − ')'( 1
Marco Riani - Analisi delle statistiche di vendita 32
Esempio con ExcelEsempio con Excel
• File regr-test.xlsCasi particolariCasi particolari
R=(0 , …, 0, 1, 0. …0) e r=0R=(0 , …, 0, 1, 0. …0) e r=0
Relazione con il test t per testare Relazione con il test t per testare ββii=0=0
• L’equazione
• non è altro che il quadrato del test t
Relazione con il test precedenteRelazione con il test precedente
Set di variabili esplicative non Set di variabili esplicative non rilevantirilevanti ProceduraProcedura
Marco Riani - Analisi delle statistiche di vendita 33
• In questo esempio cos’è e’rer ? cos’è e’e?
• e’rer= Devianza totale• e’e = Devianza residua
Output della funzione REGR.LINOutput della funzione REGR.LIN
• Test F
Output del componente aggiuntivo Output del componente aggiuntivo analisi datianalisi dati
ANALISI VARIANZA
gdl SQ MQ F Significatività FRegressione 2 5841.06918 2920.53 107.86051 2.14126E-08R id 12 324 923484 27 0769Residuo 12 324.923484 27.0769Totale 14 6165.99266
Sessione al computerSessione al computer:: verificareverificare
• VerificareIntervallo di confidenza del Intervallo di confidenza del valore y0 associato ad uno valore y0 associato ad uno specifico insieme di valori specifico insieme di valori delle variabili esplicativedelle variabili esplicativedelle variabili esplicativedelle variabili esplicative
Marco Riani - Analisi delle statistiche di vendita 34
Es. investimenti PIL e trendEs. investimenti PIL e trend StrategiaStrategia
• Passiamo attraverso e0 e poi esplicitiamo y0
Troviamo ETroviamo E(e(e00) e var(e) e var(e00)) Var(eVar(e00))
Ob. trovare intervallo di conf. per yOb. trovare intervallo di conf. per y00 Ob. trovare intervallo di conf. per yOb. trovare intervallo di conf. per y00
Marco Riani - Analisi delle statistiche di vendita 35
Es. investimenti PIL e trendEs. investimenti PIL e trend Es. investimenti PIL e trendEs. investimenti PIL e trend
Intervallo di confidenza per yIntervallo di confidenza per y00
Regressione con variabili Regressione con variabili categorichecategoriche
Es. consumo e redditoEs. consumo e reddito
Reddito
Con
sum
o
Aggiunta di una variabile dummyAggiunta di una variabile dummy
Marco Riani - Analisi delle statistiche di vendita 36
Risultati del modello di regr. linere Risultati del modello di regr. linere multiplomultiplo
Rappresentazione grafica dell’effetto della variabilie Rappresentazione grafica dell’effetto della variabilie dummy = diminuire la stima teorica dell’ammontare dummy = diminuire la stima teorica dell’ammontare
dei consumi di un ammontare pari a dei consumi di un ammontare pari a --55.4655.46
Reddito
Con
sum
o
Confronto Confronto (con e senza dummy)(con e senza dummy)
Verifica della bontà di Verifica della bontà di adattamento del modelloadattamento del modello
Analisi dei residuiAnalisi dei residui
Grafico preliminare (esempio investimenti, PIL trend) Diverse tipologie di residui (p.99)Diverse tipologie di residui (p.99)
Marco Riani - Analisi delle statistiche di vendita 37
Come si trova sCome si trova s(i)(i)Analisi dei residui di Analisi dei residui di
cancellazione cancellazione studentizzatistudentizzati
Destagionalizzazione, Destagionalizzazione, detrendizzazione delle serie detrendizzazione delle serie
storichestoriche
Serie storica della vendita di un beneSerie storica della vendita di un bene
Modello trend + stagionalità + Modello trend + stagionalità + componente erraticacomponente erratica
Primo modo per X (p. 117)Primo modo per X (p. 117)
Marco Riani - Analisi delle statistiche di vendita 38
Secondo modo per X (p. 118)Secondo modo per X (p. 118) Espressioni formali per le due Espressioni formali per le due parametrizzazioni (eq. p. 117)parametrizzazioni (eq. p. 117)
Stima dei parametriStima dei parametri Interpretazione delle stime dei Interpretazione delle stime dei parametriparametri
• Il coefficiente del trend rimane immutato• Nella seconda parametrizzazione i coeff.
stagionali devono essere interpretati come effetto della stagione considerata relativoeffetto della stagione considerata relativo alla stagione esclusa
Confronto valori effettivi e valori Confronto valori effettivi e valori stimatistimati DestagionalizzazioneDestagionalizzazione
Marco Riani - Analisi delle statistiche di vendita 39
Serie originaria e serie destagionalizzataSerie originaria e serie destagionalizzata DetrendizzazioneDetrendizzazione
Serie originaria e serie detrendizzataSerie originaria e serie detrendizzata Detrendizzazione e Detrendizzazione e destagionalizzazionedestagionalizzazione
Serie originaria e serie detr.Serie originaria e serie detr.--dest.dest. Testare la presenza della comp. Testare la presenza della comp. stagionale (n=20)stagionale (n=20)
Marco Riani - Analisi delle statistiche di vendita 40
Testare la presenza della comp. Testare la presenza della comp. stagionale (implementare entrambe stagionale (implementare entrambe
le formule)le formule)r, R, q, n-k?
Destagionalizzazione
• Vincolo: la somma dei valori originari deve essere uguale alla somma dei valori destagionalizzati in ogni anno (all’interno del periodo s)del periodo s)
• la somma degli effetti stagionali nel corso dell’anno deve essere zero
• Come si può imporre questo vincolo?
Come si può imporre questo vincolo?
• Nella parametrizzazione che non considera si prendono gli scarti dalla media degli effetti stagionali
• Intercetta = media degli effetti stagionali• Intercetta = media degli effetti stagionali
In simboli p. 141Serie storica orginale e stima del trend
350.0
400.0
450.0
dite
200.0
250.0
300.0
trim 1 2
001
trim 2 2
001
trim 3 2
001
trim 4 2
001
trim 1 2
002
trim 2 2
002
trim 3 2
002
trim 4 2
002
trim 1 2
003
trim 2 2
003
trim 3 2
003
trim 4 2
003
trim 1 2
004
trim 2 2
004
trim 3 2
004
trim 4 2
004
trim 1 2
005
trim 2 2
005
trim 3 2
005
trim 4 2
005
Trimestri
Vend
Marco Riani - Analisi delle statistiche di vendita 41
Serie storica originale e serie destagionalizzata
300.0
350.0
400.0
450.0
Vend
ite
200.0
250.0
trim 1 2
001
trim 2 2
001
trim 3 2
001
trim 4 2
001
trim 1 2
002
trim 2 2
002
trim 3 2
002
trim 4 2
002
trim 1 2
003
trim 2 2
003
trim 3 2
003
trim 4 2
003
trim 1 2
004
trim 2 2
004
trim 3 2
004
trim 4 2
004
trim 1 2
005
trim 2 2
005
trim 3 2
005
trim 4 2
005
Trimestri
V
Limiti del modello lineare tipoLimiti del modello lineare tipo
• Errori di osservazioni ( X stocastica?)• Valori sfasati della variabile dipendente• Sistemi di equazioni simultanee• Il ricercatore conosce tutte le variabili
esplicative rilevanti?• Disturbi eteroschedastici• Perturbazioni correlate
Verifica dellVerifica dell’ipotesi di ’ipotesi di omoschedasticitàomoschedasticità
Ipotesi di omoschedasticità
Es. reddito e spesaEs. reddito e spesa
Diagramma di dispersione sui valori originari
350
400450
-50
0
50
100
150
200
250
300
0.000 50.000 100.000 150.000 200.000 250.000 300.000 350.000
X (reddito)
y (s
pesa
Es. reddito e spesaEs. reddito e spesa
Residui basati sulla regressione che utilizza tutte le osservazioni
150
200
-200
-150
-100
-50
0
50
100
0 50 100 150 200 250 300 350
Valori previsti
Res
idu
Marco Riani - Analisi delle statistiche di vendita 42
Test di omoschedasticitàTest di omoschedasticità Si può utilizzare il rapporto che Si può utilizzare il rapporto che segue?segue?
Test di omoschedasticitàTest di omoschedasticità
• Il suddetto criterio per l'omoschedasticità può anche essere applicato quando l'ipotesi alternativa stabilisca che la varianza delle perturbazioni è unavarianza delle perturbazioni è una funzione crescente di una delle variabili esplicative del modello. La procedura consiste quindi nel riordinare le osservazioni secondo i valori crescenti di quella particolare variabile.
Riordinare le osservazioni Riordinare le osservazioni secondo i valori crescenti di secondo i valori crescenti di quella particolare variabile.quella particolare variabile.
• Funzione di EXCEL cerca.vert
Test per l’ipotesi di Test per l’ipotesi di autocorrelazione nei residuiautocorrelazione nei residui
Marco Riani - Analisi delle statistiche di vendita 43
Coefficiente di autocorrelazioneCoefficiente di autocorrelazione Punto di partenzaPunto di partenza
• Se le perturbazioni sono incorrelate con la stessa varianza otteniamo 2σ2
• Se le perturbazioni sono correlate positivamente otteniamo 2σ2 - termine positivo
Test di Durbin e WatsonTest di Durbin e Watson Test di Durbin e WatsonTest di Durbin e Watson
Selezione delle variabiliSelezione delle variabili
Procedure backward e forwardProcedure backward e forward
Evoluzione del coefficiente di determinazione nei diversi passi della procedura backward
0.69
0.695
0.7
rmin
azio
ne
)
0.67
0.675
0.68
0.685
10 9 8 7 6
Numero di variabili inserite nel modello
Indi
ce d
i det
er(R
2