test statistici metodi quantitativi per economia, finanza e management esercitazione n°5
TRANSCRIPT
![Page 1: Test Statistici Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°5](https://reader036.vdocuments.net/reader036/viewer/2022062701/5542eb4e497959361e8bd6b2/html5/thumbnails/1.jpg)
Test StatisticiTest Statistici
Metodi Quantitativi per Economia, Finanza e Management
Esercitazione n°5
![Page 2: Test Statistici Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°5](https://reader036.vdocuments.net/reader036/viewer/2022062701/5542eb4e497959361e8bd6b2/html5/thumbnails/2.jpg)
Riferimenti
Mail di riferimento:
Alberto Saccardi [email protected] orario ricevimento lunedì 16.30-17.30
Elena Pallini [email protected] orario ricevimento venerdì 10.30-11.30
Federica Calabretti [email protected] orario ricevimento venerdì 10.30-11.30
![Page 3: Test Statistici Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°5](https://reader036.vdocuments.net/reader036/viewer/2022062701/5542eb4e497959361e8bd6b2/html5/thumbnails/3.jpg)
Lavoro di gruppo
• Inviare il questionario via mail a [email protected] e [email protected]
• Attendere la validazione del questionario e procedere alla somministrazione dello stesso
• Argomenti da trattare nel lavoro di gruppo:– Analisi univariata– Analisi bivariata– Test statistici– Analisi fattoriale– Regressione lineare utilizzando come regressori i fattori
![Page 4: Test Statistici Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°5](https://reader036.vdocuments.net/reader036/viewer/2022062701/5542eb4e497959361e8bd6b2/html5/thumbnails/4.jpg)
Test per lo studio dell’associazione tra variabili
• Nella teoria dei test, il ricercatore fornisce ipotesi riguardo la distribuzione della popolazione; tali ipotesi sono parametriche se riguardano il valore di uno o più parametri della popolazione conoscendone la distribuzione a meno dei parametri stessi; non parametriche se prescindono dalla conoscenza della distribuzione della popolazione.
• Obiettivo dei testObiettivo dei test:: come decidere se accettare o rifiutare un’ipotesi statistica alla luce di un risultato campionario.
Esistono due ipotesi: – HH00 l’ipotesi nulla, cioè l’ipotesi che deve essere verificata– HH11 l’ipotesi alternativa la quale rappresenta, di fatto, l’ipotesi che
il ricercatore sta cercando di dimostrare.
![Page 5: Test Statistici Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°5](https://reader036.vdocuments.net/reader036/viewer/2022062701/5542eb4e497959361e8bd6b2/html5/thumbnails/5.jpg)
Legenda:Risultato
(Probabilità)
Stato di Natura
Decisione
NonRifiutare
H0
No errore (1 - )
Errore Secondo Tipo
( β )
RifiutareH0
Errore Primo Tipo
( )
Possibili Risultati Verifica di Ipotesi
H0 Falsa H0 Vera
No Errore ( 1 - β )
Test per lo studio dell’associazione tra variabili
• Si può incorrere in due tipologie di errore:
![Page 6: Test Statistici Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°5](https://reader036.vdocuments.net/reader036/viewer/2022062701/5542eb4e497959361e8bd6b2/html5/thumbnails/6.jpg)
• Errore di Primo Tipo – Rifiutare un’ipotesi nulla vera– Considerato un tipo di errore molto serio
• Chiamato livello si significatività del test• Fissato a priori dal ricercatore (i valori comuni sono 0.01, 0.05, 0.10)
• Errore di Secondo Tipo
– Non rifiutare un’ipotesi nulla falsa
• (1 – β) è definito come la potenza del test
Test per lo studio dell’associazione tra variabili
La probabilità dell’errore di secondo tipo è β
La probabilità dell’errore di primo tipo è
Potenza = 1 – β = probabilità che un’ipotesi nulla falsa venga rifiutata
![Page 7: Test Statistici Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°5](https://reader036.vdocuments.net/reader036/viewer/2022062701/5542eb4e497959361e8bd6b2/html5/thumbnails/7.jpg)
Lettura di un test statistico (1)Esempio:
almeno un bi≠01) Ipotesi
b1= b2 = ....=bk = 0 H0:
H1:
2) Statistica test Statistica F
3) p-value
Rappresenta la probabilità di commettere l’errore di prima specie.Può essere interpretato come la probabilità che H0 sia “vera” in base al valore osservato della statistica test
![Page 8: Test Statistici Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°5](https://reader036.vdocuments.net/reader036/viewer/2022062701/5542eb4e497959361e8bd6b2/html5/thumbnails/8.jpg)
Lettura di un test statistico (2)
Se p-value piccolo (< ) RIFIUTO H0
Altrimenti (>= ) ACCETTO H0
Il p-value è il più piccolo valore di Il p-value è il più piccolo valore di per il quale Hper il quale H00 pu puòò essere rifiutata essere rifiutata
Fissato un livello di significatività :
![Page 9: Test Statistici Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°5](https://reader036.vdocuments.net/reader036/viewer/2022062701/5542eb4e497959361e8bd6b2/html5/thumbnails/9.jpg)
PROC FREQ - Descrizione
La PROC FREQ permette di
• calcolare le distribuzioni di frequenza univariate per variabili qualitative e quantitative discrete
• creare tabelle di contingenza a due o più dimensioni per variabili qualitative e quantitative
discrete
• calcolare indici di dipendenza relativi a tabelle di contingenza
![Page 10: Test Statistici Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°5](https://reader036.vdocuments.net/reader036/viewer/2022062701/5542eb4e497959361e8bd6b2/html5/thumbnails/10.jpg)
Test chi-quadro – Indipendenza statistica
• Si applica alle tabelle di contingenza a due dimensioni
• Per testare l’hp di indipendenza statistica tra le due variabili della tabella (ossia, la distribuzione di X non è influenzata da Y e viceversa)
• Si calcola con la PROC FREQ (opzione CHISQ)
![Page 11: Test Statistici Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°5](https://reader036.vdocuments.net/reader036/viewer/2022062701/5542eb4e497959361e8bd6b2/html5/thumbnails/11.jpg)
PROC FREQ – Sintassi generale
proc freq data= dataset option(s);
tables variabile1 * variabile2 /option(s);
run;
Calcolo dell’indice chi-quadro
OPTIONS:• noprint non mostra i risultati nella finestra di output• /missing considera anche i missing nel calcolo delle frequenze• /chisq calcola l’indice chi-quadro e altre misure di
associazione basate sul chi-quadro
![Page 12: Test Statistici Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°5](https://reader036.vdocuments.net/reader036/viewer/2022062701/5542eb4e497959361e8bd6b2/html5/thumbnails/12.jpg)
Esempio n°1- Test chi-quadro – Indipendenza statistica
proc freq data=corso.telefonia;
table sesso * computer /chisq;
run;
C’è indipendenza statistica tra le variabili sesso del rispondente (SESSO) e possesso del computer (COMPUTER)?
![Page 13: Test Statistici Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°5](https://reader036.vdocuments.net/reader036/viewer/2022062701/5542eb4e497959361e8bd6b2/html5/thumbnails/13.jpg)
Le frequenze della variabile COMPUTER subordinata a SESSO:Le frequenze della variabile COMPUTER subordinata a SESSO:
Esempio n°1- Test chi-quadro – Indipendenza statistica
Le frequenze della variabile di SESSO subordinata a COMPUTER:Le frequenze della variabile di SESSO subordinata a COMPUTER:
Cosa sono le frequenze Cosa sono le frequenze subordinate?subordinate?Frequency
PercentRow Pct 0 1Col Pct 16 84 100
6.78 35.59 42.3716 84
28.57 46.6740 96 136
16.95 40.68 57.6329.41 70.5971.43 53.33
56 180 23623.73 76.27 100
F
M
Total
Table of sesso by computersesso(sesso) computer(computer) Total
sesso=F
Cumulative CumulativeFrequency Percent
0 16 16 16 161 84 84 100 100
sesso=M
Cumulative CumulativeFrequency Percent
0 40 29.41 40 29.411 96 70.59 136 100
computercomputer Frequency Percent
computercomputer Frequency Percent
computer = 0
Cumulative CumulativeFrequency Percent
F 16 28.57 16 28.57M 40 71.43 56 100
computer = 1
Cumulative CumulativeFrequency Percent
F 84 46.67 84 46.67M 96 53.33 180 100
sesso
sesso Frequency Percent
sesso
sesso Frequency Percent
![Page 14: Test Statistici Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°5](https://reader036.vdocuments.net/reader036/viewer/2022062701/5542eb4e497959361e8bd6b2/html5/thumbnails/14.jpg)
Le frequenze subordinate (di SESSO subordinata a COMPUTER e viceversa) sono diversedenota influenza di ognuna delle due variabili sulla distribuzione dell’altra (=dipendenza statistica)
Esempio n°1- Test chi-quadro – Indipendenza statistica
FrequencyPercentRow Pct 0 1Col Pct 16 84 100
6.78 35.59 42.3716 84
28.57 46.6740 96 136
16.95 40.68 57.6329.41 70.5971.43 53.33
56 180 23623.73 76.27 100
F
M
Total
Table of sesso by computersesso(sesso) computer(computer) Total
![Page 15: Test Statistici Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°5](https://reader036.vdocuments.net/reader036/viewer/2022062701/5542eb4e497959361e8bd6b2/html5/thumbnails/15.jpg)
Esempio n°1- Test chi-quadro – Indipendenza statistica
Il p-value del test chi-quadro è basso (<0.05) rifiuto l’hp nulla di indipendenza statistica le due variabili sono statisticamente dipendenti
Statistic DF Value ProbChi-Square 1 5.7275 0.0167Likelihood Ratio Chi-Square 1 5.9139 0.015Continuity Adj. Chi-Square 1 5.0104 0.0252Mantel-Haenszel Chi-Square 1 5.7032 0.0169Phi Coefficient -0.1558Contingency Coefficient 0.1539Cramer's V -0.1558
Possiamo concludere che le due variabili sono statisticamente dipendenti?
Si considera la distribuzione χ², con un numero di gradi di libertà pari a (k-1)(h-1), dove k è il numero di righe e h il numero di colonne della tabella di contingenza. Qui:
H0 : indipendenza statistica tra X e Y
H1 : dipendenza statistica tra X e Y
![Page 16: Test Statistici Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°5](https://reader036.vdocuments.net/reader036/viewer/2022062701/5542eb4e497959361e8bd6b2/html5/thumbnails/16.jpg)
proc freq data=corso.telefonia;
table sesso * marca /chisq;
run;
C’è indipendenza statistica tra le variabili SESSO e MARCA?
Esempio n°2 - Test chi-quadro – Indipendenza statistica
![Page 17: Test Statistici Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°5](https://reader036.vdocuments.net/reader036/viewer/2022062701/5542eb4e497959361e8bd6b2/html5/thumbnails/17.jpg)
Esempio n°2 - Test chi-quadro – Indipendenza statistica
Attenzione: molte celle con frequenze congiunte assolute molto bassetest non molto affidabile
Frequency
PercentRow Pct Altro Lg Motorola Nek Nokia PalmOne Samsung Siemens Sony
EricssonCol Pct 2 8 19 2 45 1 15 1 7 100
0.85 3.39 8.05 0.85 19.07 0.42 6.36 0.42 2.97 42.372 8 19 2 45 1 15 1 7
33.33 61.54 36.54 50 43.69 100 37.5 20 58.334 5 33 2 58 0 25 4 5 136
1.69 2.12 13.98 0.85 24.58 0 10.59 1.69 2.12 57.632.94 3.68 24.26 1.47 42.65 0 18.38 2.94 3.68
66.67 38.46 63.46 50 56.31 0 62.5 80 41.676 13 52 4 103 1 40 5 12 236
2.54 5.51 22.03 1.69 43.64 0.42 16.95 2.12 5.08 100
F
M
Total
Table of sesso by marcasesso marca Total
![Page 18: Test Statistici Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°5](https://reader036.vdocuments.net/reader036/viewer/2022062701/5542eb4e497959361e8bd6b2/html5/thumbnails/18.jpg)
Esempio n°2 - Test chi-quadro – Indipendenza statistica
Il p-value del test chi-quadro è alto accetto l’hp di indipendenza statistica le due variabili sono statisticamente indipendenti
Statistic DF Value ProbChi-Square 8 7.0754 0.5285
Likelihood Ratio Chi-Square
8 7.5018 0.4836
Mantel-Haenszel Chi-Square
1 0.0103 0.9191
Phi Coefficient 0.1731Contingency Coefficient 0.1706
Cramer's V 0.1731
than 5. Chi-Square may not be a valid test.
WARNING: 44% of the cells have expected counts less
![Page 19: Test Statistici Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°5](https://reader036.vdocuments.net/reader036/viewer/2022062701/5542eb4e497959361e8bd6b2/html5/thumbnails/19.jpg)
Test t – Indipendenza lineare
• Si applica a variabili quantitative
• Per testare l’hp di indipendenza lineare tra due variabili (ossia, il coefficiente di correlazione lineare tra X e Y è nullo)
• Si calcola con la PROC CORR
![Page 20: Test Statistici Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°5](https://reader036.vdocuments.net/reader036/viewer/2022062701/5542eb4e497959361e8bd6b2/html5/thumbnails/20.jpg)
PROC CORR - Descrizione
La PROC CORR permette di
• calcolare la correlazione tra due o più variabili quantitative
![Page 21: Test Statistici Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°5](https://reader036.vdocuments.net/reader036/viewer/2022062701/5542eb4e497959361e8bd6b2/html5/thumbnails/21.jpg)
PROC CORR – Sintassi generale
proc corr data= dataset;
var variabile1 variabile2 … variabilen;
run;
Correlazione tra due o più variabili
![Page 22: Test Statistici Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°5](https://reader036.vdocuments.net/reader036/viewer/2022062701/5542eb4e497959361e8bd6b2/html5/thumbnails/22.jpg)
PROC CORR - Esempio
Correlazione tra il numero medio di ore di utilizzo del telefono cellulare e del fisso al giorno.
proc corr data=corso.telefonia;
var cell_h fisso_h;
run;
![Page 23: Test Statistici Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°5](https://reader036.vdocuments.net/reader036/viewer/2022062701/5542eb4e497959361e8bd6b2/html5/thumbnails/23.jpg)
Output PROC CORR - Esempio
Coefficiente di correlazione lineare ρ(X,Y): è un indice relativo, assume valori compresi tra -1 e 1. Se ρ >0 (ρ <0) la relazione tra X e Y è lineare positiva (negativa), se ρ =0 non c’è relazione lineare.
1 2 3 4 5fi sso_h
5
10
15
20
c
e
l
l
_
h
![Page 24: Test Statistici Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°5](https://reader036.vdocuments.net/reader036/viewer/2022062701/5542eb4e497959361e8bd6b2/html5/thumbnails/24.jpg)
PROC CORR - Esempio
Correlazione tra la durata media delle chiamate effettuate [durata_chiamate_e] e:
• durata media delle chiamate ricevute [durata_chiamate_r]
• numero medio di ore di utilizzo del telefono cellulare al giorno [cell_h]
• numero medio di ore di utilizzo del telefono fisso al giorno [fisso_h]
proc corr data=corso.telefonia;
var durata_chiamate_e durata_chiamate_r
cell_h fisso_h;
run;
![Page 25: Test Statistici Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°5](https://reader036.vdocuments.net/reader036/viewer/2022062701/5542eb4e497959361e8bd6b2/html5/thumbnails/25.jpg)
Output PROC CORR - Esempio
0 20 40 60 80
dur at a_ chi amat e_e
0
20
40
60
80d
u
r
a
t
a
_
c
h
i
a
m
![Page 26: Test Statistici Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°5](https://reader036.vdocuments.net/reader036/viewer/2022062701/5542eb4e497959361e8bd6b2/html5/thumbnails/26.jpg)
Esempio n°1 - Test t – Indipendenza lineare
C’è indipendenza lineare tra il numero medio ore utilizzo cellulare al giorno(CELL_H ) e il numero medio ore utilizzo telefono fisso al giorno (FISSO_H)?
proc corr data=corso.telefonia;
var cell_h fisso_h;
run;
![Page 27: Test Statistici Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°5](https://reader036.vdocuments.net/reader036/viewer/2022062701/5542eb4e497959361e8bd6b2/html5/thumbnails/27.jpg)
Esempio n°1 - Test t – Indipendenza lineare
Il p-value del test t è basso rifiuto l’hp di indipendenza lineare esiste una relazione lineare tra le due variabili, anche se non molto forte (il coefficiente di correlazione lineare è non nullo ma ha valore non molto elevato)
![Page 28: Test Statistici Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°5](https://reader036.vdocuments.net/reader036/viewer/2022062701/5542eb4e497959361e8bd6b2/html5/thumbnails/28.jpg)
Esempio n°2 - Test t – Indipendenza lineare
C’è indipendenza lineare tra il numero medio ore utilizzo telefono fisso (FISSO_H ) e il numero medio di email inviate al giorno (EMAIL_H)?
proc corr data=corso.telefonia;
var fisso_h email_h;
run;
![Page 29: Test Statistici Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°5](https://reader036.vdocuments.net/reader036/viewer/2022062701/5542eb4e497959361e8bd6b2/html5/thumbnails/29.jpg)
Esempio n°2 - Test t – Indipendenza lineare
Il p-value del test t è alto accetto l’hp di indipendenza lineare non esiste una relazione lineare tra le due variabili
![Page 30: Test Statistici Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°5](https://reader036.vdocuments.net/reader036/viewer/2022062701/5542eb4e497959361e8bd6b2/html5/thumbnails/30.jpg)
Test F – Indipendenza in media
• test per indagare la relazione esistente tra una variabile quantitativa Y e una variabile qualitativa X, confrontando le distribuzioni di Y condizionate ai valori assunti dalla variabile X
• la metodologia consiste nel verificare la significatività delle differenze tra le medie aritmetiche della variabile continua dei gruppi di osservazioni generati dalle modalità assunte dalla variabile qualitativa(ANOVA : ANalysis Of Variance)
• il confronto tra le medie avviene tramite il test F, basato sulla scomposizione della varianza
H0: μ1 = μ2 = … = μk (le medie sono tutte uguali tra loro )
H1: le μi non sono tutte uguali (esistono almeno due medie diverse tra loro)
![Page 31: Test Statistici Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°5](https://reader036.vdocuments.net/reader036/viewer/2022062701/5542eb4e497959361e8bd6b2/html5/thumbnails/31.jpg)
Test F – Indipendenza in mediaDevianza Totalesomma dei quadrati degli scarti di ogni valore dalla media generale
gdl = n-1 (n = num. dati)
Devianza tra i gruppi somma dei quadrati degli scarti di ogni media di gruppo dalla media generale
gdl = p-1 (p= num. gruppi)
Varianza tra
Devianza interna ai gruppi (o entro i gruppi )somma degli scarti al quadrato di ogni valore dalla media del suo gruppo
gdl = n-p Varianza nei(o entro)
F= VarTRA/ VarNEI
Significatività del test p-value :
- se il p-value del test F è basso (<α) le differenze riscontrate tra le medie sono significativerifiuto l’ipotesi nullaposso affermare l’esistenza di una relazione tra la variabile Y e la variabile X.
![Page 32: Test Statistici Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°5](https://reader036.vdocuments.net/reader036/viewer/2022062701/5542eb4e497959361e8bd6b2/html5/thumbnails/32.jpg)
PROC ANOVA – Sintassi generale Sia Y una variabile quantitativa e X una variabile qualitativa
PROC ANOVA DATA=dataset;
CLASS X;
MODEL Y=X;
MEANS X;
RUN;
![Page 33: Test Statistici Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°5](https://reader036.vdocuments.net/reader036/viewer/2022062701/5542eb4e497959361e8bd6b2/html5/thumbnails/33.jpg)
Esempio (1/2)
PROC ANOVA DATA =corso.telefonia;
CLASS operatore;
MODEL soddisfazione_globale=operatore;
MEANS operatore;
RUN;
C’è relazione tra la soddisfazione del cliente (SODDISFAZIONE_GLOBALE) e l’operatore telefonico da lui scelto (OPERATORE)?
![Page 34: Test Statistici Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°5](https://reader036.vdocuments.net/reader036/viewer/2022062701/5542eb4e497959361e8bd6b2/html5/thumbnails/34.jpg)
Esempio (2/2)Output proc anova:
Source DF Sum of Squares Mean Square F Value Pr > F
Model 3 8.9317803 2.9772601 1.61 0.1884
Error 231 427.8086453 1.8519855
Corrected Total 234 436.7404255
Level of N soddisfazione_globaleoperatore Mean Std Dev
Tim 55 6.16363636 1.33004645Tre 12 6.41666667 1.31137217
Vodafone 153 6.62745098 1.29209313Wind 15 6.4 2.06328448
Devianza Varianza
TraNei (Entro)
R-Square Coeff Var Root MSE soddisfazione_globale Mean
0.020451 20.9571 1.360877 6.493617eta quadro
Il p-value del test F è alto (>α)accetto l’hp nulla di indipendenza in media
non esiste una relazione di dipendenza in media tra le due variabili
![Page 35: Test Statistici Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°5](https://reader036.vdocuments.net/reader036/viewer/2022062701/5542eb4e497959361e8bd6b2/html5/thumbnails/35.jpg)
Esercizi 1.Testare se le variabili area geografica e
sesso del data set DENTI sono statisticamente indipendenti
2.Testare l’ipotesi di indipendenza lineare tra le variabili consumo di dentifrici della marca A e numero di contatti pubblicitari totali del data set DENTI
3. Testare l’ipotesi di indipendenza in media tra la variabile consumo di dentifrici della marca A e area geografica e confrontarla con quella tra consumo di dentifrici della marca A e dimensione della città di residenza.