regressione lineare metodi quantitativi per economia, finanza e management esercitazione n°8

32
Regressione lineare Regressione lineare Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°8

Upload: luciana-romagnoli

Post on 01-May-2015

223 views

Category:

Documents


2 download

TRANSCRIPT

Page 1: Regressione lineare Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°8

Regressione lineareRegressione lineare

Metodi Quantitativi per Economia, Finanza e Management

Esercitazione n°8

Page 2: Regressione lineare Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°8

Regressione lineare - ModelloModello di regressione lineare

• si vuole modellare una relazione di tipo lineare tra una variabile dipendente e un insieme di regressori che si ritiene influenzino la variabile dipendente

• si vuole approssimare la nuvola dei punti osservati (ogni punto rappresenta un intervistato) con una retta

• tra tutte le infinite rette possibili si stima la retta che fornisce l’interpolazione migliore

• stimare la migliore retta di regressione significa calcolare una stima dei coefficienti associati ai regressori che entrano nel modello (tutto ciò con il vincolo di minimizzare gli errori di approssimazione)

Page 3: Regressione lineare Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°8

Regressione lineare – Analisi preliminari

Prima di stimare il modello

• costruire variabili dummy se necessario (ossia se si vogliono utilizzare variabili qualitative nominali come regressori)

• valutare il coefficiente di correlazione lineare (PROC CORR) tra la variabile dipendente e tutti i potenziali regressori

• valutare la presenza di multicollinearità tra i regressori (PROC CORR per analizzare la matrice di correlazione tra i regressori che entrano nel modello)

Page 4: Regressione lineare Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°8

Regressione lineare – Selezione regressori

Scelta dei regressori che entrano nel modello

• selezione a priori di un sottoinsieme di regressori (ad es. si scelgono le variabili con valori alti del coefficiente di correlazione lineare con la variabile dipendente. PROC REG senza opzioni di selezione variabili)

• metodo di selezione automatica (PROC REG con opzione STEPWISE)

Page 5: Regressione lineare Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°8

Regressione lineare – Regressione stepwise

Procedura sequenziale che valuta l’ingresso/uscita dal modello dei singoli regressori (in base a indicatori legati all’R-quadro)

• Step 0si considera un insieme di potenziali regressori• Step 1entra il primo regressore. Ossia, viene stimato un modello contenente

un unico regressore tra quelli proposti (il regressore che spiega meglio la variabilità della variabile dipendente)

• Step 2si valutano tutti i possibili modelli contenenti il regressore individuato allo step 1 e uno dei rimanenti regressori, e si tiene il modello con il fit migliore (ossia entra il regressore che dà il contributo maggiore alla spiegazione della variabilità)

• Step 3come nello step 2, entra il regressore che dà il contributo maggiore alla spiegazione della variabilità

• Step 4si valuta l’uscita di ognuno dei regressori presenti (in base alla minor perdita di capacità esplicativa del modello) e l’ingresso di un nuovo regressore (in base al maggior incremento nella capacità esplicativa del modello)

La procedura continua con l’ingresso/uscita dei regressori fino a quando non si può più migliorare la capacità esplicativa del modello.

Page 6: Regressione lineare Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°8

Regressione lineare – Interpretazione coefficienti

Il coefficiente beta (output della PROC REG) associato ad uno specifico regressore X ha il seguente significato

• se X aumenta/diminuisce di una unità (e tutti gli altri regressori rimangono invariati) allora

1) se il coefficiente è positivo Y aumenta/diminuisce di una percentuale pari al valore del coefficiente

2) se il coefficiente è negativo Y diminuisce/aumenta di una percentuale pari al valore del coefficiente

• in genere si considerano i coefficienti standardizzati (opzione STB della PROC REG) che non sono influenzati dall’unità di misura delle variabili

ppXXXY ...22110

Page 7: Regressione lineare Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°8

Regressione lineare – Valutazione modello

Valutazione della bontà del modello (output della PROC REG)

• coefficiente di determinazione R-quadro per valutare la capacità del modello di rappresentare la relazione tra la variabile dipendente e i regressori (tra 0 e 1, quanto più si avvicina ad 1 tanto migliore è il modello)

• test F per valutare la significatività di tutti i coefficienti (se p-value del test piccolo allora si rifiuta l’ipotesi di tutti i coefficienti simultaneamente nulli il modello è buono)

• test t per valutare la significatività dei singoli coefficienti (se p-value del test piccolo allora si rifiuta l’ipotesi di coefficiente nullo il regressore corrispondente è rilevante per la spiegazione della variabile dipendente)

Page 8: Regressione lineare Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°8

proc reg data= dataset;model variabile dipendente=

regressore_1 . . . regressore_k

/option(s);run;

Modello di regressione lineare – k regressori specificati a priori

PROC REG – Sintassi

OPTIONS:• /stb calcola i coefficienti standardizzati• /selection=stepwise applica la procedura stepwise per la selezione

dei regressori

Page 9: Regressione lineare Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°8

PROC REG – Esempio 1 Variabile dipendente e regressori

Nome variabile Descrizione variabilesoddisfazione_globale Livello di soddisfazione globale relativo al telefono cellulareAccessoWeb_2 Livello di soddisfazione relativo al costo di accesso a internetAltriOperatori_2 Livello di soddisfazione relativo ai costi verso altri operatoriassistenza_2 Livello di soddisfazione relativo al servizio di assistenzaAutoricarica_2 Livello di soddisfazione relativo alla possibilità di autoricaricaCambioTariffa_2

Livello di soddisfazione relativo alla facilità di cambiamento della tariffa

ChiamateTuoOperatore_2 Livello di soddisfazione relativo alla possibilità di effettuare chiamate a costi inferiori verso numeri dello stesso operatore

ChiarezzaTariffe_2 Livello di soddisfazione relativo alla chiarezza espositiva delle tariffeComodatoUso_2 Livello di soddisfazione relativo alla possibilità di rivecere un cellulare in

comodato d'usocopertura_2 Livello di soddisfazione relativo alla copertura della reteCostoMMS_2 Livello di soddisfazione relativo al costo degli MMSCostoSMS_2 Livello di soddisfazione relativo al costo degli SMSdiffusione_2 Livello di soddisfazione relativo alla diffusioneDurataMinContratto_2 Livello di soddisfazione relativo alla presenza di una durata minima del

contrattoimmagine_2 Livello di soddisfazione relativo all'immagineMMSTuoOperatore_2 Livello di soddisfazione relativo alla possibilità inviare MMS a costi

inferiori verso numeri dello stesso operatoreNavigazioneWeb_2 Livello di soddisfazione relativo al costo di navigazione in internetNoScattoRisp_2 Livello di soddisfazione relativo all'assenza di scatto alla rispostaNumeriFissi_2 Livello di soddisfazione relativo alle agevolazioni verso numeri fissiPromozioni_2 Livello di soddisfazione relativo alla possibilità di attivare promozioni

sulle tariffeSMSTuoOperatore_2 Livello di soddisfazione relativo alla possibilità inviare SMS a costi

inferiori verso numeri dello stesso operatorevsPochiNumeri_2 Livello di soddisfazione relativo alle agevolazioni verso uno o più numeri

di telefono

Page 10: Regressione lineare Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°8

PROC REG – Esempio 1 Modello di regressione lineare variabile dipendente= SODDISFAZIONE_GLOBALE, regressori= 21 variabili di soddisfazione (livello di soddisfazione relativo a tariffe, promozioni, ecc.)

proc reg data= corso.telefonia;

model soddisfazione_globale=

CambioTariffa_2 ChiarezzaTariffe_2 …

/stb;

run;

VARIABILE DIPENDENTE

REGRESSORIopzione per ottenere i

coefficienti standardizzati

Page 11: Regressione lineare Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°8

PROC REG – Output esempio 1

Number of Observations Read 236Number of Observations Used 235

Number of Observations with Missing Values 1

Root MSE 0.88085 R-Square 0.6216Dependent Mean 6.49362 Adj R-Sq 0.5843

Coeff Var 13.56492

attenzioneper stimare il modello SAS non utilizza i record con valori mancanti

il modello è abbastanza buono (spiega il 62% della variabilità della variabile dipendente)

Sum of MeanSquares Square

Model 21 271.47294 12.92728 16.66 <.0001Error 213 165.26749 0.7759

Corrected Total 234 436.74043

Analysis of VarianceSource DF F Value Pr > F

il modello è significativo (il p-value del test F è piccolo)

Page 12: Regressione lineare Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°8

PROC REG – Output esempio 1

coefficienti significativiregressori rilevanti per la spiegazione del fenomeno

Parameter Standard StandardizedEstimate Error Estimate

Intercept 1 1.05063 0.40052 2.62 0.0093 0CambioTariffa_2 1 0.12034 0.0331 3.64 0.0003 0.19584

MMSTuoOperatore_2 1 -0.00139 0.01586 -0.09 0.9303 -0.00425copertura_2 1 0.06579 0.04557 1.44 0.1503 0.07419

NoScattoRisp_2 1 -0.02286 0.02539 -0.9 0.3689 -0.04257Autoricarica_2 1 -0.00947 0.02736 -0.35 0.7295 -0.01698CostoMMS_2 1 0.00949 0.03211 0.3 0.768 0.01558NumeriFissi_2 1 0.0584 0.03599 1.62 0.1062 0.08448

DurataMinContratto_2 1 0.03014 0.03124 0.96 0.3358 0.04964vsPochiNumeri_2 1 -0.01002 0.03212 -0.31 0.7555 -0.01566

diffusione_2 1 0.05247 0.05206 1.01 0.3147 0.0565ComodatoUso_2 1 0.06531 0.02891 2.26 0.0249 0.11126

ChiarezzaTariffe_2 1 0.06117 0.03412 1.79 0.0744 0.10058AccessoWeb_2 1 0.02487 0.05946 0.42 0.6762 0.04024AltriOperatori_2 1 0.06777 0.03564 1.9 0.0586 0.1006

SMSTuoOperatore_2 1 0.01755 0.03696 0.47 0.6354 0.02923assistenza_2 1 0.0504 0.04082 1.23 0.2183 0.06798immagine_2 1 0.01288 0.04614 0.28 0.7803 0.01638

ChiamateTuoOperatore_2 1 0.15362 0.04424 3.47 0.0006 0.21813Promozioni_2 1 0.14316 0.0426 3.36 0.0009 0.20717CostoSMS_2 1 0.02739 0.04167 0.66 0.5117 0.04154

NavigazioneWeb_2 1 -0.04249 0.06017 -0.71 0.4809 -0.06822

Parameter EstimatesVariable DF t Value Pr > |t|

Page 13: Regressione lineare Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°8

PROC REG – Output esempio 1

se la variabile CambioTariffa_2 aumenta (diminuisce) di una unità allora la soddisfazione globale aumenta (diminuisce) del 20%

Parameter Standard StandardizedEstimate Error Estimate

Intercept 1 1.05063 0.40052 2.62 0.0093 0CambioTariffa_2 1 0.12034 0.0331 3.64 0.0003 0.19584

MMSTuoOperatore_2 1 -0.00139 0.01586 -0.09 0.9303 -0.00425copertura_2 1 0.06579 0.04557 1.44 0.1503 0.07419

NoScattoRisp_2 1 -0.02286 0.02539 -0.9 0.3689 -0.04257Autoricarica_2 1 -0.00947 0.02736 -0.35 0.7295 -0.01698CostoMMS_2 1 0.00949 0.03211 0.3 0.768 0.01558NumeriFissi_2 1 0.0584 0.03599 1.62 0.1062 0.08448

DurataMinContratto_2 1 0.03014 0.03124 0.96 0.3358 0.04964vsPochiNumeri_2 1 -0.01002 0.03212 -0.31 0.7555 -0.01566

diffusione_2 1 0.05247 0.05206 1.01 0.3147 0.0565ComodatoUso_2 1 0.06531 0.02891 2.26 0.0249 0.11126

ChiarezzaTariffe_2 1 0.06117 0.03412 1.79 0.0744 0.10058AccessoWeb_2 1 0.02487 0.05946 0.42 0.6762 0.04024AltriOperatori_2 1 0.06777 0.03564 1.9 0.0586 0.1006

SMSTuoOperatore_2 1 0.01755 0.03696 0.47 0.6354 0.02923assistenza_2 1 0.0504 0.04082 1.23 0.2183 0.06798immagine_2 1 0.01288 0.04614 0.28 0.7803 0.01638

ChiamateTuoOperatore_2 1 0.15362 0.04424 3.47 0.0006 0.21813Promozioni_2 1 0.14316 0.0426 3.36 0.0009 0.20717CostoSMS_2 1 0.02739 0.04167 0.66 0.5117 0.04154

NavigazioneWeb_2 1 -0.04249 0.06017 -0.71 0.4809 -0.06822

Parameter EstimatesVariable DF t Value Pr > |t|

se la variabile NoScattoRisp_2 aumenta (diminuisce) di una unità allora la soddisfazione globale diminuisce (aumenta) del 4%

Page 14: Regressione lineare Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°8

PROC REG – Esempio 2 Scelta dei regressori utili alla spiegazione della SODDISFAZIONE_GLOBALE sulla base del coefficiente di correlazione lineare con la variabile dipendente e analisi della multicollinearità.

proc corr data= corso.telefonia;

var soddisfazione_globale;

with CambioTariffa_2 SMSTuoOperatore_2 … ;

run;

proc corr data= corso.telefonia;

var CambioTariffa_2 ChiarezzaTariffe_2 …;

run;

scelta dei regressori

regressori candidati: 21 variabili di soddisfazioneanalisi multicollinearità

regressori selezionati (quelli con coeff correlaz lineare elevato)

Page 15: Regressione lineare Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°8

PROC REG – Esempio 2 Regressione di SODDISFAZIONE_GLOBALE sull’insieme di 8 regressori scelti a priori sulla base del coefficiente di correlazione lineare.

proc reg data= corso.telefonia;

model soddisfazione_globale=

CambioTariffa_2 ChiarezzaTariffe_2 AltriOperatori_2 SMSTuoOperatore_2 Assistenza_2 ChiamateTuoOperatore_2 Promozioni_2 CostoSMS_2

/stb;

run;

stima del modello di regressione

regressori selezionati in base al coefficiente di correlaz lineare

Page 16: Regressione lineare Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°8

PROC CORR - Scelta regressori - Output esempio 2

soddisfazione_globale soddisfazione_globaleCambioTariffa_2 0.55638 ChiarezzaTariffe_2 0.5014

CambioTariffa_2 <.0001 ChiarezzaTariffe_2 <.0001235 235

MMSTuoOperatore_2 0.20027 AccessoWeb_2 0.15544MMSTuoOperatore_2 0.002 AccessoWeb_2 0.0171

235 235copertura_2 0.30879 AltriOperatori_2 0.43996

copertura_2 <.0001 AltriOperatori_2 <.0001235 235

NoScattoRisp_2 0.1361 SMSTuoOperatore_2 0.46648NoScattoRisp_2 0.0371 SMSTuoOperatore_2 <.0001

235 235Autoricarica_2 0.26927 assistenza_2 0.42899

Autoricarica_2 <.0001 assistenza_2 <.0001235 235

CostoMMS_2 0.22365 immagine_2 0.36016CostoMMS_2 0.0006 immagine_2 <.0001

235 235NumeriFissi_2 0.36509 ChiamateTuoOperatore_2 0.57824

NumeriFissi_2 <.0001 ChiamateTuoOperatore_2 <.0001235 235

DurataMinContratto_2 0.29973 Promozioni_2 0.60634DurataMinContratto_2 <.0001 Promozioni_2 <.0001

235 235vsPochiNumeri_2 0.33324 CostoSMS_2 0.43441

vsPochiNumeri_2 <.0001 CostoSMS_2 <.0001235 235

diffusione_2 0.32321 NavigazioneWeb_2 0.13071diffusione_2 <.0001 NavigazioneWeb_2 0.0453

235 235ComodatoUso_2 0.25317

ComodatoUso_2 <.0001 coeff correlaz lineare>=0.5235 coeff correlaz lineare>=0.4

Pearson Correlation CoefficientsProb > |r| under H0: Rho=0Number of Observations

Page 17: Regressione lineare Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°8

PROC CORR – Analisi multicollinearità - Output esempio 2

CambioTariffa_2

ChiarezzaTariffe_2

AltriOperatori_2

SMSTuoOperatore_2

assistenza_2

ChiamateTuoOperato

re_2

Promozioni_2

CostoSMS_2

CambioTariffa_2

1 0.41856 0.33324 0.25611 0.34255 0.4098 0.49403 0.31947

ChiarezzaTariffe_2

0.41856 1 0.36892 0.29734 0.3176 0.32382 0.55166 0.30541

AltriOperatori_2

0.33324 0.36892 1 0.31469 0.19209 0.26941 0.37051 0.28354

SMSTuoOperatore_2

0.25611 0.29734 0.31469 1 0.19893 0.56586 0.37221 0.58255

assistenza_2

0.34255 0.3176 0.19209 0.19893 1 0.27931 0.40113 0.15707

ChiamateTuoOperato

re_2

0.4098 0.32382 0.26941 0.56586 0.27931 1 0.43619 0.52141

Promozioni_2

0.49403 0.55166 0.37051 0.37221 0.40113 0.43619 1 0.27395

CostoSMS_2

0.31947 0.30541 0.28354 0.58255 0.15707 0.52141 0.27395 1

Pearson Correlation Coefficients, N = 236

Page 18: Regressione lineare Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°8

PROC REG – Output esempio 2

Number of Observations Read 236Number of Observations Used 235

Number of Observations with Missing Values 1

Root MSE 0.88904 R-Square 0.591Dependent Mean 6.49362 Adj R-Sq 0.5765

Coeff Var 13.69104

attenzioneper stimare il modello SAS non utilizza i record con valori mancanti

il modello è abbastanza buono ma non del tutto soddisfacente (R-quadro più basso di prima perché ci sono meno regressori)

Page 19: Regressione lineare Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°8

PROC REG – Output esempio 2

coefficienti significativiregressori rilevanti per la spiegazione del fenomeno

Parameter Standard StandardizedEstimate Error Estimate

Intercept 1 1.82201 0.28363 6.42 <.0001 0CambioTariffa_2 1 0.11539 0.03235 3.57 0.0004 0.18779

ChiarezzaTariffe_2 1 0.06327 0.03259 1.94 0.0534 0.10404AltriOperatori_2 1 0.09227 0.03252 2.84 0.005 0.13698

SMSTuoOperatore_2 1 0.03359 0.03489 0.96 0.3367 0.05595assistenza_2 1 0.10052 0.03519 2.86 0.0047 0.1356

ChiamateTuoOperatore_2 1 0.17321 0.04109 4.22 <.0001 0.24594Promozioni_2 1 0.14581 0.04016 3.63 0.0003 0.211CostoSMS_2 1 0.02984 0.03688 0.81 0.4193 0.04526

Parameter EstimatesVariable DF t Value Pr > |t|

Page 20: Regressione lineare Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°8

proc reg data= dataset;model variabile dipendente=

regressore_1 . . . regressore_p

/stb selection= stepwise;run;

Modello di regressione lineare – selezione automatica dei regressori (a partire da p regressori)

PROC REG – Sintassi

Page 21: Regressione lineare Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°8

PROC REG – Esempio 3

proc reg data= corso.telefonia;

model soddisfazione_globale=

CambioTariffa_2 ChiarezzaTariffe_2 …

/stb selection= stepwise;

run;

Regressione di SODDISFAZIONE_GLOBALE su un insieme di regressori scelti tramite la procedura stepwise

tutte le 21 variabili di soddisfazione

Page 22: Regressione lineare Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°8

PROC REG – Esempio 3

proc corr data= corso.telefonia;

var CambioTariffa_2 Copertura_2 ComodatoUso_2 ChiarezzaTariffe_2 AltriOperatori_2 Assistenza_2 ChiamateTuoOperatore_2 Promozioni_2;

run;

Verifica multicollinearità sui regressori selezionati dalla procedura stepwise

Page 23: Regressione lineare Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°8

PROC REG – Output esempio 3

output regressione stepwise

Page 24: Regressione lineare Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°8

PROC REG – Output esempio 3 Root MSE 0.8706 R-Square 0.6078

Dependent Mean 6.49362 Adj R-Sq 0.5939Coeff Var 13.40707

Parameter Standard StandardizedEstimate Error Estimate

Intercept 1 1,28835 0,34002 3,79 0,0002 0CambioTariffa_2 1 0,11167 0,0314 3,56 0,0005 0,18173

copertura_2 1 0,09188 0,04233 2,17 0,031 0,10361ComodatoUso_2 1 0,07199 0,02572 2,8 0,0056 0,12264

ChiarezzaTariffe_2 1 0,06856 0,03238 2,12 0,0353 0,11273AltriOperatori_2 1 0,08115 0,03206 2,53 0,012 0,12048

assistenza_2 1 0,06765 0,03747 1,81 0,0723 0,09126ChiamateTuoOperatore_2 1 0,19919 0,03449 5,78 <.0001 0,28283

Promozioni_2 1 0,14977 0,03898 3,84 0,0002 0,21673

Parameter EstimatesVariable DF t Value Pr > |t|

quasi tutti i coefficienti sono significativi

Page 25: Regressione lineare Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°8

PROC REG – Output esempio 3

CambioTariffa_2

copertura_2

ComodatoUso_2

ChiarezzaTariffe_

2

AltriOperatori_2

assistenza_2

ChiamateTuoOperatore_2

Promozioni_2

CambioTariffa_2 1 0.17398 0.15965 0.41856 0.33324 0.34255 0.4098 0.49403copertura_2 0.17398 1 -0.0047 0.04225 0.10103 0.43697 0.27442 0.20653

ComodatoUso_2 0.15965 -0.0047 1 0.23512 0.26158 0.08806 0.06068 0.1271ChiarezzaTariffe_2 0.41856 0.04225 0.23512 1 0.36892 0.3176 0.32382 0.55166

AltriOperatori_2 0.33324 0.10103 0.26158 0.36892 1 0.19209 0.26941 0.37051assistenza_2 0.34255 0.43697 0.08806 0.3176 0.19209 1 0.27931 0.40113

ChiamateTuoOperatore_2 0.4098 0.27442 0.06068 0.32382 0.26941 0.27931 1 0.43619Promozioni_2 0.49403 0.20653 0.1271 0.55166 0.37051 0.40113 0.43619 1

Pearson Correlation Coefficients, N = 236

Analisi multicollinearità tra i regressori selezionati dalla stepwise

Page 26: Regressione lineare Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°8

PROC REG – Riepilogo Per stimare un modello di regressione lineare

1. individuare la variabile dipendente (=il fenomeno da analizzare)

2. individuare l’insieme dei potenziali regressori (eventualmente tutte le variabili nel dataset)

3. se necessario costruire variabili dummy

4. analizzare il coefficiente di correlazione lineare dei potenziali regressori con la variabile dipendente ed eventualmente fare una prima selezione dei regressori

5. verificare la presenza di multicollinearità tra i regressori usciti dalla prima selezione ed eventualmente eliminarne alcuni

6. far girare la PROC REG con il metodo stepwise e verificare la bontà del modello (R-quadro e significatività dei coefficienti)

7. se il modello non è soddisfacente verificare nuovamente la presenza di multicollinearità tra i regressori selezionati dalla stepwise e ripetere dal punto 4

Page 27: Regressione lineare Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°8

Costruzione variabili dummy - esempio

Non si possono inserire variabili qualitative nominali tra i regressoriper considerare questo tipo di variabili all’interno del modello bisogna costruire delle variabili dicotomiche (0-1) che identificano le modalità della variabile nominale originaria).

Es. Si vuole considerare tra i regressori la variabile qualitativa nominale “Area” che identifica l’area di residenza degli intervistati

La variabile “Area” assume tre modalità (nord-centro-sud) si costruiscono due variabili dummy

N° questionario AREA1 nord2 nord3 sud4 nord5 centro6 nord7 centro8 sud9 nord

10 centro

Page 28: Regressione lineare Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°8

Costruzione variabili dummy - esempio

Le variabili dummy da costruire sono due (la terza sarebbe ridondantepuò essere ottenuta come combinazione delle altre due)

• Area_nordvale 1 se l’intervistato è residente al nord e 0 in tutti gli altri casi

• Area_centrovale 1 se l’intervistato è residente al centro e 0 in tutti gli altri casi

Page 29: Regressione lineare Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°8

Costruzione variabili dummy - esempio

N° questionario AREA AREA_NORD AREA_CENTRO1 nord 1 02 nord 1 03 sud 0 04 nord 1 05 centro 0 16 nord 1 07 centro 0 18 sud 0 09 nord 1 0

10 centro 0 1

VARIABILE ORIGINARIA (non entra nel modello)

VARIABILI DUMMY (entrano nel modello)

Page 30: Regressione lineare Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°8

Costruzione variabili dummy - esempio

Nella PROC REG si inseriscono le due variabili dummy (ma non la variabile originaria!) nella lista dei regressorii relativi coefficienti rappresentano l’effetto della singola modalità (nord/centro) della variabile “Area”.

proc reg data= … ;

model Y= X1 X2 … area_nord area_centro

/stb selection= stepwise;

run;

Page 31: Regressione lineare Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°8

Assegnazione di etichette alle variabili di un dataset

• Talvolta i nomi delle variabili costruite a partire dalle domande del questionario non sono sufficientemente esplicativi

• Una volta importati i dati in SAS è possibile assegnare alle variabili delle etichette che contengano una descrizione più dettagliata delle variabili stesse

• La creazione di etichette deve avvenire all’interno di un passo di “DATA”

• Le etichette vengono visualizzate negli output prodotti dalle procedure SAS

Page 32: Regressione lineare Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°8

Assegnazione di etichette alle variabili di un dataset

data anagrafica;

set anagrafica;

label n_questionario= "identificativo questionario";

label d_1= "eta intervistato";

label d_2= "area residenza intervistato";

label d_3= "sesso intervistato";

run;

Si assegnano le etichette alle 4 variabili del dataset “anagrafica”