variabili esplicative categoriali · 2020. 11. 24. · 3 variabili esplicative categoriali...
TRANSCRIPT
-
Variabili esplicativecategoriali
Metodi Quantitativi per la Ricerca
2020/21
Agnese Vitali
-
Argomenti trattati
• Variabili esplicative categoriali−A due modalità
−A più modalità
-
3
Variabili esplicative categoriali
• Finora abbiamo visto solo modelli di regressionelineare con variabili continue (sia Y che X1, X2, …)
• Ma nelle indagini sociali molte variabili sonocategoriali (sesso, stato matrimoniale, classesociale, etnia, etc.)
• Come possiamo usare queste variabli come esplicative in un modello di regressionelineare?
-
4
• Il problema
• Codici numerici affiancano le etichette dellemodalità. Esempio: Preferenza politica:
1 Destra
2 Centro
3 Sinistra
• Ma questo non vuol dire che Sinistra vale tre volte Destra!
-
5
• Soluzione
• Usiamo variabili dicotomiche (binarie, dummy), che assumono valori 0 o 1
• Nota: La variabili dipendente, Y, DEVE esserecontinua
-
6
Esempio: voto in matematica
• Variabile dipendente: Y, voto in matematica
• Due variabili esplicative:
hisei: indice di occupazione dei genitori, variabile continua
femmina
= 1 se femmina
= 0 se maschio
-
7
• Modello di regressione lineare multipla:
Y = a + b1 hisei + b2 femmina
• Hisei variabile continua: sappiamo come interpretare b1 – l’effetto su Y di un cambiamentounitario in hisei, controllando per femmina
• Ma come interpretiamo b2, il coefficiente di femmina?
-
8
• Per le femmine (femmina = 1), l’equazionediventa:
Y = a + b1 hisei + b2 1
= (a + b2) + b1 hisei
= a* + b1 hisei [a* = a + b2]
-
9
• Per i maschi (femmina = 0), l’equazione diventa:
Y = a + b1 hisei + b2 0
= a + b1 hisei
-
10
• Quindi, otteniamo 2 equazioni (2 regressioni linearisemplici) – una per i maschi, una per le femmine
• Coefficienti della regressione multipla:
a + b2 = intercetta per le femmine
a = intercetta per i maschi
b1 = pendenza di hisei comune a entrambi igruppi (maschi e femmine)
-
11
Equazione di previsione:
Y = 447.01+ 1.24 hisei – 16. 82 femmina
Dai dati otteniamo…
-
12
• Per le femmine (femmina = 1):
Y = 447.01+ 1.24 hisei – 16. 82 1
= 399.64 + 1.24 hisei
• Per i maschi (femmina = 0):
Y = 447.01+ 1.24 hisei – 16. 82 0
= 447.01 + 1.24 hisei
• Il coefficiente di femmina nel modello rappresenta la differenza nel voto in matematica tra i due gruppi(condizionatamente a hisei)
Relazione tra hisei e voto in matematica
Y = 447.01+ 1.24 hisei – 16. 82 femmina
-
13
Associazione negativa: Le femmine tendono ad avere voti più bassi in matematica rispetto ai maschi
Controllando per l’occupazione dei genitori, in media, il voto in matematica per le femmine è di 16.82 puntipiù basso rispetto ai maschi
Interpretazione del coefficiente associato allavariabile dicotomica
-
14
femmina = 0
femmina = 0
Otteniamo quindi le equazionidi due rette che definiscono la relazione tra hisei e voto in matematica – una per imaschi, e una per le femmine
Le due rette sono parallele
→ Pendenza di hisei è la stessaper maschi e femmine
-
15
Variabili categoriali con più di due modalità
• Vogliamo stimare l’associazione tra istruzionedella madre e voto in matematica
• Questa variabile è basata sulla scala ISCED (International Standard Classification of Education)
-
17
• Come possiamo inserire questa variabilenel modello di regressione?
• NON usare mai come se fosse una variabilecontinua
• Crea un set di variabili dicotomiche per rappresentare variabili categoriali con più di due modalità
• Scegli una di queste come categoria di riferimento, e includi le altre come variabili esplicative
-
18
La categoria di riferimento
• In generale, se variabile ha k modalità, può entrare nelmodello di regressione attraverso k-1 variabilidicotomiche. Questo perchè una volta che k-1 variabilidicotomiche sono considerate, la kma è ridondante
• Ogni variabile dicotomica rappresenta una modalità
• La kma categoria è scelta come categoria di riferimento
-
19
• I coefficienti stimati dal modello di regressione per le k-1 variabili dicotomiche sono interpretati in confronto alla categoria di riferimento
• Ci sono varie opzioni per scegliere la categoria di riferimento
-
Varie opzioni• i.edu_mamma crea tante
variabili dicotomichequante sono le modalitàdi edu_mamma e usa la prima modalità come categoria di riferimento
• Quindi 7 modalità, di cui:−6 sono incluse come
variabili nella regressione
−1 usata come categoria di riferimento
Coefficienti tutti positivi: L’istruzione della mamma ha un effetto positivo sul voto in matematica
-
Varie opzioni• i.edu_mamma crea tante
variabili dicotomichequante sono le modalitàdi edu_mamma e usa la prima modalità come categoria di riferimento
• Anche qui 7 modalità, di cui:
−6 sono incluse come variabili nella regressione
−1 usata come categoria di riferimento
Rispetto alla categoria di riferimento (ISCED=0), quindi rispetto a una mamma con il più basso livellodi istruzione, avere una mamma con il più alto livello di istruzione aumenta il voto in matematica di 85.27 punti, in media
-
0123456
Varie opzioni: usiamo ISCED 3A e 4 come categoria di riferimento
-
Varie opzioni
• b4.edu_mamma creatante variabilidicotomiche quantesono le modalità di edu_mamma e usa la modalità che assume valore numerico =4come categoria di riferimento
Rispetto alla categoria di riferimento (ISCED=4), quindi rispetto a una mamma con un medio livello di istruzione, avere una mamma con il più alto livello di istruzione aumenta il voto in matematica di 4,83 punti, in media
-
• Creo 3 categorie per l’istruzione della madre: bassa, media e alta
• Scelgo una di queste come categoria di riferimento, ad es. Istruzione media
Varie opzioni
-
Varie opzioni
• 3 modalità, di cui:
−2 sono inclusecome variabilinella regressione
−1 usata come categoria di riferimento
-
Alternativamente
-
27
• Ora costruiamo una regressione lineare multipla per spiegare il voto in matematica usando le seguentivariabili esplicative:
hisei
femmina (= 1 se femmina, 0 se maschio)
edu_mamma_bassa (= 1 se bassa, 0 altrimenti)
edu_mamma_alta (= 1 se alta, 0 altrimenti)
-
Equazione di previsione:Y = 460.94 + 1.20 hisei – 17.83 femmina
–23.78 edu_mamma_bassa –16.13 edu_mamma_alta
-
29
Deriviamo l’equazione di previsione per i bambini la cui mamma ha istruzione:
Bassa: Y = 460.94 +1.20 hisei –17.83 femmina
Media: Y = 460.94 +1.20 hisei –17.83 femmina –23.78
Alta: Y = 460.94 +1.20 hisei –17.83 femmina –16.13
Equazione di previsione:Y = 460.94 + 1.20 hisei – 17.83 femmina
–23.78 edu_mamma_bassa –16.13 edu_mamma_alta
-
Letture
• Agresti – Finlay:
−Capitolo 13, paragrafi 13.1 e 13.2