variabili esplicative categoriali · 2020. 11. 24. · 3 variabili esplicative categoriali...

Variabili esplicativecategoriali

Metodi Quantitativi per la Ricerca

2020/21

Agnese Vitali

Argomenti trattati

• Variabili esplicative categoriali−A due modalità

−A più modalità

3

Variabili esplicative categoriali

• Finora abbiamo visto solo modelli di regressionelineare con variabili continue (sia Y che X1, X2, …)

• Ma nelle indagini sociali molte variabili sonocategoriali (sesso, stato matrimoniale, classesociale, etnia, etc.)

• Come possiamo usare queste variabli come esplicative in un modello di regressionelineare?

4

• Il problema

• Codici numerici affiancano le etichette dellemodalità. Esempio: Preferenza politica:

1 Destra

2 Centro

3 Sinistra

• Ma questo non vuol dire che Sinistra vale tre volte Destra!

5

• Soluzione

• Usiamo variabili dicotomiche (binarie, dummy), che assumono valori 0 o 1

• Nota: La variabili dipendente, Y, DEVE esserecontinua

6

Esempio: voto in matematica

• Variabile dipendente: Y, voto in matematica

• Due variabili esplicative:

hisei: indice di occupazione dei genitori, variabile continua

femmina

= 1 se femmina

= 0 se maschio

7

• Modello di regressione lineare multipla:

Y = a + b1 hisei + b2 femmina

• Hisei variabile continua: sappiamo come interpretare b1 – l’effetto su Y di un cambiamentounitario in hisei, controllando per femmina

• Ma come interpretiamo b2, il coefficiente di femmina?

8

• Per le femmine (femmina = 1), l’equazionediventa:

Y = a + b1 hisei + b2 1

= (a + b2) + b1 hisei

= a* + b1 hisei [a* = a + b2]

9

• Per i maschi (femmina = 0), l’equazione diventa:

Y = a + b1 hisei + b2 0

= a + b1 hisei

10

• Quindi, otteniamo 2 equazioni (2 regressioni linearisemplici) – una per i maschi, una per le femmine

• Coefficienti della regressione multipla:

a + b2 = intercetta per le femmine

a = intercetta per i maschi

b1 = pendenza di hisei comune a entrambi igruppi (maschi e femmine)

11

Equazione di previsione:

Y = 447.01+ 1.24 hisei – 16. 82 femmina

Dai dati otteniamo…

12

• Per le femmine (femmina = 1):

Y = 447.01+ 1.24 hisei – 16. 82 1

= 399.64 + 1.24 hisei

• Per i maschi (femmina = 0):

Y = 447.01+ 1.24 hisei – 16. 82 0

= 447.01 + 1.24 hisei

• Il coefficiente di femmina nel modello rappresenta la differenza nel voto in matematica tra i due gruppi(condizionatamente a hisei)

Relazione tra hisei e voto in matematica

Y = 447.01+ 1.24 hisei – 16. 82 femmina

13

Associazione negativa: Le femmine tendono ad avere voti più bassi in matematica rispetto ai maschi

Controllando per l’occupazione dei genitori, in media, il voto in matematica per le femmine è di 16.82 puntipiù basso rispetto ai maschi

Interpretazione del coefficiente associato allavariabile dicotomica

14

femmina = 0

femmina = 0

Otteniamo quindi le equazionidi due rette che definiscono la relazione tra hisei e voto in matematica – una per imaschi, e una per le femmine

Le due rette sono parallele

→ Pendenza di hisei è la stessaper maschi e femmine

15

Variabili categoriali con più di due modalità

• Vogliamo stimare l’associazione tra istruzionedella madre e voto in matematica

• Questa variabile è basata sulla scala ISCED (International Standard Classification of Education)

17

• Come possiamo inserire questa variabilenel modello di regressione?

• NON usare mai come se fosse una variabilecontinua

• Crea un set di variabili dicotomiche per rappresentare variabili categoriali con più di due modalità

• Scegli una di queste come categoria di riferimento, e includi le altre come variabili esplicative

18

La categoria di riferimento

• In generale, se variabile ha k modalità, può entrare nelmodello di regressione attraverso k-1 variabilidicotomiche. Questo perchè una volta che k-1 variabilidicotomiche sono considerate, la kma è ridondante

• Ogni variabile dicotomica rappresenta una modalità

• La kma categoria è scelta come categoria di riferimento

19

• I coefficienti stimati dal modello di regressione per le k-1 variabili dicotomiche sono interpretati in confronto alla categoria di riferimento

• Ci sono varie opzioni per scegliere la categoria di riferimento

Varie opzioni• i.edu_mamma crea tante

variabili dicotomichequante sono le modalitàdi edu_mamma e usa la prima modalità come categoria di riferimento

• Quindi 7 modalità, di cui:−6 sono incluse come

variabili nella regressione

−1 usata come categoria di riferimento

Coefficienti tutti positivi: L’istruzione della mamma ha un effetto positivo sul voto in matematica

Varie opzioni• i.edu_mamma crea tante

variabili dicotomichequante sono le modalitàdi edu_mamma e usa la prima modalità come categoria di riferimento

• Anche qui 7 modalità, di cui:

−6 sono incluse come variabili nella regressione


Rispetto alla categoria di riferimento (ISCED=0), quindi rispetto a una mamma con il più basso livellodi istruzione, avere una mamma con il più alto livello di istruzione aumenta il voto in matematica di 85.27 punti, in media

0123456

Varie opzioni: usiamo ISCED 3A e 4 come categoria di riferimento

Varie opzioni

• b4.edu_mamma creatante variabilidicotomiche quantesono le modalità di edu_mamma e usa la modalità che assume valore numerico =4come categoria di riferimento

Rispetto alla categoria di riferimento (ISCED=4), quindi rispetto a una mamma con un medio livello di istruzione, avere una mamma con il più alto livello di istruzione aumenta il voto in matematica di 4,83 punti, in media

• Creo 3 categorie per l’istruzione della madre: bassa, media e alta

• Scelgo una di queste come categoria di riferimento, ad es. Istruzione media

Varie opzioni

Varie opzioni

• 3 modalità, di cui:

−2 sono inclusecome variabilinella regressione


Alternativamente

27

• Ora costruiamo una regressione lineare multipla per spiegare il voto in matematica usando le seguentivariabili esplicative:

hisei

femmina (= 1 se femmina, 0 se maschio)

edu_mamma_bassa (= 1 se bassa, 0 altrimenti)

edu_mamma_alta (= 1 se alta, 0 altrimenti)

Equazione di previsione:Y = 460.94 + 1.20 hisei – 17.83 femmina

–23.78 edu_mamma_bassa –16.13 edu_mamma_alta

29

Deriviamo l’equazione di previsione per i bambini la cui mamma ha istruzione:

Bassa: Y = 460.94 +1.20 hisei –17.83 femmina

Media: Y = 460.94 +1.20 hisei –17.83 femmina –23.78

Alta: Y = 460.94 +1.20 hisei –17.83 femmina –16.13

Equazione di previsione:Y = 460.94 + 1.20 hisei – 17.83 femmina

–23.78 edu_mamma_bassa –16.13 edu_mamma_alta

Letture

• Agresti – Finlay:

−Capitolo 13, paragrafi 13.1 e 13.2

variabili esplicative categoriali · 2020. 11. 24. · 3 variabili esplicative categoriali...

Documents