regresión lineal múltiple -...

27
Dr. Víctor Aguirre Torres, ITAM. Guión 12. 1 Regresión Lineal Múltiple

Upload: lyphuc

Post on 24-Apr-2018

231 views

Category:

Documents


8 download

TRANSCRIPT

Dr. Víctor Aguirre Torres, ITAM. Guión 12.

1

Regresión Lineal Múltiple

Dr. Víctor Aguirre Torres, ITAM. Guión 12.

2

Propósito

Cuantificar el cambio en el valor esperado de una variable (y) en función del cambiosimultáneo otras variables (x1, x2,..., xp).y=variable dependiente (cuantitativa)x1 =variable explicativa 1 (cuantitativa o cualitativa)x2 = variable explicativa 2 (cuantitativa o cualitativa)Etc.

Dr. Víctor Aguirre Torres, ITAM. Guión 12.

3

Caso: Cargos Tarjeta de Crédito.

Base de datos: Ch15\ConsumerSe desea estimar el efecto de Ingreso y el número de ocupantes del hogar sobre el gasto en tarjeta de crédito.Se obtuvo una muestra de n=50 hogares.y = Cargos por tarjeta de crédito (en

dólares)x1 = Ingreso anual familiar (en miles de

dólares)x2 = Ocupantes del hogar

Dr. Víctor Aguirre Torres, ITAM. Guión 12.

4

Datos

En este ejemplo los datos constan de tripletas ordenadas (x1i, x2i, yi)

iIncome($1000s)

HouseholdSize

AmountCharged ($)

1 54 3 4,0162 30 2 3,1593 32 4 5,1004 50 5 4,7425 31 2 1,8646 55 2 4,0707 37 1 2,7318 40 2 3,348

48 22 4 3,07449 46 5 4,82050 66 4 5,149

...

Dr. Víctor Aguirre Torres, ITAM. Guión 12.

5

Diagramas de Dispersión y Supuesto Básico.

Con el diagrama de dispersión se puede visualizar el supuesto básico del modelo.

Diagrama de Dispersión

0

1,000

2,000

3,000

4,000

5,000

6,000

0 10 20 30 40 50 60 70 80

Ingreso

Car

gos

E(y| 60<Ing<65)≅4900 usd

E(y| 20<Ing<25)≅3200 usd

Dr. Víctor Aguirre Torres, ITAM. Guión 12.

6

Supuesto Básico:

El valor promedio condicional de y depende linealmente de las variables explicativas.E(y|x’s)= β0 +β1x1+...+ βpxp

También se suele expresar el modelo con errores:

ε=error del modelo.(β0, β1, β2,..., βp)=parámetro desconocido

εββββ +++++= pp x...xxy 22110

Dr. Víctor Aguirre Torres, ITAM. Guión 12.

7

Interpretación de los Parámetros del Modelo de Regresión Lineal Múltiple.

Ecuación general

β0=intercepto al origenβ1= razón de cambio de E(y|x’s) respecto a x1manteniendo constante las demás x’sβ2= razón de cambio de E(y|x’s) respecto a x2manteniendo constante las demás x’sEtc.

εββββ +++++= pp x...xxy 22110

Dr. Víctor Aguirre Torres, ITAM. Guión 12.

8

Estimación de (β0, β1, β2).

También se puede definir la Función Suma de CuadradosDenotaremos los valores que la minimizan por (b0, b1, b2).Obtención de (b0, b1, b2) usando Excel:Herramientas...Análisis de Datos...Regresión

Dr. Víctor Aguirre Torres, ITAM. Guión 12.

9

Estimación de (β0, β1, β2) con Excel.Resumen

Estadísticas de la regresiónCoeficiente de correlación múltipl 0.908604Coeficiente de determinación R^2 0.825561R^2 ajustado 0.818138Error típico 398.091Observaciones 50

ANÁLISIS DE VARIANZAGrados de libera de cuadraio de los cua F alor crítico de F

Regresión 2 35250756 17625378 111.2176 1.509E-18Residuos 47 7448393 158476.4Total 49 42699149

CoeficientesError típicoEstadístico tProbabilidadInferior 95%Superior 95%Intercepción 1304.905 197.6548 6.601937 3.29E-08 907.2749 1702.53466Income($1000s) 33.13301 3.967906 8.350251 7.68E-11 25.15062 41.1153986HouseholdSize 356.2959 33.20089 10.73152 3.12E-14 289.50439 423.087415

b0, b1, b2

Ecuación de regresión ajustada:Cargos=1309.9+33.13Ingreso+356.30Ocup

Dr. Víctor Aguirre Torres, ITAM. Guión 12.

10

Interpretación de los Coeficientes

Por cada mil dólares que varía el ingreso del hogar, el cargo mensual en la tarjeta de crédito varía alrededor de 33.13 dólares, si el número de ocupantes permanece constante.Por cada persona que varía el número de ocupantes en el hogar, el cargo mensual en la tarjeta de crédito varía alrededor de 356.3 dólares, si el ingreso permanece constante.

Dr. Víctor Aguirre Torres, ITAM. Guión 12.

11

Modelo Ajustado.

El modelo ajustado sirve para estimar el valor promedio de la variable dependiente para ciertos valores específicos de las variables explicativas.Ejemplo. ¿Cuál es el cargo mensual promedio de un hogar con un ingreso mensual de 30 mil dólares y 4 ocupantes?

pp110 xb...xbby +++=

)(E

y

3Ocup 30,Ingreso |Cargo

3724.08(4) 356.30(30) 33.131309.9

===

=++=

Dr. Víctor Aguirre Torres, ITAM. Guión 12.

12

Valores Ajustados y Residuos.

Valores ajustados. Se obtienen evaluando el modelo ajustado en las valores observados de las variables explicativas.

Residuos. Son la diferencia entre el valor observado y el valor ajustado. Son la porción de y no explicada por el modelo. Nótese que el residuo es distinto del error del modelo.

n,...,1ixb...xbby ipp1i10i =+++=

n,...,1iyyˆ iii =−= ε

Dr. Víctor Aguirre Torres, ITAM. Guión 12.

13

Valores Ajustados y Residuos. Análisis de los residuales

Observación

Pronóstico AmountCharged

($) ResiduosResiduos

estándares1 4162.975 -146.974978 -0.37697292 3011.4869 147.513143 0.378353243 3790.3447 1309.65532 3.359106374 4743.0347 -1.03474401 -0.0026545 3044.6199 -1180.61987 -3.0281461

46 4038.6101 234.38986 0.6011814447 3011.4869 55.5131434 0.1423844548 3459.0146 -385.014586 -0.987515549 4610.5027 209.497293 0.5373350450 4916.867 232.133011 0.5953929

ii ˆy ε

975.146975.41624016ˆy1

−=−==++=

1

4162.975(3) 356.30(54) 33.131309.9ε

Dr. Víctor Aguirre Torres, ITAM. Guión 12.

14

Bondad de Ajuste del Modelo.Propósito. Se desea contestar la pregunta: ¿Qué tan bien se ajusta el modelo?Consideración de distintos tipos de variación– Total. Original en los datos.– Explicada por el Modelo. Valores

ajustados.– Residual. Residuos.

Dr. Víctor Aguirre Torres, ITAM. Guión 12.

15

Sumas de Cuadrados.

Suma de Cuadrados de Regresión. Variación explicada por el modelo.

Suma de Cuadrados del Error. Variación no explicada por el modelo.

Suma de Cuadrados del Total.Variación inherente a los datos. No depende de modelo alguno.

( ) 2n

1ii yySST ∑

=

−=

( )2n

1ii yySSR ∑

=

−=

∑=

=n

1i

2iˆSSE ε

Relación entre ellas: SST = SSR + SSE

Dr. Víctor Aguirre Torres, ITAM. Guión 12.

16

Coeficiente de Determinación.

Este coeficiente da la proporción de variación de y explicado por las x‘s a través del modelo de regresión lineal simple.Siempre 0 ≤ R2 ≤ 1

SSTSSRR2 ión Determinac de eCoeficient ==

Dr. Víctor Aguirre Torres, ITAM. Guión 12.

17

Ejemplo.

Un 82% de la variación de los cargos en tarjeta de créditoes explicado por la variación en el ingreso y los ocupantesdel hogar.

Resumen

Estadísticas de la regresiónCoeficiente de correlación múltip 0.908604Coeficiente de determinación R^2 0.825561R^2 ajustado 0.818138Error típico 398.091Observaciones 50

ANÁLISIS DE VARIANZAGrados de libera de cuadraio de los cua F alor crítico de F

Regresión 2 35250756 17625378 111.2176 1.509E-18Residuos 47 7448393 158476.4Total 49 42699149

CoeficientesError típicoEstadístico tProbabilidadInferior 95%Superior 95%Intercepción 1304.905 197.6548 6.601937 3.29E-08 907.2749 1702.53466Income($1000s) 33.13301 3.967906 8.350251 7.68E-11 25.15062 41.1153986HouseholdSize 356.2959 33.20089 10.73152 3.12E-14 289.50439 423.087415

8255.04269914935250756R2 ==

Dr. Víctor Aguirre Torres, ITAM. Guión 12.

18

Prueba de Significancia

Una hipótesis de interés es HI: βi≠0Significado. Si hay evidencia que βi≠0, esto indica que la variable xi explica cambios en el valor promedio de y.El paquete calcula el intervalo de confianza para βi.

0

Hay evidencia de que βi > 0

No hay evidencia de que βi ≠ 0

Hay evidencia de que βi < 0

Dr. Víctor Aguirre Torres, ITAM. Guión 12.

19

Ejemplo.Resumen

Estadísticas de la regresiónCoeficiente de correlación múltipl 0.908604Coeficiente de determinación R^2 0.825561R^2 ajustado 0.818138Error típico 398.091Observaciones 50

ANÁLISIS DE VARIANZAGrados de libera de cuadraio de los cua F alor crítico de F

Regresión 2 35250756 17625378 111.2176 1.509E-18Residuos 47 7448393 158476.4Total 49 42699149

CoeficientesError típicoEstadístico tProbabilidadInferior 95%Superior 95%Intercepción 1304.905 197.6548 6.601937 3.29E-08 907.2749 1702.53466Income($1000s) 33.13301 3.967906 8.350251 7.68E-11 25.15062 41.1153986HouseholdSize 356.2959 33.20089 10.73152 3.12E-14 289.50439 423.087415

Hay evidencia de que β1>0 y queβ2>0.

Dr. Víctor Aguirre Torres, ITAM. Guión 12.

20

Generación de Pronósticos.

Se pueden generar pronósticos puntuales y por intervalo con el modelo.Como en el caso de regresión lineal simple, se usará el paquete Minitab para calcular los intervalos de pronóstico.

Dr. Víctor Aguirre Torres, ITAM. Guión 12.

21

Generación de Pronósticos con Minitab.

Pegar los datos (x1, x2,y) desde Excel sobre la hoja de Minitab.Cascada de menues:

Stat...Regression...RegressionArgumentos:

Response: yPredictors: x1, x2Options...Prediction intervals for new observations:

dar el o los valores de las x’s para los cuales se desea el pronóstico

Dr. Víctor Aguirre Torres, ITAM. Guión 12.

22

Generación de Pronósticos. Ejemplo.

Pronosticaremos el cargo mensual si ingreso mensual es de 30 mil dólares y hay 3 ocupantes.

Intervalo de pronósticopara el cargo individual.

Intervalo de confianzapara cargo promedio.

Predicted Values for New Observations New Obs Fit SE Fit 95.0% CI 95.0% PI 1 3367.8 77.2 ( 3212.4, 3523.2) ( 2552.0, 4183.6) Values of Predictors for New Observations New Obs Ingreso Ocupante 1 30.0 3.00

Dr. Víctor Aguirre Torres, ITAM. Guión 12.

23

Análisis de Residuos Estandarizados.

Este análisis sirve para evaluar el ajuste del modelo.Residuo estandarizado i-ésimo:

Típicamente se debería cumplir

n,...,1i)ˆ(rVa

ˆu

i

ii ==

εε

5.2|u| i <

Dr. Víctor Aguirre Torres, ITAM. Guión 12.

24

Análisis de Residuos.

Patrón Adecuado

Varianza no constante

Patrón sistemático noexplicado por el modelo

-2.5

-2

-1.5

-1

-0.5

0

0.5

1

1.5

2

2.5

0 5 10 15 20 25

Y gorro

resi

duo

esta

ndar

izad

o

-6

-4

-2

0

2

4

6

0 5 10 15 20

Y gorro

resi

duo

esta

ndar

izad

o-3

-2.5

-2

-1.5

-1

-0.5

0

0.5

1

1.5

2

2.5

0 5 10 15 20

Y gorro

Res

iduo

est

anda

rizad

o

Dr. Víctor Aguirre Torres, ITAM. Guión 12.

25

Análisis de Residuos. Ejemplo Tarjetas de Crédito.

-4

-3

-2

-1

0

1

2

3

4

2400 2900 3400 3900 4400 4900 5400 5900

Valores ajustados

Res

iduo

s es

tánd

ares

• 3 observaciones atípicas.• No hay cambio en lavarianza.• No se ve un patrónsistemático.

Dr. Víctor Aguirre Torres, ITAM. Guión 12.

26

Problemas recomendados Capítulo 15.Con los datos del problema 49:1. Ajuste un modelo de regresión lineal múltiple para

el precio por acción en función del valor en libros y el rendimiento por acción.

2. ¿Hay evidencia de que los coeficientes de las variables explicativas sean distintos de cero?

3. Trace una gráfica de residuos estandarizados. Analice.

4. Estime puntualmente y por intervalo el precio esperado de una acción cuando el valor en libros es de 20 y el rendimiento es de 7%.

Dr. Víctor Aguirre Torres, ITAM. Guión 12.

27

Problemas recomendados Capítulo 15.Con los datos del problema 50:1. Ajuste un modelo de regresión lineal múltiple para

segundos de 0 a 60 en función de precio, peso y potencia.

2. ¿Hay evidencia de que los coeficientes de las variables explicativas sean distintos de cero?

3. Trace una gráfica de residuos estandarizados. Analice.

4. Estime puntualmente y por intervalo los segundos de 0 a 60 promedio de un auto cuando el precio es 60,000 dls, el peso es 3000 lbs y la potencia es de 280 hp.