regresión lineal y técnicas de predicción

73
PREMAESTRÍA: GESTIÓN DE OPERACIONES Y SERVICIOS LOGÍSTICOS CURSO DE ESTADÍSTICA APLICADA A LA TOMA DE DECISIONES Lima, 6 julio de 2015 Elaborado por: Mg. María Estela Ponce Aruneri Sesión 2: REGRESIÓN LINEAL Y TÉCNICAS DE PREDICCIÓN

Upload: mario-salinas-martinez

Post on 06-Sep-2015

14 views

Category:

Documents


1 download

DESCRIPTION

Clase de estadística para Regresión lineal múltiple y sus técnicas de perdiciones.

TRANSCRIPT

CURSO DE PREMAESTRA ESTADSTICA APLICADA A LA TOMA DE DECISIONES Lima, marzo de 2015

PREMAESTRA: GESTIN DE OPERACIONES Y SERVICIOS LOGSTICOSCURSO DE ESTADSTICA APLICADA A LA TOMA DE DECISIONESLima, 6 julio de 2015Elaborado por:Mg. Mara Estela Ponce Aruneri

Sesin 2: REGRESIN LINEAL Y TCNICAS DE PREDICCIN1. MEDIDAS DE CORRELACIN

2La distribucin conjunta de dos variables puede representarse grficamente mediante un diagrama de dispersin que proporciona una buena descripcin de la relacin entre dos variables.

Miden el grado de asociacin entre dos variables cuantitativas ( dicretas y/o continuas).

Las variables cuantitativas son aquellas que varan en grado o cantidad. La escala de medida podra ser ordinal, de intervalo o razn.

Nos interesa analizar la existencia de asociacin y su intensidad, establecer el modelo o patrn caracterstico que presenta la asociacin entre estas variables cuantitativas.3

1.1. Patrones de Asociacin4

1.2.COEFICIENTE DE CORRELACIN LINEAL DE PEARSON5Es una medida de la fortaleza e intensidad de la asociacin entre dos variables cuantitativas X e Y de la muestra.

No depende de las unidades de medida de las variables. Requiere que las variables sean simtricasInterpretaciones

6r 1, asociacin lineal positiva entre las variables, la relacin entre ellas es directamente proporcional.

r -1, , asociacin lineal negativa o inversa entre las variables , la relacin entre ellas es inversamente proporcional.

r 0 , las variables no estn asociadas linealmente.

Caso7

Grafico de Cajas8

MATRIZ DE CORRELACIN DE PEARSON9

1.3. COEFICIENTE DE CORRELACIN DE SPEARMAN 10 Es una medida de asociacin entre dos variables medidas bajo escala ordinal,intervalar o de razn, previa asignacin de rangos a sus valores.

Interpretacin11 Si su valor se aproxima a 1 existe una asociacin directa entre las variables.

Si su valor se aproxima a cero no existe asociacin entre las variable

Si su valor se aproxima a 1, existe una asociacin inversa entre las variables

MATRIZ DE CORRELACIN DE SPEARMAN12

2. MODELOS DE REGRESIN

13 El anlisis de regresin es una tcnica estadstica para el modelado y la investigacin de la relacin de influencia de una o ms variables regresoras o predictoras, sobre una variable denominada de respuesta o dependiente.

CASOS14 Se requiere estimar los costos en funcin del transporte producido (unidades de servicio) dadas en ton-km, trenes-km, etc.

2) Estimar las ventas de una empresa en base a la inversin en inventario y los gastos de publicidad.

3) Predecir la velocidad en 1 de milla de autos deportivos en la que se emplee precio y caballos de fuerza.

2.1. MODELO DE REGRESIN LINEAL MLTIPLE15 Expresa en forma cuantitativa las relaciones entre un conjunto de variables; una variable denominada dependiente o de respuesta y las otras denominadas covariables, explicativas (regresoras, predictoras) o independientes.

Si se extrae una muestra aleatoria de tamao n de una poblacin donde Y e X1, X2,.., Xk , se relacionan linealmente, entonces cada observacin de la muestra puede expresarse como:

16

i = 1,2,,nEl modelo se puede representar matricialmente como:

Donde:

Y vector de variables observables (vector de respuestas)X matriz de variables regresoras (predictoras, o independientes) vector de parmetros desconocidos. componente sistemtica componente aleatoria del modelo ( perturbaciones).

17 2.2.Caractersticas de las variables La variable de respuesta esta medida en escala mtrica pero continua.Las variables regresoras pueden estar medidas en escala mtrica o alguna de ellas en escala no mtrica; adems de ser independientes entre s.

18 2.3. Significado de los parmetros en un modelo de regresin lineal mltiple

Los parmetros estimados se denominan coeficientes de regresin y cada uno de ellos representa el cambio esperado en la variable de respuesta por cada unidad de cambio de la variable regresora, considerando al resto constantes.

Siempre que el recorrido de las variables regresoras incluya al cero, 0 puede ser interpretado como la media de la distribucin de la variable de respuesta

19 2.4.Hiptesis Bsicas

Los errores (perturbaciones) deben cumplir las siguientes hiptesis:

1)

2)

3)

4)

20 5) n > k+1

6) Ninguna de las variables regresoras debe ser una combinacin lineal exacta de las dems, es decir son linealmente independientes.

2.5. Estimacin de los parmetros del modelo

Mtodo Mnimos Cuadrados Para estimar los parmetros de: Se requiere n observaciones / n > k y la hiptesis bsicas 1, 2, 3, 5 y 6.

Asumiremos que las variables regresoras son fijas. Si las variables regresoras fueran aleatorias, los resultados que se obtengan sern vlidos.

21

Se requiere minimizar la expresin anterior con respecto a los parmetros del modelo.

Los estimadores MC de los parmetros del modelo deben cumplir :Encontrando:

22

Representa el efecto sobre la variable de respuesta, cuando la variable regresora aumenta en una unidad y las dems variables permanecen constantes. Se considera como el efecto diferencial de una variable regresora cuando se elimina el efecto de las otras variables consideradas en el modelo.2.6. Interpretacin de los coeficientes de regresin23

CASO 1El dueo de una empresa desea estimar el ingreso bruto semanal en funcin de los gastos en publicidad. A continuacin se presentan los datos histricos de 8 semanas.

Y: Ingreso semanal bruto en miles de $X1: Publicidad en televisin en miles de $X2: Publicidad en peridicos en miles de $

24

25

GRFICO DE CAJAS26

GRFICO DE DISPERSIN MATRICIAL27

28

29

30

La ecuacin del modelo de regresin lineal simple estimada:

MODELO ESTIMADO

31 La ecuacin del modelo de regresin lineal mltiple estimada:

32

Escriba el modelo de regresin lineal estimado en cada caso, interprete sus coeficientes.

33 Para una zapatera se obtiene la siguiente ecuacin de regresin estimada en la que se relacionan las ventas con la inversin en inventario y los gastos en publicidad.

Donde :x1 : inversin en inventario (en miles de $)x2 : gasto en publicidad (en miles de $)y : ventas (en miles de $)CASO 2

34 a. Interprete los coeficiente de regresin.

b. Obtenga la prediccin para las ventas si la inversin en inventario es de $15 000 y el presupuesto para publicidad es de $10 000.

Coeficiente de Determinacin MltipleEs una medida descriptiva del ajuste global del modelo de regresin lineal mltiple :2.7.Medida de Bondad de ajuste del modelo

35

Propiedades:Es una cantidad no negativa:

las variables regresoras no explican la variabilidad de la variable de respuesta, el modelo de regresin lineal mltiple no es adecuado para explicar la relacin entre las variables bajo estudio.

las variables regresoras explican la variabilidad de la variable de respuesta. Modelo de regresin lineal mltiple adecuado para explicar la relacin entre las variables bajo estudio.

36

Resultados de calcular el coeficiente de determinacin37

2.8. ANLISIS DE LOS RESIDUOS

El anlisis de los residuos permite validar algunos de los supuestos del modelo de regresin lineal mltiple como: linealidad, varianza constante, independencia, normalidad, etc.; es un mtodo efectivo para detectar deficiencias en el modelo, utilizando diversos tipos de grficos. Los residuos adems permiten detectar observaciones que pueden considerarse como atpicos.

38

39 Observacinyx1x2RES_1SER_11965,01,5-,63249-1,624632902,02,0-,41244-1,07753954,01,5,657691,224554922,52,5-,20802-0,368085953,03,3,606091,097766943,52,3-,23801-0,399437942,54,2-,41970-1,12078943,02,5,646881,0804CASO 1

CASO 140

Residuos41 41

2.9. Medidas de Influencia Son estadsticas que nos permiten detectar e identificar Observaciones influyentes sobre los resultados del modelo de regresin lineal mltiple.Es importante para el analista de los datos tratar de identificar observaciones influyentes e investigar el efecto que ejercen sobre uno o varios aspectos del anlisis de regresin (estimaciones de los parmetros, varianza estimada de las estimaciones de los parmetros, los valores ajustados de la variable de respuesta entre otros.

42

Distancia de Cook

Para la regin de confianza del 50% se tiene que 1. Por lo que si:

Ci > 1 la i-sima observacin es influyente, es decir influye considerablemente sobre los estimadores mnimos cuadrados de del modelo de regresin lineal mltiple.

43

44 Observacinyx1x2coo_11965,01,51,5172902,02,0,703693954,01,5,215664922,52,5,013225953,03,3,142426943,52,3,008677942,54,2,813908943,02,5,05906CASO 1

45

2.10. Prueba de Durbin Watson

Estadstica:

46 Decisin:

DW < Li rechazar Ho.

DW > Ls no rechazar Ho.

Li < DW< Ls no se puede tomar decisin

Decisin en base a resultados de IBM SPSS

DW = 0 correlacin o aucorrelacin perfecta +

DW 2 no existe autocorrelacin o los residuos estn incorrelacionados.

DW 4 correlacin o aucorrelacin perfecta -47

48 Caso 1

Li=0,345 Ls=1,489

DW >Ls no rechazamos la hiptesis nula a un nivel de significacin del 1%; es decir los residuos del modelo estn incorrelacionados.Factor de inflacin de la varianza (VIF)Indica la presencia o ausencia de multicolinealidad (correlacin entre predictores o regresoras) en un anlisis de regresin.

Los factores de inflacin de varianza (VIF) miden en qu medida la varianza de los coeficientes de regresin estimados ha sido inflada, en comparacin con un contexto en el que las variables predictoras no estn linealmente relacionadas. 2.11. MULTICOLINEALIDAD

49

VF I= 1No correlacionados1< VIF < 5Moderadamente correlacionadosVIF > 5 a 10Altamente correlacionadosLos valores de VIF mayores que 10 podran indicar que la multicolinealidad estara incidiendo excesivamente en los resultados del modelo de regresin.

En este caso, convendra reducir la multicolinealidad eliminando los predictores irrelevantes del modelo.50

51 CASO 1

Existe problemas de multicolinealidad?

2.12. Prueba de significancia global para el modelo de regresin lineal mltiple

para al menos un valor de j

Estadstica para la prueba:

52

Fuente deVariacin SC g.l CM EstadsticaRegresin SRC k CMR= SRC/ k Residuales SCRes n-k-1 CMRes= SCRes/( n-k-1)Total STC n-1 Regla de Decisin:Para un nivel de significacin , se rechaza la hiptesis nula si:

p-value <

53

CASO 1

decisin?

54

2.13. Pruebas sobre los coeficientes individuales del modelo de Regresin lineal Mltiple

j = 1,2,,k

Estadstica:Regla de Decisin:

Para un nivel de significacin , se rechaza la hiptesis nula si:

55

decisin?CASO 1

56

2.14. PRESS y R-cuadrado prediccionesLa estadstica PRESS, evala la capacidad predictora del modelo. En general, mientras ms pequeo es el valor de PRESS, mejor ser la capacidad predictora del modelo.

R-cuadrado predicciones, se utiliza en el anlisis de regresin para indicar en qu medida el modelo es capaz de predecir las respuestas de nuevas observaciones

57 Para nuestro caso 1 se tiene:

SCT= 25,5PRESS = 8,11

58

2.15. Prediccin de nuevas observaciones

Planificacin y Control de Operaciones : Las empresas usan prediciones para decidir que producir, cuando y donde.Planificacin de la Capacidad: Para ello es crucial la prediccin tanto de la demanda como de la oferta.

Prediccin puntual:59

S:

Encuentre la prediccin puntual para el ingreso semanal bruto.CASO 1 x1x26,04,56,53,07,05,560

CASO 361 Una empresa reuni los siguientes datos en las 26 principales ciudades (ver archivo caso 3.sav):x1 : Publicidad (en miles de $)x2 : Nmero de cuentasx3 : Nmero de competidoresx4 : Potencial de mercadoy : ventas (en miles de $)Realizar un anlisis de regresin completo .

62 Cul sera el valor de las ventas si: x 1x2x 3x49,5203210,015142010,5801522

3. PRONSTICOS

63

64

65

CASO 4

66 Del Anuario Estadstico Industrial, Mipyme y Comercio Interno 2012 publicado en agosto del 2013 por MINISTERIO DE LA PRODUCCIN, se obtuvo:

Los datos corresponden a los 12 meses del ao 2012.Y: ventas (miles de nuevos soles) internas del sector comercio interno del GRUPO CIIU 475: otros productos de equipamiento para la casa, en almacenes especializados.

67

MODELOS PROPUESTOS

68 RESULTADOS PARA MODELO LINEAL

69RESULTADOS PARA MODELO CUADRTICO

70

RESULTADOS PARA MODELO CBICO

Seleccionado el modelo adecuado, Cul sera el valor de las ventas (miles de nuevos soles) internas del sector comercio interno del GRUPO CIIU 475: otros productos de equipamiento para la casa, en almacenes especializados para los meses de enero a marzo del siguiente ao?

71

GraciasMg. Mara Estela Ponce [email protected]

BIBLIOGRAFA Ron S. Kenett y Shelemyahu Zacks. 2000. Estadstica Industrial Moderna. International Thomson Editores, S.A. de C.V.D.C. Montgomery, E.A. Peck, G. Geoffrey Vining.2002. Introducin al Anlisis de Regresin Lineal. CECSA.Daniel Pea. 2002. Regresin y diseo de experimentos. Alianza Editorial S.A Douglas C. Montgomery & George C. Runger. 2003. Applied Statistics and Probability for Engineers. John Wiley & Sons.Ronald E. Walpole, Raymond H. Myers, Sharon L. Myers, Keying Ye. 2007. Probability & Statistics for Engineers & Scientists . Pearson Prentice Hall.

73