regresión lineal simple.final2

48
UNIVERSIDAD AUTÓNOMA DE GUADALAJARA REGRESIÓN LINEAL SIMPLE MSC.GUADALUPE SALAS CEBALLOS [email protected] MAYO DEL 2014 VILLAHERMOSA,TABASCO

Upload: juan-luix

Post on 24-Sep-2015

292 views

Category:

Documents


0 download

DESCRIPTION

TEMA SOBRE ESTADISTICA, MUESTRA EJEMPLOS DE REGRESION LINEAL Y OTROS TIPOS

TRANSCRIPT

  • UNIVERSIDAD AUTNOMA DE GUADALAJARA

    REGRESIN LINEAL SIMPLE

    MSC.GUADALUPE SALAS CEBALLOS [email protected]

    MAYO DEL 2014 VILLAHERMOSA,TABASCO

  • Introduccin

    El estudio de distribuciones univariadas (una sola variable) generalmente se debe complementar con el estudio de asociaciones cuando en el problema en cuestin se presentan varias variables. La naturaleza multivariada de muchos fenmenos nos obliga a referir herramientas grficas y descriptivas para este propsito. En esta unidad se presentan algunas tcnicas tiles para estudiar datos bivariados.

  • Regresin

    El conjunto de tcnicas que utilizamos para construir y evaluar modelos que describen la relacin entre variables y para formular inferencias basadas en los modelos obtenidos se conocen colectivamente como Tcnicas de Regresin, y al anlisis estadstico que resulta de aplicarlas se le denomina Anlisis de Regresin.

    En general, el anlisis de regresin permite estudiar la influencia de una o ms variables que llamamos independientes sobre otra que llamamos dependiente.

    Si se incluyen dos o ms variables independientes se tiene un modelo de regresin mltiple, situacin que no ser cubierta en esta breve introduccin, sino que nicamente se hace mencin del modelo de regresin simple, concretamente al modelo de Regresin Lineal Simple.

  • Tipos de Regresin

    En primer lugar, en funcin del nmero de variables independientes: Regresin simple: Cuando la variable Y depende de una nica variable X. Regresin mltiple: Cuando la variable Y depende de varias variables (X1, X2, ..., Xr). En segundo lugar, con respecto al tipo de funcin f(X): Regresin lineal: Cuando f(X) es una funcin lineal. Regresin no lineal: Cuando f(X) no es una funcin lineal. Dentro de sta clasificacin podemos encontrar: regresin cuadrtica, cbica, logartmica, entre otras.

  • Correlograma

    El primer paso en un anlisis de regresin es elaborar el diagrama de dispersin (correlograma) de los datos, ya que ste puede ayudar en la bsqueda de un modelo que describa la relacin entre la variable independiente (x) y la dependiente (y). Con frecuencia en la prctica se presentan problemas que consideran el estudio de dos variables. Tal cuestin obliga a explorar grficas que permiten explorar asociacin entre variables. El grfico ms antiguo conocido para representar datos bivariados es el correlograma. Un correlograma es una grfica de puntos que nos representa un conjunto de datos bivariados en un plano cartesiano. El correlograma es una de las herramientas ms potentes para investigar la dependencia de una variable Y sobre una variable X.

  • Tipos de asociacin entre dos variables

    Figura 1. Diferentes tipos de asociacin entre dos variables X y Y.

  • Se denomina variable independiente o variable de entrada a X y variable dependiente o variable de salida a Y. Analicemos estos conceptos, en la Figura 2.

    Tipos de asociacin entre dos variables

    Figura 2. Diferentes tipos de asociacin entre dos variables X y Y.

  • Ejemplo:

    x 2 3 3 4 4 5 5 6 6 6 7 7 7 8 8 y 5 5 7 5 7 7 8 4 9 8 7 9 10 8 9

    Tabla 1. Nmero de horas dedicadas a preparar un examen (x) y calificacin obtenida en dicha prueba (y).

  • Grfico de Dispersin (Correlograma)

    Figura 3. Asociacin del nmero de horas dedicadas para preparar un examen (X) y calificacin obtenida de dicha prueba (Y).

  • Correlacin Lineal

    El objetivo central del anlisis de correlacin lineal es medir la intensidad de una relacin lineal entre dos variables La intensidad mencionada es medida por medio del coeficiente de correlacin lineal r. El coeficiente refleja el grado de relacin o efecto que tiene el cambio de una variable sobre otra.

    El valor del coeficiente de correlacin lineal ayuda a contestar la pregunta: Existe correlacin lineal entre las dos variables consideradas? El coeficiente de correlacin lineal r siempre tiene un valor entre -1 y +1. Un valor igual a +1 indica una correlacin perfecta positiva. Mientras que un valor igual a -1 indica una correlacin perfecta negativa.

  • Valores de la correlacin lineal

  • Coeficiente de Correlacin Lineal

    El valor de r para una muestra se obtiene mediante la expresin (conocida como la r de Pearson).

    r

    x y

    nx y

    x

    nx

    y

    ny

    i ii

    n

    ii

    ni

    i

    n=

    =

    = =

    1

    2

    1 2

    2

    1 2

  • Tabla 2. Clculos para determinar el coeficiente de correlacin.

    x2xy y2No. Horas (x) Calificacin (y) 1 2 5 10 4 25

    2 3 5 15 9 25

    3 3 7 21 9 49

    4 4 5 20 16 25

    5 4 7 28 16 49

    6 5 7 35 25 49

    7 5 8 40 25 64

    8 6 4 24 36 16

    9 6 9 54 36 81

    10 6 8 48 36 64

    11 7 7 49 49 49

    12 7 9 63 49 81

    13 7 10 70 49 100

    14 8 8 64 64 64

    15 8 9 72 64 81

    Total 81 108 613 487 822

    Promedio 5.4 7.2 40.9 32.47 54.8

    Ejemplo:

  • Solucin:

    Lo que indica que existe una correlacin r = 0.65, lo que significa que se tiene una correlacin Alta entre las horas de estudio y la calificacin obtenida en el examen.

    ( )( ) ( )( )65.0

    13.302.2

    96.231.302.2

    84.518.5416.2947.3288.389.40

    ===

    =r

  • El Modelo de Regresin Lineal Simple

    Este modelo es el ms sencillo que se ve dentro del anlisis de regresin, ya que solo considera a la variable dependiente Y, y una sola variable explicatoria X.

    Concretamente la pregunta es: Cul es la ecuacin matemtica apropiada para describir la relacin entre X y Y? Debemos usar una funcin logartmica? Una lnea recta? Una parbola?

    Una vez decidida esta cuestin permanece el problema de encontrar las constantes que identifican a la ecuacin en un caso especfico y posteriormente el de interpretar la ecuacin resultante.

  • Consideremos por ahora que la relacin entre X y Y puede modelarse con una lnea recta, que es de la forma:

    xy 10+=

    donde los coeficientes de regresin y son parmetros que deben ser estimados a partir de datos muestrales. Si b0 y b1 representan estos estimadores, representativamente, se puede estimar por de la regresin muestral dada por: donde las estimaciones y representan la intercepcin y pendiente de x , representativamente.

    0 1

    y y

    xy bb 10 +=b0 b1

  • Ejemplos de regresin lineal simple

    Estudiar cmo influye la estatura del padre sobre la estatura del hijo.

    Estimar el precio de una vivienda en funcin de su superficie. Aproximar la calificacin obtenida de una materia segn el

    nmero de horas de estudio semanal. Prever el tiempo de computacin de un programa en funcin de

    la velocidad del procesador.

  • Ejemplo de Regresin Lineal Simple

    Se extrae una muestra de 10 familias de una determinada poblacin y se quiere analizar si existe relacin entre los ingresos por familia (X) y los gastos que sta genera (Y), referentes a un aos, expresado en miles de pesos. Los datos se presentan enseguida:

    INGRESOS (X) GASTOS (Y)

    1 80 70

    2 100 65

    3 120 90

    4 140 95

    5 160 110

    6 180 115

    7 200 120

    8 220 140

    9 240 155

    10 260 150

  • i X Y X^2 Y^2 XY xi=Xi-X barra yi=Yi- xi*yi Y est yi-Y est1 80 70 6400 4900 5600 -90 -41 3690 65.18 4.812 100 65 10000 4225 6500 -70 -46 3220 75.36 -10.363 120 90 14400 8100 10800 -50 -21 1050 85.54 4.454 140 95 19600 9025 13300 -30 -16 480 95.72 -0.725 160 110 25600 12100 17600 -10 -1 10 105.91 4.086 180 115 32400 13225 20700 10 4 40 116.09 -1.097 200 120 40000 14400 24000 30 9 270 126.27 -6.278 220 140 48400 19600 30800 50 29 1450 136.45 3.549 240 155 57600 24025 37200 70 44 3080 146.63 8.3610 260 150 67000 22500 39000 90 39 3510 156.82 -6.82

    1700 1110 322000 132100 205500 0 0 16800 1110.01 -0.015

    Tabla de clculos para efectuar la Regresin Lineal Simple

  • Estimacin de los Coeficientes de Regresin

    Dada la muestra , las estimaciones de mnimos cuadrados ordinarios b0 y b1 de los coeficientes de regresin y se calculan por medio de las frmulas: y

    ( ){ }niyx ii ,...,2,1 ,, =

    = =

    = ==

    =n

    i

    n

    ii

    n

    i

    n

    ii

    n

    iiii

    XX

    YXYX

    n

    nb

    1

    2

    1

    2

    1 111

    n

    bb

    n

    i

    n

    iii XY

    = =

    = 1 1

    10

    0 1

  • Estimacin de los coeficientes de regresin

    El modelo resultante es:

  • Supuestos sobre los errores del modelo de regresin lineal simple

    Normalidad Independencia No autocorrelacin de los errores Homogeneidad de varianzas

  • Supuestos sobre los errores del modelo de regresin lineal simple

  • Intervalo de confianza para 10 y

    donde

    donde

    donde

  • Intervalo de confianza para 10 y

    Intervalos de confianza

  • Interpretacin de los intervalos de confianza para

    10 y

    Para los intervalos de confianza que se construyan diremos que del 100% de ellos, el 95% cubrir el verdadero valor del parmetro, esto es tanto para 10como

  • Prueba de hiptesis

    En la regresin lineal simple es de gran inters e importancia probar la hiptesis sobre si el valor verdadero de es cero, ya que si fuese cero el modelo se reducira, lo que indicara que la variable X no incrementa la explicacin del comportamiento de la variable Y, haciendo intil el anlisis de regresin entre estas dos variables.

    1 1

  • Prueba de hiptesis para

    Estadstico de prueba:

    Decisin:

    1

  • Prueba de hiptesis para

    Estadstico de prueba:

    Decisin:

    1

  • Conclusin de la prueba de hiptesis Como se Rechaz la hiptesis nula, esto quiere decir que el 1verdadero es diferente de cero y por consiguiente se puede concluir que la variable X (ingreso) explica (influye) en forma significativa en el comportamiento de la variable Y (gastos), esto con un 95% de confianza.

  • Prueba de hiptesis para 0

    Estadstico de prueba:

    Decisin:

  • Prueba de hiptesis para 0

    Estadstico de prueba:

    Decisin:

  • Conclusin de la prueba de hiptesis Como se Rechaz la hiptesis nula, esto quiere decir que el 0verdadero es diferente de cero y por consiguiente se puede concluir que el intercepto no pasa por el origen, esto con un 95% de confianza.

  • Coeficiente de Determinacin

  • Prediccin de los valores medios poblacionales mediante el modelo de regresin estimado.

    Banda de confianza.

  • Prediccin de los valores medios poblacionales mediante el modelo de regresin estimado.

    Banda de confianza.

    donde

  • Prediccin de los valores medios poblacionales mediante el modelo de regresin estimado.

    Banda de confianza.

    Ejemplo: Para el modelo de regresin estimado se quiere predecir el valor esperado de Y(gastos) dado un valor de X=160 (ingresos), adems de construir el intervalo de confianza apropiado, utilizando un nivel de significancia del 0.05.

    Modelo estimado:

  • Ejemplo: Continuacin Banda de confianza

    Primero calculamos la estimacin puntual:

    Ahora se procede a estimar el intervalo de confianza:

    (101.106,110.712)

  • Xi LI LS Amplitud del intervalo 80 56.38 73.98 17.6 65.18100 67.9 82.83 14.93 75.36120 79.27 91.82 12.55 85.55140 90.39 101.07 10.68 95.73160 101.1 110.72 9.62 105.91180 111.29 120.9 9.61 116.09200 120.93 131.62 10.69 126.27220 130.18 142.73 12.55 136.46240 139.17 154.1 14.93 146.64260 148.02 165.62 17.6 156.82

    Intervalos de confianza de acuerdo al modelo

  • La amplitud de los intervalos se hace ms chica a medida que los valores de X se acercan al valor del promedio, que ste caso es

    de 170.

  • El modelo de regresin que se estima slo se utilizar para la prediccin de los valores esperados de Y, dado un valor de X, estando el valor de X siempre dentro del rango de valores observados.

    Aspecto Importante

  • Transformaciones lineales

  • Regresin Cuadrtica

    Un modelo cuadrtico es de la forma:

    donde a,by c son constantes a estimar.

    Ejemplo 3: Se desea analizar el precio (Y) de una casa en base al rea de la misma (X).

  • Grficas de Regresin

  • Modelos no lineales que pueden ser transformados en lineales

  • Grfica del ejemplo 3

  • Transformaciones de Box y Cox

    Box y Cox (1964) propusieron una familia de funciones de potencia para la variable respuesta con el objetivo de garantizar el cumplimiento de todos los supuestos de un modelo lineal. Estas transformaciones combinan el objetivo de encontrar una relacin simple, con homogeneidad de varianzas, mejorando la normalidad. Las transformaciones originales de Box y Cox estn dadas por:

  • Transformaciones de Box y Cox

    Valores ms utilizados para lambda: