material de regresion lineal simple y multiple

Upload: loogys-jowels

Post on 14-Apr-2018

256 views

Category:

Documents


2 download

TRANSCRIPT

  • 7/30/2019 Material de Regresion Lineal Simple y Multiple

    1/14

    Modelo de Regresin lineal simple

    Es una tcnica estadstica para investigar la relacin lineal entre una variable independientex (variable explicativa regresora) y una variable dependiente y (variable respuesta

    variable explicada), a partir de una muestra.

    Los modelos de regresin lineal tienen muchas aplicaciones en el campo de las ciencias

    econmicas, entre estas tenemos la estimacin de funciones de consumo, de demanda, las

    ventas etc. La metodologa regresin lineal parte de la informacin de una muestra aleatoria

    tomada de una poblacin, con variables cuantitativas bien definidas, para construir unmodelo cuantitativo que describa las relaciones existentes entre esas variable.

    En los modelos de regresin lineal simple solo se incluyen dos parmetros a y 10 .

    los cuales aparecen en el modelo para la poblacin de la forma:

    X10Y

    Anlisis

    Dado el modelo de regresin lineal simple, indicado anteriormente si se calcula la esperanza(valor esperado) del valor Y, se obtiene:

    )E(X)()()/( 10 EExYE

    X)/( 10 YxYE

    Cada ),( ii yx en la muestra satisface iiiYxYE i10 X)/(

    Donde es el error asociado a la medicin del valor Xi y siguen los supuestos de modo que

    (media cero, varianza constante e igual a un 2

    )

    Luego con los datos de la muestra se obtiene la ecuacin estimada de regresin:

    X 10 Y Cada ),( ii yx en la muestra satisface ii eY i10 X

  • 7/30/2019 Material de Regresion Lineal Simple y Multiple

    2/14

    1101 XY

    Figura 1: Funcin de regresin poblacional y funcin de regresin muestral

    Calculando y . Para esto se buscan dichos parmetros de tal forma que minimicen

    2

    i1

    n

    1i

    0

    1 1

    22)x()(

    in

    i

    n

    i

    iii yyye

    Derivando respecto a y e igualando a cero, se obtiene:

    0))((2

    )(

    0)(2

    )(

    10

    11

    1

    2

    10

    10

    10

    1

    2

    10

    iii

    n

    i

    n

    i

    ii

    ii

    n

    i

    n

    i

    ii

    xxy

    xy

    xy

    xy

    1u

    1

    u

    1X

    1Y

    iX

    iY

    ),( 11 YX

    ii XYE 10)(

    ii XY 10

    1101)( XYE

  • 7/30/2019 Material de Regresion Lineal Simple y Multiple

    3/14

    Obteniendo dos ecuaciones denominadas ecuaciones normales que generan la siguientesolucin para ambos parmetros:

    Donde la sumatoria se realiza desde 1 hasta n

    El anlisis de regresin es una tcnica estadstica para la investigacin de la relacin entre

    dos o mas variables, puede emplearse para construir un modelo que permita predecir el

    comportamiento de una variable y (dependiente, respuesta) en funcin de una o masvariables (independientes, predictivas) x.

    Los comportamientos de estas variables pueden estar definidos de antemano lo cual nos

    remite a un modelo terico, o bien, se tiene el caso de que no exista una relacin establecida

    entre estas y sea necesario establecer una primera aproximacin del comportamiento de las

    mismas.

    Lo anterior se puede lograr usando una herramienta grfica denominada diagrama de

    dispersin lo que nos conducira a desarrollar un modelo emprico de la relacin quemantienen las variables en estudio.

  • 7/30/2019 Material de Regresion Lineal Simple y Multiple

    4/14

    EJEMPLO DE REGRESION LINEAL SIMPLE

    En la tabla siguiente se muestran los gastos publicitarios xi (*$10,000) y el volumen de

    ventas yi (*$10,000)

    yi xi -- -2 =46.48+52.57 -2 -2 (yi-2

    101 1,2 1,326 0,0676 109,564 186,704896 26,01 73,342096

    92 0,8 0,546 0,0196 88,536 54,228496 15,21 11,999296

    110 1 0,846 0,0036 99,05 9,9225 198,81 119,9025

    120 1,3 8,676 0,1296 114,821 358,004241 580,81 26,822041

    90 0,7 1,416 0,0576 83,279 159,289641 34,81 45,17184182 0,8 1,946 0,0196 88,536 54,228496 193,21 42,719296

    93 1 -0,174 0,0036 99,05 9,9225 8,41 36,6025

    75 0,6 7,106 0,1156 78,022 319,622884 436,81 9,132484

    91 0,9 0,196 0,0016 93,793 4,439449 24,01 7,800849

    105 1,1 1,456 0,0256 104,307 70,677649 82,81 0,480249

    Totales 959 9,4 23,34 0,444 1227,04075 1600,9 373,973152

    a) Representar la informacin en un diagrama de dispersinb) Determinar la ecuacin estimada de regresinc) Si se ha pronosticado $15,000 para publicidad este mes Cul es el volumen medio

    de ventas pronosticado para este mes?

    d) Determine e interprete el coeficiente de correlacin ( r ) y el coeficiente dedeterminacin ( r2)

    e) De una estimacin del error estndar. Interprete

  • 7/30/2019 Material de Regresion Lineal Simple y Multiple

    5/14

    PUBLICID

    1,41,21,0,8,6,4,20,0

    140

    120

    100

    80

    60

    40

    20

    0

    0,2 0,4 0,6 0,8 1,0 1,2

    publicid

    0,00

    20,00

    40,00

    60,00

    80,00

    100,00

    120,00

    ventas

    1ventas = 46,49 + 52,57 * publicid

    R-cuadrado = 0,77

  • 7/30/2019 Material de Regresion Lineal Simple y Multiple

    6/14

    Para obtener la ecuacin estimada de regresin determinamos las estimaciones de los

    parmetros:

    49.46)94.0(57.529.95

    57.524444.0

    34.23

    )(

    )()(

    10

    10

    1

    2

    10

    1

    1

    xy

    xx

    yyxx

    i

    ii

    Luego la ecuacin estimada de regresin es:

    ixy 57.5249.46

    Luego debemos calcular e interpretar, el coeficiente de determinacin, el coeficiente de

    correlacin y la estimacin del error estndar segn la muestra

    84.68

    973152.373

    2

    )(

    288.077.0

    77.09.1600

    04075.1227

    )(

    )(

    10

    1

    2

    2

    10

    1

    2

    10

    1

    2

    2

    rr

    r

    n

    yy

    n

    SSESyLuego

    yy

    yy

    totalsdecuadradoSuma

    regresiondesdecuadradoSuma

    SST

    SSR

    ii

    yx

    i

    i

    i

    i

  • 7/30/2019 Material de Regresion Lineal Simple y Multiple

    7/14

    MODELO DE REGRESIN LINEAL MLTIPLE (METODO DE MNIMOS CUADRADOS)

    Para estimar los k + 1 parmetros 0 , 1 , 2 , ..., kse usar un procedimiento similar almodelo de regresin lineal simple con el mtodo de mnimos cuadrados

    kkxxy

    ...x 22110

    Sea iii yye

    Donde iy : valor observado en la muestra

    iy : Valor obtenido con el modelo de mnimos cuadrados:

    Criterio de mnimos cuadrados

    Minimizar

    n

    i

    iii

    n

    i

    ii

    n

    i

    i xxxyyyeSCE1

    2

    22110

    1

    2

    1

    2 )...()(

    Utilizando 0

    i

    SCE

    , i=0, 1, 2, ..., n, se obtienen las ecuaciones normales para encontrar

    los estimadores ,10 , ..., i

    Consideremos el caso especfico i=2

    Y depende de 2 variables x1, x2

    Modelo terico probabilista propuesto:

    Y = 0 + 1 x1 + 2 x2 + .

  • 7/30/2019 Material de Regresion Lineal Simple y Multiple

    8/14

    Modelo de regresin lineal mltiple de mnimos cuadrados;

    22110 xxy

    Para encontrar ,10 , 2

    0i

    SCE

    , i=0, 1, 2

    Se obtienen las ecuaciones normales

    n

    i

    n

    i

    n

    i

    n

    i

    n

    i

    n

    i

    n

    i

    n

    i

    n

    i

    n

    i

    n

    i

    yxxxxx

    yxxxxx

    yxxn

    1

    2

    1

    2

    22

    1

    121

    1

    20

    1

    1

    1

    212

    1

    2

    11

    1

    10

    11

    22

    1

    110

    EJEMPLO DE REGRESION LINEAL MULTIPLE

    Una empresa que elabora productos de consumo, esta interesada en medir el efecto que

    tienen distintos tipos de medios publicitarios respecto de las ventas de sus productos. La

    empresa se interesa especficamente en la influencia de la publicidad en la radio y en los

    peridicos. Se selecciona una muestra de 22 ciudades con poblaciones con caractersticas

    similares para estudiarlas durante un periodo de prueba de un mes. A cada ciudad se le

    asigna una cantidad de gastos especficos para publicidad en radio y peridicos. Se registran

    las ventas del producto en ese mismo periodo segn se detalla en la tabla siguiente:

  • 7/30/2019 Material de Regresion Lineal Simple y Multiple

    9/14

    x1 x2 yi =156.425+13.0811+16.7952 -2 -2 (x1)2 (x2)2 x1*x2 x1*yi x2*yi0 40 973 828,225 157538,342 63572,5625 0 1600 0 0 38920

    0 40 1119 828,225 157538,342 11264,8505 0 1600 0 0 44760

    25 25 875 903,325 103562,32 122595,218 625 625 625 21875 21875

    25 25 625 903,325 103562,32 360163,218 625 625 625 15625 15625

    30 30 910 1052,705 29732,4498 99310,6985 900 900 900 27300 27300

    30 30 971 1052,705 29732,4498 64585,1065 900 900 900 29130 29130

    35 35 931 1202,085 531,348601 86515,9865 1225 1225 1225 32585 32585

    35 35 1177 1202,085 531,348601 2317,0745 1225 1225 1225 41195 41195

    40 25 882 1099,54 15774,3552 117742,314 1600 625 1000 35280 22050

    40 25 982 1099,54 15774,3552 59115,1145 1600 625 1000 39280 24550

    45 45 1628 1500,845 76015,4527 162299,402 2025 2025 2025 73260 73260

    45 45 1577 1500,845 76015,4527 123808,274 2025 2025 2025 70965 70965

    50 0 1044 810,475 171943,745 32810,2505 2500 0 0 52200 0

    50 0 914 810,475 171943,745 96805,6105 2500 0 0 45700 0

    55 25 1329 1295,755 4987,04316 10787,7305 3025 625 1375 73095 33225

    55 25 1330 1295,755 4987,04316 10996,4585 3025 625 1375 73150 33250

    60 30 1405 1445,135 48399,56 32351,0585 3600 900 1800 84300 42150

    60 30 1436 1445,135 48399,56 44463,6265 3600 900 1800 86160 4308065 35 1521 1594,515 136440,846 87535,5065 4225 1225 2275 98865 53235

    65 35 1741 1594,515 136440,846 266115,666 4225 1225 2275 113165 60935

    70 40 1866 1743,895 269110,9 410706,666 4900 1600 2800 130620 74640

    70 40 1717 1743,895 269110,9 241930,194 4900 1600 2800 120190 68680

    Totales 950 660 26953 2028072,72 2507792,59 49250 22700 28050 1263940 851410

  • 7/30/2019 Material de Regresion Lineal Simple y Multiple

    10/14

    Veamos a continuacin el diagrama de dispersin:

    El sistema de ecuaciones nos queda de la forma:

    8514102270028050660

    12639402805049250950

    2695366095022

    210

    210

    210

    1

    2

    1112

    13

    14

    20

    21

    ventas1 = 156,43 + 13,08 * aradio + 16,80 * aperiodiR-cuadrado = 0,81

    3

    4

    56 7

    8

    910

    15161718

    19

    22

  • 7/30/2019 Material de Regresion Lineal Simple y Multiple

    11/14

    Al resolver el sistema obtenemos los resultados:

    80.16,13.08,156.43 210

    90.081.0

    81.059.2507792

    72.2028072

    )(

    )(

    2

    10

    1

    2

    10

    1

    2

    2

    rr

    r

    Luego

    yy

    yy

    totalsdecuadradoSuma

    regresiondesdecuadradoSuma

    SST

    SSR

    i

    i

    i

    i

    PRUEBAS DE SIGNIFICANCIA EN LOS MODELOS DE REGREASION LNEAL

    1) PRUEBA F

    Se usa para determinar si hay una relacin significativa entre la variable dependiente y el

    conjunto de todas las variables independientes. En tal sentido se le llama prueba de

    significancia global.

    El modelo de regresin lineal mltiple en consideracin es:

    exxy kk

    ...x 22110

    Las hiptesis para la prueba F involucra los parmetros del modelo de la forma siguiente:

    ceroaesigualnoparametroslosdemasUnoH

    H

    a

    k

    :

    0..........: 210

    Si se rechaza 0H tendremos suficiente evidencia estadstica para concluir que uno mas

    de los parmetros no es igual a cero y que la relacin general entre la variable dependiente

    el conjunto de varables ndependentes kxxx ,......., 21 es significativa.

  • 7/30/2019 Material de Regresion Lineal Simple y Multiple

    12/14

    0H

    Para entender la prueba F necesitamos definir el concepto de cuadrado medio.

    Un cuadrado medio es la suma de cuadrados dividida con sus grados de libertad.

    a) Suma de cuadrados total (SST) tiene n-1 grados de libertadb) Suma de cuadrados debido a la regresin (SCR tene p grados de lbertad donde

    p es el numero de variables independientes)

    c) Suma de cuadrados de los errores (SCE) tiene n-(p+1) grados de libertad

    As :

    El cuadrado medio debido a la regresin esta dado por p

    SCRMSR

    El cuadrado medio debido al error esta dado por )1( pn

    SCEMSE

    Si es verdadera y los supuestos son validos entonces:MSE

    MSRF

    Tiene un distribucin F con p grados de libertad en el numerador y n-(p+1) grados de

    libertad en el denominador.

  • 7/30/2019 Material de Regresion Lineal Simple y Multiple

    13/14

    RESUMEN

    Prueba F de significancia global

    ceroaesigualnoparametroslosdemasUnoH

    H

    a

    k

    :

    0..........: 210

    Estadstico de prueba

    MSE

    MSRF

    Regla de rechazo: Rechazar si F > F

    Con el valor p : Rechazar H0 si el valor p <

    Donde F se basa en la distribucin F

    con p grados de libertad en el numerador y n-(p+1) grados de libertad en el

    denominador.

    2) PRUEBA tLa prueba t se aplica para determinar si cada una de las variables independientes es

    significativa ( tiene significancia). Se hace una prueba t por separado para cada variable

    independiente en el modelo. A cada una de esas pruebas t se les llama prueba de

    significancia individual.

    Con otras palabras se hace una prueba t para determinar la significancia de cada uno de

    los parmetros individuales.

  • 7/30/2019 Material de Regresion Lineal Simple y Multiple

    14/14

    k

    St

    k

    RESUMEN

    Para cualquier parmetro k

    0:0:0

    ka

    k

    HH

    Estadstico de prueba

    Donde

    Regla de rechazo: Rechazar 0H si

    2/2/ tttt

    Con el valor p: Rechazar H0 si el valor p <

    Donde

    se b asa en la distribucin t con n-(p+1) grados de libertad2/t

    2

    )( xx

    SS

    i

    k