analisis de regresion lineal

Upload: diego-mugueno-cortes

Post on 17-Oct-2015

88 views

Category:

Documents


4 download

TRANSCRIPT

  • qwertyuiopasdfghjklzxcvbnmqwertyui

    opasdfghjklzxcvbnmqwertyuiopasdfgh

    jklzxcvbnmqwertyuiopasdfghjklzxcvb

    nmqwertyuiopasdfghjklzxcvbnmqwer

    tyuiopasdfghjklzxcvbnmqwertyuiopas

    dfghjklzxcvbnmqwertyuiopasdfghjklzx

    cvbnmqwertyuiopasdfghjklzxcvbnmq

    wertyuiopasdfghjklzxcvbnmqwertyuio

    pasdfghjklzxcvbnmqwertyuiopasdfghj

    klzxcvbnmqwertyuiopasdfghjklzxcvbn

    mqwertyuiopasdfghjklzxcvbnmqwerty

    uiopasdfghjklzxcvbnmqwertyuiopasdf

    ghjklzxcvbnmqwertyuiopasdfghjklzxc

    vbnmqwertyuiopasdfghjklzxcvbnmrty

    uiopasdfghjklzxcvbnmqwertyuiopasdf

    ghjklzxcvbnmqwertyuiopasdfghjklzxc

    vbnmqwertyuiopasdfghjklzxcvbnmqw

    ANALISIS DE REGRESIN LINEAL

    Anlisis Multivariado 20/01/2012

    Beln Acua Pizarro Leonardo Fernndez Vsquez

    Cristopher Pizarro Castillo

  • ANALISIS DE REGRESIN LINEAL

    2

    ndice 1. CORRELACION LINEAL

    1. CORRELACION LINEAL ...................................................................................................................................... 3

    1.1. La covarianza y sus propiedades ................................................................................................................ 3

    1.2. Coeficiente de correlacin lineal de Pearson ......................................................................................... 5

    1.3. Inferencias sobre el coeficiente de correlacin poblacional ....................................................................... 5

    2. REGRESION LINEAL SIMPLE .............................................................................................................................. 7

    2.1. El modelo de regresin simple en la poblacin (parmetros) ..................................................................... 7

    2.2. Supuestos del modelo de regresin lineal simple ................................................................................ 8

    2.3. Significado del coeficiente de pendiente ................................................................................................... 9

    2.4. Estimacin de los parmetros por mnimos cuadrados del error .............................................................. 10

    2.5. La capacidad explicativa del modelo ajustado (tabla anova) .................................................................... 12

    2.6. El coeficiente de determinacin R2 (significado) ...................................................................................... 13

    2.7. Inferencias sobre el coeficiente de pendiente, test de hiptesis e intervalos de confianza ....................... 14

    3. REGRESION LINELA MULTIPLE ........................................................................................................................ 16

    3.1. El modelo poblacional con k variables independientes ............................................................................ 16

    3.2. Supuestos del modelo de regresin mltiple ........................................................................................... 17

    3.3. Formulacin matricial del modelo mltiple ............................................................................................. 18

    3.4. Estimadores de los coeficientes de pendiente (matricialmente) .............................................................. 19

    3.5. Estimacin de la varianza del error (anova regresin mltiple) ................................................................ 21

    3.6. La matriz de covarianzas (varianzas de los estimadores) .......................................................................... 22

    3.7. Inferencias sobre los coeficientes de pendiente, test de hiptesis e intervalos de confianza (aplicaciones)

    ...................................................................................................................................................................... 23

  • ANALISIS DE REGRESIN LINEAL

    3

    1. CORRELACION LINEAL

    1.1. La covarianza y sus propiedades

    La covarianza proporciona una medida del grado de dependencia entre las

    variables X e Y. sin embargo, la covarianza tiene el inconveniente de depender de la

    dimensin de las variables

    La covarianza SXY (a veces tambin denotada Cov(X,Y) ) de dos variables

    aleatorias X e Y es:

    donde es el operador esperanza. Para distribuciones discretas la frmula

    anterior se concreta en

    .

    Cuando las variables aleatorias X e Y son n-dimensionales, es

    decir, e , su matriz de

    covarianzas XY es:

    PROPIEDADES DE LA COVARIANZA:

    1.- Si a todos los valores de la variable x, les sumamos una constante k y a todos los

    valores de la variable y les sumamos una constante k, la covarianza no vara.

    2.- Si a todos los valores de una variable x los multiplicamos por una constante k y a

    todos los valores de la variable y los multiplicamos por una constante k, su

    covarianza queda multiplicada por el producto de las constantes.

    3.- A partir de las anteriores: si tenemos dos variables x, y con la covarianza Sxy, y

    transformaciones lineales de las variables de la forma z=ax+b, y t=cy+d, la nueva

    covarianza se relaciona con la anterior de la forma: Szt=acSxy.

    4.- Otra forma de calcular la Covarianza sera: i j

    ijjixy YX

    n

    nyxS .

    NOTA: El inconveniente de la covarianza, como medida de asociacin es su

    dependencia de las unidades. Habr que definir una nueva medida, que no est

    afectada por los cambios en las unidades de medida. Esta medida ser el coeficiente

    de correlacin lineal rxy, con la siguiente expresin:

  • ANALISIS DE REGRESIN LINEAL

    4

    yx

    xyxy

    SS

    Sr

    siendo Sx y Sy las desviaciones tpicas de x e y. Este coeficiente es adimensional y

    siempre estar entre 1 y 1.

    Si hay relacin lineal positiva, rxy>0 y prximo a 1.

    Si hay relacin lineal negativa rxy

  • ANALISIS DE REGRESIN LINEAL

    5

    1.2. Coeficiente de correlacin lineal de Pearson

    La covarianza es una medida de la variabilidad comn de dos variables (crecimiento

    de ambas al tiempo o crecimiento de una y decrecimiento de la otra), pero est

    afectada por las unidades en las que cada variable se mide. As pues, es necesario

    denir una medida de la relacin entre dos variables, y que no est afectada por los cambios de unidad de medida. Una forma de conseguir este objetivo es dividir la

    covarianza por el producto de las desviaciones tpicas de cada variable, ya que as

    se obtiene un coeficiente adimensional, r, que se denomina coeficiente de

    correlacin lineal de Pearson:

    Propiedades del coeficiente de correlacin lineal:

    Carece de unidades de medida (adimensional).

    Es invariante para transformaciones lineales (cambio de origen y escala) de las

    variables.

    Slo toma valores comprendidos entre 1 y 1,

    Cuando |r| est prximo a uno, se tiene que existe una relacin lineal muy

    fuerte entre las variables.

    Cuando r 0, puede armarse que no existe relacin lineal entre ambas variables. Se dice en este caso que las variables son incorreladas.

    1.3. Inferencias sobre el coeficiente de correlacin poblacional

    Las inferencias acerca de un valor poblacional requieren conocer la distribucin de

    muestreo del estimador y la forma en que se comporta al aumentar el tamao de la

    muestra. Para el valor maestral r, la teora estadstica permite derivar su distribucin

    bajo ciertos supuestos. As, en el caso en que la muestra haya sido extrada al azar de

    una poblacin normal bivariante, es decir, si x e y tienen cada una, una distribucin

    normal, se tiene que la distribucin de r depende de n-tamaos de a muestra- y del

    valor poblacional . Ahora bien, cuando =0, la distribucin de r es simtrica

    alrededor de 0, y su error estndar queda dado por la expresin

    . En esta

  • ANALISIS DE REGRESIN LINEAL

    6

    situacin especial, la significancia de r frente al test de hiptesis

    puede probarse utilizando el estadstico:

    El cual tiene la distribucin t de Student con n-2 grados de libertad, en donde se

    rechazara Ho si

    Ejemplo:

    Considere el valor r=0.7 que corresponde a variables de peso y estatura de una

    muestra de 20 estudiantes, sea el test de hiptesis

    comparado con el valor de comparado con el valor de t0.975;18

    =2.101 claramente se rechaza Ho lo que determina que las variables X e Y estn

    relacionadas significativamente al 5%.

    Ahora bien cuando se aleja de cero, la distribucin del estimador muestral r se

    vuelve marcadamente asimtrica y el procedimiento antes citado no es apropiado

    para la prueba de significancia. Una solucin propuesta por Fisher consiste en

    emplear la transformacin

    Esta variable W sigue una distribucin aproximadamente normal y su media y

    desviacin estndar vienen dadas por las siguientes expresiones:

    y

    Con este enfoque, el test de hiptesis

    se obtiene el

    valor de

  • ANALISIS DE REGRESIN LINEAL

    7

    Este valor se compara con el valor de la normal estndar correspondiente al nivel de

    significancia que se haya escogido, y dependiendo de la hiptesis alternativa (regin

    critica) se rechaza Ho si Zw pertenece a dicha regin.

    Ejemplo:

    Tomando el ejemplo anterior probaremos el siguiente test de hiptesis

    de significacin, prueba unilateral:

    ;

    ;

    ; Z0.95= 1.65 ; no se rechaza Ho por lo que no existe evidencia

    significativa al 5% para concluir que la correlacin en la poblacin sea mayor que

    0.75

    2. REGRESION LINEAL SIMPLE

    2.1. El modelo de regresin simple en la poblacin (parmetros)

    Slo se maneja una variable independiente, por lo que slo cuenta con

    dos parmetros. Son de la forma:

    Yi = 0 + 1Xi + i

    donde i es el error asociado a la medicin del valor Xi y siguen los supuestos de modo

    que iN(0,2) (media cero, varianza constante e igual a un y con ).

    Dado el modelo de regresin simple, si se calcula la esperanza (valor esperado) del

    valor Y, se obtiene:

    Derivando respecto a y e igualando a cero, se obtiene:

  • ANALISIS DE REGRESIN LINEAL

    8

    Obteniendo dos ecuaciones denominadas ecuaciones normales que generan la

    siguiente solucin para ambos parmetros:

    La interpretacin del parmetro 1 es que un incremento en Xi de una unidad, Yi incrementar en 1, siempre y cuando 1>0, de lo contrario un incremento en Xi de una unidad, Yi disminuir en 1.

    2.2. Supuestos del modelo de regresin lineal simple

    1. Linealidad. Si no se tiene linealidad se dice que tenemos un error de especificacin.

    En el caso de que sean varias variables independientes, la opcin Analizar-Regresin-

    lineal-Grficos-Generar todos los grficos parciales nos da los diagramas de dispersin

    parcial para cada variable independiente. En ellos se ha eliminado el efecto

    proveniente de las otras variables y as la relacin que muestran es la relacin neta

    entre las variables representadas.

    2. Independencia de la variable aleatoria residuos (especialmente importante si los datos se han obtenidos siguiendo una secuencia temporal).

    Independencia entre los residuos mediante el estadstico de Durbin-Watson que toma

    valor 2 cuando los residuos son completamente independientes (entre 1.5 y 2.5 se

    considera que existe independencia), DW2

    auto correlacin negativa

    , 0 DW 4

    3. Homocedasticidad o igualdad de varianzas de los residuos y los pronsticos. Esta

    condicin se estudia utilizando las variables: ZPRED=pronsticos tipificados y

    ZRESID=residuos tipificados mediante:

    el estadstico de Levene

    un grfico de dispersin .Que se obtiene en Analizar-Regresin-Lineal-Grficos.

  • ANALISIS DE REGRESIN LINEAL

    9

    El supuesto de homocedasticidad implica que la variacin de los residuos sea

    uniforme en todo el rango de valores de los pronsticos (grfico sin pautas de

    asociacin).

    4. Normalidad de los residuos tipificados. Podemos contrastarla mediante:

    La prueba de Kolmogorff-Smirnov, con grficos de normalidad de tipo Q-Q (cuantiles) o P-P(proporciones)

    Grficamente en Analizar-Regresin-Lineal-Grficos. La opcin Histograma: aade una curva N(0,1)

    Grfico de Probabilidad Normal de tipo P-P: Representa las proporciones

    acumuladas de la variable esperada respecto a las proporciones acumuladas de la

    variable observada.

    5. No-colinealidad, es decir la inexistencia de colinealidad. Esta puede ser:

    colinealidad perfecta si una de las variables independientes tiene una relacin lineal con otra/as independientes,

    colinealidad parcial si entre las variables independientes existen altas correlaciones.

    2.3. Significado del coeficiente de pendiente

    Coeficiente de pendiente : Cambio en la variable y, por incremento unitario en la variable x.

    Ejemplo: b= = 8,12 8120 dlares. Por cada punto adicional en el puntaje promedio el salario anual se incrementa en

    8120 dlares.

  • ANALISIS DE REGRESIN LINEAL

    10

    2.4. Estimacin de los parmetros por mnimos cuadrados del error

    Observados n pares de valores (cada par esta constituido por un valor seleccionado

    de la variable independiente y el valor observado correspondiente a la variable

    dependiente) estimar los parmetros del modelo o sea: observados xi e yi para cada

    par i. con i1, 2, ., i, .,n estimar 0 y 1 y ( Y1, Y2, , Yi, ,Yn) para los n pares de valores observados, (valores estimados son b0 y b1 y respectivamente).

    Entonces la recta que hemos estimado se denota por =b0+b1*x, y el error aleatorio corresponde a la diferencia entre el valor de la variable Y en la recta estimada

    (Y^=b0+b1*x) y el valor realmente observado de dicha variable Yi, entonces tenemos:

    La funcin objetivo de la estimacin de mnimos cuadrados es minimizar la suma de

    los cuadrados del error, por lo que debemos encontrar los valores de b0 y b1 que

    minimizan la ecuacin:

    Para llevar a cabo la minimizacin han de igualarse a cero las derivadas

    y

    resolviendo el sistema de ecuaciones, despus de algunas transformaciones

    matematicas se obtienen los siguientes resultados:

    Ejemplo: para la relacin de millones de dlares gastados en investigacin y

    desarrollo se desea estimar los parmetros por minimos cuadrados del error.

  • ANALISIS DE REGRESIN LINEAL

    11

    ao

    millones de dolares gastados en investigacion y desarrollo

    Ganancia anual (millones de dolares)

    (X) (Y)

    1995 5 31

    1994 11 40

    1993 4 30

    1992 5 34

    1991 3 25

    1990 2 20

    Con el siguiente recuadro nos ayudaremos para realizar, los clculos

    ao

    millones de dolares gastados en investigacion y desarrollo

    Ganancia anual (millones de dolares)

    (X) (Y) XY X^2

    1995 5 31 155 25

    1994 11 40 440 121

    1993 4 30 120 16

    1992 5 34 170 25

    1991 3 25 75 9

    1990 2 20 40 4

    =30 =180 =1000 =200

    5 30

    Con esta informacin podemos calcular los estimadores de 0 y 1 b0 y b1 respectivamente

    Y el valor de b0 es:

    Entonces la ecuacin estimada es:

  • ANALISIS DE REGRESIN LINEAL

    12

    2.5. La capacidad explicativa del modelo ajustado (tabla anova)

    Tenemos que es el valor que se estimo par la variable dependiente Y dada la recta de regresin estimada para ello y la diferencia entre los valores observados y el valor

    estimado , por ende se entiende que la parte de la variable dependiente que su comportamiento no puede ser explicada por la relacin lineal que tiene con la

    variable independiente, de forma matematica tenemos:

    Ahora si restamos el promedio de la variable dependiente en ambos lados de a igualdad obtenemos

    Elevando al cuadrado ambos lados de la ultima igualdad y sumamos respecto del

    subndice i , resulta:

    SCG= Suma de los cuadrados global (total)

    SCE= Suma de los cuadrados de la estimacin (regresin)

    SCR= suma de los cuadrados residual (error)

    Esta igualdad nos explica que la variabilidad global (total) es igual a la variabilidad

    de la estimacin (explicada) ms la variabilidad residual (no explicada).

    . Bajo la hiptesis de que existe una relacin lineal entre la variable respuesta y la

    regresora, se quiere realizar el siguiente contraste de hiptesis,

    frente a la alternativa

    por tanto, si se acepta H0, la variable regresora no influye y no hay relacin lineal

    entre ambas variables. En caso contrario, si existe una dependencia lineal de la

    variable respuesta respecto a la regresora.

  • ANALISIS DE REGRESIN LINEAL

    13

    Tabla ANOVA del modelo de regresin simple

    Fuente de

    Variacin

    Suma de

    Cuadrados

    Grados de

    Libertad Varianzas

    Por la recta SCE = 1 e2 =

    Residual SCR = n 2 R2 =

    Global SCG = n 1 Y

    2 =

    Si H0 es cierta (la variable X no influye), la recta de regresin es aproximadamente

    horizontal y se verifica que aproximadamente i , y por tanto SCE 0. Pero SCE es

    una medida con dimensiones y no puede utilizarse como medida de discrepancia,

    para resolver este inconveniente se divide por la varianza residual y como estadstico

    del contraste de regresin se utiliza el siguiente

    Por la hiptesis de normalidad y bajo H0 se deduce que el estadstico R sigue una

    distribucin F (Contraste de la F) con 1 y n - 2 grados de libertad.

    S el p - valor = P es grande (mayor que ) se acepta H0.

    El Contraste de la F es un contraste unilateral (de una cola) pero en este modelo

    proporciona exactamente el mismo resultado que se obtiene por el contraste

    individual de la t relativo al coeficiente de regresin 1 (Contraste de la t) estudiado

    en el apartado anterior.

    2.6. El coeficiente de determinacin R2 (significado)

    Denominamos coeficiente de determinacin como el coeficiente que nos indica el porcentaje del ajuste que se ha conseguido con el modelo lineal, es decir el

    porcentaje de la variacin de Y que se explica a travs del modelo lineal que se ha

    estimado, es decir a travs del comportamiento de X . A mayor porcentaje mejor es

    nuestro modelo para predecir el comportamiento de la variable Y.

  • ANALISIS DE REGRESIN LINEAL

    14

    O bien

    Como SCE < SCG, se verifica que 0 < R2 < 1.

    Tambin se puede entender este coeficiente de determinacin como el porcentaje

    de varianza explicada por la recta de regresin y su valor siempre estar entre 0 y 1 y

    siempre es igual al cuadrado del coeficiente de correlacin (r).

    =

    Es una medida de la proximidad o de ajuste de la recta de regresin a la nube de

    puntos. Tambin se le denomina bondad del ajuste.

    1 nos indica qu porcentaje de las variaciones no se explica a travs del modelo de regresin, es como si fuera la varianza inexplicada que es la varianza de los

    residuos.

    2.7. Inferencias sobre el coeficiente de pendiente, test de hiptesis e intervalos de

    confianza

    La recta de regresin se deriva de una muestra y no de una poblacin entera. Como

    resultado, no podemos esperar que la ecuacin de regresin Y= 0+ 1X (de toda la poblacin), sea exactamente la misma que la ecuacin estimada a partir de

    observaciones de la muestra, o =b0+b1x. Aun asi, podemos usar el valor de b1, la pendiente que calculamos a partir de una muestra para probar la hiptesis respectp

    del valor de 1, la pendiente de la recta de regresin para toda la poblacin. Para comprender este proceso mostraremos el desarrollo del ejemplo entre la relacin de

    gastos anuales de investigacin y desarrollo, y las ganancias, en clculos previos b1=2.

    El primer paso es encontrar algn valor de 1 con el fin de compararlo con b1=2. Supongamos que durante un periodo extenso, la pendiente de la relacion entre X e Y

    fue 2.1. para probar si este valor es todava el caso, podramos definir el siguiente test

    de hiptesis:

    Entonces, de hecho estamos probando para saber si los datos actuales indican que

    1 ha cambiado de su valor histrico de 2.1.

  • ANALISIS DE REGRESIN LINEAL

    15

    Para encontrar el estadstico de prueba para 1, es necesario primero encontrar el error estndar del coeficiente de regresin. Aqu el coeficiente de regresin con el

    que estamos trabajando es b1, asi que el error estndar de este coeficiente se

    expresa como Sb=

    ; donde:

    Sb=error estndar del coeficiete de regresin

    Se=error estndar de la estimacin

    X=Valores de la variable independiente

    =media de los valores de la variable independiente N= numero de datos

    Una vez calculado Sb podemos utilizar la siguiente ecuacin para estandarizar la

    pendiente de nuestra ecuacin de regresin

    En la que,

    b1 = pendiente de la regresin ajustada

    1 = pendiente real hipottica para la poblacin Sb= error estndar del coeficiente de regresin

    Como la prueba estar basada en la distribucion t con n-2 grados de libertad,

    usamos t para denotar la estadstica estandarizada.

    Calculando el error de la estimacin Se=3.24, y tambin el error estndar del

    coeficiente de la regresin Sb=0.46; ahora podemos calcular el estadstico de prueba

    estandarizado:

    Suponga que tenemos razones para probar nuestra hiptesis al 10% de nivel de

    significancia. Como tenemos seis observaciones en nuestra muestra, sabemos que

    tenemos n-2 o 6-2 =4 grados de libertad. De tabla t student obtenemos el valor para t

    al 10% y 4 grados de libertad encontramos el valor de 2.132. puesto que nos interesa

    si b1 (la pendiente de la recta de regresin de la muestra), es significativamente

    diferente de 1 ( la pendiente hipottica de la recta de regresin de la poblacin), esta es una prueba de dos cola, y los valores crticos son +-2.132. el coeficiente de

    regresin estandarizado es -0.217, que esta dentro de la regin de aceptacin de

    nuestra prueba de hiptesis. Por tanto aceptamos la hiptesis nula de que 1 sigue siendo igual a 2.1.

    Adems de la prueba de hiptesis, tambin podemos construir un intervalo de

    confianza para el valor de 1. De la misma forma que b1 es una estimacin puntual de 1,estos intervalos de confianza son estimaciones de intervalo de 1. El problema qie acaamos de resolver, y para el cual hicimos una prueba de hiptesis, ilustra el

    proceso de construir un intervalo de confianza. Encontramos que

    b1=2.0

  • ANALISIS DE REGRESIN LINEAL

    16

    Sb=0.46

    T=2.132 nivel de signigficacion del 10% y 4 grados de libertad

    Con esta informacin podemos calcular intervalo de confianza de la siguiente

    manera:

    En esta situacin estamos 90% seguros de que el verdadero valor de 1 cae entre 1.019 y 2.981, esto es, cada milln de dlares adicional gastado en investigacin y

    desarrollo incrementa las ganancias en una cantidad entre 1.02 millones y 2.98

    millones.

    3. REGRESION LINELA MULTIPLE

    3.1. El modelo poblacional con k variables independientes

    El modelo que se plantea en regresin mltiple es el siguiente:

    donde x1, x2, . .

    . , xk son las variables independientes o explicativas.

    La variable respuesta depende de las variables explicativas y de una componente

    de error que se distribuye segn una normal: .

    El ajuste del modelo se realiza por el mtodo de mxima verosimilitud o el mtodo de

    mnimos cuadrados. En el caso de distribucin normal de errores, ambos mtodos

    coinciden, como ya se vi en regresin simple.

    El valor que el modelo estimado predice para la observacin i-sima es:

  • ANALISIS DE REGRESIN LINEAL

    17

    y el error cometido en esa prediccin es:

    donde son los valores estimados del modelo.

    El criterio de mnimos cuadrados asigna a el valor que minimiza la

    suma de errores al cuadrado de todas las observaciones.

    3.2. Supuestos del modelo de regresin mltiple

    Modelo de regresin mltiple

    Los supuestos acerca del trmino de error, en el modelo de regresin mltiple, son

    paralelos a los del modelo de regresin lineal simple

    Supuestos acerca del termino de error, , en el modelo de regresin mltiple

    1. El error E es una variable aleatoria cuyo valor medio o esperado es cero; esto es

    Implicacin: Para los valores dados de x1,x2, . . . , xP el valor esperado o media

    de y es

    En esta ecuacin E(y) representa el promedio de todos los valores posibles de y que

    podran resultar para los valores dados de x1, x2, . . . ,xP.

    2. La varianza de se representa por 2 y es igual para todos los valores de las

    variables independientes x1, x2, . . . , xP.

    Implicacin: La varianza de y es igual a 2 y es igual para todos los valores de

    x1, x2, . . . , xP

    3. Los valores de son independientes.

  • ANALISIS DE REGRESIN LINEAL

    18

    Implicacin: El tamao del error, para determinado conjunto de valores de las

    variables independientes, no se relacionan con el tamao del error para

    cualquier otro conjunto de valores.

    4. El error es una variable aleatoria con distribucin normal, que refleja la

    diferencia entre el valor de y y el valor esperado de y, de acuerdo con

    Implicacin: Como 0, 1, . . . P son constantes, la variable dependiente y

    tambin es variable aleatoria con distribucin normal, para los valores dados

    de x1, x2, . . . xP

    3.3. Formulacin matricial del modelo mltiple

    X es la denominada matriz de diseo, de dimensin n x (k+1)

    La expresin matricial del modelo de regresin mltiple es la siguiente:

    El modelo estimado tambin puede expresarse en forma matricial:

  • ANALISIS DE REGRESIN LINEAL

    19

    3.4. Estimadores de los coeficientes de pendiente (matricialmente)

    Estimar los parmetros poblacionales, los (Coeficientes de Pendiente) a partir de un conjunto de datos. Supondremos que nuestros datos (y i *,xi*,x2i*, . . ., xki*), con i=1, . . . ,n,

    son una realizacin de una muestra aleatoria de tamao n de una poblacin, (y i

    ,xi,x2i, . . ., xki).

    Sea el modelo:

    Dada una muestra aleatoria de tamao n de la poblacin, podemos escribir:

    Donde para todo i = 1,. . . , n, se cumplen los supuestos

    Partiremos igualmente del principio de analoga para proponer estimadores,

    generalizando el resultado del modelo de regresin lineal simple al caso del modelo

    de regresin mltiple La obtencin de los estimadores requiere tambin resolver un

    sistema de ecuaciones (aunque analticamente la resolucin es ms compleja).

    Los parmetros poblacionales 0, 1, . . .,k son aquellos que resuelve el problema

    Para estimar dichos parmetros, en lugar del error i, podemos utilizar el residuo (desviacin entre el valor observado y el valor predicho) como,

  • ANALISIS DE REGRESIN LINEAL

    20

  • ANALISIS DE REGRESIN LINEAL

    21

    3.5. Estimacin de la varianza del error (anova regresin mltiple)

    El estimador insesgado que utilizaremos es:

    Que tiene distribucin muestral asociada

    CONTRASTE DE SIGNIFICACIN DEL MODELO GLOBA

    Llamaremos Suma de Cuadrados Explicada (SCE) dicha diferencia (SCE = SCT - SCR).

    Obtenemos as la descomposicin de la variabilidad total de la variable dependiente

    en dos partes, una parte explicada por las variables regresoras y una parte residual

    que todava queda sin explicar despus de haber ajustado el modelo.

    A la suma de las desviaciones cuadrticas de cada valor con respecto a la media la

    denominaremos Suma de Cuadrados Total (SCT) ya que mide la dispersin mxima

    cuando no se tiene informacin sobre las regresoras.

    Introducimos ahora las regresoras y ajustamos el modelo completo,

    . La Suma de Cuadrados de los Residuales (SCR) del

    modelo completo

  • ANALISIS DE REGRESIN LINEAL

    22

    mide la dispersin en torno al hiperplano ajustado, es decir, mide la dispersin que

    todava queda despus de haber introducido las variables regresoras o dispersin

    residual no explicada. La suma de cuadrados de los residuales mide tambin la

    dispersin intrnseca de los datos.

    Usamos la tabla ANOVA para medir la significancia capacidad explicativa del

    modelo de regresin:

    Podemos entonces evaluar la capacidad explicativa del modelo de regresin lineal

    mltiple a un nivel de significacin dado .

    3.6. La matriz de covarianzas (varianzas de los estimadores)

    Recordemos que la matriz de covarianzas de un vector aleatorio como se dene por:

    La matriz de covarianzas tiene en su diagonal principal las varianzas de los

    componentes del vector y fuera de la diagonal principal las covarianzas.

    La matriz de covarianzas tendr por expresin:

  • ANALISIS DE REGRESIN LINEAL

    23

    La matriz de covarianzas de es una matriz simtrica de orden (k+1)(k+1) cuyos

    elementos de la diagonal a jj son las varianzas de y los elementos no

    diagonales a ij a ji . Siendo aii el elemento ii-

    esimo de la matriz .Entonces:

    3.7. Inferencias sobre los coeficientes de pendiente, test de hiptesis e intervalos de

    confianza (aplicaciones)

    En el plano de regresin se deriva de una muestra y no de la poblacin completa.

    Como resultado, no podemos esperar que la ecuacin de regresin verdadera Y=0+

    1x1+ 2x2+.+ kxk (la que se le aplia a la poblacin completa) sea exactamente igual

    a la ecuacin estimada a partir de observaciones de la muestra

    =b0+b1x1+b2x2++bkxk . Sin embargo, podemos utilizar el valor de bk una de las

    pendientes que calculamos a partir de la muestra, para probar hiptesis acerca del

    valor de k una de las pendientes del plano de regresin para la poblacin completa.

    El procedimiento para probar una hiptesis respecto de j, es a traves de la prueba

    de relevancia de j

    La cual consiste en evaluar estadsticamente que tan significativo es este parmetro

    del modelo y de esta forma puede identificarse si la variable explicativa Xj aporta

    informacin relevante al modelo de regresin.

    Si se rechaza Ho se concluye que Xj es estadsticamente relevante al nivel de

    significacin . Por otro lado si no es posible rechazar Ho podemos afirmar que no

    existe evidencia significativa de que la variable explicativa Xj sea relevante y en tal

    caso podemos evaluar no incluirla en el modelo ajustado.

  • ANALISIS DE REGRESIN LINEAL

    24

    Para esta prueba debemos definir el estadstico a usar (pivot) para la inferencia de los

    coeficientes j esta dado por:

    Otra inferencia de inters para el parmetro es construir un intervalo de confianza

    (1-) para la pendiente usando para ello la formula siguiente:

    .