regresión lineal múltipleclopez/regresion/semana_10.pdf · regresión lineal múltiple ms carlos...
TRANSCRIPT
Transformaciones en Regresión
Regresión Lineal Múltiple
Ms Carlos López de Castilla Vásquez
Universidad Nacional Agraria La Molina
2011-2
Ms Carlos López de Castilla Vásquez Regresión Lineal Múltiple
Transformaciones en RegresiónTransformaciones para linealizar modelosTransformaciones de las variables predictoras en regresión múltipleTransformaciones para mejorar la normalidad de la variable de respuesta
Transformaciones para linealizar modelos
Consideremos por ahora solo modelos con una variablepredictora.
La idea es tratar de aumentar la medida de ajuste R2 delmodelo, sin incluir variables predictoras adicionales.
Lo primero que hay que hacer es un plot para obervar el tipode tendencia, como los que aparecen el la Figura 1.
Ms Carlos López de Castilla Vásquez Regresión Lineal Múltiple
Transformaciones en RegresiónTransformaciones para linealizar modelosTransformaciones de las variables predictoras en regresión múltipleTransformaciones para mejorar la normalidad de la variable de respuesta
Figura 1: Modelos no lineales
Ms Carlos López de Castilla Vásquez Regresión Lineal Múltiple
Transformaciones en RegresiónTransformaciones para linealizar modelosTransformaciones de las variables predictoras en regresión múltipleTransformaciones para mejorar la normalidad de la variable de respuesta
En la primera grá�ca de la Figura 1 se ha ajustado un modelocuadrático, que es de la forma general y = a + bx + cx2 .Estopuede ser modelado como una regresión múltiple con dosvariables predictoras.
La segunda grá�ca corresponde a un modelo exponencial de laforma y = αeβx con α y β positivos. Este modelo es muyadecuado para modelar crecimientos poblacionales.
La tercera grá�ca corresponde a un modelo potencial odoblemente logarítmico de la forma y = αxβ , con β positivo.
Ms Carlos López de Castilla Vásquez Regresión Lineal Múltiple
Transformaciones en RegresiónTransformaciones para linealizar modelosTransformaciones de las variables predictoras en regresión múltipleTransformaciones para mejorar la normalidad de la variable de respuesta
Figura 2: Modelos no lineales
Ms Carlos López de Castilla Vásquez Regresión Lineal Múltiple
Transformaciones en RegresiónTransformaciones para linealizar modelosTransformaciones de las variables predictoras en regresión múltipleTransformaciones para mejorar la normalidad de la variable de respuesta
La primera grá�ca de la Figura 2 corresponde a un modelohiperbólico o inverso de la forma y = α+ β/x , con x > 0.
La segunda grá�ca corresponde a un modelo logarítmico de laforma y = α+ βlog(x) con x > 0.
La tercera grá�ca corresponde a un modelo potencia pero conβ > 0.
Ms Carlos López de Castilla Vásquez Regresión Lineal Múltiple
Transformaciones en RegresiónTransformaciones para linealizar modelosTransformaciones de las variables predictoras en regresión múltipleTransformaciones para mejorar la normalidad de la variable de respuesta
La siguiente tabla muestra las transformaciones de la variablepredictora y/o respuesta que se requieren para linealizar variosmodelos.
Nombre del modelo Ecuación del Modelo Transformación Modelo Linealizado
Exponencial Y = αeβX Z = LogY X = X Z = Logα + βX
Logaritmico Y = α + βLogX Y = Y W = LogX Y = α + βW
Doblemente Logarítmico Y = αXβ Z = LogY W = LogX Z = Logα + βW
Hiperbólico Y = α + β/X Y = Y W = 1/X Y = α + βW
Doblemente Inverso Y = 1/(α + βX ) Z = 1/Y X = X Z = α + βX
Ms Carlos López de Castilla Vásquez Regresión Lineal Múltiple
Transformaciones en RegresiónTransformaciones para linealizar modelosTransformaciones de las variables predictoras en regresión múltipleTransformaciones para mejorar la normalidad de la variable de respuesta
Transformaciones de las variables predictoras en regresión
múltiple
Se tiene una variable de respuesta Y y varias variablespredictoras, y desea hacer transformaciones en las variablesrespuesta para mejorar la medida de ajuste del modelo.
Estas transformaciones se pueden ver afectadas por lacolinealidad (dependencia lineal) existente entre las variablespredictoras.
Box y Tidwell, propusieron un método para transformar lasvariables predictoras pero solo usando potencia de ellas.
Ms Carlos López de Castilla Vásquez Regresión Lineal Múltiple
Transformaciones en RegresiónTransformaciones para linealizar modelosTransformaciones de las variables predictoras en regresión múltipleTransformaciones para mejorar la normalidad de la variable de respuesta
Mas especi�camente, ellos consideraron el modelo:
y = β0 + β1w1 + ...+ βkwk + e...(1.2.1)
Donde:w = xαjj si αj 6= 0 y wj = ln(xj) si αj = 0.
El método está basado en el desarrollo en series de Taylor delmodelo anterior.
Con respecto a a = (α1, ...αk) y alrededor del punto aa0 = (α1,0, ...αk,0) = (1, ..., 1).
Ms Carlos López de Castilla Vásquez Regresión Lineal Múltiple
Transformaciones en RegresiónTransformaciones para linealizar modelosTransformaciones de las variables predictoras en regresión múltipleTransformaciones para mejorar la normalidad de la variable de respuesta
Haciendo las derivaciones respectivas, el modelo 1.2.1 sereduce a:
y ∼= β0+β1x1+...+βkxk+(α1−1)β1x1lnx1+(α2−1)β2x2lnx2+...+(αk−1)βkxk lnxk
El cual es equivalente a:
y ∼= β0 + β1x1 + ...+ βkxk + γ1z1 + γ2z2 + ...+ γkzk ...(1.2.2)
Donde:γj = (αj − 1)βj y zj = xj lnxjpara j = 1, 2...k
Ms Carlos López de Castilla Vásquez Regresión Lineal Múltiple
Transformaciones en RegresiónTransformaciones para linealizar modelosTransformaciones de las variables predictoras en regresión múltipleTransformaciones para mejorar la normalidad de la variable de respuesta
El procedimiento para la estimación de los αj se puede resumircomo sigue:
a) Hacer la regresión lineal múltiple considerando las variablespredictoras originales xj y denotar los estimados de loscoe�cientes por bj .
b) Hacer una regresión lineal múltiple de Y versus las variablespredictoras originales, más las variables zj = xj ln(xj) y denotarlos estimados de los coe�cientes de zj por γ̂j
c) Estimar α̂jporγ̂jbj
+ 1
Ms Carlos López de Castilla Vásquez Regresión Lineal Múltiple
Transformaciones en RegresiónTransformaciones para linealizar modelosTransformaciones de las variables predictoras en regresión múltipleTransformaciones para mejorar la normalidad de la variable de respuesta
El procedimiento se puede repetir varias veces usando en cadaetapa las nuevas variables transformadas y la siguiente relaciónde recurrencia:
α̂(m+1)j = (
γ̂(m)j
b(m)j
+ 1)α̂(m)j ...(1.2.3)
Terminando el proceso cuando | α̂(m+1)j − α̂j |< TOL es una
cantidad de tolerancia muy cercana a cero.
Ms Carlos López de Castilla Vásquez Regresión Lineal Múltiple
Transformaciones en RegresiónTransformaciones para linealizar modelosTransformaciones de las variables predictoras en regresión múltipleTransformaciones para mejorar la normalidad de la variable de respuesta
EJEMPLO 1: Aplicar la técnica sugerida por Box and Tidwellal conjunto de datos millaje.
Ms Carlos López de Castilla Vásquez Regresión Lineal Múltiple
Transformaciones en RegresiónTransformaciones para linealizar modelosTransformaciones de las variables predictoras en regresión múltipleTransformaciones para mejorar la normalidad de la variable de respuesta
Ms Carlos López de Castilla Vásquez Regresión Lineal Múltiple
Transformaciones en RegresiónTransformaciones para linealizar modelosTransformaciones de las variables predictoras en regresión múltipleTransformaciones para mejorar la normalidad de la variable de respuesta
Ms Carlos López de Castilla Vásquez Regresión Lineal Múltiple
Transformaciones en RegresiónTransformaciones para linealizar modelosTransformaciones de las variables predictoras en regresión múltipleTransformaciones para mejorar la normalidad de la variable de respuesta
Ms Carlos López de Castilla Vásquez Regresión Lineal Múltiple
Transformaciones en RegresiónTransformaciones para linealizar modelosTransformaciones de las variables predictoras en regresión múltipleTransformaciones para mejorar la normalidad de la variable de respuesta
Ms Carlos López de Castilla Vásquez Regresión Lineal Múltiple
Transformaciones en RegresiónTransformaciones para linealizar modelosTransformaciones de las variables predictoras en regresión múltipleTransformaciones para mejorar la normalidad de la variable de respuesta
Transformaciones para mejorar la normalidad de la variable
de respuesta
Box y Cox introdujeron una transformación de la variable derespuesta con el objetivo de satisfacer la suposición denormalidad del modelo de regresión.
La transformación es de la forma yλ (transformaciónpotencia), donde λ es estimada con los datos tomados.
Ms Carlos López de Castilla Vásquez Regresión Lineal Múltiple
Transformaciones en RegresiónTransformaciones para linealizar modelosTransformaciones de las variables predictoras en regresión múltipleTransformaciones para mejorar la normalidad de la variable de respuesta
EJEMPLO 2: Aplicar la transformación de Box y Cox alcomjunto de datos millaje
Ms Carlos López de Castilla Vásquez Regresión Lineal Múltiple
Transformaciones en RegresiónTransformaciones para linealizar modelosTransformaciones de las variables predictoras en regresión múltipleTransformaciones para mejorar la normalidad de la variable de respuesta
Ms Carlos López de Castilla Vásquez Regresión Lineal Múltiple
Transformaciones en RegresiónTransformaciones para linealizar modelosTransformaciones de las variables predictoras en regresión múltipleTransformaciones para mejorar la normalidad de la variable de respuesta
Ms Carlos López de Castilla Vásquez Regresión Lineal Múltiple
Transformaciones en RegresiónTransformaciones para linealizar modelosTransformaciones de las variables predictoras en regresión múltipleTransformaciones para mejorar la normalidad de la variable de respuesta
Ms Carlos López de Castilla Vásquez Regresión Lineal Múltiple
Transformaciones en RegresiónTransformaciones para linealizar modelosTransformaciones de las variables predictoras en regresión múltipleTransformaciones para mejorar la normalidad de la variable de respuesta
Ms Carlos López de Castilla Vásquez Regresión Lineal Múltiple
Transformaciones en RegresiónTransformaciones para linealizar modelosTransformaciones de las variables predictoras en regresión múltipleTransformaciones para mejorar la normalidad de la variable de respuesta
Ms Carlos López de Castilla Vásquez Regresión Lineal Múltiple
Transformaciones en RegresiónTransformaciones para linealizar modelosTransformaciones de las variables predictoras en regresión múltipleTransformaciones para mejorar la normalidad de la variable de respuesta
Figura 3:
Ms Carlos López de Castilla Vásquez Regresión Lineal Múltiple
Transformaciones en RegresiónTransformaciones para linealizar modelosTransformaciones de las variables predictoras en regresión múltipleTransformaciones para mejorar la normalidad de la variable de respuesta
Figura 3. Plot de normalidad de los residuales de la regresiónpara el conjunto de datos millaje después de la transformaciónBox-Cox.
Se observan claramente dos �outliers� inferiores y uno superior.
Notar que el R2 ha subido de 87.33% a 92.52%, mejorando elefecto de transformar las variables predictoras que se llevó acabo en el EJEMPLO 1.
Ms Carlos López de Castilla Vásquez Regresión Lineal Múltiple