analisis rigde

16
APEÑA CHILI CHRISTIAN IVAN RETAMOZO LLANTOY CARLOS ALBERTO Análisis de Regresión 1

Upload: glpi

Post on 11-Aug-2015

21 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Analisis Rigde

APEÑA CHILI CHRISTIAN IVANRETAMOZO LLANTOY CARLOS ALBERTO

Análisis de Regresión 1

Page 2: Analisis Rigde

Multicolinealidad Dos predictores X1 y X2 son exactamente colineales si

existe una relación lineal tal que c1X1+c2X2=c0 para algunas constantes c1, c2 y c0.

Un conjunto de predictoras X1, X2,….Xp son colineales si para constantes co,c1,…..cp, la ecuación

Si el coeficiente de determinación de la regresión de Xk con las otras es cercano a 1 se puede concluir tentativamente que hay multicolinealidad.

kkj

jjok cXccX /)(

Page 3: Analisis Rigde

Medidas remediales al problema de multicolinealidad Básicamente hay tres propuestas:

a) Regresión Ridge (Hoerl and Kennard, 1970)

b) Componentes principales (Hotelling, 1965)

c) Mínimos Cuadrados Parciales (H. Wold, 1975)

Sin embargo el problema de multicolinealidad también está

relacionado con los métodos de selección de variables y esto

puede ser considerado como una cuarta manera de resolver el

problema de multicolinealidad.

Análisis de Regresión 3

Page 4: Analisis Rigde

Regresión Ridge

El error cuadrático medio del estimador se define como

MSE( ) = E( -β)² = Var( ) + [E( -β)]²

MSE( ) = Var( ) + [sesgo en ] ²

La pequeña varianza del estimador sesgado implica también que es un estimador más estable de β que el estimador insesgado .

~

~ ~ ~ ~

~

~ ~ ~

Page 5: Analisis Rigde

Regresión Ridge

La idea en regresión Ridge es encontrar un estimador que

aunque sea sesgado sea más corto que

El estimador mínimo cuadrático será escogido hacia el origen.

Hoerl y Kennard (1970 ) propusieron el siguiente estimador

Donde, k es el parámetro de sesgo (0<k<1) que

debe ser estimado de los datos tomados.

~

YXkIXX ')'(~ 1

Page 6: Analisis Rigde

Regresión RidgeMSE( ) = E( -β)² = Var( ) + [E( -β)]²

Var( )= σ²(X’X + kI)ˉ¹ X’X (X’X + kI)ˉ¹

MSE( ) = σ² + k² (X’X + kI)ˉ²β

Al usar ridge sería bueno escoger un valor de k, tal que la reducción en el término de varianza sea mayor que el aumento en el sesgo al cuadrado.

~ ~ ~ ~

~

~

Page 7: Analisis Rigde

Traza Ridge Hay varias propuestas acerca de la elección de k, pero lo que másse recomienda consiste en hacer un plot de los coeficientes delmodelo para varios valores de k (generalmente entre 0 y 1) este plot es llamado la Traza Ridge .

Para elegir k hay que considerar los siguientes aspectos1. Que los valores de los coeficientes de regresión se estabilizen.2. Que los coefcientes de regresión que tenían un valor demasiado

grande comienzen a tener valores razonables.3. Que los coeficientes de regresión que inicialmente tenían el

signo equivocado cambien de signo.

Page 8: Analisis Rigde

Traza Ridge para los datos de longley

Page 9: Analisis Rigde

k óptimo Es un estimado de la razón entre la varianza poblacional 2

y la varianza del estimador ridge.

Donde p es el número de variables predictoras, s2 es laestimación de la varianza de los errores del modelo demínimos cuadrados trabajando con las variables originales ysin usar ningún tipo de estandarización. Finalmente, ,es el cuadrado del i-ésmo coeficiente de la regresión pormínimos cuadrados.

Análisis de Regresión 9

p

ii

opt

b

psk

1

2*

2

)0(

)0(2*ib

Page 10: Analisis Rigde

Aplicación de Regresión Ridge a Selección de variables Según Hoerl y Kennard la regresión ridge puede usarsepara seleccionar variables de la siguiente manera:

Eliminar las variables cuyos coeficientes sean estables perode poco valor. Si se trabaja con variables previamenteestandarizadas, se pueden comparar directamente los

coeficientes.

Eliminar las variables con coeficientes inestables quetienden a cero.

Eliminar las variables con coeficientes inestables.Análisis de Regresión 10

Page 11: Analisis Rigde

11

APLIACION DE LA REGRESIÓN DE RIDGE:Aplicamos a regresión de Ridge mediante el uso del software estadístico SASTenemos la base de datos:

year y x2 x3 x4 x5 x61960 27 397.5 42.2 50.7 78.3 65.81961 29.9 413.3 38.1 52 79.2 66.91962 29.8 439.2 40.3 54 79.2 67.81963 30.8 459.7 35.9 55.3 79.2 69.61964 31.2 492.9 37.3 54.7 77.4 58.71965 33.3 528.6 38.1 63.7 80.2 73.61966 35.6 560.3 39.3 69.8 80.4 76.31967 36.4 624.6 37.8 65.9 83.9 77.21968 36.7 666.4 38.4 64.5 85.5 78.11969 38.4 717.8 40.1 70 93.7 84.71970 40.4 768.2 38.6 73.2 106.1 93.31971 40.3 843.3 39.8 67.8 104.8 89.71972 41.8 911.6 39.7 79.1 114 100.71973 40.4 931.1 52.1 95.4 124.1 113.51974 40.7 1021.5 48.9 94.2 127.6 115.31975 40.1 1165.9 58.3 123.5 142.9 136.71976 42.7 1349.6 57.9 129.9 143.6 139.21977 44.1 1449.4 56.5 117.6 139.2 1321978 66.7 2575.5 63.7 130.9 165.5 132.11979 50.6 1759.1 61.6 129.8 203.3 154.41980 50.1 1994.2 58.9 128 219.6 174.91981 51.7 2258.1 66.4 141 221.6 180.81982 72.9 2478.7 80.4 168.2 232.6 189.4

Page 12: Analisis Rigde

12

Utilizando el editor del SASdata regresion;

input year y x2 x3 x4 x5 x6;cards;

1960.00 27.00 397.50 42.20 50.70 78.30 65.80 1961.00 29.90 413.30 38.10 52.00 79.20 66.90 1962.00 29.80 439.20 40.30 54.00 79.20 67.80 1963.00 30.80 459.70 35.90 55.30 79.20 69.60 1964.00 31.20 492.90 37.30 54.70 77.40 58.70 1965.00 33.30 528.60 38.10 63.70 80.20 73.60 1966.00 35.60 560.30 39.30 69.80 80.40 76.30 1967.00 36.40 624.60 37.80 65.90 83.90 77.20 1968.00 36.70 666.40 38.40 64.50 85.50 78.10 1969.00 38.40 717.80 40.10 70.00 93.70 84.70 1970.00 40.40 768.20 38.60 73.20 106.10 93.30 1971.00 40.30 843.30 39.80 67.80 104.80 89.70 1972.00 41.80 911.60 39.70 79.10 114.00 100.70 1973.00 40.40 931.10 52.10 95.40 124.10 113.50 1974.00 40.70 1021.50 48.90 94.20 127.60 115.30 1975.00 40.10 1165.90 58.30 123.50 142.90 136.70 1976.00 42.70 1349.60 57.90 129.90 143.60 139.20 1977.00 44.10 1449.40 56.50 117.60 139.20 132.00 1978.00 66.70 2575.50 63.70 130.90 165.50 132.10 1979.00 50.60 1759.10 61.60 129.80 203.30 154.40 1980.00 50.10 1994.20 58.90 128.00 219.60 174.90 1981.00 51.70 2258.10 66.40 141.00 221.60 180.80 1982.00 72.90 2478.70 80.40 168.20 232.60 189.40

; proc reg outest=betas ridge=0.00 to 0.2 by 0.01;

model y= x2 x3 x4 x5 x6/noint; plot/ridgeplot;

run;proc print data=betas;

run;quit;

Page 13: Analisis Rigde

13

Page 14: Analisis Rigde

14

Page 15: Analisis Rigde

15

Page 16: Analisis Rigde

16