módulo 1. regresión lineal simple (2)

107
MÉTODOS ESTADÍSTICOS I – ESTADÍSTICA MATEMÁTICA II Módulo 1. Regresión Lineal Simple Diana Marcela Pérez Valencia Departamento de Ingeniería Industrial Facultad de Ingeniería Universidad de Antioquia Marzo de 2015

Upload: alejandro-ortiz-aguirre

Post on 12-Apr-2016

65 views

Category:

Documents


1 download

DESCRIPTION

Regresión Linea

TRANSCRIPT

Page 1: Módulo 1. Regresión Lineal Simple (2)

MÉTODOS ESTADÍSTICOS I – ESTADÍSTICA MATEMÁTICA II Módulo 1. Regresión Lineal Simple

Diana Marcela Pérez Valencia Departamento de Ingeniería Industrial Facultad de Ingeniería Universidad de Antioquia Marzo de 2015

Page 2: Módulo 1. Regresión Lineal Simple (2)

MODELO DE REGRESIÓN LINEAL SIMPLE -------------------------------------------------------------------

2

Page 3: Módulo 1. Regresión Lineal Simple (2)

Modelo de regresión lineal simple

• OBJETIVO: Determinar si existe alguna relación entre dos variables. A partir de esta relación

se desea poder predecir los valores de una variable a partir de los valores de otra variable

• Específicamente el modelo de regresión lineal simple nos permite construir un modelo para

explicar la relación entre dos variables:

— Y : Variable dependiente o de respuesta

— X : Variable independiente o explicativa

3

Page 4: Módulo 1. Regresión Lineal Simple (2)

Modelo de regresión lineal simple

Las relaciones entre dos variables pueden ser de dos tipos:

1. Funcionales o determinísticas. Existe una ecuación matemática que permite calcular los

valores de una de las variables a partir de los valores que toma la otra.

2. Probabilísticas. No existe una expresión matemática que las relacione de forma exacta. La

relación es estadística (implica aleatoriedad) y no funcional.

4

Page 5: Módulo 1. Regresión Lineal Simple (2)

Diagramas de dispersión y curvas de regresión

• Antes de comenzar con cualquier análisis es necesario representar los datos de manera

gráfica.

• Los gráficos nos pueden ayudar a identificar el tipo de modelo que estamos buscando, o

también ayudan a identificar posibles observaciones que puedan estar influenciando los

análisis

5

Page 6: Módulo 1. Regresión Lineal Simple (2)

Diagramas de dispersión y curvas de regresión

1 2 3 4 5

12

34

5

x

y

1 2 3 4 5

-5-4

-3-2

-1

x

y0.5 1.0 1.5 2.0 2.5

6065

7075

80

x

y

-2.5 -2.0 -1.5 -1.0 -0.5

6065

7075

80x

y

0.5 1.0 1.5 2.0 2.5

6065

7075

80

x

y

6

Page 7: Módulo 1. Regresión Lineal Simple (2)

Propósitos del análisis de regresión

• Descripción de los datos

• Estimación de parámetros

• Predicción y estimación

• Control

7

Page 8: Módulo 1. Regresión Lineal Simple (2)

Ejemplo. Se desea estudiar la relación entre las cabezas de cerdos en levante (y) y las cabezas de

lechones en precebo (x).

1. ¿Por qué sería interesante estudiar esta relación?

2. Grafique la relación entre las dos variables. ¿Cómo es su relación? ¿Qué valor esperaría que

tomara la correlación?

3. ¿Qué valor toma la correlación entre estas dos variables?

8

Page 9: Módulo 1. Regresión Lineal Simple (2)

Ejemplo

# Gráfico de x en función de y

plot(L.prece,C.levante,pch=16)

# Correlación entre x y y

cor(L.prece,C.levante)

[1] 0.9120758

9

Page 10: Módulo 1. Regresión Lineal Simple (2)

Modelo de regresión lineal simple

• Recta que mejor se ajusta a la nube de puntos.

• De manera formal el modelo queda representado por

𝑌𝑖 = 𝛽0 + 𝛽1𝑋𝑖 + 𝑒𝑖

Donde,

Yi: Valor de la variable respuesta en el i-ésimo ensayo

β0, β1: Parámetros

Xi: Constante conocida. Valor de la variable predictora en el i-ésimo ensayo

ei: Término del error aleatorio (ei~Normal(0,σ2) iid)

10

Page 11: Módulo 1. Regresión Lineal Simple (2)

Modelo de regresión lineal simple

• Simple. Hay sólo una variable independiente, explicativa o predictora

• Lineal

— Lineal en los parámetros: Ningún parámetro aparece como exponente o está

multiplicado o dividido por otro parámetro

— Lineal en la variable predictora: Aparece sólo en la primera potencia

11

Page 12: Módulo 1. Regresión Lineal Simple (2)

Modelo de regresión lineal simple

Yi es la suma de dos componentes:

1. β0+ β1Xi : término constante

2. ei: Término aleatorio

Así que,

𝐸 𝑌𝑖 = 𝐸 𝛽0 + 𝛽1𝑋𝑖 + 𝑒𝑖 = 𝛽0 + 𝛽1𝑋𝑖 + 𝐸 𝑒𝑖 = 𝛽0 + 𝛽1𝑋𝑖

𝑉𝑎𝑟 𝑌𝑖 = 𝑉𝑎𝑟 𝛽0 + 𝛽1𝑋𝑖 + 𝑒𝑖 = 𝑉𝑎𝑟 𝑒𝑖 = 𝜎2

Entonces Yi~Normal(β0+ β1Xi,σ2)

De esta forma, la recta de regresión estimada sería,

𝑌𝑖 = 𝛽0 + 𝛽1 𝑋𝑖

12

Page 13: Módulo 1. Regresión Lineal Simple (2)

Para cada observación (xi,yi) el error o

residuo de estimación, ei, se define como la

distancia vertical entre el punto (xi,yi) y la

recta, es decir:

iii YYe ˆ

Modelo de regresión lineal simple

13

Page 14: Módulo 1. Regresión Lineal Simple (2)

Significado de los parámetros de la regresión (β0,β1)

1. β1: Es la pendiente e indica el

cambio en la media de Y por

unidad de incremento en X

2. β0: Es el intercepto. Cuando

X=0, β0 representa el valor

promedio de Y. Muchas veces

si X=0, β0 no tiene significado

14

Page 15: Módulo 1. Regresión Lineal Simple (2)

Estimación de los parámetros de la regresión

• Para determinar los parámetros β0 y β1 del modelo de regresión, usaremos el método de los

mínimos cuadrados , el cual consiste en minimizar

• Los estimadores de β0 y β1 , serían , se hallan como

n

iii

n

iii XYYYQ

1

2

10

1

2

ˆˆˆ

10 ˆˆ y

i

n

iii

n

iii

n

iii

n

iii

XXYXY

XYXY

1

10

1

2

10

1

1

10

1

2

10

0

2

2

ˆˆˆˆˆ

ˆˆˆˆˆ

15

Page 16: Módulo 1. Regresión Lineal Simple (2)

Estimación de los parámetros de la regresión

• Igualando a cero obtenemos el “sistema de ecuaciones normales”

• De donde las soluciones vienen dadas por:

0

0

1

10

1

10

i

n

iii

n

iii

XXY

XY

ˆˆ

ˆˆ

Nota. son estimadores

insesgados y de mínima varianza

n

ii

n

iii

XX

YYXX

yXY

1

2

1110 ˆˆˆ 10 ˆ y ˆ

16

Page 17: Módulo 1. Regresión Lineal Simple (2)

Ejemplo. Se desea estudiar la relación entre las cabezas de cerdos en levante (y) y las cabezas

de lechones en precebo (x).

1. Corra un modelo de regresión lineal de “y” en función de “x”. Escriba el modelo e

interprete los parámetros.

2. ¿Este modelo es igual si corre modelo de regresión lineal de “x” en función de “y”?

3. Grafique el ajuste de los dos modelos.

17

Page 18: Módulo 1. Regresión Lineal Simple (2)

Ejemplo

# Modelo de C.levante en función de L.prece

model1 <- lm(C.levante ~ L.prece)

# Para sacar los estimadores del modelo

model1

Call:

lm(formula = C.levante ~ L.prece)

Coefficients:

(Intercept) L.prece

-82.769 2.079

# Modelo de L.prece en función de C.levante

model2 <- lm(L.prece ~ C.levante)

# Para sacar los estimadores del modelo

model2

Call:

lm(formula = L.prece ~ C.levante)

Coefficients:

(Intercept) C.levante

867.3288 0.4001

18

Page 19: Módulo 1. Regresión Lineal Simple (2)

Ejemplo

par(mfrow=c(2,1))

# Gráfico del ajuste del model1

plot(L.prece,C.levante,pch=16)

abline(model1,col=2)

# Gráfico del ajuste del model2

plot(C.levante,L.prece,pch=16)

abline(model2,col=2)

19

Page 20: Módulo 1. Regresión Lineal Simple (2)

Propiedades de la recta de regresión ajustada

1. La suma de residuales es cero,

2. es mínima

3. La suma de los valores observados es igual a la suma de valores ajustados o esperados,

4. La línea de regresión siempre pasa por el punto

n

iie

1

0

n

i

n

iii yy

1 1

ˆ

YX ,

20

Page 21: Módulo 1. Regresión Lineal Simple (2)

Ejemplo. Se desea estudiar la relación entre las cabezas de cerdos en levante (y) y las cabezas

de lechones en precebo (x).

1. Verifique las propiedades de la recta de regresión

21

Page 22: Módulo 1. Regresión Lineal Simple (2)

Ejemplo

# Verificación de las propiedades de la recta de regresión del model1

# 1. suma(e_i)=0

sum(model1$res)

[1] 3.4035e-12

# 2. suma(e_i^2) es mínima.

# Esta propiedad se asume dado el método

# de estimación de parámetros

# 3. suma(y_i)=suma(y_i gorro)

sum(C.levante)

[1] 225157.7

sum(model1$fit)

[1] 225157.7

# 4. la recta pasa por (Xbar,Ybar)

plot(L.prece,C.levante,pch=16)

abline(model1,col=2)

abline(h=mean(C.levante),v=mean(L.prece),lty=2) 22

Page 23: Módulo 1. Regresión Lineal Simple (2)

Estimación de la varianza del término del error (σ2)

• Se necesita estimar la varianza de los términos del error en el modelo de regresión para

obtener un indicador de la variabilidad de Y.

Sea

• Note que la suma de cuadrados de Y es la desviación de una observación Yi de su media .

Al dividir esta cantidad por n-1 se obtiene la varianza muestral de Y

• Donde n-1 son los grados de libertad (sólo se debe estimar un parámetro)

Y las de cuadrados de Suma:1

2

n

ii YY

Y

11

2

2

n

YY

S

n

ii

23

Page 24: Módulo 1. Regresión Lineal Simple (2)

Estimación de la varianza del término del error (σ2)

• En el modelo de regresión lineal simple tenemos que

• Así que denotemos la suma de cuadrados del error SSE como

• La SSE tiene n-2 grados de libertad asociados, pues se deben estimar β0 y β1

• Al dividir la SSE por los grados de libertad, obtenemos los cuadrados medios del error

• De donde MSE es un estimador insesgado de σ2, es decir,

n

ii

n

ii YYeSSE

1

2

1

2 ˆ

2

ˆ

21

2

n

YY

n

SSEMSE

n

ii

iii YYe ˆ

2)( σMSEE 24

Page 25: Módulo 1. Regresión Lineal Simple (2)

Inferencias en el análisis de regresión. Inferencias sobre β1

• Se desea verificar la hipótesis

• Si no se rechaza H0, entonces no hay asociación lineal entre X y Y, más aún, implica que no existe

ningún tipo de asociación entre X y Y.

• Para el modelo de regresión que asume normalidad en los errores,

• Al estandarizar a queda que,

00 110 :.: aHvsH

n

iii XX

MSESNormal

2

2

111

ˆ,~ˆ

12

11

1

nt

St ~

ˆ

25

Page 26: Módulo 1. Regresión Lineal Simple (2)

Inferencias en el análisis de regresión. Inferencia s sobre β1

• De este modo un IC al (1-α)% para β1 es:

• De igual modo se puede construir una prueba de hipótesis para β1 donde el estadístico de

prueba es:

1

1

ˆ

ˆ*

St

12211 ˆ,/

ˆ St n

26

Page 27: Módulo 1. Regresión Lineal Simple (2)

Inferencias en el análisis de regresión. Inferencias sobre β0

En este caso,

Y se procede de la misma forma que con β1

Sin embargo, no tiene mucho sentido hacer inferencias sobre β0 pues en la mayoría de las ocasiones

este parámetro no tiene interpretación

n

iii XX

X

nMSESNormal

2

22

00

1

0 ˆ,~ˆ

27

Page 28: Módulo 1. Regresión Lineal Simple (2)

Ejemplo. Se desea estudiar la relación entre las cabezas de cerdos en levante (y) y las cabezas

de lechones en precebo (x).

1. Escriba el modelo e interprete los parámetros

2. ¿Los parámetros de este modelo son significativos?

3. Calcule IC para β1 e interprételos

28

Page 29: Módulo 1. Regresión Lineal Simple (2)

Ejemplo

# Resumen estadístico del modelo: Estimación de parámetros e inferencias sobre ellos

summary(model1)

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) -82.769 1407.597 -0.059 0.954

L.prece 2.079 0.209 9.948 3.45e-09 ***

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 4464 on 20 degrees of freedom

Multiple R-squared: 0.8319, Adjusted R-squared: 0.8235

F-statistic: 98.96 on 1 and 20 DF, p-value: 3.453e-09

29

Page 30: Módulo 1. Regresión Lineal Simple (2)

Ejemplo

# IC al (1-alpha)% para beta1

n<-length(C.levante) # Tamaño de muestra

alpha<-0.05 # Nivel de significancia

beta1<- summary(model1)$coefficients[2,1]

sd.beta1<- summary(model1)$coefficients[2,2]

# Límite inferior del IC

LI.beta1<-beta1-qt(1-(alpha/2),n-2)*sd.beta1

LI.beta1

[1] 1.643232

# Límite superior del IC

LS.beta1<-beta1+qt(1-(alpha/2),n-2)*sd.beta1

LS.beta1

[1] 2.515191

30

Page 31: Módulo 1. Regresión Lineal Simple (2)

Análisis de varianza (ANOVA)

El análisis de varianza se basa en la partición de la suma de cuadrados y grados de libertad asociados con

la variable respuesta Y

YYi ii YY ˆ YYi ˆ

Variación de las Y sin tener en cuenta

X. Desviación total.

Suma de cuadrados totales

Variación de las Y alrededor de la

línea de regresión.

Suma de cuadrados del error

Variación de las predicciones alrededor de

su valor medio.

Suma de cuadrados de la regresión

n

ii YYSSTO

1

2

n

iii YYSSE

1

n

ii YYSSR

1

31

Page 32: Módulo 1. Regresión Lineal Simple (2)

Análisis de varianza (ANOVA). Sobre los grados de libertad (gl ó df)

• Los grados de libertad son un estimador del número de categorías independientes en una

prueba particular o experimento estadístico.

• Se calculan mediante la fórmula n − r, donde

— n=número de sujetos en la muestra (también pueden ser representados por k − r,

donde k=número de grupos, cuando se realizan operaciones con grupos y no con sujetos

individuales)

— r es el número de sujetos o grupos estadísticamente dependientes

• Los grados de libertad asociados con la SSTO son n-1 (asociados con )

• Los grados de libertad asociados con la SSE son n-2 (asociados con )

• La SSE tiene 1 gl asociado

Y

10 ˆˆ y

32

Page 33: Módulo 1. Regresión Lineal Simple (2)

Análisis de varianza (ANOVA). Cuadrados medios

Se obtienen al dividir por los grados de libertad

Recuerde que los cuadrados medios del error son una estimación de 2 !!

Nota. Las sumas de cuadrados no son aditivas

regresión la de medios Cuadrados : 1

SSRSSR

MSR

error del medios Cuadrados : 2

n

SSEMSE

33

Page 34: Módulo 1. Regresión Lineal Simple (2)

Prueba general del modelo. Prueba de bondad de ajuste

Sean:

• El modelo completo o “Full”

• El modelo reducido

Entonces,

• 00

• 00

Y se desea probar

Es decir, se desea verificar si el modelo es

significativo.

El estadístico de prueba será

Así, si , se rechaza H0

iii eXY 10

ii eY 0

SSEXYSSEn

iiiF

1

2

10 ˆˆ

SSTOYYYSSEn

ii

n

iiR

1

2

1

2

0

00 110 :.: aHvsH

MSE

MSRF *

FFR glglglαFF ;;1*

34

Page 35: Módulo 1. Regresión Lineal Simple (2)

Ejemplo. Se desea estudiar la relación entre las cabezas de cerdos en levante (y) y las cabezas

de lechones en precebo (x).

1. Calcule la tabla ANOVA para este modelo e interprétela

35

Page 36: Módulo 1. Regresión Lineal Simple (2)

Ejemplo

# Para ver el ANOVA del modelo

anova(model1)

Analysis of Variance Table

Response: C.levante

Df Sum Sq Mean Sq F value Pr(>F)

L.prece 1 1971987713 1971987713 98.964 3.453e-09 ***

Residuals 20 398525242 19926262

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

36

Page 37: Módulo 1. Regresión Lineal Simple (2)

Medidas descriptivas de asociación entre X & Y. Coeficiente de determinación R2

El R2 Mide el porcentaje de variación total de Y que está siendo explicada por X

10,

ˆ

2

1

2

1

2

2

RSSTO

SSR

YY

YY

Rn

i

i

n

i

i

37

Page 38: Módulo 1. Regresión Lineal Simple (2)

Medidas descriptivas de asociación entre X & Y. Coeficiente de correlación

Mide el grado de asociación lineal entre X y Y

El signo de R depende de si 1 es positiva o negativa.

Notas.

i. Un R alto indica que la regresión lineal es un buen ajuste

ii. Un coeficiente de correlación cercano a cero indica que X y Y no están relacionadas

iii. R2 y R sólo miden el grado de asociación lineal entre X y Y

11,2 RRR

38

Page 39: Módulo 1. Regresión Lineal Simple (2)

Medidas descriptivas de asociación entre X & Y. Coeficiente de correlación

0 10 20 30 40 50

05

00

10

00

15

00

20

00

25

00

x

y2

R=0.9522097

0 10 20 30 40 50

01

02

03

04

05

0

x

y

R=1

39

Page 40: Módulo 1. Regresión Lineal Simple (2)

Ejemplo. Se desea estudiar la relación entre las cabezas de cerdos en levante (y) y las cabezas

de lechones en precebo (x).

1. Calcule el R2 con base en el summary del modelo.

2. Calcule el R2 con base en el ANOVA del modelo.

3. Interprete el R2

40

Page 41: Módulo 1. Regresión Lineal Simple (2)

Respuesta media e intervalos de confianza para la respuesta media

• La respuesta media cuando X=Xh, se denota por y se calcula de la siguiente forma

• Un IC al 100(1-α)% para es

• Donde

hYnαh stY ˆ2;2/1ˆ

hY

hY

hh XY 10 ˆˆˆ

2

22

)(

)(1ˆ XX

XX

nMSEs

h

h

hY

41

Page 42: Módulo 1. Regresión Lineal Simple (2)

Predicción de una nueva observación e intervalos de predicción

• Se dice que se predice una nueva observación en Y cuando es vista como el resultado de un

nuevo ensayo, independiente de los ensayos en los que se basó el análisis de regresión.

• La predicción de una nueva observación cuando X=Xh, se denota por y se calcula como

• Un Intervalo de Predicción al 100(1-α)% para es

Yαnewh szY 2/1)(

ˆ

)(ˆ

newhY

)(ˆ

newhY

hnewh XY 10 ˆˆˆ)(

42

Page 43: Módulo 1. Regresión Lineal Simple (2)

Diferencia entre la respuesta media y la predicción de una nueva observación

• Para estimamos la media de la distribución de Y.

• Para predecimos un resultado individual tomado de la distribución de Y. )(ˆ

newhY

hY

43

Page 44: Módulo 1. Regresión Lineal Simple (2)

Ejemplo. Se desea estudiar la relación entre las cabezas de cerdos en levante (y) y las cabezas

de lechones en precebo (x).

1. Calcule valores para la respuesta media con sus respectivos IC del 95%, grafíquelos e

interprételos.

2. Haga predicciones de nuevas observaciones y calcule sus respectivos intervalos de

predicción al 95%. Grafique e interprete

3. Qué diferencia hay entre los dos intervalos de los puntos (3) y (4)

44

Page 45: Módulo 1. Regresión Lineal Simple (2)

Ejemplo

plot(L.prece,C.levante,pch=16)

abline(model1,col=2)

# Respuesta media e IC para la respuesta media

int.conf<-predict(model1,interval='confidence')

points(L.prece,int.conf[,2],col=3,pch=16) # IC inferior

points(L.prece,int.conf[,3],col=3,pch=16) # IC superior

# Predicción de observaciones individuales e Intervalos de predicción

int.pred<-predict(model1,interval='prediction')

points(L.prece,int.pred[,2],col=4,pch=16) # IP inferior

points(L.prece,int.pred[,3],col=4,pch=16) # IP superior

legend('topleft',c('Y',expression(hat(Y)),'IC del 95%','IP del

95%'),col=1:4,bty='n',cex=0.8,pch=16)

# Para predecir en puntos específicos donde el modelo no fue evaluado

new <- data.frame(L.prece = c(600,22000))

cbind(new,predict(model1, new, interval='prediction'))

L.prece fit lwr upr

1 600 1164.758 -8544.097 10873.61

2 22000 45659.880 33584.159 57735.60

45

Page 46: Módulo 1. Regresión Lineal Simple (2)

Ejemplo

46

Page 47: Módulo 1. Regresión Lineal Simple (2)

EL MODELO DE REGRESIÓN LINEAL SIMPLE ESTANDARIZADO -------------------------------------------------------------------

47

Page 48: Módulo 1. Regresión Lineal Simple (2)

El modelo de regresión lineal simple estandarizado

• La forma estandarizada se usa para permitir comparaciones de los coeficientes de regresión

estimados en unidades comunes.

• Recordemos que estandarizar una variable, implica centrar y escalar la variable.

• Centrar implica tomar la diferencia entre cada observación y la media de todas las

observaciones para la variable, de tal forma que la media de la nueva variable sea 0.

• Escalar implica expresar las observaciones centradas en unidades de desviaciones estándar de

la variable, de tal forma que la desviación estándar de la nueva variable sea 1.

• Las estandarizaciones usuales de la variable respuesta Y y las variables predictoras X1,…,Xp son

),...,1(';' pk

s

XXX

s

YYY

kX

kik

Y

i

48

Page 49: Módulo 1. Regresión Lineal Simple (2)

El modelo de regresión lineal simple estandarizado

• El modelo de regresión estandarizado queda:

• ¿Por qué cree que este modelo se presenta sin intercepto?

• Finalmente, β’1 medirá el tamaño del impacto o efecto que tiene X1 en Y en unidades de

desviaciones estándar (su utilidad se verá mejor representada en el modelo de regresión lineal

múltiple)

• Ojo!!! La estandarización sólo aplica para variables de tipo cuantitativo

iii eXY '''' 11

49

Page 50: Módulo 1. Regresión Lineal Simple (2)

Ejemplo. Corra los modelos de regresión lineal simple estandarizados de las cabezas de cerdos en

levante (y) y las cabezas de lechones en precebo (x) y viceversa:

1. Verifique que la media y la varianza de las dos variables estandarizadas son 0 y 1,

respectivamente.

2. ¿Será que la correlación entre las variables estandarizadas y sin estandarizar son iguales?

3. Haga un paralelo de los modelos estandarizados y sin estandarizar. Compare también las

correlaciones y los R2 de la regresión

Nota: Para estandarizar una variable en R use la función scale()

50

Page 51: Módulo 1. Regresión Lineal Simple (2)

Ejemplo

# Media y desviación estándar de las variables estandarizadas

C.levante.std<-scale(C.levante)

L.prece.std<-scale(L.prece)

mean(C.levante.std)

[1] 7.445019e-17

mean(L.prece.std)

[1] -1.071882e-17

sd(C.levante.std)

[1] 1

sd(L.prece.std)

[1] 1

# Correlación entre las variables estandarizadas y sin estandarizar

cor(C.levante,L.prece)

[1] 0.9120758

cor(C.levante.std,L.prece.std)

[,1]

[1,] 0.9120758

51

Page 52: Módulo 1. Regresión Lineal Simple (2)

Ejemplo # Modelos C.levante vs L.prece

model1<-lm(C.levante~L.prece)

summary(model1)

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) -82.769 1407.597 -0.059 0.954

L.prece 2.079 0.209 9.948 3.45e-09 ***

---

Residual standard error: 4464 on 20 degrees of freedom

Multiple R-squared: 0.8319, Adjusted R-squared: 0.8235

F-statistic: 98.96 on 1 and 20 DF, p-value: 3.453e-09

model1.1<-lm(C.levante.std~L.prece.std)

summary(model1.1)

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 5.908e-17 8.958e-02 0.000 1

L.prece.std 9.121e-01 9.168e-02 9.948 3.45e-09 ***

---

Residual standard error: 0.4201 on 20 degrees of freedom

Multiple R-squared: 0.8319, Adjusted R-squared: 0.8235

F-statistic: 98.96 on 1 and 20 DF, p-value: 3.453e-09

52

Page 53: Módulo 1. Regresión Lineal Simple (2)

Ejemplo # Modelos L.prece vs C.levante

model2<-lm(L.prece~C.levante)

summary(model1)

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) -82.769 1407.597 -0.059 0.954

L.prece 2.079 0.209 9.948 3.45e-09 ***

---

Residual standard error: 4464 on 20 degrees of freedom

Multiple R-squared: 0.8319, Adjusted R-squared: 0.8235

F-statistic: 98.96 on 1 and 20 DF, p-value: 3.453e-09

model2.1<-lm(L.prece.std~C.levante.std)

summary(model2.1)

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) -5.424e-17 8.958e-02 0.000 1

C.levante.std 9.121e-01 9.168e-02 9.948 3.45e-09 ***

---

Residual standard error: 0.4201 on 20 degrees of freedom

Multiple R-squared: 0.8319, Adjusted R-squared: 0.8235

F-statistic: 98.96 on 1 and 20 DF, p-value: 3.453e-09 53

Page 54: Módulo 1. Regresión Lineal Simple (2)

EL MODELO DE REGRESIÓN LINEAL SIMPLE CON VARIABLE INDEPENDIENTE CUALITATIVA -------------------------------------------------------------------

54

Page 55: Módulo 1. Regresión Lineal Simple (2)

¿Cómo quedaría planteado el modelo si la variable independiente fuera categórica?

• El modelo de regresión lineal múltiple anteriormente expuesto, puede contener también

variables predictoras de tipo cualitativo, como la región a la cual pertenece el departamento, el

IDH, el Tamaño del departamento, entre otras.

• Se usan variables indicadoras (o dummies) que toman el valor de 0 y 1 para identificar las

categorías de la variable cualitativa

55

Page 56: Módulo 1. Regresión Lineal Simple (2)

Modelo de regresión lineal simple. Variable predictora cualitativa con dos categorías

• Considere un análisis de regresión para predecir las cabezas de cerdos en levante (y) en función

del tamaño del departamento – Tamaño.pob (x)

• Definamos X como sigue

𝑋 = 1 𝑠𝑖 𝑇𝑎𝑚𝑎ñ𝑜. 𝑝𝑜𝑏 = 𝑃𝑒𝑞𝑢𝑒ñ𝑜0 𝑠𝑖 𝑇𝑎𝑚𝑎ñ𝑜. 𝑝𝑜𝑏 = 𝐺𝑟𝑎𝑛𝑑𝑒

• El modelo de regresión sería entonces 𝑌𝑖 = 𝛽0 + 𝛽1𝑋𝑖 + 𝑒𝑖

• Para departamentos donde 𝑇𝑎𝑚𝑎ñ𝑜. 𝑝𝑜𝑏 = 𝐺𝑟𝑎𝑛𝑑𝑒, Xi=0, y 𝐸 𝑌𝑖 = 𝑌 𝑖 = 𝛽0 = 𝜇𝐺𝑟𝑎𝑛𝑑𝑒

• Para departamentos donde 𝑇𝑎𝑚𝑎ñ𝑜. 𝑝𝑜𝑏 = 𝑃𝑒𝑞𝑢𝑒ñ𝑜, Xi=1, y 𝐸 𝑌𝑖 = 𝑌 𝑖 = 𝛽0 + 𝛽1 = 𝜇𝑃𝑒𝑞𝑢𝑒ñ𝑜

• Note que estas dos funciones respuesta representan el nivel promedio de la categoría i-ésima de

la variable “Tamaño.pob” y β1 mide el efecto diferencial entre las dos categorías.

56

Page 57: Módulo 1. Regresión Lineal Simple (2)

Ejemplo. Considere un análisis de regresión para predecir las cabezas de cerdos en levante (y) en

función del tamaño del departamento – Tamaño.pob (x) .

i. Grafique la relación cabezas de cerdos en levante vs. tamaño del departamento –

Tamaño.pob. ¿Cuál es el gráfico adecuado en este caso?

ii. Corra el modelo de regresión asociado con estas dos variables. Interprete los coeficientes de

la regresión y evalúe si estos son significativos o no. Plantee hipótesis adecuadas para este

caso

iii. Calcule el número promedio de cabezas de cerdos en levante según el tamaño del

departamento – Tamaño.pob. Encuentre la relación entre las medias y el modelo de

regresión calculado.

iv. Interprete el ANOVA y el R2

v. Haga la validación de este modelo.

57

Page 58: Módulo 1. Regresión Lineal Simple (2)

Ejemplo

# Para hacer un boxplot de y en función de x

boxplot(C.levante~Tamaño.pob,ylab='Cerdos en Levante')

58

Page 59: Módulo 1. Regresión Lineal Simple (2)

Ejemplo

# Modelo de regresión y ANOVA

model2<-lm(C.levante~Tamaño.pob)

summary(model2)

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 9373 2790 3.359 0.00312 **

Tamaño.pobPequeño 2708 4946 0.548 0.59005

---

Residual standard error: 10810 on 20 degrees of freedom

Multiple R-squared: 0.01477, Adjusted R-squared: -0.03449

F-statistic: 0.2998 on 1 and 20 DF, p-value: 0.5901

anova(model2)

Df Sum Sq Mean Sq F value Pr(>F)

Tamaño.pob 1 35011740 35011740 0.2998 0.5901

Residuals 20 2335501215 116775061

# Calculando la media por grupos

by(C.levante,Tamaño.pob,mean)

Tamaño.pob: Grande

[1] 9372.657

-----------------------------------------------------------------------------------------------

Tamaño.pob: Pequeño

[1] 12081.12 59

Page 60: Módulo 1. Regresión Lineal Simple (2)

Modelo de regresión lineal simple. Variable predictora cualitativa con más de dos categorías

En general, representamos una variable cualitativa con c categorías por medio de c-1 variables

indicadoras (o dummies)

60

Page 61: Módulo 1. Regresión Lineal Simple (2)

Modelo de regresión lineal simple. Variable predictora cualitativa con más de dos categorías

Ejemplo. Considere un análisis de regresión para predecir las cabezas de cerdos en levante (y) en función de la

región del departamento (x con tres niveles: Andina, Caribe, Orinoquía)

• Grafique la relación entre estas dos variables. ¿Cuál es el gráfico adecuado en este caso?

• ¿Cuántas variables dummies debería definir? Defínalas

• ¿Cómo quedaría planteado el modelo de regresión?

• ¿Cómo quedaría escrito el modelo para cada una de las regiones?

• Interprete los coeficientes de la regresión y evalúe si estos son significativos o no. Plantee hipótesis

adecuadas para este caso

• Interprete el ANOVA y el R2

• Haga la validación de este modelo

Note que estas funciones respuesta representan el nivel promedio de la categoría i-ésima de la variable región y

β1, β2,… miden los efectos diferenciales entre las categorías de los niveles de región, siempre comparado con la

categoría para la cual X1=X2=…=Xc-1=0 61

Page 62: Módulo 1. Regresión Lineal Simple (2)

Ejemplo

# Para hacer un boxplot de y en función de x

boxplot(C.levante~Región,ylab='Cerdos en levante')

62

Page 63: Módulo 1. Regresión Lineal Simple (2)

Ejemplo

# Calculando la media por grupos

by(C.levante,Región,mean)

Región: Andina

[1] 10015.27

-----------------------------------------------------------------

Región: Caribe

[1] 10756.34

-----------------------------------------------------------------

Región: Orinoquía

[1] 9832.425

63

Page 64: Módulo 1. Regresión Lineal Simple (2)

Ejemplo

# Para correr un modelo de regresión lineal simple

model3<-lm(C.levante~Región)

summary(model3)

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 10015.3 3096.1 3.235 0.00436 **

RegiónCaribe 741.1 5233.3 0.142 0.88888

RegiónOrinoquía -182.8 8478.9 -0.022 0.98302

---

Residual standard error: 11160 on 19 degrees of freedom

Multiple R-squared: 0.001204, Adjusted R-squared: -0.1039

F-statistic: 0.01145 on 2 and 19 DF, p-value: 0.9886

anova(model3)

Df Sum Sq Mean Sq F value Pr(>F)

Región 2 2854355 1427178 0.0115 0.9886

Residuals 19 2367658600 124613611

64

Page 65: Módulo 1. Regresión Lineal Simple (2)

EL MODELO DE REGRESIÓN POLINÓMICO -------------------------------------------------------------------

65

Page 66: Módulo 1. Regresión Lineal Simple (2)

Modelo de regresión polinómico

• El modelo de regresión es un modelo general para ajustar cualquier relación

que es lineal.

• En el caso en el que la anterior afirmación no se cumple (la relación entre X y Y es no lineal), es

necesario considerar un modelo polinomial como el siguiente

• Esta clase de modelos tiene la propiedad de jerarquía. Es decir, deben contener todos los

términos de orden k o inferior.

• Ojo!!!... Este tipo de modelos no se consideran cuando la variable independiente es

cualitativa

ik

k eXXXY ...2

210

ieXY 10

66

Page 67: Módulo 1. Regresión Lineal Simple (2)

Modelo de regresión polinómico

• Específicamente si consideramos el modelo

• Estaremos hablando del modelo de segundo orden o del modelo cuadrático

• Donde

– β1 representa el efecto lineal de X sobre Y

– β2 representa el cuadrático de X sobre Y

ieXXY 2

210

67

Page 68: Módulo 1. Regresión Lineal Simple (2)

Modelo de regresión polinómico

Ejemplo. Considere un análisis de regresión para predecir las cabezas de cerdos en levante (y) en función de las

hembras vacías (x)

• Grafique la relación entre estas dos variables. Verifique si la relación entre las dos variables es lineal

• ¿Qué modelos de regresión plantearía?

• ¿Cómo quedarían escritos estos modelos?

• Evalúe si los coeficientes de los modelos son significativos. Plantee hipótesis adecuadas para este caso

• Interprete el ANOVA y el R2

68

Page 69: Módulo 1. Regresión Lineal Simple (2)

Ejemplo

# Función de regresión no lineal

# Modelo lineal simple

model1<-lm(C.levante~H.vacías)

summary(model1)

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) -1918.3545 2954.4416 -0.649 0.524

H.vacías 4.7361 0.9749 4.858 9.53e-05 ***

---

Residual standard error: 7373 on 20 degrees of freedom

Multiple R-squared: 0.5413, Adjusted R-squared: 0.5184

F-statistic: 23.6 on 1 and 20 DF, p-value: 9.529e-05

69

Page 70: Módulo 1. Regresión Lineal Simple (2)

Ejemplo

# Modelo polinómico de 2do orden (modelo cuadrático)

model2<-lm(C.levante~H.vacías+I(H.vacías^2))

summary(model2)

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 5.324e+03 3.761e+03 1.416 0.1731

H.vacías -2.208e+00 2.752e+00 -0.802 0.4322

I(H.vacías^2) 1.151e-03 4.338e-04 2.654 0.0157 *

---

Residual standard error: 6461 on 19 degrees of freedom

Multiple R-squared: 0.6654, Adjusted R-squared: 0.6302

F-statistic: 18.89 on 2 and 19 DF, p-value: 3.041e-05

70

Page 71: Módulo 1. Regresión Lineal Simple (2)

Ejemplo

# Modelo polinómico de 3er orden (modelo cúbico)

model3<-lm(C.levante~H.vacías+I(H.vacías^2)+I(H.vacías^3))

summary(model3)

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) -8.092e+02 4.202e+03 -0.193 0.8494

H.vacías 9.891e+00 5.561e+00 1.779 0.0922 .

I(H.vacías^2) -3.784e-03 2.072e-03 -1.826 0.0844 .

I(H.vacías^3) 5.203e-07 2.146e-07 2.425 0.0261 *

---

Residual standard error: 5763 on 18 degrees of freedom

Multiple R-squared: 0.7478, Adjusted R-squared: 0.7057

F-statistic: 17.79 on 3 and 18 DF, p-value: 1.279e-05

71

Page 72: Módulo 1. Regresión Lineal Simple (2)

Ejemplo

# Relación no lineal gráficamente

plot(H.vacías,C.levante,pch=16)

points(H.vacías,model1$fit,pch=16,col=2)

points(H.vacías,model2$fit,pch=16,col=3)

points(H.vacías,model3$fit,pch=16,col=4)

legend('topleft',c('Modelo lineal','Modelo cuadrático','Modelo

cúbico'),col=2:4,pch=16,bty='n',cex=0.8)

72

Page 73: Módulo 1. Regresión Lineal Simple (2)

Ejemplo

73

Page 74: Módulo 1. Regresión Lineal Simple (2)

DIAGNÓSTICO Y MEDIDAS REMEDIALES (VALIDACIÓN DEL MODELO) -------------------------------------------------------------------

74

Page 75: Módulo 1. Regresión Lineal Simple (2)

Diagnóstico y medidas remediales

• Objetivo. Probar la validez del modelo en función del cumplimiento de los supuestos

• Supuestos del modelo. Puesto que los valores de las observaciones en la variable respuesta

están en función de la variable predictora, entonces los diagnósticos del modelo se realizan a

través de los residuales, los cuales deben cumplir:

1. Los residuales son estadísticamente independientes

2. ei ~ Normal(0,σ2)

3. σ2 es constante

75

Page 76: Módulo 1. Regresión Lineal Simple (2)

Diagnóstico y medidas remediales

A través del diagnóstico del modelo, también se pueden verificar los siguientes aspectos:

• La función de regresión no es lineal

• Influencia de datos atípicos o outliers en el modelo

76

Page 77: Módulo 1. Regresión Lineal Simple (2)

77

Diagnóstico Hipótesis

H0: Corr(εi, εj )= 0

∀ i≠j

vs.

Ha: Corr(εi , εj ) ≠ 0

para algún i,j con i≠j

Pruebas analíticas

Durbin-Watson

Breusch-Godfrey

Pruebas gráficas

Residuales vs. secuencia

acf / pacf

Medida Remedial

SI

H0 S

E R

EC

HA

ZA

No lo vemos en este curso!!

Modelar la estructura de

correlación de los errores

Diagnóstico y medidas remediales. Independencia de los términos del error

NOTA: Validar este supuesto tiene sentido si los datos presentan alguna secuencia lógica (por lo general temporal)

Page 78: Módulo 1. Regresión Lineal Simple (2)

Ejemplo. Se desea estudiar la relación entre las cabezas de cerdos en levante (y) en función de

los lechones en precebo (x).

1. Verifique el supuesto de independencia de los términos del error

78

Page 79: Módulo 1. Regresión Lineal Simple (2)

Ejemplo

# Para hacer la validación cargue estas librerías

install.packages(c('lmtest','car','nortest','tseries'))

require(lmtest)

require(car)

require(nortest)

require(tseries)

# Independencia de los términos del error

# Pruebas gráficas de independencia

par(mfrow=c(1,3))

plot(model1$res,pch=16,type='o')

abline(h=0,col=2)

acf(model1$res,ylim=c(-1,1))

pacf(model1$res,ylim=c(-1,1))

79

Page 80: Módulo 1. Regresión Lineal Simple (2)

Ejemplo

80

Page 81: Módulo 1. Regresión Lineal Simple (2)

Ejemplo

# Pruebas analíticas de independencia

dwtest(model1,alternative="two.sided")

Durbin-Watson test

data: model1

DW = 2.2464, p-value = 0.61

alternative hypothesis: true autocorrelation is not 0

bgtest(model1)

Breusch-Godfrey test for serial correlation of order up to 1

data: model1

LM test = 0.5445, df = 1, p-value = 0.4606

81

Page 82: Módulo 1. Regresión Lineal Simple (2)

82

Diagnóstico Hipótesis

H0: ei ~ Normal

vs.

Ha: ei ~ f(e)

Pruebas analíticas

Shapiro Wilk

Anderson-Darling

Jarque-Bera

Pruebas gráficas

Histograma de residuales

Boxplot de residuales

QQ-plot de residuales

Medida Remedial

SI

H0 S

E R

EC

HA

ZA

Transformar la variable respuesta Y. Se sugiere verificar este

supuesto desde el comienzo de la

modelación

Diagnóstico y medidas remediales. Normalidad de los términos del error

Sacar puntos influenciales del

modelo

Familia de transformaciones de potencia de Box-Cox

Page 83: Módulo 1. Regresión Lineal Simple (2)

Ejemplo. Se desea estudiar la relación entre las cabezas de cerdos en levante (y) en función de

los lechones en precebo (x).

1. Verifique el supuesto de normalidad de los términos del error

2. ¿Necesita alguna transformación sobre la variable respuesta?

3. Verifique normalidad sobre la variable respuesta transformada. ¿Logró mejorar su

distribución?

83

Page 84: Módulo 1. Regresión Lineal Simple (2)

Ejemplo

# Normalidad de los términos del error

# Pruebas analíticas de normalidad

shapiro.test(model1$res)

Shapiro-Wilk normality test

data: model1$res

W = 0.9678, p-value = 0.6592

jarque.bera.test(model1$res)

Jarque Bera Test

data: model1$res

X-squared = 0.5424, df = 2, p-value = 0.7625

ad.test(model1$res)

Anderson-Darling normality test

data: model1$res

A = 0.2187, p-value = 0.8152

cvm.test(model1$res)

Cramer-von Mises normality test

data: model1$res

W = 0.0298, p-value = 0.8416

84

Page 85: Módulo 1. Regresión Lineal Simple (2)

Ejemplo

# Pruebas gráficas de normalidad

par(mfrow=c(1,3))

hist(model1$res)

boxplot(model1$res)

qqPlot(model1$res,pch=16)

85

Page 86: Módulo 1. Regresión Lineal Simple (2)

Transformaciones de Potencia

• Si no se cumple el supuesto de normalidad o de homogeneidad de varianza, una alternativa

es considerar transformaciones de los datos.

• Las transformaciones no son más que una reexpresión de los datos en unidades diferentes.

• No es fácil la selección de una transformación adecuada. Una familia útil de

transformaciones es la familia de transformaciones de potencia, definida sólo para variables

positivas.

86

Page 87: Módulo 1. Regresión Lineal Simple (2)

Transformaciones de Potencia

• La familia de transformaciones de potencia es indexada con el parámetro λ.

• Un valor dado de λ implica una transformación particular.

• Los valores de λ más usados son:

2

2

2

1

50

0

150

11

12

X

X

X

XLn

X

X

X

.

)(

.

87

Page 88: Módulo 1. Regresión Lineal Simple (2)

Transformaciones de Potencia

• El método analítico de Box-Cox está disponible para elegir una adecuada transformación de

potencia

• Ellos consideran una ligera familia modificada de transformaciones de potencia

• λ se obtiene como el valor de λ que minimiza la suma de cuadrados

• donde es la media de la serie transformada usando λ

0

01

siXLn

siX

X

)(

)(

n

iiXS

1

2

ˆ)(

88

Page 89: Módulo 1. Regresión Lineal Simple (2)

Ejemplo

# Transformaciones de potencia

summary(powerTransform(C.levante,family='yjPower'))

yjPower Transformation to Normality

Est.Power Std.Err. Wald Lower Bound Wald Upper Bound

C.levante 0.3458 0.1014 0.1471 0.5445

Likelihood ratio tests about transformation parameters

LRT df pval

LR test, lambda = (0) 19.10066 1 1.240018e-05

LR test, lambda = (1) 22.71072 1 1.883141e-06

# Guardando la variable transformada

C.levante.t<-C.levante^(0.5)

89

Page 90: Módulo 1. Regresión Lineal Simple (2)

Ejemplo

# Verificando normalidad gráficamente sobre Y

par(mfrow=c(2,3))

with(trip,hist(CloudCover))

with(trip,boxplot(CloudCover))

with(trip,qqPlot(CloudCover))

# Verificando normalidad gráficamente sobre Y transformada

with(trip,hist(CloudCover.t))

with(trip,boxplot(CloudCover.t))

with(trip,qqPlot(CloudCover.t))

90

Page 91: Módulo 1. Regresión Lineal Simple (2)

Ejemplo

91

Page 92: Módulo 1. Regresión Lineal Simple (2)

92

Diagnóstico Hipótesis

H0: σ2 es constante (Homocedasticidad)

vs.

Ha: σ2 no es constante (Heterocedasticidad)

Pruebas analíticas

Breusch-Pagan

Score Test for Non-Constant Error

Variance

Pruebas gráficas Residuales vs. valores

ajustados

Medida Remedial

SI

H0 S

E R

EC

HA

ZA

Transformar la variable respuesta Y

Diagnóstico y medidas remediales. Varianza constante de los términos del error

Sacar puntos influenciales del

modelo

Familia de transformaciones de potencia de Box-Cox

Page 93: Módulo 1. Regresión Lineal Simple (2)

Ejemplo. Se desea estudiar la relación entre las cabezas de cerdos en levante (y) en función de

los lechones en precebo (x).

1. Verifique el supuesto de varianza constante de los términos del error

93

Page 94: Módulo 1. Regresión Lineal Simple (2)

Ejemplo

# Varianza constante de los términos del error

# Pruebas analíticas de varianza constante

bptest(model1)

studentized Breusch-Pagan test

data: model1

BP = 0.1894, df = 1, p-value = 0.6634

ncvTest(model1)

Non-constant Variance Score Test

Variance formula: ~ fitted.values

Chisquare = 0.1336793 Df = 1 p = 0.7146473

# Pruebas gráficas de varianza constante

plot(model1$fit,model1$res,pch=16)

abline(h=0,col=2)

94

Page 95: Módulo 1. Regresión Lineal Simple (2)

Ejemplo

95

Page 96: Módulo 1. Regresión Lineal Simple (2)

96

Diagnóstico Hipótesis

H0: Hay presencia de observaciones influenciales

vs.

Ha: No hay presencia de observaciones

influenciales

Pruebas analíticas

Influencia en un valor ajustado particular -

DFFITS

Influencia en los coeficientes de

regresión - DFBETAS

Pruebas gráficas Boxplot de residuales

estandarizados

Medida Remedial

SI

H0 N

O S

E R

EC

HA

ZA

Diagnóstico y medidas remediales. Observaciones influenciales

Sacar puntos influenciales del

modelo Se sugiere verificar

este supuesto desde el comienzo de la

modelación

Page 97: Módulo 1. Regresión Lineal Simple (2)

Ejemplo. Se desea estudiar la relación entre las cabezas de cerdos en levante (y) en función de

los lechones en precebo (x).

1. Verifique si hay puntos influenciales en el modelo

2. Verifique gráficamente si hay puntos influenciales sobre la variable respuesta

transformada

3. ¿Cree que es necesario sacar algún punto de los datos y volver a modelar?

97

Page 98: Módulo 1. Regresión Lineal Simple (2)

Ejemplo

# Presencia de observaciones influenciales

# Pruebas analíticas de datos influenciales

inflm.SR <- influence.measures(model1)

summary(inflm.SR)

Potentially influential observations of

lm(formula = C.levante ~ L.prece) :

dfb.1_ dfb.L.pr dffit cov.r cook.d hat

1 -1.07_* 1.95_* 2.03_* 2.48_* 1.93_* 0.64_*

98

Page 99: Módulo 1. Regresión Lineal Simple (2)

Ejemplo

# Pruebas gráficas de datos influenciales

Boxplot(scale(model1$res))

abline(h=c(0,-3,3),col=2,lty=2)

99

Page 100: Módulo 1. Regresión Lineal Simple (2)

Ejemplo

# Pruebas gráficas de datos influenciales sobre la variable respuesta transformada

Boxplot(scale(costo.exp.t))

abline(h=c(0,-3,3),col=2,lty=2)

100

Page 101: Módulo 1. Regresión Lineal Simple (2)

101

Diagnóstico Hipótesis

H0: βi=0 ∀ i≠1 (Relación lineal)

vs.

Ha: βi≠0 para algún i≠1 (Relación no lineal)

Pruebas analíticas

Prueba t asociado con el coeficiente de

regresión

Prueba F del ANOVA

Pruebas gráficas Residuales vs. variable

predictora

Medida Remedial

SI

H0 S

E R

EC

HA

ZA

Diagnóstico y medidas remediales. Función de regresión no lineal

Trabajar con un modelo polinómico

Page 102: Módulo 1. Regresión Lineal Simple (2)

Ejemplo. Se desea estudiar la relación entre las cabezas de cerdos en levante (y) en función de

los lechones en precebo (x).

1. Verifique si la relación entre las dos variables es lineal

2. ¿Con cuál de los modelos se quedaría?

102

Page 103: Módulo 1. Regresión Lineal Simple (2)

Ejemplo

# Función de regresión no lineal

# Modelo lineal simple

model1<-lm(costo.exp~time.exp)

summary(model1)

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) -82.769 1407.597 -0.059 0.954

L.prece 2.079 0.209 9.948 3.45e-09 ***

---

Residual standard error: 4464 on 20 degrees of freedom

Multiple R-squared: 0.8319, Adjusted R-squared: 0.8235

F-statistic: 98.96 on 1 and 20 DF, p-value: 3.453e-09

103

Page 104: Módulo 1. Regresión Lineal Simple (2)

Ejemplo

# Modelo polinómico de 2do orden (modelo cuadrático)

model2<-lm(costo.exp~time.exp+I(time.exp^2))

summary(model2)

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 1.829e+03 1.905e+03 0.960 0.3492

L.prece 1.348e+00 5.459e-01 2.469 0.0232 *

I(L.prece^2) 3.791e-05 2.624e-05 1.445 0.1649

---

Residual standard error: 4347 on 19 degrees of freedom

Multiple R-squared: 0.8485, Adjusted R-squared: 0.8326

F-statistic: 53.21 on 2 and 19 DF, p-value: 1.635e-08

104

Page 105: Módulo 1. Regresión Lineal Simple (2)

Ejemplo

# Relación no lineal gráficamente

plot(L.prece,C.levante,pch=16)

points(L.prece,model1$fit,pch=16,col=2)

points(L.prece,model2$fit,pch=16,col=3)

legend('topleft',c('Modelo lineal',

'Modelo cuadrático'),col=2:3,

pch=16,bty='n',cex=0.8)

105

Page 106: Módulo 1. Regresión Lineal Simple (2)

EL MODELO DE REGRESIÓN LINEAL SIMPLE PASO A PASO -------------------------------------------------------------------

106

Page 107: Módulo 1. Regresión Lineal Simple (2)

1. VERIFIQUE NORMALIDAD SOBRE Y TRANSFORMACIÓN DE POTENCIA SOBRE Y

2. GRAFIQUE LA RELACIÓN ENTRE X & Y

3. CONSTRUYA SU MODELO DE REGRESIÓN LINEAL SIMPLE

4. VALIDE EL MODELO

4.1 INDEPENDENCIA

4.3 NORMALIDAD

4.2 VARIANZA CONSTANTE

4.4 DATOS INFLUENCIALES

SI

NO

SI

SI

SI

SI

SI

SI SI

NO

NO

NO

NO

FIN

ELIMINE OBSERVACIONES

NO

TA

. La v

aria

ble

Y s

ólo

se tra

nsfo

rma u

na v

ez

NOTA

• Si la variable independiente es cualitativa,

considere el modelo con variable dummie

• Si la relación es no- lineal, considere un

modelo polinomial

NOTA

• Su modelo es válido si se cumplen todos

los supuestos

• Su modelo no es válido si no se cumple al

menos uno de los supuestos incluso después

de haber aplicado una medida remedial

107

IDENTIFIQUE OBSERVACIONES QUE PUEDAN ESTAR AFECTANDO LA DISTRIBUCIÓN DE Y

SI