3. regresión lineal - etsii.upm.es · 3. regresión lineal curso 2011-2012 estadística regresión...
TRANSCRIPT
3. Regresión lineal
Curso 2011-2012
Estadística
2 Regresión Lineal
Regresión simple consumo y peso de automóviles
Núm. Obs. Peso Consumo(i) kg litros/100 km
1 981 11
2 878 12
3 708 8
4 1138 11
5 1064 13
6 655 6
7 1273 14
8 1485 17
9 1366 18
10 1351 18
11 1635 20
12 900 10
13 888 7
14 766 9
15 981 13
16 729 7
17 1034 12
18 1384 17
19 776 12
20 835 10
21 650 9
22 956 12
23 688 8
24 716 7
25 608 7
26 802 11
27 1578 18
28 688 7
29 1461 17
30 1556 15
0
5
10
15
20
25
500 700 900 1100 1300 1500 1700
Peso (Kg)
Consu
mo (litros/100 Km)
3 Regresión Lineal
ix
iy
x10
Modelo
osdesconocid parámetros:,, 2
10
),0(, 210 Nuuxy iiii
4 Regresión Lineal
Hipótesis del modelo
Linealidad yi = 0+ 1xi + ui
Normalidad yi|xi N ( 0+ 1xi,
2)
Homocedasticidad Var [yi|xi] =
2
Independencia Cov [yi, yk] = 0
2
1
0
Parámetros
5 Regresión Lineal
Modelo
),0(, 210 Nuuxy iiii
yi : Variable dependiente
xi : Variable independiente
ui : Parte aleatoria
0
6 Regresión Lineal
Estimación
xyx
yx
n
xx
n
xxyy
nxxnyx
xy
xxyxxxyd
dM
xnyxyd
dM
xyM
i
ii
n
i
i
n
i
ii
i
n
i
ii
iiii
n
i
iii
ii
n
i
ii
n
i
ii
101
1
2
11
2
10
1
10
2
10
1
10
0
10
1
10
0
1
2
1010
;)var(
),cov(
)())((
0)(
0)(
)(),(
7 Regresión Lineal
Estimación: máxima verosimilitud
xyx
yx
n
xx
n
xxyy
nxxnyx
xy
xxyxxxyd
dL
xnyxyd
dL
xynn
lL
xyl
i
ii
n
ii
n
iii
i
n
iii
iiii
n
iiii
ii
n
iii
n
iii
n
iiinn
101
1
2
11
210
1
10
210
1102
0
101
1020
1
2102
2
210
210
1
21022/
210
;)var(
),cov(
)())((
0)(1
0)(1
)(2
1log
2)2log(
2
),,(log),,(
)(2
1
2
1),,( exp
8 Regresión Lineal
Estimación 2 : máxima verosimilitud
n
xy
xyn
d
dL
xynn
L
n
iii
n
iii
n
iii
1
210
2
1
210422
1
2102
2210
)(
0)(2
11
2
)(2
1log
2)2log(
2),,(
20
01
2
2
1
1
10
n
e
s
xe
e
xye
n
i
i
Rn
i
ii
n
i
i
iii
9 Regresión Lineal
Estimación
n
i i
n
i ii
i
ii
xx
yyxx
x
yx
xy
1
2
11
10
)(
))((
)var(
),cov(
n
iii xy
1
2
10 )(Mín
Mínimos cuadrados
n
iiinnxyMax
1
2
1022/)(
2
1
2
1exp
Máxima verosimilitud
10 Regresión Lineal
xy 10
Recta de regresión
x
y
xy 10
Pendiente
1
11 Regresión Lineal
ResiduoPrevistoValor observadoValor
10 iii exy
ix
iy
ii xy 10
ie
Residuos
12 Regresión Lineal
Ejemplo: estimación Núm. Obs. Peso Consumo Predicción Residuos
(i) kg litros/100 km
1 981 11 11,44 -0,44
2 878 12 10,23 1,77
3 708 8 8,23 -0,23
4 1138 11 13,28 -2,28
5 1064 13 12,41 0,59
6 655 6 7,61 -1,61
7 1273 14 14,86 -0,86
8 1485 17 17,35 -0,35
9 1366 18 15,95 2,05
10 1351 18 15,78 2,22
11 1635 20 19,11 0,89
12 900 10 10,49 -0,49
13 888 7 10,35 -3,35
14 766 9 8,91 0,09
15 981 13 11,44 1,56
16 729 7 8,48 -1,48
17 1034 12 12,06 -0,06
18 1384 17 16,16 0,84
19 776 12 9,03 2,97
20 835 10 9,72 0,28
21 650 9 7,55 1,45
22 956 12 11,14 0,86
23 688 8 8,00 0,00
24 716 7 8,33 -1,33
25 608 7 7,06 -0,06
26 802 11 9,34 1,66
27 1578 18 18,44 -0,44
28 688 7 8,00 -1,00
29 1461 17 17,07 -0,07
30 1556 15 18,18 -3,18
0
5
10
15
20
25
500 700 900 1100 1300 1500 1700
Peso (Kg)
Consu
mo (litros/100 Km)
;0117.0071.0 ii xy 38.22Rs
13 Regresión Lineal
Propiedades de 1
nn
n
ii
x
i
n
ii
x
n
iii
x
n
iii
xx
ii
ywywywyns
xx
yxxns
yxxns
yyxxnss
yx
22111
2
12
12
1221
11
1),cov(
0
21
2
2
21
2
1
2
21212121
121
11
11111
01
x
n
i i
x
n
i i
n
i i
x
n
i i
x
n
i ii
x
n
i ii
x
i
n
i i
n
i i
x
n
i i
nsxx
nsw
xxns
xxxns
xxxns
xxxns
xw
xxns
w
2
x
ii
ns
xxw
14 Regresión Lineal
son v.a. independientes 1,y
0)var(),cov(
111111
1
2
1
2
1
2122111
2
1
21
n
i
i
T
T
n
nnn
T
n
n
wn
y
y
y
y
wwwywywyw
y
y
y
nnny
ny
ny
ny
wYa
Yw
Ya
15 Regresión Lineal
Distribución de 1
2
22
1
2
22
2
2
21
2
1
22111
110
102211
22111
22111
2
10
)(
)][(][][][
][][
)()(
)][(][][][
][][
normales de lineal Comb.
),(
x
n
ii
inn
nn
iii
iinn
nn
nn
ii
nsw
yVarywyVarwyVarw
ywywywVarVar
xww
xyEyEwyEwyEw
ywywywEE
ywywyw
xNy
2
2
11 ,xns
N
16 Regresión Lineal
Modelo en diferencias a la
media
)(
)(
)(
1
1
1
10
10
xxyy
exxyy
exxyyxy
exy
ii
iii
iiiiii
17 Regresión Lineal
Distribución de 0
2
22
00
2
22
0
010
10
1
2
2
11
2
10
1,
1]var[
][][][
ntesindependieson ,
),(
),(
x
x
x
s
x
n
s
x
n
ExyEE
Normalxy
y
nsN
nxNy
N
18 Regresión Lineal
R 2
222
2
21
2
)2(
nR
n
ii
sne
0
0
),0(
222
12
2
21
2
21010
ii
in
ni i
n
ni i
i
iiiiii
xe
eeu
Nu
exyuxy
19 Regresión Lineal
Contraste principal de regresión:
¿depende y de x?
0:
0:
11
10
H
H
ix
iy
ix
iy
iii uxy 10 ii uy 0
H0 es falso
x e y están relacionados
H0 es cierto
x e y no están relacionados
20 Regresión Lineal
ii xy 100:
0:
11
10
H
H
Ho rechaza Se;
)1,0(
),(
2/;211
1
21111
2
2
11
n
x
R
n
x
R
x
x
tt
sn
st
t
sn
sN
sn
nsN
Contraste sobre la pendiente
1
21 Regresión Lineal
ii xy 100:
0:
01
00
H
H
Ho rechaza Se
;
1
))1(,(
2/;20
2
2
00
2
22
00
n
x
R
x
tt
s
x
n
st
s
x
nN
Contraste: ordenada en el origen
22 Regresión Lineal
Descomposición de la
variabilidad en regresión
VNEVEVT
iy
iyy
iyyy
iy
iyy
iyyy
yiy
iy
iyy
iy
iy
e
iy
xy
uxy
n
i
n
i
n
ii
i
i
iii
iii
1
2
1
2
1
2
10
10
)()()(
sumando)y cuadrado al elevando()()()(
) restando()(
23 Regresión Lineal
Coeficiente de determinación R2
221
1
2211 )(:)( x
n
i
iii nsxxVExxyy
VNEVEVT
VT
VER2
regresor elpor explicado está
que VT de porcentaje el Mide
10 2Rn
i
i
n
i
ii
n
i
i
yyVT
yyVNE
yyVE
1
2
1
2
1
2
)(
)(
)(
24 Regresión Lineal
Coef. determinación
12R 80.02R
50.02R 02R
25 Regresión Lineal
ii xy 100:
0:
11
10
H
H
Contraste F
1
ntesindependieson ,
)2(
cierto) es H (Si
22
222
2
21
2
2
o212
VNEVE
sneVNE
VE
nR
ni i
2122n,
R
Fs
VE
)VNE/(n-
VEF
0H rechaza Se FF
Regresión con R
26 Regresión Lineal
ARCHIVO TEXTO: coches.txt
29 Regresión Lineal
Ejemplo regresión múltiple
Consumo = 0 + 1 CC + 2 Pot + 3 Peso + 4 Acel + Error
Y X1 X2 X3 X4
Consumo Cilindrada Potencia Peso Aceleraciónl/100Km cc CV kg segundos
15 4982 150 1144 12
16 6391 190 1283 9
24 5031 200 1458 15
9 1491 70 651 21
11 2294 72 802 19
17 5752 153 1384 14
... ... ... ... ...
Var. Independientes
o regresores
Var. dependientes
o respuesta
30 Regresión Lineal
Modelo regresión múltiple
osdesconocid parámetros:,,,,, 2210 k
),0(
,
2
22110
Nu
uxxxy
i
ikikiii
Linealidad E[yi] = 0+ 1x1i+ + kxki
Normalidad yi| x1 ,...,xk Normal
Homocedasticidad Var [yi|x1 ,...,xk] =
2
Independencia Cov [yi, yk] = 0
31 Regresión Lineal
Notación matricial
nkknnn
k
k
n u
u
u
xxx
xxx
xxx
y
y
y
2
1
1
0
21
22212
12111
2
1
1
1
1
),( 2I0U
UXY
N
32 Regresión Lineal
Estimación mínimo-cuadrática
eXY
donde el vector e cumple
mínimo esn
i
ie1
22e
nkknnn
k
k
n e
e
e
xxx
xxx
xxx
y
y
y
2
1
1
0
21
22212
12111
2
1
1
1
1
33 Regresión Lineal
Para que ||e||2 sea mínimo, e tiene que ser
perpendicular al espacio vectorial generado las
columnas de X
nkii
nii
ni
nknnn
k
k
xe
xe
e
e
ee
xxx
xxxxxx
1
1 1
1
2
1
21
22212
12111
0
0
0
,
1
11
0eX
eX
T
34 Regresión Lineal
Mínimos cuadrados
YXXXXXYX
eXXXYX
0eX
TTTT
TTT
T
1)(
x1
Y
XY
YYe
x2
x2
x1
Y Solución MC
35 Regresión Lineal
Matriz de proyección V
1
x1
VYY
V)Y(IeY
VYY
YXX)X(XY
XYT1T
Prev istos Val.
V)Y(IVYYXYe
ResiduosTTXXX(XV
1)
Simétrica V=VT
Idempotente VV=V
36 Regresión Lineal
Distribución de probabilidad
de
1T
1TT1T
T1TT1T
T
T1T
T1TT1T
X)(X
X)X(XXX)(X
XX)(XIXX)(X
CYCCY
XXX)(XCXYC
XX)(XCCYYXX)(X
IXY
2
2
2
2
))()((
][][][
][][
) siendo(
),(
T
VarVarVar
EE
Normal
N
37 Regresión Lineal
Distribución de probabilidad
de
kkkk
k
k
T
kk
qqq
qqq
qqq
10
11110
00100
11
0
1
0
)( XXQ
),(
),(
2
2
iiii qN
N 1TX)(X
)1()1()dim( kkQ
38 Regresión Lineal
Residuos
)( 110 kikiii xxye
nkknnn
k
k
n e
e
e
xxx
xxx
xxx
y
y
y
2
1
1
0
21
22212
12111
2
1
1
1
1
ResiduosPrevistosObservados
eXY
39 Regresión Lineal
Varianza Residual
212
21
2
212
12
2
]1
[
1][
kn
eE
kne
E
e
ni i
ni i
kn
ni iee
T
212
2
12
2
)1(
1
knR
ni i
R
skn
kn
es
40 Regresión Lineal
0:
0:
1
0
i
i
H
H
Ho rechaza Se2/;1
111
2
;
)1,0(
),(
kniiiR
ii
kniiRii
ii
iiii
ttqs
t
tqs
Nq
qN
Contraste individual i
ikikii uxxy 110
41 Regresión Lineal
Descomposición de la
variabilidad en regresión
VNEVEVT
eyyyy
eyyyy
yeyy
exxy
ni i
ni i
ni i
iii
iii
ikikii
12
12
12
110
)()(
)()(
)( Restando
42 Regresión Lineal
Modelo en diferencias a la
media
kkknnn
kk
kk
n
kkikii
kikii
kk
ikikii
xxxxxx
xxxxxx
xxxxxx
yy
yy
yy
xxxxyy
xxy
xxy
exxy
)()(
2
1
2211
2222112
1221111
2
1
111
110
110
110
0
111110
1
n
ii
n
ikik
n
ii
n
ii exxny
bXYY~
ebXYY~
43 Regresión Lineal
Modelo en diferencias a la
media
UbXY~~
))~~
(,( 12XXbb
TN
kknnn
kk
kk
kkn
xxxxxx
xxxxxx
xxxxxx
y
y
y
yy
yy
yy
2211
2222112
1221111
2
1
2
1
2
1
~
,,,~
X
bbYY
YX)XX(b~~~~ 1 TT
44 Regresión Lineal
0:0:
1210
de distinto es algunoHH k
Contraste general de regresión.
ntesindependie son
cierto) es H (Si o
22
212
2
2
2
2
,
)1(
VNEVE
sknVNE
VE
knR
k
11
/kn,kF
)VNE/(n-k
kVEF
0H rechaza Se FF
ikikii uxxy 110
45 Regresión Lineal
Coeficiente de determinación R2
VNEVEVT
VT
VER2
regresores los por explicado está
que VTde porcentaje el Mide
10 2Rn
i
i
n
i
ii
n
i
i
yyVT
yyVNE
yyVE
1
2
1
2
1
2
)(
)(
)(
)~~
()~~
()(
1
2YXbbXXb)YY()YY(
TTTTTn
ii yyVE
46 Regresión Lineal
Coef. determinación corregido
2
2
2
)1(
)1(11
y
R
sn
skn
VT
VNE
VT
VNEVT
VT
VER
1
)(
1
2
2
n
yy
s
n
ii
y
)1/(
)1/(11
2
22
nVT
knVNE
s
sR
y
R
2R
Regresión con R
48 Regresión Lineal
Interpretación (inicial)
Contraste F=438 (p-valor=0.0000) Alguno de los regresores influye significativamente en el consumo.
Contrastes individuales: La potencia y el peso influyen significativamente (p-valor=0.0000)
Para =0.05, la cilindrada y la aceleración también tienen efecto significativo (p-valor < 0.05)
El efecto de cualquier regresor aumentar cualquiera de ellos aumenta la variable respuesta: consumo.
Los regresores explican el 82 % de la variabilidad del consumo (R2 = 0.8197)
49 Regresión Lineal
Multicolinealidad
Cuando la correlación entre los
regresores es alta.
Presenta graves inconvenientes: Empeora las estimaciones de los efectos de
cada variable i: aumenta la varianza de las
estimaciones y la dependencia de los
estimadores)
Dificulta la interpretación de los parámetros
del modelo estimado (ver el caso de la
aceleración en el ejemplo).
50 Regresión Lineal
Identificación de la multicolinealidad: Matriz de correlación de los regresores.
51 Regresión Lineal
Gráficos consumo - xi
peso
cons
umo
500 1000 1500 2000
0
4
8
12
16
20
24
potencia
cons
umo
0 40 80 120 160 200 240
0
4
8
12
16
20
24
cilindrada
cons
umo
0 2 4 6 8(X 1000)
0
4
8
12
16
20
24
aceleracion
cons
umo
8 11 14 17 20 23 26
0
4
8
12
16
20
24
52 Regresión Lineal
Consumo y aceleración
53 Regresión Lineal
Multicolinealidad: efecto en la
varianza de los estimadores
)1(
1
)1(
)1()1(
1
)1(||
~~~~var
22110
212
22
21221
12
21221
122
122112
1222
21
222112
211221
2212
122121
2
1
rsrss
r
rss
r
rsrss
sssr
ssrs
ss
ssn
iuixixy
XXXX
XXXXTT
i
SS
SSXXXX
)1()1(
)1()1(var
212
22
2
21221
212
21221
212
212
21
2
2
1
rnsrsns
r
rsns
r
rns
54 Regresión Lineal
Consecuencias de la
multicolinealidad
Gran varianza de los estimadores
Cambio importante en las
estimaciones al eliminar o incluir
regresores en el modelo
Cambio de los contrastes al eliminar
o incluir regresores en el modelo.
Contradicciones entre el contraste F
y los contrastes individuales.
55 Regresión Lineal
Consumo Cilindrada Potencia Peso Aceleración Origenl/100Km cc CV kg segundos
15 4982 150 1144 12 Europa
16 6391 190 1283 9 Japón
24 5031 200 1458 15 USA
9 1491 70 651 21 Europa
11 2294 72 802 19 Japón
17 5752 153 1384 14 USA
12 2294 90 802 20 Europa
17 6555 175 1461 12 USA
18 6555 190 1474 13 USA
12 1147 97 776 14 Japón
16 5735 145 1360 13 USA
12 1868 91 860 14 Europa
9 2294 75 847 17 USA
... ... ... ... ... ...
Variables cualitativas como
regresores
Consumo = 0 + 1 CC + 2 Pot + 3 Peso +
+ 4 Acel + JAP ZJAP + USA ZUSA + Error
USAJapónEuropa
Origen
EUROPA siEUROPA si
USA siUSA si
JAPON siJAPON si
i
iiZ
i
iiZ
i
iiZ
EUR
USA
JAP
1
0
1
0
1
0
56 Regresión Lineal
Consumo Cilindrada Potencia Peso Aceleración ZJAP ZUSA ZEURl/100Km cc CV kg segundos
15 4982 150 1144 12 0 0 116 6391 190 1283 9 1 0 0
24 5031 200 1458 15 0 1 0
9 1491 70 651 21 0 0 111 2294 72 802 19 1 0 0
17 5752 153 1384 14 0 1 0
12 2294 90 802 20 0 0 117 6555 175 1461 12 0 1 0
18 6555 190 1474 13 0 1 0
12 1147 97 776 14 1 0 0
16 5735 145 1360 13 0 1 0
12 1868 91 860 14 0 0 19 2294 75 847 17 0 1 0
... ... ... ... ... ... ... ...
Variables cualitativas
Consumo = 0 + 1 CC + 2 Pot + 3 Peso +
+ 4 Acel + JAP ZJAP + USA ZUSA + Error
57 Regresión Lineal
Interpretación var. cualitativa
Consumo = 0 + 1 CC + 2 Pot + 3 Peso +
+ 4 Acel + JAP ZJAP + USA ZUSA + Error
Coches europeos: ZJAP = 0 y ZUSA = 0 REFERENCIA
Consumo = 0 + 1 CC + 2 Pot + 3 Peso + 4 Acel + Error
Coches japoneses: ZJAP =1 y ZUSA = 0
Coches americanos: ZJAP =0 y ZUSA = 1
Consumo = 0 + JAP + 1 CC + 2 Pot + 3 Peso + 4 Acel + Error
Consumo = 0 + USA + 1 CC + 2 Pot + 3 Peso + 4 Acel + Error
58 Regresión Lineal
Interpretación del modelo
0 + JAP
0
0 +
USA
Europeos
Japoneses
Americanos
xi
y
Ref.
59 Regresión Lineal
60 Regresión Lineal
Interpretación
El p-valor del coeficiente asociado a ZJAP es 0.1956>.05, se concluye que no existe diferencia significativa entre el consumo de los coches Japoneses y Europeos (manteniendo constante el peso, cc, pot y acel.)
La misma interpretación para ZUSA. Comparando R2 =0.821 de este modelo con el anterior R2=0.8197, se confirma que el modelo con las variables de Origen no suponen una mejora sensible.
61 Regresión Lineal
Modelo de regresión con
variables cualitativas
En general, para considerar una variable
cualitativa con r niveles, se introducen en
la ecuación r-1 variables ficticias
Y el nivel r no utilizado es el que actúa de
referencia
11
10,,
21
20,
11
10121 ri
riz
i
iz
i
iz irii nivel
nivelnivelnivel
nivelnivel
iirrii
kikii
uzzzxxy
acualitativ variable
,112211
110
62 Regresión Lineal
Predicción
hx
hy
Media mh|xh Nueva Observ. yh|xh
hx
hm
hm
hy
hx
63 Regresión Lineal
Predicción de la media mh (Regresión simple)
hh
hh
xm
xNy
10
210 ),(
hx
hm
hx
hy
2
22
2
12
1
1010
110
)
]var[)]
)]
[
)
(
(var[
(var[]var[
][]
(
x
h
h
hh
hhhh
hhh
nsxx
n
xxy
xxyy
xxyE
xxyxy
mE
2
2)(1
2,
xs
xhx
nhmNyh
64 Regresión Lineal
Predicción de la media mh (Regresión múltiple)
h
T
khkhh
hh
xxm
mNy
'
),(
110
2
x
hx
hm
h'x
hy
hTT
hhh
hhhTT
h
hTT
hhT
h
hT
hT
hT
h
khhhT
hT
h
v
y
yE
y
v
EE
xxxh
'
'
']'var[]var[
''][]'[]
),,,,1(','
1
221
21
)('
)('
var[']
[
x
x
xx
xxx
xx
XXx
XXx
x
hhhh vmNy 2,
65 Regresión Lineal
Expresión alternativa para vhh
))()(1(
)
~~
(,)()~~
()(
)](var[)(]var[)](var[]var[
)(
12
212
xxSxx
XXSxxXXxx
xxbxxxxb
xxb
hx
T
h
T
xh
TT
h
h
T
hh
T
h
h
T
h
n
nn
yyy
yy
))()(1(1 1
xxSxx hx
T
hhhn
vnv
nv
hhh
hhh
/1
/1
xx
xx
66 Regresión Lineal
Intervalos de confianza para la media mh
1
2
)1,0(
,
kn
hhR
hh
hh
hh
hhh
tvs
m
Nv
m
y
y
vhmNy
hx
hy
))(
1(1
2
2
x
hhh
s
xx
nv
hhR vsthy
hm 2/
))()(1(1 1
xxSxx hh x
T
hhn
v
Regresión simple
67 Regresión Lineal
Predicción de una nueva observación yh (Reg.Simple)
hh
hh
xm
mNy
10
2 ),(hx hx
hy
hh
hhh
hhh
hhh
hhhh
hh
v
yye
yEyEeE
yye
vmNy
xy
22
2
10
]var[]var[]~var[
0][][]~[
~
),(
))1(,0(~ 2
hhh vNe
hm
hy
68 Regresión Lineal
Predicción de una nueva observación yh (Reg. Múltiple)
hx
hm
hx
hy
)1(]var[]var[]~var[
0][][]~[~
),(
2
2
hhhhh
hhh
hhh
hhhhh
T
h
vyye
yEyEeEyye
vmNyyy xb
))1(,0(~ 2
hhh vNe
hy
69 Regresión Lineal
Intervalos de predicción para una nueva observación yh
1
2
1
)1,0(1
~)1(,0~
kn
hhR
hh
hh
hh
hhh
hhh
tvs
y
Nv
yy
y
yye
vNe
hhR vsthy
hy 12/
hx
hy
70 Regresión Lineal
kkxxy 110
Límites de predicción
x
y hhR vsthy
hy 12/
hhR vsthy
hm 2/
71 Regresión Lineal
Diagnosis: Residuos
)( 110 kikiii xxye
nkknnn
k
k
n e
e
e
xxx
xxx
xxx
y
y
y
2
1
1
0
21
22212
12111
2
1
1
1
1
ResiduosPrevistosObservados
eXY
72 Regresión Lineal
Distribución de los residuos
V)(IV)(Y)(IV)(Ie
0V)X(IYV)(Iee
XX)X(XV
V)Y(IeIXY
T1T
2
2
var]var[
][][
),(
EE
N
Normal
))1(,0(
),(
2iii vNe
N V)(I0e2
73 Regresión Lineal
Distancia de Mahalanobis
0
0
.()()(
2
2
12
i
i
ixT
ii
D
D
D
xx
xxxx
xxSxx
i
ii
a de distancia la Mide
s)Mahalanobi de Dist
TT
ii v
XX)X(XV1
Vmatriz la de diagonales elementos los son
11
0)1(,1
22
,1
2
1
ii
n
ijj
ijiiiiii
n
ijj
ijji
n
j
ijii vn
vvvvvvvv
))()(1(1
')(' 11xxSxxxXXx ix
Tii
TTiii
nv
74 Regresión Lineal
Residuos estandarizados
iivRs
ieir
eev
env
ve
iiiii
iiii
iii
1
adosestandariz Residuos
00)var(1 de lejos está Cuando
)var(/1 a próximo está Cuando
)1()var(
2
2
xx
xx
))1(,0( 2iii vNe
75 Regresión Lineal
Hipótesis de normalidad
Herramientas de comprobación:
Histograma de residuos
Gráfico de probabilidad normal (Q-Q plot)
Contrastes formales (Kolmogorov-Smirnov)
Ejemplo de coches
-6 -4 -2 0 2 4 6
Residuos
0,1
1
5
20
50
80
95
99
99,9
pro
bab
ilid
ad
76 Regresión Lineal
Comprobación de la linealidad
y homocedasticidad
Ambas hipótesis se comprueban
conjuntamente mediante gráficos de los residuos
Frente a valores previstos
Frente a cada regresor.
En muchas ocasiones se corrige la falta
de linealidad y la heterocedasticidad
mediante transformación de las variables.
ikikii
ikikii
uxxy
uxxy
logloglog
log
110
110
77 Regresión Lineal
Residuos - Valores previstos
0
iy
ie
0
iy
ie
0
iy
ieLineal y homocedástico No lineal y homocedástico
Lineal y no homocedástico
0
iy
ie
No lineal y no homocedástico
78 Regresión Lineal
Funciones R relacionadas
79 Regresión Lineal
80 Regresión Lineal
Ejemplo 1: Cerezos Negros
Se desea construir un modelo de regresión para obtener el volumen de
cerezo en función de la
altura del tronco y del diámetro del mismo a un metro sobre el suelo. Se ha tomado una muestra de 31 árboles. Las unidades de longitudes son pies y de volumen pies cúbicos.
81 Regresión Lineal
Cerezos negros: Datos
Árbol Diametro Altura Volumen Árbol Diametro Altura Volumen
1 8,3 70 10,30 17 12,9 85 33,80
2 8,6 65 10,30 18 13,3 86 27,40
3 8,8 63 10,20 19 13,7 71 25,70
4 10,5 72 16,40 20 13,8 64 24,90
5 10,7 81 18,80 21 14,0 78 34,50
6 10,8 83 19,70 22 14,2 80 31,70
7 11,0 66 15,60 23 14,5 74 36,30
8 11,0 75 18,20 24 16,0 72 38,30
9 11,1 80 22,60 25 16,3 77 42,60
10 11,2 75 19,90 26 17,3 81 55,40
11 11,3 79 24,20 27 17,5 82 55,70
12 11,4 76 21,00 28 17,9 80 58,30
13 11,4 76 21,40 29 18,0 80 51,50
14 11,7 69 21,30 30 18,0 80 51,00
15 12,0 75 19,10 31 20,6 87 77,00
16 12,9 74 22,20
82 Regresión Lineal
Gráficos x-y
83 Regresión Lineal
Primer modelo:cerezos negros
ErrorAlturaDiametroVolumen 210
84 Regresión Lineal
Diagnosis
85 Regresión Lineal
Transformación
errordiámetro)altura)vol)
diámetroalturakvol
20
2
log(log(log( 1
86 Regresión Lineal
Diagnosis (modelo transformado)
87 Regresión Lineal
Interpretación
Se comprueba gráficamente que la distribución de los residuos es compatible con las hipótesis de normalidad y homocedasticidad.
El volumen está muy relacionada con la altura y el diámetro del árbol (R2= 97.77%)
El modelo estimado
log(Vol) = -6.6 + 1.12 log(Alt) + 1.98 log(Diam.) + Error
es compatible con la ecuación vol=k Alt Diam2
La desviación típica residual es sR=0.081 que indica que el error relativo del modelo en la predicción del volumen es del 8.1%.
Modelos de regresion lineal
1. La tabla muestra los mejores tiempos mundiales en Juegos Olımpicos hasta 1976 en carreramasculina para distintas distancias.
y: tiempo (sg) 9.9 19.8 44.26 103.5 214.9 806.4 1658.4 7795x: distancia (m) 100 200 400 800 1500 5000 10000 42196
(a) Estimar la regresion lineal de y sobre x y calcular la varianza residual y el coeficientede correlacion.
(b) Obtener intervalos de confianza para la pendiente y varianza residual (α = 0.01).
(c) Analizar si la relacion lineal es adecuada, transformando las variables si es necesario.
(d) Supongase que en aquellas Olimpiadas hubiera existido una carrera de 500 metros.Estimar el tiempo previsto para el record olımpico en dicha carrera, dando un intervalode confianza con α = 0.05.
2. Estimar por mınimos cuadrados los parametros a y b de la ecuacion y = a + bx2 con lamuestra de tres puntos siguientes (y, x) : (3, -1); (4, 0); (6,1).
3. Dada la recta de regresion y = 3 + 5(x − 2) con r = 0.8, sR = 1, construir un intervalo deconfianza del 95% para la pendiente si n = 100.
4. Dado el modelo estimado con n = 25 datos, y = 2 + 3(x− 4), sR = 5, con desviacion tıpicadel coeficiente de regresion S(β1) = 0.5, calcular la desviacion tıpica de la prediccion delvalor medio de y cuando x = 20.
5. Sir Francis Galton (1877) estudio la relacion entre la estatura de una persona (y) y la estaturade sus padres (x) obteniendo las siguientes conclusiones:
(a) Existıa una correlacion positiva entre las dos variables.
(b) Las estaturas de los hijos cuyos padres medıan mas que la media era, en promedio,inferior a la de sus progenitores, mientras que los padres con estatura inferior a lamedia en promedio tenıan hijos mas altos que ellos, calificando este hecho como de”regresion” a la media.
Contrastar (α = 0.05) estas dos conclusiones con la ecuacion y = 17.8 + 0.91x resultante deestimar un modelo de regresion lineal entre las variables (en cm.) descritas anteriormentepara una muestra de tamano 100 si la desviacion tıpica (estimada) de β1 es 0.04.
6. La ley de Hubble sobre la expansion del universo establece que dadas dos galaxias la ve-locidad de desplazamiento de una respecto a la otra es v = Hd, siendo d su distancia y Hla constante de Hubble. La tabla proporciona la velocidad y la distancia de varias galaxiasrespecto a la Via Lactea. Se pide:
1
Galaxia Distancia Velocidad(millones anos luz) (103Km/s)
Virgo 22 1.21Pegaso 68 3.86Perseo 108 5.15Coma Berenices 137 7.56Osa Mayor 1 255 14.96Leo 315 19.31Corona Boreal 390 21.56Geminis 405 23.17Osa Mayor 2 700 41.83Hidra 1100 61.14
Tabla: Distancia y velocidad de desplazamiento de las distintas galaxias a la Via Lactea.
Nota: Observese que segun el modelo de Hubble la regresion debe pasar por el origen.Tomese 1 ano luz = 300 000 Km/seg x 31 536 000 seg = 9.46 1012 Km.
(a) Estimar por regresion la constante de Hubble.
(b) Como T = d/v = d/Hd = 1/H , la inversa de la constante de Hubble representa laedad estimada del Universo. Construir un intervalo de confianza del 95% para dichaedad .
9. Para establecer la relacion entre el alargamiento en mm (Y ) producido en un cierto materialplastico sometido a traccion y la fuerza aplicada en toneladas por cm2 (X) se realizaron 10experimentos cuyos resultados se muestran en la tabla
xi 0.20 0.50 0.60 0.70 0.90 1.00 1.20 1.50 1.60 1.70yi 23 20 33 45 67 52 86 74 98 102
Tabla: Alargamiento yi (mm) producidos por la fuerza xi (Tm/cm2).
(a) Ajustar el modelo de regresion lineal E(Y |x) = β0 + β1x y contrastar (α = 0.01) lahipotesis de que, en promedio, por cada Tm/cm2 de fuerza aplicada es de esperar unalargamiento de 50 milımetros, sabiendo que la desviacion tıpica residual vale 10.55.
(b) Si el lımite de elasticidad se alcanza cuando x = 2.2 Tm/cm2, construir un intervalode confianza al 95% para el alargamiento medio esperado en ese punto.
(c) Teniendo en cuenta que el alargamiento esperado cuando la fuerza aplicada es nuladebe ser nulo tambien, estimar el nuevo modelo E [Y |x] = βx con los datos anteriores¿Cual es el sesgo del estimador del parametro de la pendiente si se estima segun elmodelo del apartado 1?
2
10. La ecuacion de regresion entre las ventas de un producto y y su precio x es y = 320− 1.2x,sR = 2 y sy = 4. Si el numero de datos ha sido n = 50, contrastar H0 : β1 = −1 frente a laalternativa H1 : β1 < −1.
11. Se estudia la relacion entre el tiempo de reparacion (minutos) de ordenadores personales yel numero de unidades reparadas en ese tiempo por un equipo de mantenimiento con losresultados mostrados en la siguiente tabla
unidades reparadas 1 3 4 6 7 9 10tiempo de reparacion 23 49 74 96 109 149 154
Se pide:
(a) Construir la recta de regresion para prever el tiempo de reparacion y utilizarla paraconstruir un intervalo de confianza (α = 0.01) para el tiempo medio de reparacion de8 unidades.
(b) Construir un intervalo de confianza (α = 0.01) del tiempo de reparacion para un lotede 14 unidades.
(c) Si los tiempos de reparacion fuesen medias de 10 datos. ¿Cual serıa la recta de regresion?
13. Se realiza una regresion multiple con tres regresores y se encuentra un coeficiente de cor-relacion de 0.5 entre los residuos de la regresion y uno de los regresores. Interpretar esteresultado.
14. La matriz de varianzas de tres variables estandarizadas es la siguiente
1 0.8 0.60.8 1 0.20.6 0.2 1
Calcular la ecuacion de regresion de la primera variable respecto a las otras dos.
15. Dos variables x1 y x2 tienen la siguiente matriz de varianzas(
1 0.50.5 1
)
y las regresiones simples con y son y = 0.75x1 ; y = 0.6x2. Calcular la regresion multipleentre y y las dos variables x1, x2 sabiendo que la variable y tiene media cero y varianzaunidad.
16. Se realiza la regresion entre la variable dependiente y y tres regresores x1, x2 y x3. Posterior-mente se decide realizar la regresion entre la variable y y los tres regresores estandarizados.Explicar cuales son las diferencias entre los resultados de una regresion y otra en cuanto alos coeficientes estimados βi, los residuos y el coeficiente de determinacion, justificando larespuesta.
3
17. La matriz de varianzas de las variables X1, X2 e Y es
25 27 1427 36 19.214 19.2 16
Siendo X1 = 30, X2 = 40, Y = 100 y el numero de datos n = 10.
Se pide:
(a) Realizar la regresion simple entre Y (variable dependiente) y X1, dando el intervalo deconfianza para la pendiente de la recta con α = 0.05. Hacer lo mismo con Y y X2.
(b) Realizar la regresion multiple entre Y (variable dependiente) y X1, X2, en desviacionesa la media.
(c) Indicar si los coeficientes de la regresion anterior son significativos.
(d) Calcular R2 para los tres modelos, comentar los resultados obtenidos e indicar quemodelo eligirıa y por que.
18. Para establecer la relacion entre el voltaje de unas baterıas y la temperatura de fun-cionamiento se han hecho unos experimentos cuyos resultados se muestran en la siguientetabla
Baterıa 1 2 3 4 5 6 7 8Temperatura 10 10 20 20 30 30 40 40
Voltaje 7.2 7.7 7.3 7.4 7.7 9.4 9.3 10.8
Se pide:
(a) Contrastar la hipotesis (α = 0.05) de que no existe relacion lineal entre el voltaje y latemperatura.
(b) Las lecturas 1,3,5 y 7 fueron realizadas con unas baterıas de Cadmio y las 2,4, 6 y 8 conbaterıas de Zinc. Introducir en el analisis anterior una variable cualitativa que tengaen cuenta los dos tipos de baterıas y contrastar si es significativa al 95%.
(c) Dar un intervalo de confianza para el voltaje de una baterıa de Cadmio que va a trabajara 35◦ centıgrados. (Utilizar el modelo estimado en el apartado 2).
(d) Comprobar que se cumplen las hipotesis del modelo construido en los apartados ante-riores.
19. ¿Como disminuira la varianza teorica de los estimadores β en el modelo de regresion linealal replicar las observaciones? (Por replicar se entiende el obtener un nuevo vector Y de lavariable respuesta manteniendo las X fijas).
4
20. Se ha estimado un modelo de regresion para la estatura (y) de un grupo de adultos y susestaturas a los 7 (x1) y 14 (x2) anos. La desviacion tıpica residual obtenida es 5 cm y ladesviacion tıpica del coeficiente de x1 (estatura a los 7 anos) resulta 2.4, siendo este efectono significativo al 95%. Sin embargo, un segundo modelo de regresion que incluya solo aesta variable (x1) conduce a una desviacion tıpica residual de 7 cm y a un coeficiente deregresion de 2 con desviacion tıpica de 1. ¿Que podemos concluir con estos resultados de lacorrelacion entre x1 y x2?
21. Se dispone de una muestra de 100 automoviles con informacion respecto a su consumo(litros/100 km), peso (kg), potencia (CV), tipo de motor (I=inyeccion, NI=no inyeccion) ynacionalidad (1=USA, 2=Alemania, 3=Japon, 4=Francia). Escribir la ecuacion del modelode regresion lineal del consumo respecto al resto de las variables e interpretar el significadode cada uno de los parametros del modelo. Indicar como contrastar si la nacionalidad delvehıculo influye en el consumo.
22. Teniendo en cuenta que mediante variables cualitativas cualquier modelo de diseno experi-mental puede escribirse como un modelo de regresion, determinar la matriz V = X(XTX)−1XT
de proyeccion y la varianza de un residuo eij para el modelo basico de analisis de la varianza
yij = µi + uij, i = 1, ..., I ; j = 1, ..., ni
Aplicarlo al caso de 3 grupos (I = 3), con 5 observaciones en el primer grupo, 4 en el segundoy 3 en el tercero.
23. La variable y se relaciona con las variables x1 y x2 segun el modelo E(y) = β0+β1x1+β2x2;no obstante se estima el siguiente modelo de regresion que no incluye la variable x2
yi = β0 + β1x1i.
Justificar en que condiciones el estimador β1 es centrado.
24. Se efectua una regresion con dos variables explicativas E[y] = β0 + β1x1 + β2x2. La matrizde varianzas de x1 y x2 es
[2 11 3
]
¿Cual de los dos estimadores β1 y β2 tendra menor varianza?
25. Se estudia la relacion entre los costes de fabricacion totales en miles de pesetas (Y ), de 25libros tecnicos, la tirada en miles de ejemplares producidos (T ) y el numero de paginas dellibro (N), encontrandose la relacion
Y = 1400 + 900T + 4N
5
(a) Sabiendo que las desviaciones tıpicas (sin corregir por grados de libertad) de T y Nson 1.5 miles de ejemplares y 200 paginas respectivamente, y sR = 600, calcular unintervalo de confianza del 90% para los efectos de T y N suponiendo que las variablesestan incorreladas. Interpretar el resultado.
(b) Si el coeficiente de correlacion entre las variables T y N es −0.5, ¿Puede admitirse lahipotesis de que el coste asociado a la tirada es de 1.100.000 ptas. cada mil unidades?(α = 0.05).
(c) Sabiendo que la desviacion tıpica (sin corregir por grados de libertad) de los costes defabricacion es 2200 miles de pesetas, calcular el coeficiente de correlacion multiple y elestadıstico F para contrastar que ambas variables no influyen. Interpretar el resultado.
(d) Para estudiar cuanto encarecen los graficos el precio se introduce en el modelo unavariable ficticia Z que toma el valor 1 en libros con graficos y 0 en el resto, obteniendoseel nuevo modelo estimado siguiente (desviaciones tıpicas entre parentesis)
Y = 1080 + 520Z + 840T + 3.8N(100) (16) (0.97)
Interpretar el resultado.
26. Demostrar que el coeficiente de correlacion multiple en el modelo general de regresion esigual al coeficiente de correlacion lineal entre la variable observada y y la prevista y.
27. Para 11 provincias espanolas se conocen los siguientes datos:
Y = numero de mujeres conductoras dividido por el numero de hombres conductores.
X1 = porcentaje de mujeres que trabajan sobre el total de trabajadores de la provincia.
X2 = porcentaje de poblacion que trabaja en el sector agrıcola.
Si se denomina X = (1 X1 X2) a la matriz de regresores (1 es un vector de unos) se sabe que
(XTX)−1 =
5.1 −0.12 −0.05−0.12 30.8 0.08−0.05 0.08 0.001
(XTY ) =
−0.060.05−9.45
sR = 0.03;n∑
i=1
(yi − y)2 = 0.0645
Se pide:
(a) Estimar el modelo de regresion y realizar los contrastes individuales (α = 0.05). Inter-pretar la regresion.
(b) Calcular el coeficiente de determinacion R2 y realizar el contraste de que las dos vari-ables no influyen mediante el test F (α = 0.05).
6
(c) Se introducen dos nuevas variables en la regresion: X3 que representa el porcentajede poblacion que trabaja en los servicios, y X4 el porcentaje de poblacion que trabajaen otras actividades distintas de agricultura y servicios. Explicar razonadamente comosera la regresion al introducir estas dos nuevas variables y los efectos de cada una deellas.
28. Con los datos de la tabla, se pide:
x -2 -2 -1 -1 0 0 1 1 2 2 3 3y 1.1 1.3 2.0 2.1 2.7 2.8 3.4 3.6 4.0 3.9 3.8 3.6
(a) Estimar un modelo de regresion simple con y como variable dependiente y x comoregresor. Indicar si el modelo es apropiado, justificando la respuesta.
(b) Estimar el modeloyi = β0 + β1xi + β2x
2
i + ui
y realizar el contraste H0 : β2 = 0.
(c) El resultado de la estimacion del modelo que incluye el termino x3 es,
yi = 2.81 + 0.80xi - 0.06x2i - 0.035x3
i
(0.05) (0.048) (0.019) (0.010)
con sR = 0.113 (entre parentesis las desviaciones tıpicas de los estimadores). Realizarel contraste general de regresion con α = 0.01. Seleccionar entre los tres el modelo masadecuado, justificando la respuesta.
29. En un modelo de regresion simple se ha obtenido un coeficiente de correlacion igual a −0.8.Si el numero de observaciones es n = 150, y = 22 y la variabilidad total es 320. Construirun intervalo de confianza al 95% para el valor medio de la variable dependiente (y) cuandox (regresor) es igual a x. (Aproximar la distribucion t de Student correspondiente por unadistribucion normal, si Z N(0, 1), P (Z ≤ 1.96) = 0.975).
30. En una planta piloto se obtiene un nuevo producto mediante un proceso quımico. Con elfin de mejorar el rendimiento se emplean dos catalizadores distintos y se trabaja con trestemperaturas diferentes. Los resultados del experimento son
Temperatura
Catalizador 200 300 400
A 115 125 130 140 110 120B 115 105 135 145 100 110
(a) Contrastar si los factores Temperatura y Catalizador tienen efectos significativos. (α =0.05)
(b) ¿Que tratamiento se debe utilizar para obtener el mayor rendimiento, si se desea garan-tizar una probabilidad de error tipo I total, αT = 0.03?
7
(c) Estimar y contrastar el modelo de regresion simple entre el rendimiento y la tempera-tura. ¿Que conclusiones obtiene? Proponga un modelo de regresion que subsane lasdeficiencias encontradas.
31. El modelo de regresion multiple se puede escribir en notacion matricial
Y = Xβ + U
donde U es el vector de variables aleatorias que cumple las hipotesis de normalidad, inde-pendencia y homocedasticidad. Deducir razonadamente la distribucion, media y matriz devarianzas del vector de residuos e = Y −Xβ.
32. La empresa de bebidas gaseosas CIBELES quiere determinar la influencia sobre la presioninterna (yi) en los botes de refresco de dos variables continuas (x1, x2) y del tipo de bebida(NARANJA=1, LIMON=2 y COLA=3). Para distintos valores de x1 y x2 y 20 botes decada sabor, ha medido la presion interna. El tipo de bebida se representa por las variables z1,z2 y z3 que identifican el sabor NARANJA, LIMON y COLA, respectivamente. El modeloestimado de regresion de y con respecto a x1, x2, z2 y z3 es:
y = 19.4 + 77.2x1 − 50.8x2 + 2.95z2 + 5.52z3; hatsR = 4.32
donde
(XTX)−1 =
0.1772 −0.6909 −0.5043 −0.0605 −0.0896−0.6909 5.8085 0.2541 0.1478 0.2444−0.5043 0.2541 5.0070 −0.0680 0.1216−0.0605 0.1478 −0.0680 0.1049 0.0546−0.0896 0.2444 0.1216 0.0546 0.1127
(a) Realizar los contrastes individuales con α = 0.01, indicando las variables que influyensignificativamente en la presion. Interpretar el resultado explicando el significado decada parametro.
(b) Si se realiza una regresion entre la presion interna (yi) y las dos variables continuas x1
y x2 se obtiene el siguiente modelo de regresion
y = 23.86 + 65.1x1 − 56.3x2; sR = 4.78.
Contrastar (α = 0.01) conjuntamente que el tipo de bebida no influye. (H0 : α2 = α3 =0 frente a H1 : α2 o α3 es distinto de cero).
(c) ¿Existe diferencia significativa en las presiones internas de los botes de LIMON yCOLA? (α = 0.01)
33. Estimar por maxima verosimilitud los parametros β1 y β2 del modelo
yi = β1x1i + β2x2
2i + ui ; ui N(0, σ).
¿En que condiciones los estimadores obtenidos por maxima verosimilitud son iguales que losobtenidos por mınimos cuadrados?
8
34. Obtener la relacion entre el coeficiente de determinacion R2 y el coeficiente de determinacion
corregido R2. ¿ Que ventajas presenta el segundo frente al primero ?
35. Con el fin de reducir el tiempo de secado se han realizado 20 ensayos con cementos dedistintas caracterısticas. El ajuste por mınimos cuadrados de la ecuacion de regresion entreel tiempo de secado y una de las variables x1 es
y = 17.1 + 2.9x1, sR = 12.8, R2 = 0.37
(a) Obtener el intervalo de confianza al 95% para el parametro de la pendiente de la rectae indicar si su efecto es significativo.
(b) Incluir en el modelo de regresion otra variable independiente x2, sabiendo que su var-ianza muestral es s22 = 9.2, la covarianza entre las dos variables independientes ess12 = −3.35 y la covarianza entre el tiempo de secado y la nueva variable s2y = 9.55.Realizar los contrastes individuales para los parametros de x1 y x2.
(c) Un estudio teorico del problema indica que el efecto de las dos variables es igual y quepor tanto, la ecuacion de regresion deberıa ser
y = b0 + b1(x1 + x2).
Con la informacion de los apartados anteriores, obtener b1 y contrastar si la pendientede la recta es significativamente distinta de cero.
36. Explicar como contrastar que dos o mas coeficientes en un modelo de regresion multiple sonsimultananeamente nulos.
37. En el analisis de regresion simple entre dos variables, se considera como importante desdeel punto de vista practico, una correlacion entre las dos variables igual o superior a r = 0.1.Determinar el numero mınimo de observaciones con las que se debe estimar el modelo deregresion para que una correlacion igual a 0.1, implique que el regresor tiene un efectosignificativo sobre la variable dependiente. (Aproximar la distribucion t de Student corre-spondiente por una distribucion normal, si Z N(0, 1), P (Z ≤ 1.96) = 0.975).
38. Interpretar geometricamente el problema de estimacion por mınimos cuadrados en regresionmultiple. Demostrar que los residuos del modelo se obtienen mediante la expresion e =PY , donde Y es el vector correspondiente a la variable dependiente y P es una matriz dedimension n × n. Determinar P en terminos de la matriz X de los regresores. A partir dela expresion anterior, obtener la distribucion de probabilidad de los residuos, la media y lamatriz de varianzas.
39. Una de las etapas de fabricacion de circuitos impresos requiere perforar las placas y recubrirlos orificios con una lamina de cobre mediante electrolisis. Una caracterıstica esencial delproceso es el grosor de la capa de cobre. Se han realizado 12 experimentos para evaluarel efecto de 7 variables, X1: Concentracion de Cobre, X2: Concentracion de Cloruro, X3:Concentracion de Acido, X4: Temperatura, X5: Intensidad, X6: Posicion y X7: Superficiede la placa. Cada variable se ha estudiado a dos niveles. Las condiciones experimentales ylos resultados de cada experimento se muestran en la tabla.
9
X1 X2 X3 X4 X5 X6 X7 Y1 1 -1 1 1 1 -1 2.131 -1 1 1 1 -1 -1 2.15-1 1 1 1 -1 -1 -1 1.671 1 1 -1 -1 -1 1 1.531 1 -1 -1 -1 1 -1 1.491 -1 -1 -1 1 -1 1 1.78-1 -1 -1 1 -1 1 1 1.80-1 -1 1 -1 1 1 -1 1.93-1 1 -1 1 1 -1 1 2.191 -1 1 1 -1 1 1 1.61-1 1 1 -1 1 1 1 1.70-1 -1 -1 -1 -1 -1 -1 1.43
Responder a las siguientes preguntas aplicando el modelo de regresion multiple, teniendo encuenta que XTX = 12I8, donde I8 es la matriz identidad de 8× 8.
(a) Estimar el modelo de regresion multiple
yi = β0 + β1x1i + β2x2i + β3x3i + β4x4i + β5x5i + β6x6i + β7x7i + ui.
Obtener la descomposicion de la variabilidad del modelo y realizar el contraste
H0 : β1 = β2 = β3 = β4 = β5 = β6 = β7 = 0
frente a la hipotesis alternativa H1: algun βj es distinto de cero.(NOTA.: XTY = (21.41, −0.03, 0.01, −0.23, 1.69, 2.35, −0.09, −0.19)T )
(b) Realizar cada uno de los contrastes individuales e indicar que variables tienen efectosignificativo.
(c) Eliminar del modelo del apartado 1 todas las variables no significativas. Estimar elmodelo y contrastar sus coeficientes. Interpretar los resultados del experimento.
40. Una medida crıtica de calidad en la fundicion de llantas de aluminio por inyeccion es laporosidad. Se ha realizado un diseno experimental para analizar la porosidad (Y ) en funcionde la temperatura (T ) del aluminio lıquido y de la presion (P ) con que este se inyecta almolde. Se han realizado n=16 experimentos y el modelo obtenido ha sido
y = 2.84 + 0.59 T - 0.031 P(.048) (.048) (.048)
+ 0.26 T 2 + 0.30 P 2 - 0.22 TP(.048) (.048) (.068)
Entre parentesis se proporciona la desviacion tıpica estimada para cada uno de las estima-
ciones de los parametros del modelo. Ademas sR = 0.137 y R2= 0.9267. Las condiciones
experimentales se eligieron de forma que los cinco regresores utilizados en el modelo estanincorrelados.
10
(a) Realizar el contraste F general de regresion y los contrastes individuales de todos loscoeficientes del modelo, indicando cual es significativamente distinto de cero.
(b) Demostrar que si los regresores estan incorrelados, al eliminar alguno del modelo,las estimaciones de los restantes no varıan. Ademas, si se elimina el regresor j, conparametro estimado βj , la variabilidad no explicada del nuevo modelo V NE1 es igual
a V NE0 + ns2j β2
j , donde V NE0 es la variabilidad no explicada del modelo con todos
los regresores. Obtener sR y R2para el modelo que unicamente incluye los parametros
significativos.
(c) Determinar en que condiciones de presion y temperatura la porosidad es mınima segunel modelo anterior y dar un intervalo para prediccion de la porosidad media en estascondiciones. (Si t es la temperatura medida en grados centıgrados (0C) y p la presionen kg/cm2,T = (t − 650)/10 y P = (p − 975)/25. En estas unidades se cumple que
∑n
i=1Ti = 0,∑n
i=1Pi = 0,
∑n
i=1T 2i = 8,
∑n
i=1P 2i = 8,
∑n
i=1TiPi = 0)
41. Demostrar que cuando todos los regresores estan incorrelados, el coeficiente de determinacionde un modelo de regresion multiple cumple R2 =
∑k
j=1r2j , donde k es el numero de regresores
y rj el coeficiente de correlacion entre el regresor j y la variable dependiente.
42. Explicar el concepto de multicolinealidad en regresion multiple, como se identifica y cualesson sus efectos sobre (a) los estimadores βi, (b) los residuos y (c) las predicciones.
43. Demostrar que en un modelo de regresion simple y y el estimador de la pendiente β1 sonindependientes. Utilizar esta propiedad para calcular la varianza de β0 = y − β1x.
44. La masa M de un cristal de hielo depositado en una camara a temperatura (-5oC) y humedadrelativa constante crece segun la ecuacion M = αT β, donde T es el tiempo y α y β sonparametros desconocidos. La relacion anterior se linealiza con la transformacion logarıtmica,estimandose el siguiente modelo
logM = logα + β log T + u
donde el termino anadido u son los errores experimentales, que se consideran aleatorios eindependientes con distribucion normal, N(0,σ2). Diez cristales del mismo tamano y forma seintrodujeron en una camara, extrayendose secuencialmente segun unos tiempos previamenteestablecidos. Para determinar la influencia del tipo de camara, se repitio exactamente elexperimento en una segunda camara. Los valores de sR para la camara 1 y 2 son 0.64 y0.50, respectivamente. Los modelos estimados para cada camara, XTX y (XTX)−1 son:
logM1 = −7.30 + 2.40 log TlogM2 = −5.74 + 2.03 log T
XTX =
(10.00 46.6646.66 218.9
)
(XTX)−1 =
(18.27 −3.89−3.89 0.835
)
11
(a) Contrastar con nivel de significacion 0.05 si los dos modelos tienen la misma pendiente.Lo mismo para la ordenada en el origen. (NOTA.- Aceptar que la varianza de losdos modelos es la misma y estimarla como el promedio de las dos varianzas residualescalculadas.)
(b) Un modelo de regresion multiple Y = Xβ + U , se replica, es decir se obtienen dosvectores de variables respuesta Y1, Y2, para los mismo regresores (matriz X). Demostrarque si β1 y β2 son los resultados de la estimacion de β utilizando por separado la variableY1 e Y2; entonces el estimador de β con todos los datos es (β1 + β2)/2.
(c) Estimar un unico modelo con los datos de las dos camaras. Sabiendo que Y TY = 306.8,donde Y = logM , dar un intervalo de confianza al 99% para los dos parametros.
45. El molibdeno se anade a los aceros para evitar su oxidacion, pero en instalaciones nuclearespresenta el inconveniente de ser el causante de gran parte de los productos radioactivos. Seha realizado un experimento para determinar el grado de oxidacion del acero en funcion delporcentaje de molibdeno. Ademas se ha tenido en cuenta el efecto del tipo de refrigeranteutilizado (R1, R2). Los resultados se muestran en la tabla.
Molibdeno (%)Refrig. 0.5% 1% 1.5% 2% MediasR1 26.2 23.4 20.3 23.3 23.3R2 34.8 31.7 29.4 26.9 30.7R1 33.2 31.3 28.6 29.3 30.6R2 43.0 40.0 31.7 33.3 37.0
Media 34.3 31.6 27.5 28.2 30.4
(a) Escribir un modelo de regresion que incluya el porcentaje de molibdeno y el tipo de re-frigerante como regresores; estimar el modelo e indicar que parametros son significativos(α = 0.05)).
(b) Los experimentos relativos a las dos primeras filas se realizaron en un tipo de instalaciony los correspondientes a las dos ultimas en otra distinta. Escribir un nuevo modelo queincluya este aspecto. Comprobar que este nuevo regresor esta incorrelado con los dosanteriores. Estimar el nuevo modelo.
(c) Demostrar que en un modelo con los regresores incorrelados, la eliminacion de unode ellos no influye en el valor de los estimadores βi, (i 6= 0) restantes. ¿ Influye enla varianza residual y en los contrastes ? Explicar este efecto en funcion de que elparametro β del regresor eliminado sea o no nulo.
46. Demostrar que en un modelo de regresion multiple estimado por maxima verosimilitud, losresiduos cumplen
n∑
j=1
ejxij= 0,
donde [xi1,xi2,..., xin,] es cualquier regresor del modelo. Obtener la distribucion conjuntadel vector de residuos. Si σ2 es la varianza teorica de la componente aleatoria del modelo,indicar en que circuntancias la varianza de un residuo es mayor que σ2.
12
47. Se dispone de una muestra de 86 vehıculos, de los cuales 31 son japoneses (J), 41 norteame-ricanos (N) y 14 europeos (E). La media y desviacion tıpica del consumo de gasolina (en litroscada 100 Km) para los coches japoneses es yJ = 9.1781, sJ = 1.42, para los norteamericanosyN = 9.7274, sN = 1.25 y para los europeos yE = 10.64, sE = 1.36.
(a) Suponiendo que los vehıculos escogidos son muestras aleatorias independientes y quepueden aplicarse las hipotesis de normalidad y homocedasticidad, contrastar la hipotesisde que el lugar de fabricacion no influye en el consumo de combustible. ¿Existe algungrupo con un consumo significativamente menor que los otros dos?
(b) Los coches tienen caracterısticas muy diferentes (peso, potencia,...) que deben sertenidas en cuenta para hacer la comparacion anterior. Con esa finalidad, se ha ajustadoel siguiente modelo de regresion:
y = 3.305 + 0.843 Pot + 3.829 Peso + 0.440 ZJ + 1.127 ZE s2
R = 0.506, R2 = 75.7%
donde (XTX)−1 es:
4.791e− 1 5.054e− 2 −3.794e− 1 −9.157e− 2 −4.682e− 25.054e− 2 1.595e− 1 −1.931e− 1 −3.443e− 3 −1.262e− 2
−3.794e− 1 −1.931e− 1 4.646e− 1 5.210e− 2 2.865e− 2−9.157e− 2 −3.443e− 3 5.210e− 2 6.667e− 2 2.744e− 2−4.682e− 2 −1.262e− 2 2.865e− 2 2.744e− 2 9.759e− 2
donde la variable dependiente es el consumo, Pot (potencia) esta expresada en unidadesde 100 Cv, el Peso en Toneladas, ZJ toma el valor 1 si el coche es japones y cero enlos demas, y ZE toma el valor 1 para los coches europeos y cero en los demas. Realizarel contraste general de regresion para el modelo anterior e interpretar los coeficientesestimados.
(c) Con el modelo de regresion anterior realizar los tres contrastes siguientes:
(c.1) No existe diferencia en el consumo de los coches japoneses y europeos.
(c.2) No existe diferencia en el consumo de los coches japoneses y norteamericanos.
(c.3) No existe diferencia en el consumo de los coches europeos y norteamericanos.
Comparar los resultados con los obtenidos en el apartado 1, explicar a que se deben lasdiferencias y justificar cual es el modelo mas adecuado para hacer las comparaciones.
48. El modelo de regresion multiple con n observaciones y k + 1 variables independientes (in-cluyendo la constante β0) se puede escribir en notacion matricial como
Y = Xβ +U,
donde U es el vector de variables aleatorias que cumple las hipotesis de normalidad, inde-pendencia y homocedasticidad y la matriz de los regresores X es de dimension n× (k + 1).Demostrar que si se transforma linealmente la matriz X, esto es, W = XA, donde A escualquier matriz cuadrada de dimension (k + 1) × (k + 1) y rango maximo, entonces laregresion de Y con la nueva W proporciona las mismas predicciones y los mismos residuos.Justificar geometricamente este resultado.
13
49. La resistencia a la traccion (y) de una aleacion metalica en funcion de la temperatura detemplado (x) se ha ajustado con una ecuacion de regresion para 30 observaciones resultando:
y = 276.1 + 1.9x, sR = 15.7, R2 = 0.43
Se puede concluir con una confianza del 95% que la temperatura de templado tiene efectosignificativo en la resistencia a la traccion.
50. En Cosby Creek, una ciudad al sur de las montanas Apalaches, se ha hecho un estudio paradeterminar como el pH y otras medidas de acidificacion del agua se ven afectadas durantelas tormentas. En concreto se han obtenido 17 datos durante cada una de las tres tormentasmonitorizadas para un total de 19 variables, aunque en este analisis se analizaran solo 2, elpH y el denominado Weak Acidity (WA). Se ha estimado el modelo de regresion multipledel valor pH con respecto a la variable WA y para cada una de las tres tormentas. Lastormentas se representan con las variables ficticias z1, z2 y z3 que identifican respectivamentela tormenta 1, 2 y 3. El modelo estimado de regresion de y con respecto a WA, z1, z2 y z3es:
pH = 5.77− 0, 00008WA(0,000727)
+ 0, 998z1(0,4664)
+ 1, 65z2(0,4701)
− 0, 005z1WA(0,0014)
− 0, 008z2WA(0,0016)
, R2 = 0, 866
Entre parentesis las deviaciones tıpicas estimadas de los estimadores de los parametros cor-respondientes.
(a) Realice el contraste general de regresion y los contrastes individuales con α = 0, 05indicando las variables que influyen significativamente en el pH. Interprete el significadode cada parametro.
(b) Proporcione sendos intervalos de confianza al 95% para los parametros de las interac-ciones z1WA y z2WA. ¿Que conclusiones pueden extraerse? ¿Se puede simplificar elmodelo?
51. Dos becarios del Departamento de Ciencias Sociales estan interesados en el estudio de laTasa de Mortalidad Infantil (TMI). Para ello, han recogido en 107 paıses dicha magnitudası como la alfabetizacion (A), el PIB y la poblacion (Pob) en cada uno de ellos.
Las medias y desviaciones tıpicas corregidas de estas 4 variables son:
TMI A PIB Pob
Media 42.67 78.34 5831.4 48501DT corregida 38.3 22.88 6537.24 147.991
(a) Si el coeficiente de correlacion entre TMI y A vale -0.9005 estime el modelo de regresionsimple en el que TMI es la variable respuesta y A la variable explicativa y contraste sila pendiente estimada es significativa.
(b) Los becarios han estimado un modelo de regresion multiple en que la variable depen-diente es TMI y las variables independientes son A, PIB y Pob. Observando que ladiagnosis del modelo es inadecuada. Estime el modelo de regresion multiple entre TMI(variable dependiente) y los regresores A, log(PIB) y log(Pob). Para ello se proporciona:
14
(X ′X)−1 = 10−3
0.0259 −0.0499 0.0001−0.0499 0.3186 0.00070.0001 0.0007 0.0004
(X ′Y ) = 104
−8.3651−1.70075.1293
siendo X la matriz de estos 3 ultimos regresores en desviaciones a la media e Y el vectorrespuesta en desviaciones a la media. ¿Son significativos los coeficientes estimados?
c. Para el modelo del apartado anterior realice el contraste general de regresion. ¿En-cuentra contradicciones entre el resultado de los contrastes individuales del apartado 2y el del apartado 3? Justifique la respuesta.
d. Los paıses objeto del estudio se pueden clasificar en desarrollados y no desarrollados.Para ello se introduce la variable cualitativa Z que toma valor 0 si el paıs es desarrolladoy 1 si no lo es. El modelo resultante se presenta a continuacion:
TMI = 138.2− 1.1A− 9.6 log(PIB) + 3.3Z con s2R = 196.3
Todos los coeficientes estimados resultan significativos. Interprete dichos coeficientes y elijade manera razonada el mejor modelo de entre los propuestos en el segundo y cuarto apartados
NOTA: Utilice α = 0.05 para todos los contrastes que sean necesarios.
52. Se ha realizado la regresion entre la anchura y la longitud del pie en centımetros con datosde chicos y chicas de cuarto curso de la ensenanza secundaria. En la tabla se proporciona elresultado de la regresion. En el modelo se ha incluido una variable cualitativa que toma elvalor 1 si la observacion corresponde a una chica y 0 si es a un chico. Interpreta el resultadodel analisis.
Multiple Regression Analysis
-----------------------------------------------------------------------------
Dependent variable: Anch
-----------------------------------------------------------------------------
Standard T
Parameter Estimate Error Statistic P-Value
-----------------------------------------------------------------------------
CONSTANT 4,29977 1,12692 3,81551 0,0005
Long 0,21311 0,048554 4,38913 0,0001
Chica -0,272394 0,127844 -2,13067 0,0402
-----------------------------------------------------------------------------
Analysis of Variance
15
-----------------------------------------------------------------------------
Source Sum of Squares Df Mean Square F-Ratio P-Value
-----------------------------------------------------------------------------
Model 4,60164 2 2,30082 16,41 0,0000
Residual 4,90599 35 0,140171
-----------------------------------------------------------------------------
Total (Corr.) 9,50763 37
R-squared = 48,3994 percent
53. Segun la ecuacion de los gases ideales, la presion ejercida por un gas a volumen y temperaturaconstante es proporcional a la masa. Se puede utilizar el siguiente procedimiento para estimarel peso molecular de un gas. Se almacena el gas en un recipiente de volumen constante, y se vasoltando poco a poco gas, variando la presion, pero manteniendo la temperatura constante.En la tabla adjunta se proporcionan mediciones de la presion (con respecto a la atmosferica)y de la masa del gas para el argon.
Presion (psi) Masa (g)52 1, 02849 0, 95644 0, 8839 0, 79334 0, 72529 0, 64525 0, 59321 0, 52619 0, 519 0, 44211 0, 3730 0, 21
(a) Para estimar el peso molecular del argon a partir de los datos, se propone el siguientemodelo de regresion
Pi = αmi + ui, con ui ∼ N(0, σ2).
Obtener el estimador de maxima verosimilitud del parametro α
(b) Realizar el contraste H0 : α = 50 frente a H1 : α 6= 50 con nivel de significacion 0.05.
(c) Para el modelo del apartado 1, obtener un intervalo de prediccion para la presion cuandola masa es igual a 1 gramo.
(d) Se considera tambien el modelo alternativo
Pi = β0 + β1mi + ui con ui ∼ N(0, σ2).
16
Obtener la varianza del estimador de E[Ph|mh], es decir del valor medio de la presion Ph
para una masa dada mh con ambos modelos. Si el modelo verdadero fuese el del primerapartado, ¿que efecto tendrıa sobre la prediccion adoptar el modelo alternativo?
54. Se ha estimado un modelo de regresion con dos variables independientes y 150 observacionesobteniendose la siguiente ecuacion:
yi = −1.17 + 0.025 logx1 + 0.59 log x2, s2R = 2.48
La matriz de varianzas estimada de b = [β1, β2]T para el modelo propuesto es
(XT X
)−1
s2R =
(.253 .201.201 .288
).
realiza el contraste general de regresion con α = 0.05:
H0 : β1 = β2 = 0
H1 : algun βi es distinto de cero
55. En el modelo de regresionyi = β0 + β1X1i + β2X2i + ui
con las hipotesis habituales, explicar como se contrasta
H0 : β1 = β2
H1 : β1 6= β2
56. Demostrar que en el modelo de regresion multiple con k regresores y constante, el estadısticoque contrasta H0 : β0 = β1 = β2 = · · · = βk = 0 frente a H1 : algun βi 6= 0, si H0 es ciertaes:
F =Y TV Y
Y T (I − V )Y
n− k − 1
k + 1 Fk+1,n−k−1
donde V = X(XTX)−1XT e I es la matriz identidad de dimension n× n.
57. En la tabla siguiente se muestra el resultado de un experimento para relacionar el calorgenerado en el proceso de endurecimiento del 13 muestras de cemento en funcion de sucomposicion. Los regresores Xi corresponden al porcentaje de 4 componentes de la mezcla.
17
Fila Regresores Calor Modelo II
X1 X2 X3 X4 Y Residuo vii
1 7 26 6 60 78.5 -1.574 0.25
2 1 29 15 52 74.3 1.049 0.26
3 11 56 8 20 104.3 -1.515 0.12
4 11 31 8 47 87.6 -1.658 0.24
5 7 52 6 33 95.9 -1.393 0.08
6 11 55 9 22 109.2 4.048 0.11
7 3 71 17 6 102.7 -1.302 0.36
8 1 31 22 44 72.5 -2.075 0.24
9 2 54 18 22 93.1 1.825 0.18
10 21 47 4 26 115.9 1.362 0.55
11 1 40 23 34 83.8 3.264 0.18
12 11 66 9 12 113.3 0.863 0.20
13 10 68 8 12 109.4 -2.893 0.21
Modelo I Modelo IIDesv. Tıp.
Parametros Estimacion Estimadas t
Constante 62.4 70.1 0.89
X1 1.55 0.74 2.08
X2 0.51 0.72 0.70
X3 0.10 0.75 0.13
X4 -0.14 0.71 -0.20
Desv. Tıp.
Parametros Estimacion Estimadas t
Constante 52.6 2.28 23.0
X1 1.46 0.12 12.1
X2 0.66 0.045 14.4
Analisis de la Varianza
Varia- GradosFuentes bilidad Lib. Var. FExplic. 2667.9 4 667.0 111.5
Residual 47.8 8 5.98
Total 2715.7 12
Analisis de la Varianza
Varia- GradosFuentes bilidad Lib. Var. FExplic. 2657.8 2 1328.9 229.5
Residual 57.9 10 5.8
Total 2715.7 12
En las tablas se proporcionan dos modelos de regresion lineal, con las estimaciones de losparametros, las desviaciones tıpicas estimadas de estos y los estadısticos t de los contrastesindividuales. Debajo se incluyen las tablas de analisis de la varianza de cada modelo.
(a) Realizar los contrastes H0 : βi = 0 frente H1 : βi 6= 0 para los distintos parametros enlos dos modelos. Realizar el contraste conjunto H0 : β3 = β4 = 0 frente H1 : alguno delos dos es 6= 0. ¿Se puede concluir con estos datos que X4 no influye significativamenteen el calor Y ?
(b) Estimar el modelo de regresion simple del calor Y y la variable explicativa X4 ¿Influyesignificativamente X4 en el calor Y ? Analizar este resultado e interpretarlo teniendoen cuenta el resultado del apartado anterior.
(c) En la tabla superior se muestran los residuos del modelo II y los elementos de ladiagonal de la matriz V = X(XTX)−1XT . Indicar los residuos con mayor y menorvarianza, justificando la respuesta. Si se vuelve a repetir los experimentos en estas dos
18
condiciones, dar un intervalo para la prediccion de los nuevos valores de la variabledependiente (usar α = 0.05).
58. En un estudio de regresion simple con 35 observaciones ha resultado el siguiente modelo
y = 0.12 + 7.6 log(x), sR = 1.2, R2 = 0.37
Obtener el intervalo de confianza al 95% para el parametro de la pendiente e indicar si suefecto es significativo.(El percentil 0.975 de la distribucion t de Student con 33 grados delibertad es 2.03)
59. Los datos siguientes corresponden a la perdida (P) por abrasion en gr/h y su medida dedureza (D) en grados Shore para 15 gomas de caucho de alta resistencia a la tension (A) yotras 15 gomas de caucho con resistencia a la tension baja (B):
A D 75 55 61 66 71 71 81 86A D 53 60 64 68 79 81 56A P 128 206 175 154 136 112 55 45A P 221 166 164 113 82 32 228
B D 45 68 83 88 59 71 80 82B D 89 51 59 65 74 81 86B P 372 196 97 64 249 219 186 155B P 114 341 340 283 267 215 148
Escribir el modelo estadıstico, indicar los parametros y explicar el procedimiento de esti-macion para estudiar con estos datos simultaneamente el efecto de la dureza y de la resisten-cia a la tension (alta o baja) en las perdidas por abrasion. Indicar como contrastar con elmodelo propuesto que “las gomas de caucho con baja resistencia a la traccion tienen por
termino medio mayor perdida que las gomas con resistencia a la traccion baja.” (Nota.- Nose pide ningun calculo numerico, los datos se presentan para ilustrar y describir el problemade forma precisa).
60. Sea x1 la altura del tronco de un arbol y x2 el diametro del mismo en su parte inferior. Elvolumen y del tronco de arbol puede ser calculado aproximadamente con el modelo
yi = αx1ix2
2i + ui,
segun el cual, el volumen del tronco es proporcional al volumen de un cono con las medidasx1i, x2i, siendo α el parametro (desconocido) de proporcionalidad, mas una componentede error aleatorio ui. La tabla siguiente contiene los datos (en metros y metros cubicos)correspondientes a una muestra aleatoria de 15 troncos de una variedad de pino.
19
Obs. x1i x2i x1ix22i yi Obs. x1i x2i x1ix
22i yi
1 10,1 0,117 0,14 0,062 9 19,8 0,297 1,75 0,8212 11,3 0,13 0,19 0,085 10 26,8 0,328 2,90 1,2803 20,4 0,142 0,41 0,204 11 21 0,351 2,60 1,0344 14,9 0,193 0,56 0,227 12 27,4 0,376 3,90 1,6795 23,8 0,218 1,13 0,47 13 29 0,389 4,40 2,0736 19,5 0,236 1,09 0,484 14 27,4 0,427 5,00 2,0227 21,6 0,257 1,43 0,623 15 31,7 0,594 11,2 4,6308 22,9 0,269 1,66 0,722
(a) Estimar α por maxima verosimilitud suponiendo que las variables ui tienen distribucionnormal de media cero, con la misma varianza e independientes.
(b) Un tronco tiene una altura de 20 metros y un diametro de 0.25 metros, dar un intervalode prediccion de su volumen (95% de confianza). La varianza residual del modelo es0,0058.
(c) En el analisis de los residuos se observa que la varianza de los errores crece con elvolumen del tronco. Para obtener homocedasticidad se propone el siguiente modelotransformado utilizando logaritmos neperianos,
log yi = β0 + β1 log x1i + β2 log x2i + ui
El resultado de la estimacion es:
Parametro Estimacionβ0 -1,45β1 1,14β2 1,86
y Mβ=
0, 1250 0, 0212 −0, 03170, 0212 0, 0082 −0, 0051
−0, 0317 −0, 0051 0, 0042
siendo Mβ= s2R(X
TX)−1 (X es la matriz de los regresores transformados segun el
modelo) La transformacion logarıtmica del modelo inicial (αx1ix22i) implicarıa que β1 =
1 y β2 = 2. Contrastar (nivel de significacion 0.05) si estos dos valores son aceptables.
(d) Con este modelo, dar un intervalo de prediccion (95% de confianza) para el volumendel tronco del apartado 2 si la varianza residual es 0,0031.
61. La cantidad maxima yi de cierto compuesto disuelta en un litro de agua a temperatura xi
sigue el modelo de regresion simple,
yi = β0 + β1xi + ui,
donde ui cumple las hipotesis de normalidad, homocedasticidad (Var(ui) = σ2) e indepen-dencia. Una muestra de n disoluciones diferentes han proporcionado los valores (yi, xi).Ademas se han medido las cantidades disueltas y′1, y
′
2, ..., y′
m en otra muestra de m disolu-ciones que se encontraban a la misma temperatura x0. El valor x0 es desconocido. Estimarpor maxima verosimilitud los parametros β0, β1, σ
2 y x0 utilizando las n+m observaciones.
20
62. Explicar en que consiste el problema de la multicolinealidad en el modelo de regresion: comose detecta, como se puede corregir y cuales son sus efectos.
63. Ciertas propiedades del acero se mejoran sumergiendolo a alta temperatura (T0 = 1525oF ) en un bano templado de aceite (t0 = 95 oF ). Para determinar la influencia de lastemperaturas del acero y del bano de aceite en las propiedades finales del material se hanelegido tres valores de la temperatura del acero y tres del bano de aceite,
Temperatura acero (T )
1450 oF1525 oF1600 oF
Temperatura aceite (t)
70 oF95 oF120 oF
y se han realizado los siguientes experimentos:
x1i 0 0 0 0 -1 1 -1 1 0 0 -1 1x2i 0 0 0 0 -1 -1 1 1 -1 1 0 0yi 49.2 49.4 47.0 49.5 28.2 88.6 54.9 31.3 59.2 43.6 41.9 58.0
donde se ha utilizado la siguiente transformacion (para simplificar calculos)
x1i =Ti − 1525
75y x2i =
ti − 95
25.
Estimar el modelo de regresion
yi = β0 + β1x1i + β2x2i + β3x1ix2i + ui
e indicar que parametros son significativos para nivel de significacion 0.05, teniendo encuenta que la desviacion tıpica residual es sR = 9.6. Estimar y contrastar el modelo anteriorempleando las variables originales Ti y ti.
64. Se ha ajustado un modelo de regresion para estudiar el efecto de la velocidad de corte (x1)y el caudal de refrigerante (x2) en la duracion (y) de una herramienta de corte. Las tresvariables se han transformado mediante el logaritmo neperiano y el modelo estimado ha sido:
log y = 18, 30 − 5, 050 log x1 − 3, 750 log x2
(1,65) (0,19) (0,34)
(entre parentesis se proporcionan las desviaciones tıpicas estimadas de los coeficientes estima-dos del modelo). El numero de observaciones es 32 y la desviacion tıpica residual sR = 0, 24.Obtener los intervalos de confianza (99%) para los tres parametros de la ecuacion de re-gresion. El coeficiente de determinacion es R2 = 0, 96, realizar el contraste conjunto de losparametros correspondientes a las dos variables explicativas.
65. Se ha ajustado el siguiente modelo de regresion multiple con una muestra de 86 vehıculos, delos cuales 31 son japoneses , 41 norteamericanos y 14 europeos, donde la variable dependientees el consumo, y los regresores: Pot (potencia) esta expresada en unidades de 100 Cv, el
21
Peso en Toneladas, ZJ toma el valor 1 si el coche es japones y cero en los demas, y ZE tomael valor 1 para los coches europeos y cero en los demas.
y = 3.305 + 0.843 Pot + 3.829 Peso + 0.440 ZJ + 1.127 ZE s2R = 0.506, R2 = 75.7%
(XTX)−1 =
4.791e− 1 5.054e− 2 −3.794e− 1 −9.157e− 2 −4.682e− 25.054e− 2 1.595e− 1 −1.931e− 1 −3.443e− 3 −1.262e− 2
−3.794e− 1 −1.931e− 1 4.646e− 1 5.210e− 2 2.865e− 2−9.157e− 2 −3.443e− 3 5.210e− 2 6.667e− 2 2.744e− 2−4.682e− 2 −1.262e− 2 2.865e− 2 2.744e− 2 9.759e− 2
Dar el intervalo de confianza para el consumo previsto de un coche norteamericano con unapotencia de 120 Cv y 1600 Kg de peso.
66. El modelo de regresion multiple que relaciona el calor generado en el proceso de endurec-imiento (variable dependiente) de 13 muestras de cemento en funcion de su composicionx1, x2, x3 y x4, es
yi = 62.4 + 1.55 x1i + 0.51 x2i + 0.10 x3i − 0.14 x4i
(70.1) (0.74) (0.72) (0.75) (0.71)
(entre parentesis la desviacion tıpica estimada de las estimaciones de los parametros). Abajose proporciona el coeficiente de determinacion R2 de los 15 modelos de regresion diferentesque se obtienen segun los regresores elegidos.
R2 Variables en el Modelo53.3948 x1
66.6268 x2
28.5873 x3
67.4542 x4
97.8678 x1, x2
54.8167 x1, x3
97.2471 x1, x4
84.7025 x2, x3
68.0060 x2, x4
93.5290 x3, x4
98.2285 x1, x2, x3
98.2335 x1, x2, x4
98.1281 x1, x3, x4
97.2820 x2, x3, x4
98.2376 x1, x2, x3, x4
¿Que variables influyen significativamente en el calor generado? Justificar la respuesta. ¿Quemodelo seleccionarıas para predecir el calor generado?
67. Se desea estudiar la relacion entre el sueldo de 100 personas, en funcion del numero deanos que llevan trabajando y el sector al que pertenecen, pudiendose dividir el sector en
22
S=servicios, I=industria, A=agricultura. Escribir el modelo de regresion entre el sueldo(variable respuesta) y el resto de las variables. Se estima este modelo de regresion obteniendouna varianza residual s2R = 0.25. Con el objetivo de contrastar si el sector influye en el sueldose estima otro modelo de regresion que no contiene ninguna variable de sector, para estemodelo se obtiene una varianza residual s
′ 2R = 0.4. Contrastar si el sector influye en el sueldo
que perciben los empleados (α = 0.05).
68. En un modelo de regresion multiple Y = Xβ+U se realiza la transformacion de los regresoresZ = XA, donde X es la matriz de los regresores, y A una matriz cuadrada de rango maximo.Calcular la estimacion de los coeficientes del nuevo modelo Y = ZβN + U en funcion de losantiguos.
10.64. (S-00) Se ha estimado el siguiente modelo de regresion entre la variable y y los regresoresx1, x2 y x3,
y = 61.1 + 46.1 log x1 + 83.1 logx2 + 27.9 log x3, sR = 5.49
Teniendo en cuenta que el numero de observaciones es n = 60 y que
(XTX)−1 =
0.1939 −0.0892 −0.0887 −0.1534−0.0892 0.1924 −0.0125 0.0010−0.0887 −0.0125 0.2093 −0.0066−0.1534 0.0010 −0.0066 0.2613
Dar un intervalo de confianza para los 4 parametros de la ecuacion de regresion y para la varianzadel modelo (α = 0.05).
69. Se ha estimado un modelo de regresion multiple para explicar el consumo de combustiblede automoviles en funcion del peso, la potencia y el lugar de fabricacion. La muestra es de86 vehıculos, de los cuales 31 son japoneses (J), 41 norteamericanos (N) y 14 europeos (E).
y = 3.305 + 0.843 Pot + 3.829 Peso + 0.440 ZJ + 1.127 ZE, s2R = 0.506, R2 = 75.7%
(XTX)−1 =
4.791e− 1 5.054e− 2 −3.794e− 1 −9.157e− 2 −4.682e− 25.054e− 2 1.595e− 1 −1.931e− 1 −3.443e− 3 −1.262e− 2
−3.794e− 1 −1.931e− 1 4.646e− 1 5.210e− 2 2.865e− 2−9.157e− 2 −3.443e− 3 5.210e− 2 6.667e− 2 2.744e− 2−4.682e− 2 −1.262e− 2 2.865e− 2 2.744e− 2 9.759e− 2
La variable dependiente, el consumo, esta medida en litros cada 100 km, Pot es la potenciay esta expresada en unidades de 100 Cv, el Peso en Toneladas, ZJ toma el valor 1 si el cochees japones y cero en los demas, y ZE toma el valor 1 para los coches europeos y cero enlos demas. Realizar el contraste general de regresion y los contrastes individuales para elmodelo anterior. Interpretar el resultado.
70. En una muestra de 31 arboles se ha medido la altura (x1i), el diametro del arbol a un metrode altura sobre el suelo (x2i) y el volumen de madera del tronco (yi) y se ha estimado elsiguiente modelo de regresion
log(yi) = β0 + β1 log(x1i) + β2 log(x2i) + ui.
Los resultados se muestran en las tablas siguientes:
23
Analisis de regresion multiple
Variable dependiente: Log(Volumen)Regresor Estimacion Desviacion tıpica Estadıstico t Nivel crıticoOrdenada en el origen -6,63162 0,79979 -8,2917 0,0Log(Altura) 1,11712 0,20444 -5,4644 0,0Log(Diametro) 1,98265 0,07501 26,4316 0,0
Analisis de la varianza
Fuente Suma de cuadrados G. de L. Varianzas Cociente F Nivel crıticoModelo 8,12323 2 4,06161 613,19 0,0Residual 0,18546 28 0,00662Total 8,30869 30
Aproximando el volumen del arbol por el de un tronco conico, el volumen debe ser proporcionala kx1ix
22i y tomando logaritmos
log(k) + log(x1i) + 2 log(x2i).
Realizar los siguientes contrastes de hipotesis con nivel de significacion 0,05:{H0 : β1 = 1H1 : β1 6= 1
{H ′
0 : β2 = 2H ′
1 : β2 6= 2.
71. Una medida crıtica de calidad en la fundicion de llantas de aluminio por inyeccion es laporosidad. Se ha realizado un diseno 22 replicado (n = 16 experimentos) para analizar laporosidad (Y ) en funcion de la temperatura (T ) del aluminio lıquido y de la presion (P ) conque este se inyecta al molde. El modelo obtenido ha sido
y = 2.84 + 0.59 T - 0.031 P - 0.22 TP
y sR = 0.137 . Indica que efectos son significativos (α = 0.05) y las condiciones optimas defabricacion
72. En la tabla siguiente se presenta la estimacion de la regresion entre el resultado en la pruebadel salto de longitud de 34 atletas y los tiempos de estos mismos atletas en las pruebas de100 metros lisos, 110 metros valla, 400 metros y 1500 metros.
Coeficientes
βi Desv. T. t p-valorConstante 17.9 2.12 8.45 0.000X1 (100 m) -.462 .266 -1.73 0.093X2 (110 m) -.181 .124 -1.45 0.155X3 (400 m) -3.39E-02 .070 -.485 0.631X4 (1500 m) -4.47E-03 .004 -1.03 0.312
La variabilidad total de los datos es 4.613, la variabilidad explicada 2.199 y la variabilidadresidual 2.413. Realizar el contraste general de regresion, e interpretar el resultado delcontraste y los contrastes individuales de la tabla.
24