simulacion monte carlo
TRANSCRIPT
INSESGADEZ Y EFICIENCIA DE LOS ESTIMADORES MCO
Esta secuencia es material complementario: la simulación de Monte Carlo no es objeto de examen
INSESGADEZ Y EFICIENCIA
• Los estimadores b1 y b2 del modelo de regresión simple son variables aleatorias: con cada muestra concreta, obtendremos valores diferentes para estos coeficientes
• El atractivo del método MCO es que, bajo los supuestos del modelo, b1 y b2 tienen buenas propiedades: son insesgados consistentes y eficientes dentro de los de su clase
• En esta secuencia vamos a emplear un experimento de Monte Carlo para ilustrar las propiedades de insesgadez y eficiencia
• Un experimento de Monte Carlo consiste en un ejercicio de simulación para evaluar algún aspecto de interés, en este caso las propiedades mencionadas
• Este tipo de experimentos son cada vez más frecuentes en la econometría actual
Elegir el modelo en el que Y depende de X, los parámetros
y u
Elegir datos X
Elegir valores de parametros
Elegir la distribución
de u
Modelo
Generar los valores de Y
Y = β1 + β2X + u
X = 1, 2, ... , 20
β1 = 2.0 β2 = 0.5
u is independent
N(0,1)
Y = 2.0 + 0.5X + u
Generate the values of Y
Mostramos el esquema a seguir …
INSESGADEZ Y EFICIENCIA
Elegir el modelo en el que Y depende de X, los parámetros
y u
Elegir datos X
Elegir valores de parametros
Elegir la distribución
de u
Modelo
Generar los valores de Y
Y = β1 + β2X + u
X = 1, 2, ... , 20
β1 = 2.0 β2 = 0.5
u is independent
N(0,1)
Y = 2.0 + 0.5X + u
Generate the values of Y
Asumiremos que Y está determinado por una variable X y un término de error u, elegiremos datos para X y valores para los parámetros
INSESGADEZ Y EFICIENCIA
Elegir el modelo en el que Y depende de X, los parámetros
y u
Elegir datos X
Elegir valores de parametros
Elegir la distribución
de u
Modelo
Generar los valores de Y
Y = β1 + β2X + u
X = 1, 2, ... , 20
β1 = 2.0 β2 = 0.5
u is independent
N(0,1)
Y = 2.0 + 0.5X + u
Generate the values of Y
También generaremos valores para u a partir de una distribución conocida (normal)
INSESGADEZ Y EFICIENCIA
Elegir el modelo en el que Y depende de X, los parámetros
y u
Elegir datos X
Elegir valores de parametros
Elegir la distribución
de u
Modelo
Generar los valores de Y
Y = β1 + β2X + u
X = 1, 2, ... , 20
β1 = 2.0 β2 = 0.5
u is independent
N(0,1)
Y = 2.0 + 0.5X + u
Generate the values of Y
Los valores de Y en la muestra estarán determinados por los de X , los de valores de los parámetros que en este ejercicio asumiremos conocidos y los del término de perturbación
INSESGADEZ Y EFICIENCIA
Elegir el modelo en el que Y dedende de X, los parámetros
y u
Datos para X
Valores de los para-
metros
Distribucion de u
Modelo
Generar los valores deY
Estimadores
Estimar los valores de los parámetros
Y = β1 + β2X + u
X = 1, 2, ... , 20
β1 = 2.0 β2 = 0.5
u is independent
N(0,1)
Y = 2.0 + 0.5X + u
Generate the values of Y
Entonces usaremos la técnica de la regresión para estimar los valores de los parámetros a partir únicamente de los valores de Y y X.
INSESGADEZ Y EFICIENCIA
Elegir el modelo en el que Y dedende de X, los parámetros
y u
Datos para X
Valores de los para-
metros
Distribucion de u
Modelo
Generar los valores deY
Estimadores
Estimar los valores de los parámetros
Y = β1 + β2X + u
X = 1, 2, ... , 20
β1 = 2.0 β2 = 0.5
u is independent
N(0,1)
Y = 2.0 + 0.5X + u
Generate the values of Y
Repetiremos el proceso indefinidamente manteniendo siempre los mismos valores para X y los parámetros, pero usando nuevos valores para u generados aleatoriamente a partir de la misma distribución de probabilidad.
INSESGADEZ Y EFICIENCIA
Elegir el modelo en el que Y dedende de X, los parámetros
y u
Datos para X
Valores de los para-
metros
Distribucion de u
Modelo
Generar los valores deY
Estimadores
Estimar los valores de los parámetros
Y = β1 + β2X + u
X = 1, 2, ... , 20
β1 = 2.0 β2 = 0.5
u is independent
N(0,1)
Y = 2.0 + 0.5X + u
Generate the values of Y
De esta forma encontraremos las distribuciones de probabilidad de los estimadores MCO, lo que nos permitirá por ejemplo, contrastar si son sesgados o insesgados.
INSESGADEZ Y EFICIENCIA
Elegir el modelo en el que Y dedende de X, los parámetros
y u
Datos para X
Valores de los para-
metros
Distribucion de u
Modelo
Generar los valores deY
Estimadores
Estimar los valores de los parámetros
Y = β1 + β2X + u
X = 1, 2, ... , 20
β1 = 2.0 β2 = 0.5
u is independent
N(0,1)
Y = 2.0 + 0.5X + u
Generate the values of Y
En el experimento tenemos una muestra de 20 obs. X toma los valores 1, 2, …, 100. β1 es igual 2 y β2 es igual a 0.5.
Y = β1 + β2X + u
X = 1, 2, ... , 20
β1 = 2.0 β2 = 0.5
u es inde- pendiente
N(0,1)
Y = 2.0 + 0.5X + u
Generar valores de Y
INSESGADEZ Y EFICIENCIA
Elegir el modelo en el que Y dedende de X, los parámetros
y u
Datos para X
Valores de los para-
metros
Distribucion de u
Modelo
Generar los valores deY
Estimadores
Estimar los valores de los parámetros
Y = β1 + β2X + u
X = 1, 2, ... , 20
β1 = 2.0 β2 = 0.5
u is independent
N(0,1)
Y = 2.0 + 0.5X + u
Generate the values of Y
Regresamos Y sobre X por MCO y vemos cuánto se acercan b1 y b2 a β1 y β2.
Y = β1 + β2X + u
X = 1, 2, ... , 20
β1 = 2.0 β2 = 0.5
u es inde- pendiente
N(0,1)
Y = 2.0 + 0.5X + u
Generar valores de Y
( )( )( )∑
∑−
−−= 22 XX
YYXXb
i
ii XbYb 21 −=
Estimar los valores de los parámetros
INSESGADEZ Y EFICIENCIA
X 2.0+0.5X u Y X 2.0+0.5X u Y
1 11 2 12 3 13 4 14 5 15 6 16 7 17 8 18 9 19
10 20
Y = 2.0 + 0.5X + u
Aquí tenemos los valores de X, arbitrariamente elegidos.
INSESGADEZ Y EFICIENCIA
X 2.0+0.5X u Y X 2.0+0.5X u Y
1 2.5 11 7.5 2 3.0 12 8.0 3 3.5 13 8.5 4 4.0 14 9.0 5 4.5 15 9.5 6 5.0 16 10.0 7 5.5 17 10.5 8 6.0 18 11.0 9 6.5 19 11.5
10 7.0 20 12.0
Y = 2.0 + 0.5X + u
Dados los valores de β1 and β2, podemos obtener el componente no estocástico de Y.
INSESGADEZ Y EFICIENCIA
Se muestra gráficamente el componente no estocástico.
0.00
2.00
4.00
6.00
8.00
10.00
12.00
14.00
0.00 5.00 10.00 15.00 20.00
XY 5.00.2 +=Y
X
INSESGADEZ Y EFICIENCIA
X 2.0+0.5X u Y X 2.0+0.5X u Y
1 2.5 -0.59 11 7.5 1.59 2 3.0 -0.24 12 8.0 -0.92 3 3.5 -0.83 13 8.5 -0.71 4 4.0 0.03 14 9.0 -0.25 5 4.5 -0.38 15 9.5 1.69 6 5.0 -2.19 16 10.0 0.15 7 5.5 1.03 17 10.5 0.02 8 6.0 0.24 18 11.0 -0.11 9 6.5 2.53 19 11.5 -0.91
10 7.0 -0.13 20 12.0 1.42
Y = 2.0 + 0.5X + u
A continuacióngeneramos raleatoriamente los valores del error para cada observacion usando la distribución N(0,1).
INSESGADEZ Y EFICIENCIA
X 2.0+0.5X u Y X 2.0+0.5X u Y
1 2.5 -0.59 1.91 11 7.5 1.59 2 3.0 -0.24 12 8.0 -0.92 3 3.5 -0.83 13 8.5 -0.71 4 4.0 0.03 14 9.0 -0.25 5 4.5 -0.38 15 9.5 1.69 6 5.0 -2.19 16 10.0 0.15 7 5.5 1.03 17 10.5 0.02 8 6.0 0.24 18 11.0 -0.11 9 6.5 2.53 19 11.5 -0.91
10 7.0 -0.13 20 12.0 1.42
Y = 2.0 + 0.5X + u
Así el primer valor de Y es 1.91 en lugar de 2.50.
INSESGADEZ Y EFICIENCIA
X 2.0+0.5X u Y X 2.0+0.5X u Y
1 2.5 -0.59 1.91 11 7.5 1.59 9.09 2 3.0 -0.24 2.76 12 8.0 -0.92 7.08 3 3.5 -0.83 2.67 13 8.5 -0.71 7.79 4 4.0 0.03 4.03 14 9.0 -0.25 8.75 5 4.5 -0.38 4.12 15 9.5 1.69 11.19 6 5.0 -2.19 2.81 16 10.0 0.15 10.15 7 5.5 1.03 6.53 17 10.5 0.02 10.52 8 6.0 0.24 6.24 18 11.0 -0.11 10.89 9 6.5 2.53 9.03 19 11.5 -0.91 10.59
10 7.0 -0.13 6.87 20 12.0 1.42 13.42
De forma análoga, generamos el resto de valores de Y.
Y = 2.0 + 0.5X + u
INSESGADEZ Y EFICIENCIA
Se muestran ahora gráficamente estas 20 observaciones
0.00
2.00
4.00
6.00
8.00
10.00
12.00
14.00
0.00 5.00 10.00 15.00 20.00
Y
X
INSESGADEZ Y EFICIENCIA
Elegir el modelo en el que Y dedende de X, los parámetros
y u
Datos para X
Valores de los para-
metros
Distribucion de u
Modelo
Generar los valores deY
Estimadores
Estimar los valores de los parámetros
Y = β1 + β2X + u
X = 1, 2, ... , 20
β1 = 2.0 β2 = 0.5
u is independent
N(0,1)
Y = 2.0 + 0.5X + u
Generate the values of Y
Se muestra el punto alcanzado hasta ahora en el experimento.
Y = β1 + β2X + u
X = 1, 2, ... , 20
β1 = 2.0 β2 = 0.5
u es inde- pendiente
N(0,1)
Y = 2.0 + 0.5X + u
Generar valores de Y
INSESGADEZ Y EFICIENCIA
Aplicamos MCO a los datos y vemos si los estimadores b1, b2 se corresponden más o menos con los verdaderos valores.
Elegir el modelo en el que Y depende de X, los parámetros,
y u
Datos para X
Valores de los para-
metros
Distribución para u
Modelo
Generar los valores de Y
Estimadores
Estimar los valores de los parametros
Y = β1 + β2X + u
X = 1, 2, ... , 20
β1 = 2.0 β2 = 0.5
u es inde-pendiente
N(0,1)
Y = 2.0 + 0.5X + u
Generar los valores de Y
Estimar los valores de los parametros
XbYb 21 −=( )( )
( )∑∑
−
−−= 22 XX
YYXXb
i
ii
INSESGADEZ Y EFICIENCIA
Aquí tenemos de nuevo el diagrama de dispersión.
0.00
2.00
4.00
6.00
8.00
10.00
12.00
14.00
0.00 5.00 10.00 15.00 20.00
Y
X
INSESGADEZ Y EFICIENCIA
Los estimadores de la regresión usan solo los datos observados de X eY.
0.00
2.00
4.00
6.00
8.00
10.00
12.00
14.00
0.00 5.00 10.00 15.00 20.00
Y
X
INSESGADEZ Y EFICIENCIA
Esta es la recta de regresión ajustada a los datos
0.00
2.00
4.00
6.00
8.00
10.00
12.00
14.00
0.00 5.00 10.00 15.00 20.00
Y
X
XY 54.063.1ˆ +=
INSESGADEZ Y EFICIENCIA
Para comparar, se muestra el componente no estocástico de la verdadera relación. β2 (verdadero valor 0.50) ha sido sobrestimado y β1 (verdadero valor 2.00) subestimado.
0.00
2.00
4.00
6.00
8.00
10.00
12.00
14.00
0.00 5.00 10.00 15.00 20.00
Y
X
XY 54.063.1ˆ +=
INSESGADEZ Y EFICIENCIA
Repetimos el proceso comenzando con el mismo componente no estocástico de Y.
0.00
2.00
4.00
6.00
8.00
10.00
12.00
14.00
0.00 5.00 10.00 15.00 20.00
Y
X
XY 5.00.2 +=
INSESGADEZ Y EFICIENCIA
Como antes, los valores de Y se modifican al incorporar el componente estocástico generado de nuevo aleatoriamente a partir de una distribución N(0, 1).
0.00
2.00
4.00
6.00
8.00
10.00
12.00
14.00
0.00 5.00 10.00 15.00 20.00
Y
X
INSESGADEZ Y EFICIENCIA
Obviamente los nuevos valores del error serán diferentes.
0.00
2.00
4.00
6.00
8.00
10.00
12.00
14.00
0.00 5.00 10.00 15.00 20.00
Y
X
INSESGADEZ Y EFICIENCIA
Esta vez el coeficiente de pendiente ha sido subestimado y el intercepto sobrestimado.
0.00
2.00
4.00
6.00
8.00
10.00
12.00
14.00
0.00 5.00 10.00 15.00 20.00
Y
X
XY 48.052.2ˆ +=
INSESGADEZ Y EFICIENCIA
Repetimos el proceso una vez más.
0.00
2.00
4.00
6.00
8.00
10.00
12.00
14.00
0.00 5.00 10.00 15.00 20.00
Y
X
XY 5.00.2 +=
INSESGADEZ Y EFICIENCIA
Un nuevo conjunto de números aleatorios es empleado para generar los valores de Y.
0.00
2.00
4.00
6.00
8.00
10.00
12.00
14.00
0.00 5.00 10.00 15.00 20.00
Y
X
INSESGADEZ Y EFICIENCIA
De nuevo la pendiente resulta subestimada y la constante sobrestimada.
0.00
2.00
4.00
6.00
8.00
10.00
12.00
14.00
0.00 5.00 10.00 15.00 20.00
Y
X
XY 45.013.2ˆ +=
INSESGADEZ Y EFICIENCIA
La tabla resume los resultados de las tres regresiones realizadas y otras siete más.
replicacion b1 b2
1 1.63 0.54 2 2.52 0.48 3 2.13 0.45 4 2.14 0.50 5 1.71 0.56 6 1.81 0.51 7 1.72 0.56 8 3.18 0.41 9 1.26 0.58
10 1.94 0.52
INSESGADEZ Y EFICIENCIA
Este es el histograma de las estimaciones para β2. No se puede decir gran cosa de momento.
0
2
4
6
8
10
12
0.40 0.45 0.50 0.55 0.60
10 réplicas
INSESGADEZ Y EFICIENCIA
Esta tabla muestra los resultados para β2 después de repetir 50 veces el experimento
1-10 11-20 21-30 31-40 41-50
0.54 0.49 0.54 0.52 0.49 0.48 0.54 0.46 0.47 0.50 0.45 0.49 0.45 0.54 0.48 0.50 0.54 0.50 0.53 0.44 0.56 0.54 0.41 0.51 0.53 0.51 0.52 0.53 0.51 0.48 0.56 0.49 0.53 0.47 0.47 0.41 0.53 0.47 0.55 0.50 0.58 0.60 0.51 0.51 0.53
0.52 0.48 0.47 0.58 0.51
INSESGADEZ Y EFICIENCIA
Aquí el histograma ya permite ver una clara tendencia central.
0
2
4
6
8
10
12
0.40 0.45 0.50 0.55 0.60
50 réplicas
INSESGADEZ Y EFICIENCIA
INSESGADEZ Y EFICIENCIA
Este es el histograma con 100 repeticiones. Puede observarse que la distribución parece simétrica en torno al verdadero valor del parámetro (0.50), lo que implicaría un estimador insesgado.
0
2
4
6
8
10
12
0.40 0.45 0.50 0.55 0.60
100 réplicas
Sin embargo la distribución es todavía poco clara. Sería mejor repetir muchas más veces el experimento (1000.000 o más)
0
2
4
6
8
10
12
0.40 0.45 0.50 0.55 0.60
100 réplicas
INSESGADEZ Y EFICIENCIA
La curva roja muestra la forma de la distribución que se obtendría en el límite. Es simétrica en torno al verdadero parámetro poblacional, indicando la insesgadez del estimador.
0
2
4
6
8
10
12
0.40 0.45 0.50 0.55 0.60
100 réplicas
INSESGADEZ Y EFICIENCIA
La distribución es normal porque el término de error se ha extraído de una distribución normal.
0
2
4
6
8
10
12
0.40 0.45 0.50 0.55 0.60
100 réplicas
INSESGADEZ Y EFICIENCIA
En esta figura se muestra cómo disminuye la varianza a medida que aumenta el número de repeticiones
.48 .49 .50 .51 .52
Den
sity
500 réplicas
.48 .49 .50 .51 .52
5000 réplicas
INSESGADEZ Y EFICIENCIA
En todo caso queda claro que el estimador MCO es insesgado. Sin embargo no es este el único estimador insesgado que cabe considerar
.48 .49 .50 .51 .52
Den
sity
500 réplicas
.48 .49 .50 .51 .52
5000 réplicas
INSESGADEZ Y EFICIENCIA
12
1
n
n
Y YbX X
−=
−
Por ejemplo, el siguiente estimador
también es insesgado:
( )
1 1 2 1 2 12 2
1 1 1
2 2 1 21
( ) ( )
1y ( ) ( )
n n n n n n
n n n
nn
Y Y X u X u u ubX X X X X X
E b E E u uX X
β β β ββ
β β
− + + − + + −= = = +
− − −
= + − =−
dado que la esperanza de una constante (β2) es la misma constante y por hipótesis la esperanza de ui es nula para todo i
INSESGADEZ Y EFICIENCIA
Si llevamos a cabo el experimento de Monte Carlo con este estimador, comprobamos que se obtiene asimismo un estimador centrado (insesgado) como puede verse en la figura
100 réplicas
0
2
4
6
8
10
12
.494 .495 .496 .497 .498 .499 .500 .501 .502 .503 .504 .505
Frequency
INSESGADEZ Y EFICIENCIA
INSESGADEZ Y EFICIENCIA
• Por tanto atendiendo al criterio de insesgadez no hay diferencia entre ambos estimadores: ambos son centrados
• Sin embargo el primero debe ser de mejor calidad dado que aprovecha mejor la información muestral: en el segundo solo se tienen en cuenta dos observaciones, mientras que el MCO se construye con todas ellas
• El teorema de Gauss Markov señala que el estimador MCO es el más eficiente entre los de su clase. Puesto que el estimador alternativo pertenece a dicha clase su eficiencia debe ser menor
• Entre dos estimadores insesgados es más eficiente el que tiene menor varianza
• Vamos a comprobar que esto es así utilizando la simulación de Monte Carlo que venimos llevando a cabo
Puede verse en el eje horizontal que el rango de variación del estimador MCO es sensiblemente menor que la del estimador alternativo
100 réplicas
0
2
4
6
8
10
12
.498 .499 .500 .501 .502
Frequency
MCO
0
2
4
6
8
10
12
.494 .496 .498 .500 .502 .504 .506
Frequency
Alternativo
INSESGADEZ Y EFICIENCIA
0
2
4
6
8
10
12
0.4980 0.4985 0.4990 0.4995 0.5000 0.5005 0.5010 0.5015
Estimador MCOSample 1 100Observations 100
Mean 0.499974Median 0.499975Maximum 0.501609Minimum 0.498077Std. Dev. 0.000724Skewness 0.136100Kurtosis 2.725886
Jarque-Bera 0.621797Probability 0.732788
COEFICIENTES DE REGRESIÓN COMO VARIABLES ALEATORIAS
Se comprueba que la desviación estándar del estimador MCO es mucho menor
0
2
4
6
8
10
12
0.494 0.496 0.498 0.500 0.502 0.504
Estimador altertativoSample 1 100Observations 100
Mean 0.500004Median 0.500245Maximum 0.504864Minimum 0.494036Std. Dev. 0.002608Skewness -0.282229Kurtosis 2.455820
Jarque-Bera 2.561442Probability 0.277837
FIN