simulacion monte carlo

INSESGADEZ Y EFICIENCIA DE LOS ESTIMADORES MCO

Esta secuencia es material complementario: la simulación de Monte Carlo no es objeto de examen

INSESGADEZ Y EFICIENCIA

•  Los estimadores b1 y b2 del modelo de regresión simple son variables aleatorias: con cada muestra concreta, obtendremos valores diferentes para estos coeficientes

•  El atractivo del método MCO es que, bajo los supuestos del modelo, b1 y b2 tienen buenas propiedades: son insesgados consistentes y eficientes dentro de los de su clase

•  En esta secuencia vamos a emplear un experimento de Monte Carlo para ilustrar las propiedades de insesgadez y eficiencia

•  Un experimento de Monte Carlo consiste en un ejercicio de simulación para evaluar algún aspecto de interés, en este caso las propiedades mencionadas

•  Este tipo de experimentos son cada vez más frecuentes en la econometría actual

Elegir el modelo en el que Y depende de X, los parámetros

y u

Elegir datos X

Elegir valores de parametros

Elegir la distribución

de u

Modelo

Generar los valores de Y

Y = β1 + β2X + u

X = 1, 2, ... , 20

β1 = 2.0 β2 = 0.5

u is independent

N(0,1)

Y = 2.0 + 0.5X + u

Generate the values of Y

Mostramos el esquema a seguir …



y u

Elegir datos X



de u

Modelo


Y = β1 + β2X + u

X = 1, 2, ... , 20

β1 = 2.0 β2 = 0.5

u is independent

N(0,1)

Y = 2.0 + 0.5X + u


Asumiremos que Y está determinado por una variable X y un término de error u, elegiremos datos para X y valores para los parámetros



y u

Elegir datos X



de u

Modelo


Y = β1 + β2X + u

X = 1, 2, ... , 20

β1 = 2.0 β2 = 0.5

u is independent

N(0,1)

Y = 2.0 + 0.5X + u


También generaremos valores para u a partir de una distribución conocida (normal)



y u

Elegir datos X



de u

Modelo


Y = β1 + β2X + u

X = 1, 2, ... , 20

β1 = 2.0 β2 = 0.5

u is independent

N(0,1)

Y = 2.0 + 0.5X + u


Los valores de Y en la muestra estarán determinados por los de X , los de valores de los parámetros que en este ejercicio asumiremos conocidos y los del término de perturbación


Elegir el modelo en el que Y dedende de X, los parámetros

y u

Datos para X

Valores de los para-

metros

Distribucion de u

Modelo

Generar los valores deY

Estimadores

Estimar los valores de los parámetros

Y = β1 + β2X + u

X = 1, 2, ... , 20

β1 = 2.0 β2 = 0.5

u is independent

N(0,1)

Y = 2.0 + 0.5X + u


Entonces usaremos la técnica de la regresión para estimar los valores de los parámetros a partir únicamente de los valores de Y y X.



y u

Datos para X


metros

Distribucion de u

Modelo


Estimadores


Y = β1 + β2X + u

X = 1, 2, ... , 20

β1 = 2.0 β2 = 0.5

u is independent

N(0,1)

Y = 2.0 + 0.5X + u


Repetiremos el proceso indefinidamente manteniendo siempre los mismos valores para X y los parámetros, pero usando nuevos valores para u generados aleatoriamente a partir de la misma distribución de probabilidad.



y u

Datos para X


metros

Distribucion de u

Modelo


Estimadores


Y = β1 + β2X + u

X = 1, 2, ... , 20

β1 = 2.0 β2 = 0.5

u is independent

N(0,1)

Y = 2.0 + 0.5X + u


De esta forma encontraremos las distribuciones de probabilidad de los estimadores MCO, lo que nos permitirá por ejemplo, contrastar si son sesgados o insesgados.



y u

Datos para X


metros

Distribucion de u

Modelo


Estimadores


Y = β1 + β2X + u

X = 1, 2, ... , 20

β1 = 2.0 β2 = 0.5

u is independent

N(0,1)

Y = 2.0 + 0.5X + u


En el experimento tenemos una muestra de 20 obs. X toma los valores 1, 2, …, 100. β1 es igual 2 y β2 es igual a 0.5.

Y = β1 + β2X + u

X = 1, 2, ... , 20

β1 = 2.0 β2 = 0.5

u es inde- pendiente

N(0,1)

Y = 2.0 + 0.5X + u

Generar valores de Y



y u

Datos para X


metros

Distribucion de u

Modelo


Estimadores


Y = β1 + β2X + u

X = 1, 2, ... , 20

β1 = 2.0 β2 = 0.5

u is independent

N(0,1)

Y = 2.0 + 0.5X + u


Regresamos Y sobre X por MCO y vemos cuánto se acercan b1 y b2 a β1 y β2.

Y = β1 + β2X + u

X = 1, 2, ... , 20

β1 = 2.0 β2 = 0.5


N(0,1)

Y = 2.0 + 0.5X + u


( )( )( )∑

∑−

−−= 22 XX

YYXXb

i

ii XbYb 21 −=



X 2.0+0.5X u Y X 2.0+0.5X u Y

1 11 2 12 3 13 4 14 5 15 6 16 7 17 8 18 9 19

10 20

Y = 2.0 + 0.5X + u

Aquí tenemos los valores de X, arbitrariamente elegidos.


X 2.0+0.5X u Y X 2.0+0.5X u Y

1 2.5 11 7.5 2 3.0 12 8.0 3 3.5 13 8.5 4 4.0 14 9.0 5 4.5 15 9.5 6 5.0 16 10.0 7 5.5 17 10.5 8 6.0 18 11.0 9 6.5 19 11.5

10 7.0 20 12.0

Y = 2.0 + 0.5X + u

Dados los valores de β1 and β2, podemos obtener el componente no estocástico de Y.


Se muestra gráficamente el componente no estocástico.

0.00

2.00

4.00

6.00

8.00

10.00

12.00

14.00

0.00 5.00 10.00 15.00 20.00

XY 5.00.2 +=Y

X


X 2.0+0.5X u Y X 2.0+0.5X u Y

1 2.5 -0.59 11 7.5 1.59 2 3.0 -0.24 12 8.0 -0.92 3 3.5 -0.83 13 8.5 -0.71 4 4.0 0.03 14 9.0 -0.25 5 4.5 -0.38 15 9.5 1.69 6 5.0 -2.19 16 10.0 0.15 7 5.5 1.03 17 10.5 0.02 8 6.0 0.24 18 11.0 -0.11 9 6.5 2.53 19 11.5 -0.91

10 7.0 -0.13 20 12.0 1.42

Y = 2.0 + 0.5X + u

A continuacióngeneramos raleatoriamente los valores del error para cada observacion usando la distribución N(0,1).


X 2.0+0.5X u Y X 2.0+0.5X u Y

1 2.5 -0.59 1.91 11 7.5 1.59 2 3.0 -0.24 12 8.0 -0.92 3 3.5 -0.83 13 8.5 -0.71 4 4.0 0.03 14 9.0 -0.25 5 4.5 -0.38 15 9.5 1.69 6 5.0 -2.19 16 10.0 0.15 7 5.5 1.03 17 10.5 0.02 8 6.0 0.24 18 11.0 -0.11 9 6.5 2.53 19 11.5 -0.91

10 7.0 -0.13 20 12.0 1.42

Y = 2.0 + 0.5X + u

Así el primer valor de Y es 1.91 en lugar de 2.50.


X 2.0+0.5X u Y X 2.0+0.5X u Y

1 2.5 -0.59 1.91 11 7.5 1.59 9.09 2 3.0 -0.24 2.76 12 8.0 -0.92 7.08 3 3.5 -0.83 2.67 13 8.5 -0.71 7.79 4 4.0 0.03 4.03 14 9.0 -0.25 8.75 5 4.5 -0.38 4.12 15 9.5 1.69 11.19 6 5.0 -2.19 2.81 16 10.0 0.15 10.15 7 5.5 1.03 6.53 17 10.5 0.02 10.52 8 6.0 0.24 6.24 18 11.0 -0.11 10.89 9 6.5 2.53 9.03 19 11.5 -0.91 10.59

10 7.0 -0.13 6.87 20 12.0 1.42 13.42

De forma análoga, generamos el resto de valores de Y.

Y = 2.0 + 0.5X + u


Se muestran ahora gráficamente estas 20 observaciones

0.00

2.00

4.00

6.00

8.00

10.00

12.00

14.00

0.00 5.00 10.00 15.00 20.00

Y

X



y u

Datos para X


metros

Distribucion de u

Modelo


Estimadores


Y = β1 + β2X + u

X = 1, 2, ... , 20

β1 = 2.0 β2 = 0.5

u is independent

N(0,1)

Y = 2.0 + 0.5X + u


Se muestra el punto alcanzado hasta ahora en el experimento.

Y = β1 + β2X + u

X = 1, 2, ... , 20

β1 = 2.0 β2 = 0.5


N(0,1)

Y = 2.0 + 0.5X + u



Aplicamos MCO a los datos y vemos si los estimadores b1, b2 se corresponden más o menos con los verdaderos valores.

Elegir el modelo en el que Y depende de X, los parámetros,

y u

Datos para X


metros

Distribución para u

Modelo


Estimadores

Estimar los valores de los parametros

Y = β1 + β2X + u

X = 1, 2, ... , 20

β1 = 2.0 β2 = 0.5

u es inde-pendiente

N(0,1)

Y = 2.0 + 0.5X + u


Estimar los valores de los parametros

XbYb 21 −=( )( )

( )∑∑

−

−−= 22 XX

YYXXb

i

ii


Aquí tenemos de nuevo el diagrama de dispersión.

0.00

2.00

4.00

6.00

8.00

10.00

12.00

14.00

0.00 5.00 10.00 15.00 20.00

Y

X


Los estimadores de la regresión usan solo los datos observados de X eY.

0.00

2.00

4.00

6.00

8.00

10.00

12.00

14.00

0.00 5.00 10.00 15.00 20.00

Y

X


Esta es la recta de regresión ajustada a los datos

0.00

2.00

4.00

6.00

8.00

10.00

12.00

14.00

0.00 5.00 10.00 15.00 20.00

Y

X

XY 54.063.1ˆ +=


Para comparar, se muestra el componente no estocástico de la verdadera relación. β2 (verdadero valor 0.50) ha sido sobrestimado y β1 (verdadero valor 2.00) subestimado.

0.00

2.00

4.00

6.00

8.00

10.00

12.00

14.00

0.00 5.00 10.00 15.00 20.00

Y

X

XY 54.063.1ˆ +=


Repetimos el proceso comenzando con el mismo componente no estocástico de Y.

0.00

2.00

4.00

6.00

8.00

10.00

12.00

14.00

0.00 5.00 10.00 15.00 20.00

Y

X

XY 5.00.2 +=


Como antes, los valores de Y se modifican al incorporar el componente estocástico generado de nuevo aleatoriamente a partir de una distribución N(0, 1).

0.00

2.00

4.00

6.00

8.00

10.00

12.00

14.00

0.00 5.00 10.00 15.00 20.00

Y

X


Obviamente los nuevos valores del error serán diferentes.

0.00

2.00

4.00

6.00

8.00

10.00

12.00

14.00

0.00 5.00 10.00 15.00 20.00

Y

X


Esta vez el coeficiente de pendiente ha sido subestimado y el intercepto sobrestimado.

0.00

2.00

4.00

6.00

8.00

10.00

12.00

14.00

0.00 5.00 10.00 15.00 20.00

Y

X

XY 48.052.2ˆ +=


Repetimos el proceso una vez más.

0.00

2.00

4.00

6.00

8.00

10.00

12.00

14.00

0.00 5.00 10.00 15.00 20.00

Y

X

XY 5.00.2 +=


Un nuevo conjunto de números aleatorios es empleado para generar los valores de Y.

0.00

2.00

4.00

6.00

8.00

10.00

12.00

14.00

0.00 5.00 10.00 15.00 20.00

Y

X


De nuevo la pendiente resulta subestimada y la constante sobrestimada.

0.00

2.00

4.00

6.00

8.00

10.00

12.00

14.00

0.00 5.00 10.00 15.00 20.00

Y

X

XY 45.013.2ˆ +=


La tabla resume los resultados de las tres regresiones realizadas y otras siete más.

replicacion b1 b2

1 1.63 0.54 2 2.52 0.48 3 2.13 0.45 4 2.14 0.50 5 1.71 0.56 6 1.81 0.51 7 1.72 0.56 8 3.18 0.41 9 1.26 0.58

10 1.94 0.52


Este es el histograma de las estimaciones para β2. No se puede decir gran cosa de momento.

0

2

4

6

8

10

12

0.40 0.45 0.50 0.55 0.60

10 réplicas


Esta tabla muestra los resultados para β2 después de repetir 50 veces el experimento

1-10 11-20 21-30 31-40 41-50

0.54 0.49 0.54 0.52 0.49 0.48 0.54 0.46 0.47 0.50 0.45 0.49 0.45 0.54 0.48 0.50 0.54 0.50 0.53 0.44 0.56 0.54 0.41 0.51 0.53 0.51 0.52 0.53 0.51 0.48 0.56 0.49 0.53 0.47 0.47 0.41 0.53 0.47 0.55 0.50 0.58 0.60 0.51 0.51 0.53

0.52 0.48 0.47 0.58 0.51


Aquí el histograma ya permite ver una clara tendencia central.

0

2

4

6

8

10

12

0.40 0.45 0.50 0.55 0.60

50 réplicas



Este es el histograma con 100 repeticiones. Puede observarse que la distribución parece simétrica en torno al verdadero valor del parámetro (0.50), lo que implicaría un estimador insesgado.

0

2

4

6

8

10

12

0.40 0.45 0.50 0.55 0.60

100 réplicas

Sin embargo la distribución es todavía poco clara. Sería mejor repetir muchas más veces el experimento (1000.000 o más)

0

2

4

6

8

10

12

0.40 0.45 0.50 0.55 0.60

100 réplicas


La curva roja muestra la forma de la distribución que se obtendría en el límite. Es simétrica en torno al verdadero parámetro poblacional, indicando la insesgadez del estimador.

0

2

4

6

8

10

12

0.40 0.45 0.50 0.55 0.60

100 réplicas


La distribución es normal porque el término de error se ha extraído de una distribución normal.

0

2

4

6

8

10

12

0.40 0.45 0.50 0.55 0.60

100 réplicas


En esta figura se muestra cómo disminuye la varianza a medida que aumenta el número de repeticiones

.48 .49 .50 .51 .52

Den

sity

500 réplicas

.48 .49 .50 .51 .52

5000 réplicas


En todo caso queda claro que el estimador MCO es insesgado. Sin embargo no es este el único estimador insesgado que cabe considerar

.48 .49 .50 .51 .52

Den

sity

500 réplicas

.48 .49 .50 .51 .52

5000 réplicas


12

1

n

n

Y YbX X

−=

−

Por ejemplo, el siguiente estimador

también es insesgado:

( )

1 1 2 1 2 12 2

1 1 1

2 2 1 21

( ) ( )

1y ( ) ( )

n n n n n n

n n n

nn

Y Y X u X u u ubX X X X X X

E b E E u uX X

β β β ββ

β β

− + + − + + −= = = +

− − −

= + − =−

dado que la esperanza de una constante (β2) es la misma constante y por hipótesis la esperanza de ui es nula para todo i


Si llevamos a cabo el experimento de Monte Carlo con este estimador, comprobamos que se obtiene asimismo un estimador centrado (insesgado) como puede verse en la figura

100 réplicas

0

2

4

6

8

10

12

.494 .495 .496 .497 .498 .499 .500 .501 .502 .503 .504 .505

Frequency



•  Por tanto atendiendo al criterio de insesgadez no hay diferencia entre ambos estimadores: ambos son centrados

•  Sin embargo el primero debe ser de mejor calidad dado que aprovecha mejor la información muestral: en el segundo solo se tienen en cuenta dos observaciones, mientras que el MCO se construye con todas ellas

•  El teorema de Gauss Markov señala que el estimador MCO es el más eficiente entre los de su clase. Puesto que el estimador alternativo pertenece a dicha clase su eficiencia debe ser menor

•  Entre dos estimadores insesgados es más eficiente el que tiene menor varianza

•  Vamos a comprobar que esto es así utilizando la simulación de Monte Carlo que venimos llevando a cabo

Puede verse en el eje horizontal que el rango de variación del estimador MCO es sensiblemente menor que la del estimador alternativo

100 réplicas

0

2

4

6

8

10

12

.498 .499 .500 .501 .502

Frequency

MCO

0

2

4

6

8

10

12

.494 .496 .498 .500 .502 .504 .506

Frequency

Alternativo


0

2

4

6

8

10

12

0.4980 0.4985 0.4990 0.4995 0.5000 0.5005 0.5010 0.5015

Estimador MCOSample 1 100Observations 100

Mean 0.499974Median 0.499975Maximum 0.501609Minimum 0.498077Std. Dev. 0.000724Skewness 0.136100Kurtosis 2.725886

Jarque-Bera 0.621797Probability 0.732788

COEFICIENTES DE REGRESIÓN COMO VARIABLES ALEATORIAS

Se comprueba que la desviación estándar del estimador MCO es mucho menor

0

2

4

6

8

10

12

0.494 0.496 0.498 0.500 0.502 0.504

Estimador altertativoSample 1 100Observations 100

Mean 0.500004Median 0.500245Maximum 0.504864Minimum 0.494036Std. Dev. 0.002608Skewness -0.282229Kurtosis 2.455820

Jarque-Bera 2.561442Probability 0.277837

simulacion monte carlo

Documents