introducciÓn a la inferencia bayesiana - inicio · universidad de carabobo aculftad experimental...

207

Upload: hoangdat

Post on 16-Oct-2018

215 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

Universidad de CaraboboFacultad Experimental de Ciencias y Tecnología

Departamento de Matemáticas

INTRODUCCIÓN A LAINFERENCIA BAYESIANA

Profesor: Saba InfanteProfesora: Aracelis HernándezAlumna: Andreina Urquiola

Page 2: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

2

FACYT-MATEMÁTICAS

Page 3: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

Índice general

1. Simulación 7

1.1. Generador Congruencial Lineal . . . . . . . . . . . . . . . . . . . . . 71.2. Método de Inversión para Variables Continuas . . . . . . . . . . . . . 81.3. Método de Inversión para Variables Discretas . . . . . . . . . . . . . 91.4. Funciones del Software R para el Manejo de Distribuciones de

Probabilidad Continuas. . . . . . . . . . . . . . . . . . . . . . . . . . 131.5. Funciones del Software R para el Manejo de Distribuciones de

Probabilidad Discretas . . . . . . . . . . . . . . . . . . . . . . . . . . 151.6. Generación de Bernoulli(p) . . . . . . . . . . . . . . . . . . . . . . . . 171.7. Distribución Binomial Negativa y Geométrica . . . . . . . . . . . . . 171.8. Distribución Weibull . . . . . . . . . . . . . . . . . . . . . . . . . . . 181.9. Distribución Gamma . . . . . . . . . . . . . . . . . . . . . . . . . . . 181.10. Distribución Ji-Cuadrado (χ2) con n Grados de Libertad . . . . . . . 181.11. Distribución F . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191.12. t-Student . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191.13. Inversa Gamma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191.14. Técnicas Bivariadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191.15. Distribución Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . 191.16. Generación de Vectores y Matrices Aleatorias . . . . . . . . . . . . . 22

1.16.1. Transformación Lineal . . . . . . . . . . . . . . . . . . . . . . 221.16.2. Generación de Variables Aleatorias Normales Multivariadas. . 221.16.3. Distribuciones Marginales (Caso d=2) . . . . . . . . . . . . . 23

1.17. Método Más Directo (Método Polar) . . . . . . . . . . . . . . . . . . 231.18. Método de Composición . . . . . . . . . . . . . . . . . . . . . . . . . 251.19. Método de Aceptación y Rechazo . . . . . . . . . . . . . . . . . . . . 251.20. Cociente de Uniformes . . . . . . . . . . . . . . . . . . . . . . . . . . 271.21. Integración Monte Carlo . . . . . . . . . . . . . . . . . . . . . . . . . 291.22. Práctica de Ejercicios del Capítulo 1 . . . . . . . . . . . . . . . . . . 29

3

Page 4: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

ÍNDICE GENERAL 4

2. Fundamentos de la Inferencia Bayesiana 352.1. Inferencia Bayesiana . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

2.1.1. Identi�cación con el Ejemplo 2.1 . . . . . . . . . . . . . . . . . 372.2. El Problema de Inferencia . . . . . . . . . . . . . . . . . . . . . . . . 37

2.2.1. Inferencia Clásica . . . . . . . . . . . . . . . . . . . . . . . . . 382.2.2. Inferencia Bayesiana . . . . . . . . . . . . . . . . . . . . . . . 382.2.3. El Principio de Verosimilitud . . . . . . . . . . . . . . . . . . 392.2.4. Predicción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

2.3. Probabilidad Condicional . . . . . . . . . . . . . . . . . . . . . . . . . 412.4. Regla de la Multiplicación . . . . . . . . . . . . . . . . . . . . . . . . 412.5. Teorema de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 412.6. Práctica de Ejercicios del Capítulo 2 . . . . . . . . . . . . . . . . . . 59

3. Modelos Paramétricos Simples y Múltiples 673.1. Distribuciones a Priori Conjugadas, Familias Exponenciales y Estadís-

ticos Su�cientes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 693.2. Datos Normales con Distribuciones a Priori Conjugadas . . . . . . . . 713.3. Modelo Binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 773.4. Modelo de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . 783.5. Modelo Exponencial . . . . . . . . . . . . . . . . . . . . . . . . . . . 793.6. Ventajas de las Distribuciones Conjugadas . . . . . . . . . . . . . . . 803.7. El Modelo Multinomial . . . . . . . . . . . . . . . . . . . . . . . . . . 823.8. El Modelo Normal Multivariado . . . . . . . . . . . . . . . . . . . . . 833.9. Distribución a Priori para µ con Σ Conocida . . . . . . . . . . . . . . 843.10. La Distribución Normal Multivariada con Media y Varianza Desconocida 853.11. Práctica de Ejercicios del Capítulo 3 . . . . . . . . . . . . . . . . . . 86

4. Elementos de Inferencia 914.1. Información de Fisher . . . . . . . . . . . . . . . . . . . . . . . . . . . 914.2. Naturaleza Secuencial del Teorema de Bayes . . . . . . . . . . . . . . 944.3. Intercambiabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . 944.4. Eliminación de Parámetros. . . . . . . . . . . . . . . . . . . . . . . . 974.5. Familias de Escala y Localización . . . . . . . . . . . . . . . . . . . . 1004.6. Distribuciones a Priori . . . . . . . . . . . . . . . . . . . . . . . . . . 101

4.6.1. Prioris no Informativas . . . . . . . . . . . . . . . . . . . . . . 1014.6.2. Prioris Impropias. . . . . . . . . . . . . . . . . . . . . . . . . . 1094.6.3. Prioris Informativas . . . . . . . . . . . . . . . . . . . . . . . . 1094.6.4. Je�reys (Principio de Invarianza) . . . . . . . . . . . . . . . . 1094.6.5. Priori de Je�reys . . . . . . . . . . . . . . . . . . . . . . . . . 1104.6.6. Principio de Razón Insu�ciente . . . . . . . . . . . . . . . . . 112

4.7. Práctica de Ejercicios del Capítulo 4 . . . . . . . . . . . . . . . . . . 113

FACYT-MATEMÁTICAS

Page 5: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

5 ÍNDICE GENERAL

5. Estimación 1175.1. Métodos Clásicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1175.2. Método Bayesiano . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1175.3. Comparación de Dos Medias. . . . . . . . . . . . . . . . . . . . . . . 118

5.3.1. Solución Usando una Priori Vaga . . . . . . . . . . . . . . . . 1185.4. Datos no Apareados . . . . . . . . . . . . . . . . . . . . . . . . . . . 119

5.4.1. Varianzas Conocidas. . . . . . . . . . . . . . . . . . . . . . . . 1195.4.2. Varianzas Desconocidas pero Iguales . . . . . . . . . . . . . . 1205.4.3. Varianzas Desconocidas . . . . . . . . . . . . . . . . . . . . . 122

5.5. Datos Apareados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1235.6. Estimación por Intervalo Usando el Método Bayesiano . . . . . . . . 1245.7. Razones de Dos Varianzas . . . . . . . . . . . . . . . . . . . . . . . . 1275.8. Estimación Puntual . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1285.9. Práctica de Ejercicios del Capítulo 5 . . . . . . . . . . . . . . . . . . 131

6. Inferencia Sobre Muestras Grandes 1376.1. Aproximación de la Distribución a

Posteriori Conjunta. . . . . . . . . . . . . . . . . . . . . . . . . . . . 1376.2. Práctica de Ejercicios del Capítulo 6 . . . . . . . . . . . . . . . . . . 143

7. Métodos de Aproximación y Simulación. 1477.1. Algoritmo Newton-Raphson (N-R). . . . . . . . . . . . . . . . . . . . 147

7.1.1. Solución Usando la Verosimilitud . . . . . . . . . . . . . . . . 1487.2. El Algoritmo EM (Dempster, Laird y Rubin, 1977) . . . . . . . . . . 1527.3. Aproximación Laplace . . . . . . . . . . . . . . . . . . . . . . . . . . 1577.4. Métodos de Simulación . . . . . . . . . . . . . . . . . . . . . . . . . . 159

7.4.1. Método de Monte Carlo . . . . . . . . . . . . . . . . . . . . . 1597.4.2. Monte Carlo con Muestreo de Importancia. . . . . . . . . . . . 161

7.5. Métodos de Remuestreo. . . . . . . . . . . . . . . . . . . . . . . . . . 1667.5.1. Jackknife . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1667.5.2. Bootstrap. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1677.5.3. Bootstrap Repesado. . . . . . . . . . . . . . . . . . . . . . . . 168

7.6. Métodos de Monte Carlo por Cadenas de Markov . . . . . . . . . . . 1697.6.1. Muestreador de Gibbs . . . . . . . . . . . . . . . . . . . . . . 169

7.7. Muestreo de Densidades Bivariadas. . . . . . . . . . . . . . . . . . . . 1717.8. Muestreador de Gibbs. . . . . . . . . . . . . . . . . . . . . . . . . . . 172

7.8.1. Muestreador de Gibbs Reversible. . . . . . . . . . . . . . . . . 1737.9. Algoritmo Metropolis-Hastings . . . . . . . . . . . . . . . . . . . . . . 1907.10. Práctica de Ejercicios del Capítulo 7 . . . . . . . . . . . . . . . . . . 204

UNIVERSIDAD DE CARABOBO

Page 6: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

ÍNDICE GENERAL 6

FACYT-MATEMÁTICAS

Page 7: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

Capítulo 1

Simulación

1.1. Generador Congruencial Lineal

Sea:

xn+1 = (axn + c) mod m (1.1.1)

donde:

a es un coe�ciente constante, 0 ≤ a < m

m es el módulo, m ≥ 0

c es el incremento, 0 ≤ c < m

x0 es la semilla inicial, 0 ≤ x0 < m

Nota 1.1. Por ejemplo se toma: m = 231− 1, es un número primo grande adecuadoal tamaño de la palabra de la computadora (32 bits). Para una máquina con palabrasde 36 bits, parece que funciona tomar a = 55 y m = 235 − 31.

Ahora, por de�nición se sabe que:

a ≡ b mod m⇔ m divide a a− b ó ⇔ a− bm

= k

⇒ a− b = km ó a− b es un múltiplo de m.

Nota 1.2. El residuo se considera como el valor de xn+1, así que cada xn+1 es0, 1, . . . ,m−1 y la cantidad xn+1/m es llamada número pseudoaleatorio y se consideracomo una aproximación del valor de una variable aleatoria uniforme en (0, 1).

Ejemplo 1.1. Sea:

xn+1 = (3xn + 3) mod 5

Si x0 = 3, entonces se pueden generar los valores x1, x2,. . . , x5 de la siguientemanera:

7

Page 8: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

SECCIÓN 1.2: Método de Inversión para Variables Continuas 8

x1 = 12 mod 5⇔ x1 − 12.= 5⇔ (x1 − 12) /5 = k ⇒ x1 − 12 = 5k ⇒ x1 = 2

x2 = 9 mod 5⇔ x2 − 9.= 5⇔ (x2 − 9) /5 = k ⇒ x2 − 9 = 5k ⇒ x2 = 4

x3 = 15 mod 5⇔ x3 − 15.= 5⇔ (x3 − 15) /5 = k ⇒ x3 − 15 = 5k ⇒ x3 = 0

x4 = 3 mod 5⇔ x4 − 3.= 5⇔ (x4 − 3) /5 = k ⇒ x4 − 3 = 5k ⇒ x4 = 3

x5 = 12 mod 5⇔ x5 − 12.= 5⇔ (x5 − 12) /5 = k ⇒ x5 − 12 = 5k ⇒ x5 = 2

1.2. Método de Inversión para Variables Continuas

Teorema 1.1. Sea X una variable aleatoria con función de distribución FX. Siu ∼ U(0, 1), entonces la variable Y = F−1

X (u) tiene la misma distribución que X.

Demostración. Se puede de�nir:

F−1X (y) = inf{x ∈ R / FX(x) ≥ y}, 0 ≤ y ≤ 1

Entonces:

FY(x) = P (Y ≤ x)

= P(F−1

X (u) ≤ x)

= P {u ≤ FX(x)}= FU [FX(x)] ; (FU(u) = u)

= FX(x)

donde: u ∼ U(0, 1), es decir:

f(u) =

{1 si 0 < u < 10 en otro caso

Por lo tanto, X e Y tienen la misma distribución. 2

FACYT-MATEMÁTICAS

Page 9: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

9 CAPÍTULO 1: Simulación

Figura 1.1: Representación del método de inversión para variables continuas.

Algoritmo 1.1. (Inversión)

Paso [1] Desde i := 1 hasta n:

Generar un número aleatorio u.

xi = F−1X (u)

Paso [2] Devolver x1, . . . , xn como la muestra generada.

1.3. Método de Inversión para Variables Discretas

Sea X una variable aleatoria que toma valores �nitos x1, . . . , xn.

Figura 1.2: Representación del método de inversión para variables discretas.

UNIVERSIDAD DE CARABOBO

Page 10: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

SECCIÓN 1.3: Método de Inversión para Variables Discretas 10

Veamos como se genera una muestra de tamaño n según este método. Supóngase quese quiere generar el valor de una variable aleatoria discreta X con función de masade probabilidad:

P{X = xj} = Pj, donde j = 0, 1, . . . , yn∑j=1

Pj = 1

Para llevar a cabo este procedimiento se genera un número aleatorio u distribuidouniformemente en (0, 1) y sea:

x =

x0 si u < P0

x1 si P0 ≤ u < P0 + P1...

......

xj sij−1∑i=1

Pi ≤ u <

j∑i=1

Pi

......

...

Debido a que P{a ≤ u ≤ b} = b− a, para 0 < a < b < 1, se tiene que:

P{X = xj} = P

{j−1∑i=1

Pi ≤ u <

j∑i=1

Pi

}= Pj

y entonces X tiene la distribución deseada.

Algoritmo 1.2.

Paso [1] Desde i := 1 hasta n:

Generar u ∼ U(0, 1)

Hacer j := 1

acumulado:= 0

encontrado:= falso.

Mientras no encontrado:

• acumulado:=acumulado+P (X = xj).

• Si u ≤ acumulado, hacer:

1. xi := xj

2. encontrado:= verdadero

FACYT-MATEMÁTICAS

Page 11: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

11 CAPÍTULO 1: Simulación

• Hacer j := j + 1.

Paso [2] Devolver x1, . . . , xn como la muestra generada.

Ejemplo 1.2. Sea X ∼ U(a, b), entonces:

f(X) =

{1/(b− a) si a < X < b

0 en otro caso

Luego, sea:

x = F−1(u)⇒ F (x) = P (X ≤ x) = u⇒ x− ab− a

= u⇒ x = a+ u(b− a)

Algoritmo 1.3. Para generar variables aleatorias uniformes.

Paso [1] Generar u ∼ U(0, 1)Paso [2] Hacer x = a+ u(b− a)

Ejemplo 1.3. Suponga que se quiere generar una variable aleatoria X con funciónde distribución F (x) = xn, 0 < x < 1. Entonces se hace:

x = F−1(u)⇒ F (x) = u⇒ xn = u⇒ x = u1n

Algoritmo 1.4.

Paso [1] Se genera u ∼ U(0, 1)Paso [2] Se hace x = u1/n

Ejemplo 1.4. Si X ∼ Exponencial(λ), entonces su función de distribución estádada por:

F (x) = 1− exp {−λx}

Si se hace x = F−1(u), entonces:

x = F−1(u)

⇒ u = F (x)

⇒ u = 1− exp {−λx}⇒ exp {−λx} = 1− u

⇒ −λx = ln(1− u)

⇒ x = −1

λln(1− u)

UNIVERSIDAD DE CARABOBO

Page 12: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

SECCIÓN 1.3: Método de Inversión para Variables Discretas 12

Algoritmo 1.5. Para generar variables aleatorias exponenciales.

Paso [1] Se genera u ∼ U(0, 1)Paso [2] Se hace x = − 1

λln(1− u)

Ejemplo 1.5. Si X ∼ Binomial(n, p) y se quiere generar binomiales, entonces sehace lo siguiente:

P (X = i) =

(ni

)pi(1− p)n−i, donde i = 0, 1, . . . , n

=n!

(n− i)!i!pi(1− p)n−i

Por otro parte:

P (X = i+ 1) =

(n

i+ 1

)pi+1(1− p)n−(i+1)

=n!

(n− i− 1)!(i+ 1)!

p

(1− p)pi(1− p)n−i

=p

(1− p)n!(n− i)!

(n− i− 1)!(i+ 1)i!(n− i)!pi(1− p)n−i, multiplico por

(n− i)!(n− i)!

=p

(1− p)(n− i)!

(n− i− 1)!(i+ 1)P (X = i)

=p

(1− p)(n− i)!(n− i− 1)!

(n− i− 1)!(i+ 1)P (X = i)

=p

(1− p)(n− i)(i+ 1)

P (X = i)

Algoritmo 1.6. Para generar variables aleatorias binomiales.

Paso [1] Generar un número aleatorio u ∼ U(0, 1).Paso [2] Sea:

C = p/(1− p)

i = 0

Pr = P (x = i) = (1− p)n

F = F (i) = P (x = i)

Paso [3] Si u < F , hacer x = i y terminar.Paso [4] Hacer:

FACYT-MATEMÁTICAS

Page 13: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

13 CAPÍTULO 1: Simulación

Pr = P (x = i+ 1) = C (n−i)i+1

P (x = i)

F = F (i+ 1) = F (i) + P (x = i+ 1) = F + Pr, i = i+ 1

Paso [5] Ir al paso [3].

Ejemplo 1.6. Se desea generar la variable aleatoria X ∼ Poisson(λ). Sean:

Pi = P (X = i) =λi exp {−λ}

i!, i = 0, 1, . . . ; i ≥ 0

y

Pi+1 = P (X = i+ 1) =λi+1 exp {−λ}

(i+ 1)!=λλi exp {−λ}

(i+ 1)i!=

λ

i+ 1Pi

Algoritmo 1.7. Para generar variables aleatorias con distribución Poisson.

Paso [1] Se genera un número aleatorio u ∼ U(0, 1).Paso [2] Se hace:

i = 0

P = Pi = exp {−λ}

F = F (i) = Pi

Paso [3] Si u < F (1), hacer X = i y terminar.Paso [4] Hacer:

P = Pi+1 = λPii+1

= λPi+1

F = F (i+ 1) = F (i) + Pi+1 = F + P , i = i+ 1

Paso [5] Ir al paso [3].

1.4. Funciones del Software R para el Manejo de

Distribuciones de Probabilidad Continuas.

En el Cuadro 1.1 se presentan los su�jos para cada distribución de probabilidadcontinua y los argumentos necesarios para expresar los parámetros de las mismas.A continuación se muestra como se realizan en R los cálculos de una serie deprobabilidades relacionadas con una distribución normal:

UNIVERSIDAD DE CARABOBO

Page 14: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

SECCIÓN 1.4: Funciones del Software R para el Manejo de Distribuciones deProbabilidad Continuas. 14

Nombre Representación Su�jo Argumentos

Uniforme U(a, b) unif min=a max=bExponencial exp(λ) exp rate=λNormal N(µ, σ2) norm mean=µ sd=σGamma γ(a, b) gamma shape=a scale=b rate=1/bBeta β(a, b) beta shape1=a shape2=b

Weibull W (a, b) weibull shape=a scale=bt (de Student) tn t df=n ncp=dχ2 (de Pearson) χ2

n chisq df=n ncp=dF (de Fisher) Fn,m f df1=n df2=m ncp=d

Cuadro 1.1: Funciones utilizadas en R para manejar distribuciones de probabilidadcontinuas.

> # Ejemplos con la distribución normal de parámetros 3, 0.5^2

> mu <- 3

> sigma <- 0.5

> # f(5) Función de densidad

> dnorm(5,mu,sigma)

[1] 0.0002676605

> # F(5)=P(X<=5) Función de distribución

> pnorm(5,mu,sigma)

[1] 0.9999683

> # P(X>5)

> 1-pnorm(5,mu,sigma)

[1] 3.167124e-05

> pnorm(5,mu,sigma,lower.tail=FALSE)

[1] 3.167124e-05

> # P(2.8<X<=4)

> pnorm(4,mu,sigma)-pnorm(2.8,mu,sigma)

[1] 0.6326716

> pnorm(2.8,mu,sigma,lower.tail=FALSE)-pnorm(4,mu,sigma,lower.tail=FALSE)

[1] 0.6326716

> # Cálculo de P(2.8<X<=4) a partir de una normal estándar

> pnorm((4-mu)/sigma)-pnorm((2.8-mu)/sigma)

[1] 0.6326716

> # Cálculo de cuantiles (cuartiles)

> x <-qnorm(c(0.25,0.5,0.75),mu,sigma)

> x

FACYT-MATEMÁTICAS

Page 15: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

15 CAPÍTULO 1: Simulación

[1] 2.662755 3.000000 3.337245

> # Rango intercuartílico

> x[3]-x[1]

[1] 0.6744898

> # Generar números (pseudo)aleatorios según esta distribución

> x<- rnorm(10,mu,sigma)

> x

[1] 2.963971 3.230353 3.322029 3.027337 3.511458 4.095780 2.382540 2.838378

[9] 2.786816 2.557973

Las siguientes órdenes son su�cientes para observar como varía la forma de la funciónde densidad de la distribución χ2 cuando varían los grados de libertad:

> library(distrib)

> df <- c(5,10,20) # Fijo los grados de libertad

> x11()

> gchisq(df) # Funciones de densidad

1.5. Funciones del Software R para el Manejo de

Distribuciones de Probabilidad Discretas

El paquete R dispone de una serie de funciones que permiten un manejo sencillo delas distribuciones de probabilidad discretas. Para indicar la distribución deseada, elnombre de la función se completa con uno de los su�jos que aparecen en el Cuadro 1.2.Además cada distribución necesita una serie de argumentos especí�cos para expresarsus parámetros.

Nombre Representación Su�jo Argumentos

Binomial B(n, p) binom size= n prob= pGeométrica G(p) geom prob= p

Binomial Negativa BN(r, p) nbinom size= r prob= p mu= r(1−p)p

Poisson P(λ) pois lambda= λ

Cuadro 1.2: Funciones R para manejar distribuciones de probabilidad discretas.

El siguiente ejemplo muestra como se utilizan estas funciones para realizar una seriede cálculos relacionados con una distribución binomial:

> # Distribución binomial de parámetros 10 y 0.8

UNIVERSIDAD DE CARABOBO

Page 16: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

SECCIÓN 1.5: Funciones del Software R para el Manejo de Distribuciones deProbabilidad Discretas 16

> n <- 10

> p <- 0.8

> # P(X=5)

> dbinom(5,n,p)

[1] 0.02642412

> # P(X<=5)

> pbinom(5,n,p)

[1] 0.0327935

> sum(dbinom(0:5,n,p))

[1] 0.0327935

> # P(X>5)

> pbinom(5,n,p,lower.tail=FALSE)

[1] 0.9672065

> # P(3<X<=8)

> sum(dbinom(4:8,n,p))

[1] 0.623326

> pbinom(8,n,p)-pbinom(3,n,p)

[1] 0.623326

>pbinom(3,n,p,lower.tail=FALSE)-pbinom(8,n,p,lower.tail=FALSE)

[1] 0.623326

> # Cálculo de cuantiles (cuartiles)

> y <- qbinom(c(0.25,0.5,0.75),n,p)

> y

[1] 7 8 9

> # Probabilidad acumulada "real" para los cuartiles

> pbinom(y,n,p)

[1] 0.3222005 0.6241904 0.8926258

> pbinom(y-1,n,p)

[1] 0.1208739 0.3222005 0.6241904

> # Rango intercuartílico

> y[3]-y[1]

[1] 2

> # Generar números (pseudo)aleatorios según esta distribución

> x <- rbinom(10,n,p)

> x

[1] 8 9 8 9 8 9 8 8 9 8

Las siguientes órdenes son su�cientes para representar las probabilidades puntualesde una distribución binomial en un diagrama de barras:

> library(distrib)

> # Distribución binomial de parámetros 12 y 0.3

FACYT-MATEMÁTICAS

Page 17: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

17 CAPÍTULO 1: Simulación

> n <- 12

> p <- 0.3

> x11()

> gbinom(n,p) # Diagrama de barras de las probabilidades

1.6. Generación de Bernoulli(p)

Algoritmo 1.8. Para generar variables aleatorias Bernoulli.

Paso [1] Generar u ∼ U(0, 1).Paso [2] Si u ≤ p, hacer X = 1, sino X = 0.

Recuérdese que si X ∼ Bernoulli(p), entonces: P (x = 0) = 1− p y P (x = 1) = p,donde 0 ≤ p ≤ 1.Otro método para obtener binomiales es el siguiente: si x1, . . . , xn ∼ Bernoulli(p),son variables aleatorias, independientes e idénticamente distribuidas, entonces:

X = x1 + · · ·+ xn =n∑i=1

xi ∼ Binomial(n, p)

Por lo que un valor X tomado de una binomial es obtenido tomando muestrasu1, . . . , un ∼ U(0, 1) y contando el número de X de estos n valores generados queson menores o iguales a p. Los valores resultantes son binomiales con índice r yprobabilidad de éxito p.

n∑i=1

xi ∼ Binomial(r, p)

1.7. Distribución Binomial Negativa y Geométrica

Si x ∼ BN(r, p), entonces se tiene que la función de densidad de probabilidad vienedada por:

fBN(n) = P (x = n) =

(n− 1r − 1

)pr(1− p)n−r, n = r, r + 1, r + 2, . . .

Si r = 1, la distribución es llamada geométrica y se denota por Geometrica(p). Denuevo se invoca a la distribución Bernoulli, es fácil ver que una BN(r, p) es obtenidarepitiendo el proceso de Bernoulli hasta que r éxitos sean obtenidos y se cuenta elnúmero de observaciones generadas. Por lo que BN(r, p) es obtenida a través de lageneración de una secuencia u1, . . . , un ∼ U(0, 1) hasta que r de ellos sean menoreso iguales a p, y se cuenta el número de x generados que satisfacen la desigualdad(xi < ui).

UNIVERSIDAD DE CARABOBO

Page 18: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

SECCIÓN 1.8: Distribución Weibull 18

1.8. Distribución Weibull

La distribución Weibull puede ser obtenida como una generalización de la distribuciónexponencial. Si x ∼ Exponencial(λ), entonces y = x1/α ∼ Weibull(α, λ).

Algoritmo 1.9. Para generar variables aleatorias con distribución Weibull.

Paso [1] Se genera u ∼ U(0, 1).Paso [2] Se hace:

x = − 1λ

log(1− u) ∼ Exponencial(λ)

Paso [3] Se hace:

y =[− 1λ

log(1− u)]1/α ∼ Weibull(α, λ)

1.9. Distribución Gamma

Sea X ∼ Gamma(α, β), entonces la función de densidad de probabilidad viene dadapor:

fG(X;α, β) =

{ βα

Γ(α)Xα−1 exp {−βX} si X > 0

0 en otro caso

Si x1, . . . , xn es una secuencia de variables aleatorias, independientes e idénticamentedistribuidas, con una distribución Exponencial(λ), entonces:

X = x1 + · · ·+ xn ∼ Gamma(n, λ), [7]

Demostrarlo como ejercicio. Por lo que una cantidad que tiene una distribuciónGamma con α = n, donde n es un entero, puede ser generada tomando muestrasde tamaño n de una distribución exponencial y sumando hasta el valor de la muestra.

1.10. Distribución Ji-Cuadrado(χ2)con n Grados

de Libertad

La distribución χ2n es dada por Gamma (n/2, 1/2). La distribución Ji-Cuadrado está

relacionada con la distribución normal como sigue:Si x1, . . . , xn ∼ N(0, 1) entonces:

X = x21 + · · ·+ x2

n ∼ χ2n

Así que se generan normales estándares, luego se elevan al cuadrado y se suman.

FACYT-MATEMÁTICAS

Page 19: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

19 CAPÍTULO 1: Simulación

1.11. Distribución F

Se generan dos variables aleatorias x ∼ χ2n y y ∼ χ2

m, entonces se forma el cociente:

F =χ2n/n

χ2m/m

∼ Fn,m

1.12. t-Student

Se generan: X ∼ N(0, 1), Y ∼ χ2v y se calcula el cociente:

t =X√Y/v

∼ tv

1.13. Inversa Gamma

Si X ∼ Gamma(α, β), entonces X−1 ∼ IG(α, β).

Algoritmo 1.10.

Paso [1] Se genera X ∼ Gamma(α, β).Paso [2] Se hace Y = 1/X ∼ IG(α, β).

1.14. Técnicas Bivariadas

Supóngase que (x1, x2) tiene una densidad conjunta dada por: fX(x1, x2), y seag(x1, x2) = (y1, y2) una transformación diferenciable uno a uno con una inversag−1(y1, y2) = (x1, x2), entonces la densidad de (y1, y2) es:

fY(y1, y2) = fX[g−1(y1, y2)

]J

donde:

J =

∣∣∣∣∣∣∂x1

∂y1

∂x2

∂y1

∂x1

∂y2

∂x2

∂y2

∣∣∣∣∣∣1.15. Distribución Normal

Sea X ∼ N (µ, σ2), entonces la función de densidad de probabilidad está dada por:

fN(X;µ, σ2

)=

{1√

2πσ2exp

{− 1

2σ2 (X− µ)2}

si −∞ < µ < 0, σ2 > 0

0 en otro caso

UNIVERSIDAD DE CARABOBO

Page 20: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

SECCIÓN 1.15: Distribución Normal 20

Si µ = 0 y σ2 = 1 entonces X ∼ N(0, 1). En el contexto bayesiano es más ventajosotrabajar con la reparametrización φ = 1/σ2. El parámetro φ es la inversa de lavarianza, y usualmente se llama precisión. Usando esta parametrización, la densidadse puede reescribir como:

fN(X;µ, φ−1

)=φ1/2

√2π

exp

{−φ

2(X− µ)2

}Box y Muller [3] probaron que si u1, u2 ∼ U(0, 1), las cuales son variables aleatoriasindependientes, entonces las cantidades dadas por: x1 =

√−2 log(u1) cos(2πu2) y

x2 =√−2 log(u1) sen(2πu2), tienen una distribución Normal con media µ = 0 y

varianza σ2 = 1. De este modo:

g(u1, u2) = (x1, x2) =(√−2 log(u1) cos(2πu2),

√−2 log(u1) sen(2πu2)

)es claramente una transformación uno a uno que tiene como dominio el cuadradounitario [0, 1]2 en R2. Entonces elevando al cuadrado las expresiones x1 y x2

respectivamente, se obtiene que:

x21 = −2 log(u1) cos2(2πu2)

x22 = −2 log(u1) sen2(2πu2)

De modo que:

x21 + x2

2 = −2 log(u1)

⇒ log(u1) = −1

2

(x2

1 + x22

)⇒ u1 = exp

{−1

2

(x2

1 + x22

)}Por otra parte:

x1

x2

=sen(2πu2)

cos(2πu2)= tan(2πu2)

⇒ 2πu2 = arctan

(x1

x2

)⇒ u2 =

1

2πarctan

(x1

x2

)Debido a que:

fu(u1, u2) =

{1 si u1, u2 ∈ [0, 1]2

0 en otro caso

FACYT-MATEMÁTICAS

Page 21: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

21 CAPÍTULO 1: Simulación

entonces fu [g−1(x1, x2)] = 1, con x1, x2 ∈ R2, de modo que fX(x1, x2) = J. Por otrolado, se tiene que:

J =

∣∣∣∣∣∣∂u1

∂x1

∂u2

∂x1

∂u1

∂x2

∂u2

∂x2

∣∣∣∣∣∣=

∣∣∣∣∣∣∣∣x1 exp

{−1

2(x2

1 + x22)}

12π

[1

1+(x1/x2)2

(−x2

x21

)]x2 exp

{−1

2(x2

1 + x22)}

12π

[1

1+(x2/x1)2

(1x1

)]∣∣∣∣∣∣∣∣

=

∣∣∣∣∣∣∣x1 exp

{−1

2(x2

1 + x22)}− x2

2π(x21+x2

2)

x2 exp{−1

2(x2

1 + x22)}

x1

2π(x21+x2

2)

∣∣∣∣∣∣∣=

1

(x2

1

x21 + x2

2

)exp

{−1

2

(x2

1 + x22

)}+

1

(x2

2

x21 + x2

2

)exp

{−1

2

(x2

1 + x22

)}=

1

2πexp

{−1

2

(x2

1 + x22

)}=

1√2π

exp

{−1

2x2

1

}1√2π

exp

{−1

2x2

2

}Por lo que fX(x1, x2) = f(x1)f(x2), donde:

f(xi) =1√2π

exp

{−x

2i

2

}, i = 1, 2

La forma más natural de generar normales está basado en el teorema de límite central.Considere una muestra u1, . . . , un ∼ U(0, 1). Entonces para n lo su�cientementegrande, se tiene que:

x =√nu− 1/2

1√12

∼ N(0, 1)

donde u = 1n

n∑i=1

ui

Algoritmo 1.11. Box y Muller para generar variables aleatorias normales.

Paso [1] Se genera u1 y u2 ∼ U(0, 1)Paso [2] Se hace:

x =√−2 log(u1) cos(2πu2)

y =√−2 log(u1) sen(2πu2)

donde x, y ∼ N(0, 1).

UNIVERSIDAD DE CARABOBO

Page 22: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

SECCIÓN 1.16: Generación de Vectores y Matrices Aleatorias 22

1.16. Generación de Vectores y Matrices Aleatorias

Sea X = (x1, . . . , xd)T con función de densidad conjunta fX(x1, . . . , xd) y sea

g(x1, . . . , xd) = (y1, . . . , yd) una transformación uno a uno diferenciable coninversa dada por: g−1(y1, . . . , yd) = (x1, . . . , xd)

T, entonces la densidad conjunta de(y1, . . . , yd) está dada por:

fY(y1, . . . , yd) = fX[g−1(y1, . . . , yd)

]J

donde:

J =

∣∣∣∣∣∣∣∂x1

∂y1· · · ∂xd

∂y1...

. . ....

∂x1

∂yn· · · ∂xd

∂yn

∣∣∣∣∣∣∣Sea X = (x1, . . . , xd) ∼ N(µ,Σ), entonces la función de densidad de probabilidadviene dada por:

f (X;µ,Σ) =1

(2π)d/2|Σ|1/2exp

{−1

2(X− µ)T Σ−1 (X− µ)

}

1.16.1. Transformación Lineal

Si Y = AX + b es una transformación afín de X ∼ Nd(µ,Σ), donde A es una matrizr × d de constantes y b es un vector r × 1 de constantes, entonces:

Y ∼ Nr

(Aµ+ b, AΣAT

)(1.16.1)

1.16.2. Generación de Variables Aleatorias Normales Multi-variadas.

Para simular una variable Nk(µ,Σ) basta considerar las dos siguientes observaciones:

Si se quiere simular una variable Nk(0, Ik), basta simular k valores N(0, 1) (porla independencia de las componentes).

Si Z ≡ Nk(0, Ik), C ∈Mk, v ∈ Rk, entonces CZ + v ≡ Nk(v,CCt).

En consecuencia, tomando v = µ y C tal que CCt = Σ, se obtiene un método parasimular una variable normal multivariante cualquiera.

FACYT-MATEMÁTICAS

Page 23: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

23 CAPÍTULO 1: Simulación

1.16.3. Distribuciones Marginales (Caso d=2)

Sean µ y Σ un vector de medias y una matriz de varianza covarianza respectivamente,dadas por:

µ =

(µ1

µ2

)y

Σ =

(Σ11 Σ12

Σ21 Σ22

)Sean xi ∼ Ndi(µi,Σii), con i = 1, 2, donde x1 contiene d1 componentes y x2 contienelos componentes restantes d2 = d− d1. Entonces:

x1|x2 ∼ Ndi(µ1.2,Σ11.2)

donde:

µ1.2 = µ1 + Σ12Σ−122 (x2 − µ2)

y

Σ11.2 = Σ11 − Σ11Σ−122 Σ21

Análogamente se obtienen x2|x1.

1.17. Método Más Directo (Método Polar)

Si u ∼ U(0, 1), entonces 2u ∼ U(0, 2) y 2u − 1 ∼ U(−1, 1). Así que si se generannúmeros aleatorios u1 y u2, y se hace:

v1 = 2u1 − 1

v2 = 2u2 − 1

entonces (v1, v2) está uniformemente distribuido en el cuadrado de área 4 con centroen (0,0), como se puede observar en la �gura 1.3. Ahora, se genera un número aleatoriou y se hace:

X = (−2 log(u))1/2 v1

(v21 + v2

2)1/2

Y = (−2 log(u))1/2 v2

(v21 + v2

2)1/2

UNIVERSIDAD DE CARABOBO

Page 24: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

SECCIÓN 1.17: Método Más Directo (Método Polar) 24

Figura 1.3: Los valores uniformemente distribuidos, v1 y v2 son usados para producirel valor S = R2, el cual también se encuentra distribuido en forma uniforme entre ceroy uno. Las de�niciones del seno y del coseno se aplican luego sobre la forma básica dela transformada de Box-Muller, para así evitar el uso de funciones trigonométricas.

Como R2 = v21 + v2

2 ∼ U(0, 1) y es independiente del ángulo aleatorio θ, se puedetomar el número aleatorio u. Si se hace S = R2, se obtiene que:

X = (−2 log(S))1/2 v1

S1/2= v1

(−2 log(S)

S

)1/2

Y = (−2 log(S))1/2 v2

S1/2= v2

(−2 log(S)

S

)1/2

son normales unitarios independientes cuando (v1, v2) es un punto elegido al azar enun círculo de radio 1 con centro en el origen y S = v2

1 + v22.

Algoritmo 1.12.

Paso [1] Generar números aletorios u1 y u2.Paso [2] Hacer:

v1 = 2u1 − 1

v2 = 2u2 − 1

S = v21 + v2

2

Paso [3] Si S > 1 regresar al paso [1].Paso [4] Regresar los normales unitarios independientes:

FACYT-MATEMÁTICAS

Page 25: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

25 CAPÍTULO 1: Simulación

X =√−2 log(S)

Sv1

Y =√−2 log(S)

Sv2

1.18. Método de Composición

Teorema 1.2. Sea fX|Y(x|y) la función de densidad de una variable X condicionadaa otra variable Y con distribución FY(y) y densidad fY(y). Si se simula un valor yde Y y luego se simula un valor de X usando la densidad obtenida a partir de fX|Ypara Y = y, entonces la distribución de los valores de X así obtenidos, tiene comodensidad:

fX(x) =

∫ ∞−∞

fX|Y(x|y)fY(y)dy (1.18.1)

Si Y es discreta con función de probabilidad PY(y), entonces:

fX(x) =∑y

fX|Y(x|y)PY(y) (1.18.2)

Demostración. Si se simula un valor y para la variable Y a partir de fY(y) y luego unvalor x para la variable X a partir de fX|Y(x|y), entonces se está simulando valoresde la variable aleatoria bidimensional (X,Y) con densidad fX|Y(x|y)fY(y) que esequivalente a la densidad conjunta fXY(x, y). La distribución de los valores de X asíobtenidos se pueden obtener marginalizando:

fX(x) =

∫ ∞−∞

fXY(x, y)dy =

∫ ∞−∞

fX|Y(x|y)fY(y)dy

De forma similar se puede hacer en el caso que Y sea discreta. 2

1.19. Método de Aceptación y Rechazo

La idea consiste en cubrir la densidad de la variable a simular con una curva deexpresión analítica sencilla. Se genera un punto al azar bajo la nueva curva. Si elpunto cae por debajo de la densidad original, se considerará válido y el valor simuladode la variable será la abscisa del punto.

Teorema 1.3. Sea X una variable aleatoria con función de densidad fX(x), x ∈ I ⊆R, tal que puede factorizarse como:

fX(x) = Cg(x)h(x)

UNIVERSIDAD DE CARABOBO

Page 26: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

SECCIÓN 1.19: Método de Aceptación y Rechazo 26

con C ∈ R, C ≥ 1, 0 ≤ g(x) ≤ 1 y h(x) es una función de densidad de probabilidaden I. Sea u una variable aleatoria que se distribuye U(0, 1) y sea y una variablealeatoria con función de densidad de probablidad h(y) en I. Entonces:

fY [x|u ≤ g(y)] = fX(x) (1.19.1)

Demostración.

fY [x|u ≤ g(y)] =P [x, u ≤ g(y)]

P [u ≤ g(y)]

Ahora bien, P [u ≤ g(y)|Y = x] = P [u ≤ g(x)] = g(x), donde u ∼ U(0, 1). Por otrolado:

P [u ≤ g(y)] =

∫I

P [u ≤ g(y)|Y = x]h(x)dx

=

∫I

g(x)h(x)dx

=

∫I

fX(x)

Cdx

=1

C

∫I

fX(x)dx =1

C

Por consiguiente:

fY[x|u ≤ g(y)] =g(x)h(x)

1/C= Cg(x)h(x) = fX(x)

2

Debe ser fácil generar los valores a partir de h(x).

La e�ciencia debe ser la más alta posible; es decir, C debe estar lo más próximoa uno (1) como se pueda.

Algoritmo 1.13.

Paso [1] Se hace i := 1 hasta n:

1. válido:= FALSO

2. Mientras no válido:

Generar un número aleatorio u.

Se genera un valor para la variable y con densidad h(y).

Si u ≤ g(y):válido:= VERDADERO

3. xi := y

Paso [2] Devolver x1, . . . , xn como la muestra generada.

FACYT-MATEMÁTICAS

Page 27: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

27 CAPÍTULO 1: Simulación

Figura 1.4: Valores generados por el algoritmo de aceptación y rechazo.

Figura 1.5: Valores aceptados por dicho algoritmo.

1.20. Cociente de Uniformes

Supóngase que h es una función no negativa tal que:∫h <∞, y sea:

Ch ={

(u, v) : 0 ≤ u ≤√h(v/u)

}Si (u, v) se distribuyen uniforme sobre Ch, entonces x = v/u, tiene como función dedensidad de probabilidad:

f(x) =h∫h

UNIVERSIDAD DE CARABOBO

Page 28: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

SECCIÓN 1.20: Cociente de Uniformes 28

Justi�cación

Sea ∆h el área de Ch. Se hace un cambio de variable (u, v) −→ (u, x), donde x = v/u.Así que:

∆h =

∫ ∫Ch

dudv

=

∫ ∫ √h(x)

0

ududx

=

∫u2

2

∣∣∣∣√h(x)

0

dx

=1

2

∫h(x)dx

Debido a que (u, v) son uniformes sobre Ch, (u, v) tienen una función de densidad deprobabilidad 1/∆h, por lo que la transformación (u, x) tiene una función de densidadde probabilidad u/∆h e integrando sobre u se tiene la marginal de X:∫ √h(x)

0

udu∫ ∫Ch

dudv

=h(x)

2∆h

=h(x)∫h(x)dx

Por lo tanto v/u tiene una función de densidad de probabilidad proporcional a h˜ .Algoritmo 1.14.

Paso [1] Se simula u ∼ U(0, a) y v ∼ U(−b, b).Paso [2] Si (u, v) ∈ Ch, se acepta x = v/u. En otro caso se repite.Paso [3] Continúe.

Un algoritmo equivalente es el siguiente:

Algoritmo 1.15.

Paso [1] Se simula u ∼ U(0, 1) y v ∼ U(−1, 1).Paso [2] Si u2 + v2 ≤ 1, se acepta x = u/v. En otro caso se repite.Paso [3] Continúe.

Como ejemplo, considérese la distribución de Cauchy con densidad dada por:

h(x) ∝1

1 + x2, Ch =

{(u, v) : 0 ≤ u, u2 + v2 ≤ 1

}Considere el cuadrado [0, a]× [b−, b+] = [0, 1]× [−1, 1] e implemente el algoritmo.

FACYT-MATEMÁTICAS

Page 29: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

29 CAPÍTULO 1: Simulación

1.21. Integración Monte Carlo

Si x1, x2, . . . , xn, tiene función de densidad f(x), la simulación puede ser formuladacomo un integral:

E(X) =

∫xf(x)dx (1.21.1)

La media teórica dada en 1.21.1 puede ser aproximada por la media muestral dadapor:

E(X) =1

n

n∑i=1

xi (1.21.2)

Este argumento puede ser generalizado como se describe a continuación. Supóngaseque se desea calcular lo siguiente:

θ = E [φ(x)] =

∫φ(x)f(x)dx

Donde la esperanza es con respecto a la distribución f . Si x1, x2, . . . , xn, es unamuestra aleatoria obtenida de alguna función de los datos, entonces el estimadorempírico está dado por:

θ =1

n

n∑i=1

φ(xi)

el cual es un estimador insesgado de θ.

1.22. Práctica de Ejercicios del Capítulo 1

1. Si x0 = 5 y:

xn = 3xn−1 mod 150

determine x1, . . . , x10.

2. Si x0 = 3 y:

xn = 5xn−1 + 7 mod 200

determine x1, . . . , x10.

3. Escriba un programa para generar n valores a partir de la función de masa deprobabilidad p1 = 1/3, p2 = 2/3.

UNIVERSIDAD DE CARABOBO

Page 30: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

SECCIÓN 1.22: Práctica de Ejercicios del Capítulo 1 30

(a) Sea n = 100, ejecute el programa y determine la proporción de valores quesean iguales a 1.

(b) Repita (a) con n = 1000.

(c) Repita (a) con n = 10000.

4. Dé un algoritmo e�ciente para simular el valor de una variable aleatoria X talque:

P{X = 1} = 0.3, P{X = 2} = 0.2, P{X = 3} = 0.35, P{X = 4} = 0.15

5. Se baraja un conjunto de 100 cartas (numeradas del 1 al 100) y luego se voltean,una a la vez. Se dice que ocurre un �éxito� si la carta i es la i-ésima cartavolteada, i = 1, . . . , 100. Escriba un programa de simulación para estimarla esperanza y la varianza del número total de éxitos. Ejecute el programa.Determine las respuestas exactas y compárelas con sus estimaciones.

6. Suponga que cada miembro en una lista de n elementos tiene un valor asociado,y sea v(i) el valor asociado al i-ésimo elemento de la lista. Suponga que n esmuy grande y también que cada elemento puede aparecer en lugares distintosde la lista. Explique la forma de utilizar números aleatorios para estimar lasuma de los valores de los elementos distintos en la lista (en la que el valor decada elemento se cuenta una sola vez, sin importar el número de veces que elelemento aparezca anotado).

7. La función de masa de probabilidad binomial negativa con parámetros (r, p),donde r es un entero positivo y 0 < p < 1, está dada por:

pj =(j − 1)!

(j − r)!(r − 1)!pr(1− p)j−r, donde j = r, r + 1, . . .

(a) Veri�que la relación:

pj+1 =j(1− p)j + 1− r

pj

(b) Utilice la relación de la parte (b) para dar otro algoritmo que generevariables aleatorias binomiales negativas.

(c) Utilice la interpretación de la distribución binomial negativa como elnúmero de ensayos necesarios para acumular un total de r éxitos, cuandocada ensayo tiene éxito de manera independiente con probabilidad p, paraobtener otro método para generar tal variable aleatoria.

FACYT-MATEMÁTICAS

Page 31: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

31 CAPÍTULO 1: Simulación

8. Si Z es una variable aleatoria normal estándar, muestre que:

E[|Z|] =

(2

π

)1/2

≈ 0.798

9. Dé dos métodos para generar una variable aleatoria X tal que:

P{X = i} =e−λλi/i!k∑j=0

e−λλj/j!

, donde i = 0, . . . , k

10. Sea X una variable aleatoria binomial con parámetros n y p. Suponga que sedesea generar una variable aleatoria Y cuya función de masa de probabilidades igual a la función de masa condicional de X dado que X ≥ k para algunak ≤ n. Sea α = P{X ≥ k} y suponga que se ha calculado el valor de α.

(a) Dé el método de transformada inversa para generar Y.

(b) Dé otro método para generar Y.

(c) ¾Para qué valores de α, pequeños o grandes, sería ine�ciente el algoritmoen (b)?

11. Se lanza de manera continua un par de dados legales, hasta que todos losposibles resultados 2, 3, . . . , 12 hayan parecido al menos una vez. Desarrolleun estudio de simulación para estimar el número esperado de lanzamientosnecesarios.

12. Suponga que la variable aleatoria X puede tomar cualquiera de los valores1, . . . , 10 con probabilidades respectivas 0.06, 0.06, 0.06, 0.06, 0.06, 0.15, 0.13,0.14, 0.15, 0.13. Utilice el método de composición para dar un algoritmo quegenere el valor de X.

13. Suponga que 0 ≤ λn ≤ λ, para toda n ≥ 1. Considere el siguiente algoritmopara generar una variable aleatoria con tasas discretas de riesgo {λn}:Paso [1] S = 0.

Paso [2] Generar U y hacer Y = Ent(

log(U)log(1−λ)

)+ 1.

Paso [3] S = S + Y.Paso [4] Generar U .Paso [5] Si U ≤ λS/λ, hacer X = S y terminar. En caso contrario, ir al paso[2].

(a) ¾Cuál es la distribución de Y en el paso 2?

UNIVERSIDAD DE CARABOBO

Page 32: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

SECCIÓN 1.22: Práctica de Ejercicios del Capítulo 1 32

(b) Explique lo que hace el algoritmo.

14. Dé un método para generar una variable aleatoria con función de densidad:

f(x) =

{x−2

2si 2 ≤ x ≤ 3

2−x/32

si 3 ≤ x ≤ 6

15. Dé un método para generar una variable aleatoria con función de distribución:

F (x) = 1− exp{−αxβ

}, 0 < x <∞

Una variable aleatoria con tal distribución es una variable aleatoria Weibull.

16. El método de composición: Suponga que es relativamente fácil generar variablesaleatorias a partir de las distribuciones Fi, donde i = 1, . . . , n. ¾Cómo se podríagenerar una variable aleatoria con la función de distribución:

F (x) =n∑i=1

piFi(x)

donde pi, i = 1, . . . , n, son números no negativos cuya suma es 1?

17. Sea G una función de distribución con densidad g y suponga para a y bconstantes, tal que a < b, que se desea generar una variable aleatoria a partirde la función de distribución:

F (x) =G(x)−G(a)

G(b)−G(a), a ≤ x ≤ b

(a) Si X tiene distribución G, entonces F es la distribución condicional de Xdada ¾cuál información?

(b) Muestre que el método de rechazo se reduce en este caso a generar unavariable aleatoria X con distribución G y luego aceptarla si está entre a yb.

18. Sea (X,Y) uniformemente distribuida en un círculo de radio 1. Muestre que siR es la distancia del centro del círculo a (X,Y), entonces R2 es uniforme en(0, 1).

19. Los autobuses llegan a un encuentro deportivo de acuerdo con un procesoPoisson a razón de cinco por hora. Con la misma probabilidad, cada autobúspuede transportar 20, 21, . . . , 40 a�cionados y el número de autobuses distintoses independiente. Escriba un algoritmo para simular la llegada de a�cionadosal encuentro en el instante t = 1.

FACYT-MATEMÁTICAS

Page 33: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

33 CAPÍTULO 1: Simulación

20. Dé un algoritmo para generar una variable aleatoria con densidad:

f(x) = 30(x2 − 2x3 + x4

), 0 ≤ x ≤ 1

Analice la e�ciencia de este método.

21. Escriba un programa que genere las primeras T unidades de tiempo de unproceso Poisson con razón λ.

UNIVERSIDAD DE CARABOBO

Page 34: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

SECCIÓN 1.22: Práctica de Ejercicios del Capítulo 1 34

FACYT-MATEMÁTICAS

Page 35: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

Capítulo 2

Fundamentos de la Inferencia

Bayesiana

La caraterística esencial de los métodos bayesianos es el uso de la probabilidad paracuanti�car la incertidumbre en las inferencias basadas en el análisis estadítico de losdatos. El proceso del análisis de datos bayesianos puede ser idealizado en tres pasos:

1. Colocar un modelo de probabilidad completo: una distribución deprobabilidad conjunta para todas las cantidades observadas y no observadasen el problema.

2. Condicionar sobre los datos observados: calcular e interpretar ladistribución a posteriori, la distribución de probabilidad condicional de loscantidades no observadas y que son de interés, dado los datos observados.

3. Evaluar el ajuste del modelo y las implicaciones de los resultados dela distribución a posteriori: el modelo ajusta los datos, son las conclusionesrazonables.

Ejemplo 2.1. Supóngase que se quiere ver el efecto de una campaña publicitaria(mercadeo) sobre las ventas de un producto. Sea:

1. Y: el porcentaje de personas que se recuerdan de haber visto el anuncio.

2. X: gasto por el anuncio.

La relación entre el gasto y el alcance del anuncio viene dado por:

Y = α + βX + ε, donde: ε ∼ N(0, σ2

)Cantidades observadas: W = (X,Y)

Cantidades no observadas: θ = (α, β, σ2)

35

Page 36: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

SECCIÓN 2.1: Inferencia Bayesiana 36

Fuentes de información sobre las cantidades desconocidas:

Experiencia del publicista, P (θ).

Resultados de la investigación previa realizada: cuánto es el porcentaje depersonas que se recuerdan del anuncio para que el producto sea conocido,P (W|θ).

Objetivos 2.1.

1. Obtener información sobre cantidades desconocidas, combinando las dos fuentesde información.

2. Calcular con base a la información obtenida, medias, medianas, modas,intervalos de probabilidad para las cantidades desconocidas.

3. Usar los parámetros estimados para futuras investigaciones.

Ejemplo 2.2. Evaluación de un producto industrial.Sean:

1. Y: índice de la producción industrial.

2. X: número de días trabajados.

La relación entre el producto y el número de días trabajados es la siguiente:

Y = α + βX + ε, donde: ε ∼ N(0, σ2

)Cantidades observadas: W = (X,Y)

Cantidades no observadas: θ = (α, β, σ2)

Interesa estimar P (θ|W) la distribución a posteriori, sobre la base de la verosimilitudde los datos L(θ|W) y la distribución a priori P (θ).

2.1. Inferencia Bayesiana

Sean:

y: las observaciones de un problema dado, con densidad P (y|θ).

θ: cantidades desconocidas usadas para especi�car una distribución de y.

P (θ): densidad a priori para θ.

FACYT-MATEMÁTICAS

Page 37: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

37 CAPÍTULO 2: Fundamentos de la Inferencia Bayesiana

Una densidad a posteriori de θ dado y se obtiene a través del teorema de Bayes,usando la distribución de probabilidad conjunta; es decir:

P (θ, y) = P (θ)P (y|θ)

Entonces la probabilidad a posteriori viene dada como:

P (θ|y) =P (θ, y)

P (y)=P (θ)P (y|θ)

P (y)(2.1.1)

P(y) es la constante normalizadora, tal que:

P (y) =∑θ

P (θ)P (y|θ)

La suma es sobre todos los valores de θ en el caso discreto. En el caso que θ seacontinuo:

P (y) =

∫Θ

P (θ)P (y|θ)dθ

Una forma equivalente de 2.1.1 es:

P (θ|y) ∝ P (θ)P (y|θ) (2.1.2)

donde P (y|θ) es la verosimilitud de los datos dado θ, también denominado L(θ).

2.1.1. Identi�cación con el Ejemplo 2.1

Priori: Experiencia de mercadeo (publicidad).

Verosimilitud: Resultados de la investigación o porcentaje de personas querecuerdan el anuncio.

Posteriori: Distribución de probabilidad de los parámetros desconocidos, a losde la experiencia de mercadeo.

2.2. El Problema de Inferencia

Sea X|θ ∼ f(X|θ). Dada una muestra de datos X = (x1, . . . , xn)T, se quiere hacerinferencia sobre θ. Hay dos tipos de enfoques:

1. Inferencia Clásica

2. Inferencia Bayesiana

UNIVERSIDAD DE CARABOBO

Page 38: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

SECCIÓN 2.2: El Problema de Inferencia 38

2.2.1. Inferencia Clásica

El concepto de probabilidad está limitado a aquellos sucesos en los que se puedende�nir frecuencias relativas.

θ es un valor �jo (pero desconocido).

La estimación se realiza usando máxima verosimilitud, mínimos cuadrados ytodos los derivados o usando estimadores insesgados.

Intervalos de con�anza.

Técnicas importantes de muestreo.

Problemas con los parámetros de molestia.

2.2.2. Inferencia Bayesiana

Todos tenemos nuestras propias probabilidades para cualquier suceso: P(lloverámañana), P(nací en 1964), P(accidentarme hoy). Nuestras probabilidadespueden ser diferentes, son nuestras propias medidas de verosimilitud parasucesos. La única restricción es que nuestras probabilidades sean coherentes(cumplan con las reglas de probabilidad).

θ es una variable aleatoria, es decir θ tiene una distribución de probabilidad.Dado los datos se modi�can las creencias sobre θ mediante el teorema de Bayes:

f(θ|X) =f(X|θ)f(θ)

f(X)∝ f(X|θ)f(θ) = L(θ|X)f(θ)

donde:

◦ L(θ|X) es la función de verosimilitud.

◦ f(θ) es la distribución a priori (inicial).

◦ P (θ|X) es la distribución a posteriori (�nal).

La estimación es un problema de decisión. En situaciones diferentes se eligiránestimadores diferentes. Se usa la teoría de utilidad para elegir.

Un intervalo de credibilidad de 95 % para θ es un intervalo en que se tiene unaprobabilidad de 95 % de que esté θ.

El método de muestreo no importa, sólo los datos son importantes.

FACYT-MATEMÁTICAS

Page 39: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

39 CAPÍTULO 2: Fundamentos de la Inferencia Bayesiana

No hay problema con los parámetros de molestia. Si θ = (θ1, θ2) donde θ2 sonparámetros de molestia, se puede expresar f(θ) = f(θ1|θ2)f(θ2) y luego se puedeobtener:

f(θ1|X) =

∫f(θ1|θ2)f(θ2)dθ2

Críticas a la Teoría Bayesiana

◦ θ no tiene que ser variable, θ puede ser �jo pero la distribución f(θ) muestralos conocimientos de θ.

◦ Falta de objetividad. ¾Cómo se puede elegir la previa P (θ)?

2.2.3. El Principio de Verosimilitud

Dice que para hacer inferencia sobre θ, después de haber visto X, toda lainformación pertinente proporcionada por los datos está contenida en la funciónde verosimilitud L(θ|X). Además dos funciones de verimilitud tienen la mismainformación sobre θ si son proporcionales. Los métodos bayesianos cumplen conel principio de verosimilitud. Si L(θ|X) ∝ L(θ|y) entonces dada una distribucióninicial f(θ):

f(θ|X) ∝ f(θ)L(θ|X) ∝ f(θ)L(θ|y) ∝ f(θ|y)

y entonces P (θ|X) = P (θ|y).

Observación 2.1.

1. El uso de estimadores de máxima verosimilitud cumple con este principio.

2. La estimación por intervalos de con�anza no cumplen con este principio.

2.2.4. Predicción

Dado los datos X = (x1, . . . , xn)T, suponga que se quiere predecir el valor dexn+1, entonces se calcula la distribución predictiva dada por:

f(xn+1|X) =

∫f(xn+1|θ)P (θ|X)dθ (2.2.1)

UNIVERSIDAD DE CARABOBO

Page 40: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

SECCIÓN 2.2: El Problema de Inferencia 40

La Media y Varianza Predictiva

Se puede evaluar la media de Xfut|X sin tener que evaluar la distribuciónpredictiva. Sólo se tiene que recordar que:

E(z) = E [E(z|y)]

para variables z e y. Para evaluar la varianza predictiva, se usa la fórmula:

V ar(z) = E [V ar(z|y)] + V ar [E(z|y)]

Problema 2.1. La distribución a posteriori P (θ|y) puede sea compleja y nose pueda obtener información tales como las medias, medianas e intervalos deprobabilidad. En la mayoría de los modelos y aplicaciones, P (y) no tiene unaforma analítica cerrada, y por lo tanto P (θ|y) no tiene forma cerrada. Estadi�cultad conduce a la siguiente pregunta: ¾Cómo muestreo de la distribuciónmultivariada P (θ|y) cuando no se dispone de forma cerrada?

1. Métodos de aproximación.

• Algoritmo de mínimos cuadrados ponderados iterativos.

• Aproximación de Laplace.

• Aproximación vía cuadratura Gaussiana.

• Métodos basados en simulación estocástica.

2. Métodos de Monte Carlo por Cadenas de Markov (MCMC).

• Muestreador Gibss.

• Metrópolis-Hastings.

• Algoritmo E-M.

• Algoritmo de aceptación y rechazo.

3. Métodos Monte Carlo secuencial.

• Filtro de Kalman.

• Filtro de Kalman extendido.

• Filtro de partículas.

Después que los datos y han sido observados, se puede predecir una variable noobservada desconocida y del mismo proceso, mediante:

P (y|y) =

∫P (y, θ|y)dθ

=

∫P (y|θ,y)P (θ|y)dθ

=

∫P (y|θ)P (θ|y)dθ (2.2.2)

donde P (y|y) es la distribución predictiva a posteriori.

FACYT-MATEMÁTICAS

Page 41: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

41 CAPÍTULO 2: Fundamentos de la Inferencia Bayesiana

2.3. Probabilidad Condicional

Dados dos eventos A y B, entonces la probabilidad condicional viene dada por:

P (A|B) =P (A ∩B)

P (B)

2.4. Regla de la Multiplicación

Si se conoce que P (A ∩B) = P (A)P (B|A) entonces:

P (A|B) =P (A ∩B)

P (B)=P (B|A)P (A)

P (B)

• P (A): es la probabilidad a priori.

• P (A|B): es la probabilidad a posteriori.

• P (B|A): se puede pensar como la verosimilitud de los datos.

Teorema 2.1. Ley de la probabilidad total.Para un evento A y una partición B1, . . . , Bk del espacio muestral S, se tieneque:

A = (A ∩B1) ∪ (A ∩B2) ∪ · · · ∪ (A ∩Bk)

⇒ P (A) = P (A ∩B1) + P (A ∩B2) + · · ·+ P (A ∩Bk)

= P (A|B1)P (B1) + P (A|B2)P (B2) + · · ·+ P (A|Bk)P (Bk)

=k∑i=1

P (A|Bi)P (Bi) (2.4.1)

En la �gura 2.1 se puede apreciar un ejemplo sobre el evento A y la particiónB1, B2, . . . Bk para obtener la probabilidad total de A.

2.5. Teorema de Bayes

Para i = 1, . . . , k, se tiene que:

P (Bi|A) =P (Bi ∩ A)

P (A)=

P (A|Bi)P (Bi)∑ki=1 P (A|Bi)P (Bi)

(2.5.1)

UNIVERSIDAD DE CARABOBO

Page 42: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

SECCIÓN 2.5: Teorema de Bayes 42

Figura 2.1: Evento A y una partición B1, B2, . . . , Bk del espacio muestral S.

Ejemplo 2.3. En una fábrica se embalan (en cajas) galletas en 4 cadenas demontaje: A1, A2, A3 y A4. El 35 % de la producción total se embala en cadenaA1 y el 20 %, 24 % y 21 % en A2, A3 y A4 respectivamente. Los datos indicanque no se embalan correctamente un porcentaje pequeño de las cajas; el 1 % deA1, el 3 % de A2, el 2.5 % de A3 y el 2 % de A4. ¾Cuál es la probabilidad de queuna caja elegida al azar de la producción total sea defectuosa?

Solución: Sea D el evento que representa la variable aleatoria de serdefectuoso, entonces:

◦ P (D|A1) = 0.01

◦ P (D|A2) = 0.03

◦ P (D|A3) = 0.025

◦ P (D|A4) = 0.02

◦ P (A1) = 0.35

◦ P (A2) = 0.20

◦ P (A3) = 0.24

◦ P (A4) = 0.21

Así que la probabilidad de que una caja elegida al azar sea defectuosa puede ser

FACYT-MATEMÁTICAS

Page 43: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

43 CAPÍTULO 2: Fundamentos de la Inferencia Bayesiana

expresada como sigue:

P (D) = P [(D ∩ A1) ∪ (D ∩ A2) ∪ (D ∩ A3) ∪ (D ∩ A4)]

= P (D ∩ A1) + P (D ∩ A2) + P (D ∩ A3) + P (D ∩ A4)

= P (D|A1)P (A1) + P (D|A2)P (A2) + P (D|A3)P (A3)

+ P (D|A4)P (A4)

= 0.01× 0.35 + 0.03× 0.20 + 0.025× 0.24 + 0.02× 0.21

= 0.0197

Nota 2.1. El teorema es válido para variables discretas:

f(x) =∑y

f(x|Y = y)P (Y = y)

y para variables continuas:

f(x) =

∫f(x|y)P (y)dy

Ejemplo 2.4. Supóngase que y ∼ Exponencial(β), de modo que:

P (y) =

{β exp{−βy} si y > 0

0 en otro caso

Además, suponga que X|y ∼ Poisson(y), por lo tanto:

P (X|y) =yXe−y

X!

Obtenga la distribución marginal de X.

Solución:

P (X) =

∫P (X|y)P (y)dy

=

∫ ∞0

yXe−y

X!βe−βydy

X!

∫ ∞0

yXe−βy−ydy

X!

∫ ∞0

yXe−y(β+1)dy (2.5.2)

UNIVERSIDAD DE CARABOBO

Page 44: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

SECCIÓN 2.5: Teorema de Bayes 44

Haciendo el cambio de variable siguiente:

w = (β + 1)y ⇒ dw = (β + 1)dy ⇒ dw

β + 1= dy

y sustituyendo el cambio en la ecuación 2.5.2, se obtiene que:

P (X) =β

X!

∫ ∞0

(w

β + 1

)X

e−wdw

β + 1

X!(β + 1)X+1

∫ ∞0

wX+1−1e−wdw

=βΓ(X + 1)

X!(β + 1)X+1

=βX!

X!(β + 1)X+1

(β + 1)X+1

β + 1

1

(β + 1)X

Sea p = β/(β + 1), donde 0 < p < 1, entonces:

1− p = 1− β

β + 1=

1

β + 1

Por lo tanto:

P (X) = p(1− p)X, X = 0, 1, 2, . . .

En consecuencia X ∼ Geometrica(p) y se sabe como generar muestras de unadistribución geométrica.

Ejemplo 2.5. Suponga que X|θ ∼ Exponencial(θ) y θ ∼ Gamma(α, β).Obtenga la marginal de X.

Solución:

P (X) =

∫ ∞0

f(X|θ)P (θ)dθ

=

∫ ∞0

θe−θXβα

Γ(α)θα−1e−θβdθ

=βα

Γ(α)

∫ ∞0

θα+1−1e−θX−θβdθ

=βα

Γ(α)

∫ ∞0

θα+1−1e−θ(X+θ)dθ (2.5.3)

FACYT-MATEMÁTICAS

Page 45: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

45 CAPÍTULO 2: Fundamentos de la Inferencia Bayesiana

Se hace el cambio:

w = θ(X + β)⇒ dw = (X + β)dθ ⇒ dθ =dw

X + β

y sustituyendo en 2.5.3, se obtiene que:

P (X) =βα

Γ(α)

∫ ∞0

(w

X + β

)α+1−1

e−wdw

X + β

=βα

Γ(α)

1

(X + β)α+1

∫ ∞0

wα+1−1e−wdw

=βα

Γ(α)

1

(X + β)α+1Γ(α + 1)

=βα

Γ(α)

1

(X + β)α+1αΓ(α)

=αβα

(X + β)α+1

Esta distribución no es estándar, es desconocida. No se puede muestreardirectamente de ella, pero si se hace el cambio z = X + β, entonces: X = z− βy,

P (X) = P (z − β) =αβα

zα+1= αβαz−α−1

Por lo tanto, X tiene una distribución de Pareto, la cual se denota como:

X ∼ PA(β, α), para z > β

Ejemplo 2.6. Tres prisioneros, Andrés, Bartolo y Carlos han solicitado lalibertad condicional. Se sabe que el juez va a poner en libertad a uno de lostres, pero no puede decir quién es hasta el �nal del mes. El juez dice a Andrésque puede informarle el nombre de un solicitante sin éxito dadas las siguientescondiciones:

1. Si se pone en libertad Andrés, el juez dirá Bartolo o Carlos con la mismaprobabilidad (1

2).

2. Si se pone en libertad Bartolo, dirá Carlos.

3. Si se pone en libertad Carlos, dirá Bartolo.

El juez cree que esta información es inútil a Andrés y le dice que Bartolo noestará libre. Obtenga:

P (Andrés salga en libertad | el juez dice que Bartolo no estará libre).

UNIVERSIDAD DE CARABOBO

Page 46: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

SECCIÓN 2.5: Teorema de Bayes 46

Solución: Sean A, B y C los eventos de que Andrés, Bartolo y Carlos quedenen libertad respectivamente, y sea D el evento que el juez diga Bartolo no estarálibre. Entonces:

P (A) = P (B) = P (C) = 1/3

Pero sólo uno de los tres va a ganar la libertad.

P (D|A) =1

2P (D|B) = 0

P (D|C) = 1

Entonces:

P (A|D) =P (A ∩D)

P (D)

=P (D|A)P (A)

P (D)

=12

13

1/2=

1

3

P (D) = P (D ∩ A) + P (D ∩B) + P (D ∩ C)

= P (D|A)P (A) + P (D|B)P (B) + P (D|C)P (C)

=1

2

1

3+ 0

1

3+ 1

1

3=

1

2

Ejemplo 2.7. Suponga que se descubrió en el ejemplo 2.3 que una caja estádefectuosa. Calcular la probabilidad de que venga de A1, A2, A3 y A4.

Solución: Se sabe que:

P (A1|D) =P (A1 ∩D)

P (D)

=P (D|A1)P (A1)

P (D)

⇒ P (D) = P (D ∩ A1) + P (D ∩ A2) + P (D ∩ A3) + P (D ∩ A4)

= P (D|A1)P (A1) + P (D|A2)P (A2) + P (D|A3)P (A3)

+ P (D|A4)P (A4)

= 0.0197

FACYT-MATEMÁTICAS

Page 47: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

47 CAPÍTULO 2: Fundamentos de la Inferencia Bayesiana

Así que:

P (A1|D) =0.01× 0.35

0.0197≈ 0.1776

P (A2|D) =0.03× 0.20

0.0197≈ 0.3045

P (A3|D) =0.025× 0.24

0.0197≈ 0.3045

P (A4|D) =0.02× 0.21

0.0197≈ 0.2131

Ejemplo 2.8. Suponga que y ∼ Exponencial(β) y x|y ∼ Poisson(y). Obtengala distribución condicional de y|x.

Solución:

f(y|x) =f(y, x)

P (x)

=P (x|y)f(y)

P (x)=

P (x|y)f(y)∑x

P (x|y)f(y)

=yx exp{−y}β exp{−βy}/x!

β/ [(β + 1)x+1]=

(β + 1)x+1βyxe−y−βy

βx!

=(β + 1)x+1yxe−(y+βy)

x!=

(β + 1)x+1yx+1−1e−y(β+1)

x!

=(β + 1)x+1y(x+1)−1e−y(β+1)

Γ(x+ 1)

⇒ y|x ∼ Gamma(x+ 1, β + 1)

Ejemplo 2.9. Si x|θ ∼ Exponencial(θ) y θ ∼ Gamma(α, β), obtener ladistribución de θ dada una observación x.

Solución:

P (θ|x) =P (θ ∩ x)

P (x)=P (x|θ)P (θ)

P (x)

∝ P (x|θ)P (θ) = θe−θxβα

Γ(α)θα−1e−βθ

=βα

Γ(α)θα+1−1e−βθ−θx

=βα

Γ(α)θα+1−1e−θ(β−x)

⇒ θ|x ∼ Gamma(α + 1, β + x)

UNIVERSIDAD DE CARABOBO

Page 48: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

SECCIÓN 2.5: Teorema de Bayes 48

Ejemplo 2.10. Supóngase que si θ = 1, entonces y tiene una distribuciónnormal con media 1 y desviación estándar σ, y si θ = 2, entonces y tiene unadistribución normal con media 2 y desviación σ. Supóngase que P (θ = 1) =P (θ = 2) = 1/2.

a. Para σ = 2, escriba la fórmula para la densidad de probabilidad marginalde y.

b. ¾Cuál es la probabilidad P (θ = 1|y = 1)?. Suponga que σ = 2.

c. Describa cómo la densidad a posteriori de θ cambia en la forma cuando σse incrementa o disminuye.

Solución:

a. Por hipótesis se sabe lo siguiente:

• Si θ = 1, entonces y|θ = 1 ∼ N (1, σ2)

• Si θ = 2, entonces y|θ = 2 ∼ N (2, σ2)

Ahora:

P (y) =∑θ

P (y, θ) =∑θ

P (y|θ)P (θ)

= P (y|θ = 1)P (θ1) + P (y|θ = 2)P (θ2)

= N(y; 1, σ2

) 1

2+N

(y; 2, σ2

) 1

2

= N(y; 1, 4)1

2+N(y; 2, 4)

1

2

b. Primero veamos que:

{y = 1} = {y = 1 ∩ θ = 1} ∪ {y = 1 ∩ θ = 2}

Entonces:

P (y = 1) = P (y = 1 ∩ θ = 1) + P (y = 1 ∩ θ = 2)

= P (y = 1|θ = 1)P (θ = 1) + P (y = 1|θ = 2)P (θ = 2)

Ahora:

P (θ = 1|y = 1) =P (θ = 1 ∩ y = 1)

P (y = 1)

=P (y = 1|θ = 1)P (θ = 1)

P (y = 1|θ = 1)P (θ = 1) + P (y = 2|θ = 2)P (θ = 2)

=N(y = 1; 1, 4)1

2

N(y = 1; 1, 4)12

+N(y = 1; 2, 4)12

= 0.53

FACYT-MATEMÁTICAS

Page 49: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

49 CAPÍTULO 2: Fundamentos de la Inferencia Bayesiana

c.

P (θ|y) ∝ P (y|θ)P (θ)

= P (y|θ = 1)P (θ = 1) + P (y|θ = 2)P (θ = 2)

= N(y; 1, σ2

) 1

2+N

(y; 2, σ2

) 1

2

=1

2

1√2πσ

exp

{− 1

2σ2(y − 1)2

}+

1

2

1√2πσ

exp

{− 1

2σ2(y − 2)2

}=

1

2√

2πσ

(exp

{− 1

2σ2(y − 1)2

}+ exp

{− 1

2σ2(y − 2)2

})∝ 1

σ

(1

e1

2σ2 (y−1)2+

1

e1

2σ2 (y−2)2

)Es fácil ver que:

lımσ→∞

1

σe1σ2 (y−1)2

+1

σe1σ2 (y−2)2

= 0

Ahora se calcula lo siguiente:

lımσ→0

1

σe1σ2 (y−1)2

+1

σe1σ2 (y−2)2

Por una parte:

lımσ→0

1

σe1σ2 (y−1)2

= lımσ→0

1/σ

e1σ2 (y−1)2

= lımσ→0

(y − 1)2/σ2

e1σ2 (y−1)2

σ

(y − 1)2

Sea z = 1/σ2. Si σ → 0, entonces z →∞. De modo que:

lımσ→0

(y − 1)2/σ2

e1σ2 (y−1)2

σ

(y − 1)2= lım

σ→0

(y − 1)2/σ2

e1σ2 (y−1)2

lımσ→0

σ

(y − 1)2

= lımσ→0

(y − 1)2/σ2

e1σ2 (y−1)2

0

= lımz→∞

(y − 1)2z

ez(y−1)20 =∞∞

0

Aplicando la regla de L'Hopital se obtiene lo siguiente:

lımz→∞

(y − 1)2z

ez(y−1)2= lım

z→∞

1

ez(y−1)2= 0

Por lo tanto:

lımσ→0

(y − 1)2/σ2

e1σ2 (y−1)2

σ

(y − 1)2= 0

UNIVERSIDAD DE CARABOBO

Page 50: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

SECCIÓN 2.5: Teorema de Bayes 50

En conclusión:

lımσ→0

1

σe1σ2 (y−1)2

+1

σe1σ2 (y−2)2

= 0

Es decir cuando σ es muy grande, la densidad a posteriori de θ tiendea cero. De igual forma si el valor de σ es muy pequeño (casi cero), ladensidad a posteriori tambien tenderá a cero.

Ejemplo 2.11. Aproximadamente 1/125 de todos los nacimientos son mellizosno idénticos y 1/300 de los nacimientos son mellizos idénticos. Elvis Presleytiene un hemano mellizo (quien muere al nacer). ¾Cuál es la probabilidad deque Elvis fuera un mellizo idéntico?

Solución: Defínase los siguientes eventos:

• Sea MI el evento que denota que el mellizo es idéntico.

• Sea HM el evento que denota que los hermanos son mellizos.

• Sea MNI el evento que denota que los mellizos no son idénticos.

Ahora:

P (MI ∩HM) = P (HM |MI)P (MI) =1

2

1

300

P (MNI ∩HM) = P (HM |MNI)P (MNI) =1

2

1

125

P (MI|HM) =P (MI ∩HM)

P (HM)

=P (HM |MI)P (MI)

P (HM |MI)P (MI) + P (HM |MNI)P (MNI)

=12

1300

12

1300

+ 12

1125

=1

3001

300+ 1

125

=5

17≈ 0.2941

Ejemplo 2.12. Se podría usar el conjunto de datos de fútbol para estimarprobabilidades condicionales acerca de los juegos del futbol profesional. Estosfueron 12 juegos con extensiones de 8 puntos, las salidas de estos juegos fueron:

−7,−5,−3,−3, 1, 6, 7, 13, 15, 16, 20, 21

Con valores positivos indicando ganados por el favorito y valores negativosindicando ganados por los no favoritos. Considere las siguientes probabilidadescondicionales:

a. P (favorito gane| extensión de puntos= 8)

FACYT-MATEMÁTICAS

Page 51: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

51 CAPÍTULO 2: Fundamentos de la Inferencia Bayesiana

b. P (favorito gane por al menos 8| extensión de puntos=8 y el favorito gane)

c. P (favorito gane por al menos 8| extensión de puntos= 8)

Solucion:

a. Defínase los siguientes eventos:

• Sea FG el evento que denota que el favorito gane.

• Sea oFG el evento que denota que el favorito gane por al menos 8puntos.

• Sea EP el evento que denota la extensión de puntos.

Luego, se procede a calcular lo siguiente:

P (FG|EP = 8) =P (FG ∩ EP = 8)

P (EP = 8)=

8

12= 0.67

b.

P (oFG|EP = 8) =P (oFG ∩ EP = 8)

P (EP = 8)=

5

12= 0.42

c.

P (oFG|EP = 8 ∩ FG) =P (oFG ∩ (EP = 8 ∩ FG))

P (EP = 8 ∩ FG)=

5

8= 0.63

Ejemplo 2.13. Supóngase que la distribución a priori es Beta(4, 4) sobre laprobabilidad de θ, que es una moneda la cual podría producir una cara cuando selanza de una manera especí�ca. La moneda es independiente del lanzamiento.Supóngase que se lanza y que la cara aparece menos de 3 veces. Si a usted nole dicen cuantas caras fueron obtenidas, solamente que el número es menor que3, calcule la distribución a posteriori para θ y haga un bosquejo.

Solución: Supóngase que E denota el experimento y X es el evento. Porconsiguiente, sean:

• E: Lanzar una moneda 10 veces.

• X: Observar al menos 2 caras,

es decir, los valores posibles que toma la variable aleatoria X son: 0, 1, 2. Debidoa que θ ∼ Beta(4, 4), entonces la distribución a priori viene dada por:

P (θ) ∝ θ3(1− θ)3

UNIVERSIDAD DE CARABOBO

Page 52: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

SECCIÓN 2.5: Teorema de Bayes 52

y la verosimilitud de los datos es:

L(θ|X) =

(nx

)P x(1− P )n−x

así que la distribución a posteriori es:

P (θ|X) ∝ L(θ|X)P (θ)

=

(nx

)θx(1− θ)n−xθ3(1− θ)3

= θ3(1− θ)3 + 10θ4(1− θ)12 + 45θ5(1− θ)4

Ejemplo 2.14. Si y es el número de 6 en 1000 lanzamientos independientesde un dado correcto:

a. Aproxime la distribución de y, basado en la aproximación normal.b. Use la tabla normal para aproximar 5 %, 25 %, 50 %, 75 % y 95 % de lospuntos para la distribución de y˜.Solución: Se sabe que y ∼ Binomial(n, p), entonces:

E(y) = np = 10001

6= 166.7

V ar(y) = npq = np(1− p) = 10001

6

5

6=

5000

36

⇒√V ar(y) =

√5000

36= 11.8

Luego usando el teorema del límite central, se tiene que:

Z =y − E(y)√V ar(y)

∼ N(0, 1)

De modo que:

• 5 % de los puntos es: E(y)− Z5 %

√V ar(y) = 166.7− (1.65)11.8 ≈ 147

• 25 % de los puntos es: E(y)− Z25 %

√V ar(y) = 166.7− (0.67)11.8 ≈ 159

• 50 % de los puntos es: E(y)− Z50 %

√V ar(y) = 166.7− (0)11.8 = 166.7

• 75 % de los puntos es: E(y)−Z75 %

√V ar(y) = 166.7 + (−0.67)11.8 ≈ 175

• 95 % de los puntos es: E(y)−Z95 %

√V ar(y) = 166.7 + (−1.64)11.8 ≈ 186

FACYT-MATEMÁTICAS

Page 53: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

53 CAPÍTULO 2: Fundamentos de la Inferencia Bayesiana

Ejemplo 2.15. Sea y el número de 6 en 1000 lanzamientos independientes deun dado particular, el cual puede no ser correcto. Sea θ la probabilidad de queel dado caiga en 6. Supóngase que la distribución a priori de θ es como sigue:

P

(θ =

1

12

)= 0.25; P (y|θ) =

1

12

P

(θ =

1

6

)= 0.5; P (y|θ) =

1

6

P

(θ =

1

4

)= 0.25; P (y|θ) =

1

4

Use la aproximación normal para obtener la distribución condicional P (θ|y).

Solución:

P (θ|y) ∝ P (y|θ)P (θ) = P (y|θ1)P (θ1) + P (y|θ2)P (θ2) + P (y|θ3)P (θ3)

= P (y|θ1)1

4+ P (y|θ2)

1

2+ P (y|θ3)

1

4

Usando la aproximanción normal para obtener la distribución condicional, setiene que:

P (y|θ) =1

12

⇒ E(y) = nθ = 10001

12= 83.33

V ar(y) = nθ(1− θ) = 10001

12

11

12= 76.38

⇒√V ar(y) = 8.74

De la misma forma:

P (y|θ) =1

6⇒ E(y) = 166.7,

√V ar(y) = 11.8

P (y|θ) =1

4⇒ E(y) = 250,

√V ar(y) = 13.7

Finalmente la distribución de y|θ es una mezcla de tres distribucionescondicionales:

P (y|θ) ∝ 1

3N (83.33, 76.38) +

1

3N(166.7, (11.8)2

)+

1

3N(250, (13.7)2

)Ahora, usando el software R se procede a gra�car la distribución de y|θ de lasiguiente manera:

UNIVERSIDAD DE CARABOBO

Page 54: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

SECCIÓN 2.5: Teorema de Bayes 54

y=1/3*rnorm(1000,83.33,8.74)+1/3*rnorm(1000,166.7,11.8)+

1/3*rnorm(1000,250,13.7);

plot(density(y))

En la �gura 2.2 se puede observar la distribución de y|θ obtenida por R.

Figura 2.2: Grá�ca de la distribución de y|θ.

Ejemplo 2.16. Si la distribución a priori de θ ∼ U(0, 1):

a. Obtenga la distribución predictiva a priori de y:

P (y = k) =

∫ 1

0

P (y = k|θ)dθ, k = 0, 1, . . . , n

donde y es el número de caras en n lanzamientos de una moneda, cuyaprobabilidad de salir cara es θ.

FACYT-MATEMÁTICAS

Page 55: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

55 CAPÍTULO 2: Fundamentos de la Inferencia Bayesiana

b. Supóngase que θ ∼ Beta(α, β), y uno observa y caras en n salidas. Pruebeque la media a posteriori de θ siempre cae entre la media a priori α/(α+β)y la frecuencia relativa de las caras y/n.

c. Pruebe que si θ ∼ U(0, 1), la varianza a posteriori de θ siempre es menorque la varianza a priori.

Solución:

a.

P (y = k) =

∫ 1

0

P (y = k|θ)dθ

=

∫ 1

0

(nk

)θk(1− θ)n−kdθ

=

(nk

)∫ 1

0

θk+1(1− θ)n−k+1−1dθ

=

(nk

)Γ(k + 1)Γ(n− k + 1)

Γ(n+ 2)

=n!

(n− k)!k!

k!(n− k)!

(n+ 1)k!=

1

n+ 1

Nota 2.2. Integral Beta∫ 1

0

Γ(α + β)

Γ(α)Γ(β)θα−1(1− θ)β−1dθ = 1⇒

∫ 1

0

θα−1(1− θ)β−1dθ =Γ(α)Γ(β)

Γ(α + β)

b. Primero se calcula la media a posteriori E(θ|y).

P (θ|y) ∝ L(θ|y)P (θ)

=

(ny

)θy(1− θ)n−yθα−1(1− θ)β−1

∝ θα+y−1(1− θ)n+β−y−1

⇒ θ|y ∼ Beta(α + y, n+ β − y)

⇒ E(θ|y) =α + y

α + β + n

donde y ∼ Beta(α, β), de modo que:

E(y) =α

α + β

V ar(y) =αβ

(α + β)2(α + β + 1)

UNIVERSIDAD DE CARABOBO

Page 56: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

SECCIÓN 2.5: Teorema de Bayes 56

Ahora, se debe probar lo siguiente:

α

α + β≤ α + y

α + β + n≤ y

n

Nótese que:

α + y

α + β + n= λ

α

α + β+ (1− λ)

y

n

= λα

α + β+y

n− λy

n

=y

n+ λ

α + β− y

n

)⇒ λ

[αn− αy − yβ

(α + β)n

]= λ

α + β− y

n

)=

α + y

α + β + n− y

n=nα + ny − αy − βy − ny

n(α + β + n)

⇒ λ =(α + β)n(nα− αy − βy)

(nα− αy − βy) [n(α + β + n)]

=α + β

α + β + n∈ (0, 1)

Por lo tanto:

λα

α + β=

α + β

α + β + n

α

(α + β)=

α

α + β + n

1− λ = 1− α + β

α + β + n=α + β + n− α− β

α + β + n=

n

α + β + n

(1− λ)y

n=

n

(α + β + n)

y

n=

y

α + β + n

Si λ = 0, entonces se tiene que:

α + y

α + β + n=y

n

Si λ = 1, entonces se tiene que:

α + y

α + β + n=

α

α + β

c. Se sabe que:

V ar(θ) =αβ

(α + β)2(α + β + 1)=

1

12

FACYT-MATEMÁTICAS

Page 57: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

57 CAPÍTULO 2: Fundamentos de la Inferencia Bayesiana

Como θ ∼ U(0, 1) entonces P (θ) = 1. Luego:

E(θ) =

∫ 1

0

θdθ =θ2

2

∣∣∣∣10

=1

2

E(θ2) =

∫ 1

0

θ2dθ =θ3

3

∣∣∣∣10

=1

3

Entonces:

V ar(θ) = E(θ2)− [E(θ)]2 =

1

3− 1

4=

4− 3

12=

1

12

Se calcula la distribución a posteriori de la siguiente manera:

P (θ|y) ∝ θy(1− θ)n−y1 = θy+1−1(1− θ)n−y+1−1

⇒ θ|y ∼ Beta(1 + y, 1 + n− y)

V (θ|y) =(1 + y)(n− y + 1)

(2 + n)2(3 + n)

=

(1 + y

2 + n

)(1 + n− y

2 + n

)(1

3 + n

)Se hace el siguiente cambio de variables:

T1 =1 + y

2 + n

T2 =1 + n− y

2 + n

Asi que:

T1 + T2 =1 + y

2 + n+

1 + n− y2 + n

=1 + y + n− y + 1

2 + n=

2 + n

2 + n= 1

Se sabe que la media aritmética es (T1+T2)/2 y la media geométrica√T1T2.

Además: √T1T2 ≤

T1 + T2

2≤ 1

2⇒ T1T2 ≤

1

4

En consecuencia:

V ar(θ|y) <1

3

1

4=

1

12

Ejemplo 2.17. Supóngase que X ∼ Binomial(n, θ) y θ ∼ Beta(a, b).

UNIVERSIDAD DE CARABOBO

Page 58: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

SECCIÓN 2.5: Teorema de Bayes 58

a. ¾Cuál es el valor de X que minimiza la varianza de la distribución aposteriori de θ?

b. ¾Cuál es el valor de X que maximiza la varianza?

Solución:

P (θ|X) ∝ L(X; θ)P (θ)

∝ θX(1− θ)n−Xθa−1(1− θ)b−1

= θa+X−1(1− θ)b+n−X−1

⇒ θ|X ∼ Beta(a+ X, b+ n−X)

Así que:

E(θ|X) =a+ X

a+ b+ n

Además:

V ar(θ|X) =(a+ X)(n+ b−X)

(a+ b+ n+ 1)(a+ b+ n)2

⇒ ∂V ar(θ|X)

∂X=

(n+ b−X)

(a+ b+ n+ 1)(a+ b+ n)2− (a+ X)

(a+ b+ n+ 1)(a+ b+ n)2= 0

De modo que:

n+ b−X = a+ X

⇒ n+ b− a = 2X

Por lo tanto, X = (n+ b− a)/2. Luego:

∂2V ar(θ|X)

∂X2= − 2

(a+ b+ n+ 1)(a+ b+ n)2< 0

De modo que en X = (n + b − a)/2 se alcanza un máximo y en X = 0 sealcanza un mínimo. Además se puede observar que la V ar(θ|X) es una funcióncreciente.

Ejemplo 2.18. Supóngase que X ∼ U(θ − 1, θ + 1), es observada y supóngaseuna a priori:

P (θ) ∝ 1

θ, θ > 0

FACYT-MATEMÁTICAS

Page 59: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

59 CAPÍTULO 2: Fundamentos de la Inferencia Bayesiana

a. Probar que P (θ|X) = c/θ, donde θ ∈ (X − 1,X + 1), c−1 = ln[

(X+1)(X−1)

]y

X > 1.

b. Calcule la media, la moda y la mediana de la distribución a posteriori.

Solución:

a. Primero, se tiene que:

P (θ|X) ∝ L(X; θ)P (θ) =

(1

θ + 1− (θ − 1)

)1

θ=

1

2

1

θ∝ 1

θ

Ahora:

1 =

∫ X+1

X−1

P (θ|X)dθ =

∫ X+1

X−1

c

θdθ = c ln θ

∣∣∣X+1

X−1

= c {ln(X + 1)− ln(X− 1)} = c ln

[(X + 1)

(X− 1)

]⇒ 1

c= ln

[(X + 1)

(X− 1)

]⇒ c−1 = ln

[(X + 1)

(X− 1)

]b.

E(θ|X) =

∫ X+1

X−1

θc

θdθ = c

∫ X+1

X−1

dθ = cθ∣∣∣X+1

X−1= c(X + 1−X + 1) = 2c

Para evaluar la moda es su�ciente ver que P (θ|X) es decreciente en θ, porlo que su máximo ocurre en X = 1. La mediana se obtiene como sigue:∫ m

X−1

P (θ|X)dθ =1

2⇒∫ m

X−1

c

θdθ =

1

2

⇒ c

∫ m

X−1

1

θdθ =

1

2⇒ c ln(θ)

∣∣∣mX−1

=1

2

⇒ c[ln(m)− ln(X− 1)] =1

2⇒ ln

(m

X− 1

)=

1

2c

⇒ m

X− 1= exp

{1

2c

}⇒ m = (X− 1) exp

{1

2c

}

2.6. Práctica de Ejercicios del Capítulo 2

1. En una ciudad determinada, el 30 % de las personas son conservadores, el50 % son liberales y el 20 % son independientes. Los registros muestran que

UNIVERSIDAD DE CARABOBO

Page 60: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

SECCIÓN 2.6: Práctica de Ejercicios del Capítulo 2 60

en unas elecciones concretas, votaron el 65 % de los conservadores, el 82 %de los liberales y el 50 % de los independientes. Si se selecciona al azar unapersona de la ciudad y se sabe que no votó en las elecciones pasadas, ¾cuáles la probabilidad de que sea un liberal?

2. Una caja contiene tres monedas con una cara en cada lado, cuatro monedascon una cruz en cada lado y dos monedas legales. Si se selecciona al azaruna de estas nueve monedas y se lanza una vez, ¾cuál es la probabilidad deobtener una cara?. Si se obtiene una cara, ¾cuál es la probabilidad de quela moneda sea legal?. Si se tira la moneda n veces y se obtienen n caras,¾cuál es la probabilidad de que la moneda sea legal?

3. Se sabe que el 0.25% de las mujeres y el 5% de los hombres son daltónicos.Se escoge una persona al azar que sufre de daltonismo. ¾Cuál es laprobabilidad de que sea hombre?. (Se asume que hay un mismo númerode hombres y mujeres).

4. En un concurso de televisión, hay tres puertas cerradas (A, B yC) y tras una de ellas se ha escondido el premio de 5 millones depesetas. Tras las otras, no hay nada. Tienes que elegir una puerta yse supone que eliges la puerta A. Ahora el presentador (quien sabedonde está el premio) abre la puerta B que no contiene el premio yte ofrece la posibilidad de cambiar tu puerta para la puerta C. ¾Quéharías?. Explicar detalladamente tu respuesta. Para una descripciónmás completa y una simulación del problema, ver la página webhttp://www.intergalact.com/threedoor/threedoor.html.

5. Suponer que X ∼ Poisson(λ), e Y|X ∼ Binomial(X, p) con p conocido.

(a) Demostrar que la media marginal de Y es E(Y) = λp.

(b) Calcular la varianza marginal V ar(Y).

(c) Calcular la distribución marginal de Y.

(d) ¾Cuál es la distribución de X|Y?. Tener cuidado a de�nircorrectamente el soporte de esta distribución. Demostrar que Z =X−Y se distribuye como una Poisson dado Y.

6. Sea X|N ∼ Binomial(N, 1/2), donde N es tal que N − 1 ∼Geometrica(1/4), esto es:

P (N = n) =1

4

(3

4

)n−1

n = 1, 2, . . .

(a) Calcular la media y varianza marginal de X.

(b) Dada una observación X = 5, hallar la distribución N|X.

FACYT-MATEMÁTICAS

Page 61: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

61 CAPÍTULO 2: Fundamentos de la Inferencia Bayesiana

(c) Escribir un programa para estimar la constante de la distribución y lamedia de N|X. Incluir una copia del código y los resultados.

7. El BOD es un índice de los niveles de contaminación emitidos por unafactoría. La distribución a priori del director de la empresa para el nivelmedio de contaminación emitido al día(µ) es µ ∼ N(3000, 8002). Ladistribución a priori del inspector de factorías es N(3300, 8002). Durante60 días la media de emisiones fue 3246. Se supone que la varianza de lasemisiones diarias es igual a 8002.

(a) Calcular las distribuciones a posteriori del director y del inspectorpara µ.

(b) Calcular las probabilidades a posteriori de que µ > 3200 (el nivelmáximo permitido por la ley).

8. Se han anotado las edades de 21 niños cuando hablaron por primera vez:

15, 26, 10, 9, 15, 20, 18, 11, 8, 20, 7, 9, 10, 11, 11, 10, 12, 42, 17, 11, 10

Suponiendo que los datos son normales y una distribución a priori:

µ|φ ∼ N

(12,

1

φ

)(a) Calcular la distribución a posteriori de µ|φ,X.(b) Sea la distribución a priori de φ una Gamma, es decir, φ ∼

Gamma (1/2, 1/2).i. Calcular la distribución a posteriori de φ|X.ii. ¾Cuál es la distribución a posteriori de la varianza σ2 = 1/φ?iii. Obtener la distribución a posteriori de µ|X y escribir un intervalo

de credibilidad del 95 % para µ|X.

9. Suponga que X1,X2 y X3 son independientes y todas poseen la mismadistribución continua con densidad f(X) y función de distribución F (X).Encuentre la función de distribución de:

Xmed = mediana {X1,X2,X3}

en términos de F (X), y una expresión para la función de densidad deXmed.

10. Suponga que i y j poseen una distribución binomial independiente con elmismo parámetro π, y con parámetros m y n, respectivamente, es decir:

i ∼ Binomial(m,π)

j ∼ Binomial(n, π)

Sea k = i+ j:

UNIVERSIDAD DE CARABOBO

Page 62: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

SECCIÓN 2.6: Práctica de Ejercicios del Capítulo 2 62

(a) Desmuestre que k tiene una distribución binomial, con parámetros πy m+ n.

(b) Encuentre la distribución de i condicional sobre el valor de k.

11. Sea X = (X1,X2,X3) un vector aleatorio continuo, cuya función dedensidad conjunta es la siguiente:

P (X1,X2,X3) =

{6 exp{−X1 −X2 −X3} si 0 < X1 < X2 < X3

0 en otro caso

Encuentre:

(a) La función de densidad marginal de X2

(b) La densidad condicional de (X1,X3) dado X2

(c) La densidad conjunta marginal de (X1,X2)

(d) La densidad condicional de X3 dado (X1,X2)

(e) La densidad condicional de X1|X2

12. Una variable aleatoria X se dice que tiene una distribución Weibull siexisten parámetros c > 0 y α > 0, tal que:

P (X) =

{cα−1 (X/α)c−1 exp {− (X/α)c} si X > 0

0 en otro caso

Encuentre una función Y de X, tal que Y tiene una distribuciónexponencial, y encuentre la media y la varianza de X.

13. Sea Y|Λ ∼ Poisson(Λ) y Λ ∼ Gamma(α, β). Encuentre la distribuciónmarginal, la media y la varianza de Y. Pruebe que la distribución marginalde Y es binomial negativa si α es un entero.

14. Sea Y|N ∼ Binomial(N, p),N|Λ ∼ Poisson(Λ) y Λ ∼ Gamma(α, β).Pruebe que esto conduce a la misma distribución incondicional marginalde Y, dada en la pregunta anterior.

15. Sea Y|p ∼ Binomial(n, p) y p ∼ Beta(α, β). Pruebe que la marginal deY es:

P (Y = y) =

(ny

)Γ(α + β)

Γ(α)Γ(β)

Γ(y + α)Γ(n− y + β)

Γ(α + β + n)

16. Suponer que el número de accidentes X en una fábrica se distribuye comoPoisson, X|θ ∼ Poisson(θ). Suponer la distribución a priori:

f(θ) =34θ4−1 exp{−3θ}

Γ(4), θ ≥ 0

FACYT-MATEMÁTICAS

Page 63: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

63 CAPÍTULO 2: Fundamentos de la Inferencia Bayesiana

(a) Dados 18 accidentes en los primeros 6 meses, obtener la distribucióna posteriori de θ y calcular su media y varianza.

(b) Calcular la media y varianza predictiva del número de accidentes enla segunda mitad del año (6 meses).

17. Supóngase que X ∼ Binomial(n, θ) y la a priori conjugada θ ∼ Beta(a, b)es usada.

(a) ¾Cuál es el valor de X que minimiza la varianza de la distribución aposteriori de θ?

(b) ¾ Cuál es el valor de X que maximiza esto?. Interprete los resultados.

(c) Repetir (a) y (b) en el caso de una distribución Binomial Negativapara X.

18. Considere dos monedas, C1 y C2, con las siguientes características:P (cara|C1) = 0.6 y P (cara|C2) = 0.4. Escoja una de las monedasaleatoriamente e imagine que se lanzan repetidamente. Dado que las dosprimeras veces que se lanza la moneda escogida resulta cruz, ¾cuál esel número esperado de lanzamientos adicionales hasta que aparesca unacara?.

19. Distribución normal con media desconocida: una muestra aleatoria de nestudiantes se extraen de una gran población, y sus pesos son medidos.El promedio de pesos de los n estudiantes muestreados es y = 150 libras.Asuma que los pesos en la población son normalmente distribuidos conuna media desconocida θ y una desviación estándar conocida de 20 libras.Supónga que la distribución a priori para θ es normal con una media de180 y una desviación estándar de 40.

(a) Obtener la distribución a posteriori de θ.

(b) Un nuevo estudiante es muestreado aleatoriamente desde la mismapoblación, el cual tiene un peso de y libras. Obtener la distribuciónpredictiva a posteriori de y. La respuesta será una función de n.

(c) Para n = 10, dar un intervalo a posteriori del 95 % para θ y unintervalo predictivo para y.

(d) Hacer lo mismo con n = 100.

20. Modelo exponencial con distribución a priori conjugada:

(a) Demostrar que si y|θ está distribuido exponencialmente con parámetroθ, entonces la distribución a priori Gamma es conjugada para infer-encias acerca de θ, dada una muestra independiente e idénticamentedistribuida de y valores.

(b) Demuestre que la especi�cación a priori equivalente para la media,φ = 1/θ, es Inversa-Gamma (es decir, derive esta función de densidad).

UNIVERSIDAD DE CARABOBO

Page 64: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

SECCIÓN 2.6: Práctica de Ejercicios del Capítulo 2 64

(c) La esperanza de vida de una bombillo manufacturado por uncierto proceso tiene una distribución exponencial con parámetro θdesconocido. Suponga que la distribución a priori para θ tiene unadistribución Gamma con coe�ciente de variación 0.5 (el coe�cientede variación está de�nido como la desviación estándar dividida porla media). Una muestra aleatoria de bombillos se han probado y seobtuvo el tiempo de vida para cada uno. Si el coe�ciente de variaciónde la distribución de θ se redujo a 0.1, ¾cuántos bombillos se necesitanprobar?

(d) En la parte (c), si el coe�ciente de variación se re�ere a φ en vez de θ,¾cuánto podría cambiar la respuesta?

21. Datos censurados y no censurados en el modelo exponencial:

(a) Suponga que Y|θ está distribuida exponencialmente con parámetroθ, y la distribución marginal (a priori) de θ es una Gamma(α, β).Suponga que se observa que Y ≥ 100, pero no se observa cual esel valor exacto. ¾Cuál es la distribución a posteriori, P (θ|Y ≥ 100),como una función de α y β?. Escribir además la media y varianza aposteriori de θ.

(b) En el problema de arriba, suponga que Y = 100. Ahora, ¾cuál es lamedia y varianza a posteriori de θ?

(c) Explique, ¾por qué la varianza a posteriori de θ es más alta en la parte(b) aun cuando más información ha sido observada?

22. Sea Y|µ ∼ N(µ+ c, 1

)con la distribución a priori µ ∼ N

(m, 1

). Dada

una muestra de datos Y1, . . . ,Yn, calcular la distribución a posteriori deµ.

23. Se muestrean unos datos: x1 = 98, x2 = 103, x3 = 99 y x4 = 94 de unadistribución N(θ, 5).

(a) Dada una distribución a priori uniforme, ¾cuál es la distribución aposteriori para θ?. Dar un intervalo a posteriori del 90 % para θ.

(b) Repetir la parte (a) suponiendo que la distribución a priori esθ ∼ N(100, 4).

(c) Se descubre que θ es menor que 100. ¾Cuál es la distribución aposteriori de θ ahora (suponiendo la distribución a priori en (b))?.Calcular la probabilidad a posteriori de que θ > 95 dada θ < 100.

24. Suponga que se tiene las observaciones X1,X2, . . . ,Xn con una densidad:

P (X|θ) = (c+ 1)θ−(c+1)Xc, 0 < X < θ

Explique, ¾cómo se podría hacer inferencia acerca del parámetro θ usandouna a priori conjugada?

FACYT-MATEMÁTICAS

Page 65: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

65 CAPÍTULO 2: Fundamentos de la Inferencia Bayesiana

25. Suponga que se tiene una distribución a priori para la probabilidad de éxitode π en un cierto tipo de juego, el cual tiene media 0.4, y se considera quela información a priori es equivalente a 12 ensayos. Suponga que se juega25 veces y se gana 12 veces. ¾Cuál es la distribución a posteriori de π?

26. Suponga X tiene una distribución Poisson de media 1/λ2, asi que laverosimilitud toma la forma siguiente:

L(λ|X) = λ−2X exp

{1

λ2

}Encuentre una familia de a priori conjugadas para λ.

27. Una estación experimental ha tenido experiencia con el crecimiento deltrigo, lo cual le lleva a pensar que producir por parcela es mas o menosnormalmente distribuida con media 200 y desviación estándar 15. Laestación entonces deseó investigar el efecto de las hormonas de crecimientosobre la producción por parcela. En la ausencia de otra información, ladistribución a priori para la varianza sobre las parcelas podría habertomado como media 200 y como desviación estándar 90. La media se esperaque esté alrededor de 230, y esta información se piensa que tiene unas 20observaciones. Doce parcelas fueron tratadas con la hormona, y se dieronlas siguientes producciones:

222, 234, 156, 287, 190, 255, 307, 101, 133, 251, 177, 225

Encuentre las distribuciones a posteriori de la media y la varianza.

28. Demuestre que si una muestra aleatoria de tamaño n = φ2 se toma deuna distribución N(θ, φ), donde θ tiene una distribución a priori, la cualtambién tiene una varianza φ, entonces la distribución a posteriori de θ nopuede tener como varianza φ.

29. Suponga que se dan las siguientes 11 observaciones de una distribuciónnormal:

148, 154, 158, 160, 161, 162, 166, 170, 182, 195, 236,

con desviación estándar√φ = 25. ¾Cuál es la distribución predictiva para

una posible futura observación X?

30. Hoy me he pesado varias veces usando balanzas distintas con los resultados(kilos):

92, 82, 83, 86, 86, 90, 83, 84, 89, 85

UNIVERSIDAD DE CARABOBO

Page 66: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

SECCIÓN 2.6: Práctica de Ejercicios del Capítulo 2 66

Las diferencias entre las balanzas pueden haber causado los resultadosdistintos. Suponiendo que los datos son normales con varianza σ2 = 9 yque mi distribución a priori para mi verdadero peso µ es:

µ ∼ N(80, 100)

Calcular intervalos de credibilidad del 95 % para µ a priori y a posteriori.Comparar los intervalos con el intervalo clásico del 95 % de con�anza. ¾Sepuede decir que soy optimista?

FACYT-MATEMÁTICAS

Page 67: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

Capítulo 3

Modelos Paramétricos Simples

y Múltiples

Entre los modelos paramétricos simples y múltiples están los siguientes:

1. Modelo Bernoulli.

2. Modelo Binomial.

3. Modelo Geométrico.

4. Modelo de Poisson.

5. Modelo Beta.

6. Modelo Gamma.

7. Modelo Exponencial.

8. Modelo Normal Univariado.

9. Modelo Dirichlet.

10. Modelo Multinomial.

11. Modelo Normal Multivariado.

12. Modelo Wishart.

De�nición 3.1. Si F es una clase de distribuciones muestrales para f(X|θ) yP es una clase de distribuciones a priori P (θ) para θ, entonces P es conjugadacon F si:

P (θ|X) ∈ P , para todo f(X|θ) ∈ F y P (θ) ∈ P

Ejemplo 3.1. El modelo exponencial (una sola observación).Sea X|θ ∼ exp(θ) y θ ∼ Gamma(α, β). Obtener P (θ|X).

67

Page 68: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

68

Solución:

P (θ|X) ∝ L(θ|X)P (θ)

= θ exp{−θX}θα−1e−θ/β

Γ(α)βα

= θα+1−1 exp

{−θ(X +

1

β

)}⇒ θ|X ∼ Gamma

(α + 1,X +

1

β

)Ejemplo 3.2. Modelo normal (una sola observación).Considérese una observación simple que proviene de una distribución normalparametrizada por una media θ y varianza σ2 conocida. La distribución muestrales:

y|θ ∼ N(θ, σ2

)θ ∼ N

(µ0, τ

20

)Entonces:

P (θ|y) ∝ L(θ|y)P (θ)

= exp

{− 1

2σ2(y − θ)2

}exp

{− 1

2τ 20

(θ − µ0)2

}= exp

{− 1

2σ2(y − θ)2 − 1

2τ 20

(θ − µ0)2

}= exp

{− 1

2σ2

(y2 − 2yθ + θ2

)− 1

2τ 20

(θ2 − 2θµ0 + µ2

0

)}= exp

{−θ

2

2

(1

σ2+

1

τ 20

)+

2

(y

σ2+µ0

τ 20

)}= exp

{−1

2

(1

σ2+

1

τ 20

)[θ2 − 2θ

(y/θ2 + µ0/τ

20

1/σ2 + 1/τ 20

)]}Sea:

1

τ 21

=1

σ2+

1

τ 20

⇒ τ 21 =

1

1/σ2 + 1/τ 20

y

µ1 =

(y

σ2+µ0

τ 20

)τ 2

1

FACYT-MATEMÁTICAS

Page 69: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

69 CAPÍTULO 3: Modelos Paramétricos Simples y Múltiples

Nota 3.1. Si E(y|θ) = θ y V ar(y|θ) = σ2, entonces se puede calcular E(y|y)y V ar(y|y) de la siguiente manera:

E(y|y) = E[E(y|θ, y) y

]= E(θ|y)

= µ1

V ar(y|y) = E[V ar(y|θ, y) y

]+ V ar

[E(y|θ, y) y

]= E

(σ2|y

)+ V ar (θ|y)

= σ2 + τ 21

donde σ2 es la varianza predictiva y τ 21 es la varianza predictiva debido a la

incertidumbre a posteriori en θ.

3.1. Distribuciones a Priori Conjugadas, Famil-

ias Exponenciales y Estadísticos Su�cientes

De�nición 3.2. La clase F es una familia exponencial si todos los miembrostienen la forma:

P (yi|θ) = b(yi)g(θ)eφT(θ)µ(yi) (3.1.1)

Los vectores φ(θ) y µ(yi) por lo general tienen la misma dimensión que θ.Además, φ(θ) se le llama parámetro natural de la familia F .

La verosimilitud correspondiente a una secuencia y = (y1, . . . , yn) deobservaciones independientes e idénticamente distribuidas es:

P (y|θ) =

[n∏i=1

b(yi)

]gn(θ) exp

{φT(θ)

n∑i=1

µ(yi)

}, ∀ n, y (3.1.2)

Tiene forma �ja cuando es función de θ, es decir:

P (y|θ) ∝ gn(θ) exp{φT(θ)T (y)

}donde T (y) =

∑ni=1 µ(yi) y se de�ne como el estadístico su�ciente de θ.

Los estadísticos su�cientes son útiles para manipulaciones algebraicas de lasverosimilitudes y las distribuciones a posteriori. La distribución a priori esespeci�cada por:

P (θ) ∝ gn(θ) exp{φT(θ)v

}UNIVERSIDAD DE CARABOBO

Page 70: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

SECCIÓN 3.1: Distribuciones a Priori Conjugadas, Familias Exponenciales yEstadísticos Su�cientes 70

Entonces la distribución a posteriori está dada por:

P (θ|y) ∝ L(θ|y)P (θ)

= gn1(θ) exp{φT(θ)T (y)

}gn2(θ) exp

{φT(θ)v

}= gn1+n2(θ) exp

{φT(θ) [v + T (y)]

}lo cual demuestra que la elección de la a priori es conjugada.

Ejemplo 3.3. Distribución exponencial.Sea y ∼ Exponencial(θ). La función de densidad de probabilidad viene dadapor:

f(y|θ) =

{θe−yθ si x > 0, θ > 0

0 en otro caso

f(y|θ) pertenece a la familia exponencial para g(θ) = θ, b (yi) = 1, φT(θ) = −θy µ(yi) = y.

Ejemplo 3.4. Sea y ∼ Bernoulli(θ), entonces:

f(y|θ) = θy(1− θ)1−y, y = 0, 1; 0 < θ < 1

De modo que:

f(y|θ) = (1− θ) exp

{y log

1− θ

)}donde g(θ) = (1 − θ), b(y) = 1, φT(θ) = log

1−θ

)y µ(y) = y. Así que f(y|θ)

pertenece a la familia exponencial.

Ejemplo 3.5. Si X ∼ N (µ, σ2), entonces:

f(y|µ, σ2

)=

1

(2πσ2)1/2exp

{− 1

2σ2(y − µ)2

}=

1

σexp

{− µ2

2σ2

}(1

)1/2

exp

{− 1

2σ2y2 +

µy

σ2

}g(θ) = 1

σ2 exp {−µ2/2σ2}, θ = (µ, σ2), b(y) = (1/2π)1/2, φT(θ) =(−1/2σ2, µ/σ2) y µ(y) = (y2, y). Por lo tanto f(y|θ) pertenece a la familiaexponencial.

El uso de una densidad a priori que conjuga con la verosimilitud permite obtenerexpresiones analíticas para la densidad a posteriori:

FACYT-MATEMÁTICAS

Page 71: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

71 CAPÍTULO 3: Modelos Paramétricos Simples y Múltiples

Priori conjugada para una función de veromilitud de las familiasestándar.

Familia Priori Conjugada

1 Binomial(n, θ) θ ∼ Beta(a, b)2 Poisson(θ) θ ∼ Gamma(α0, λ0)3 N (µ, σ2), σ2 conocido µ ∼ N (µ0, σ

20)

4 N (µ, σ2), µ conocido 1/σ2 ∼ Gamma(α0, λ0)5 Gamma(α, λ), α conocido λ ∼ Gamma(α0, λ0)6 Beta(a, b), b conocido λ ∼ Gamma(α0, λ0)

Ejemplo 3.6. Sea y = (y1, y2, . . . , yn) ∼ Poisson(θ), independiente eidénticamente distribuida y θ ∼ Gamma(a, b), entonces:

f(y|θ) =n∏i=1

θyi

yi!e−θ ∝ θ

∑ni=1 yie−nθ

P (θ|y) = θ∑ni=1 yie−nθθa−1e−bθ

= θt(y)+a−1e−θ(n+b)

⇒ θ|y ∼ Gamma (a+ t(y), n+ b)

donde t(y) =n∑i=1

yi

3.2. Datos Normales con Distribuciones a Priori

Conjugadas

Ejemplo 3.7. Supóngase que x1, . . . , xn ∼ N (µ, σ2).

a. Suponga que σ2 es conocido y µ ∼ N (µ0, σ20). La densidad a posteriori de

µ está dada por:

P (µ|x) ∝n∏i=1

L(µ, σ2|xi

)Π(µ)

=n∏i=1

1√2πσ2

exp

{− 1

2σ2(x− µ)2

}exp

{− 1

2σ20

(µ− µ0)2

}

∝ exp

{− 1

2σ2

n∑i=1

(xi − µ)2 − 1

2σ20

(µ− µ0)2

}

UNIVERSIDAD DE CARABOBO

Page 72: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

SECCIÓN 3.2: Datos Normales con Distribuciones a Priori Conjugadas 72

= exp

{−1

2

(∑ni=1 x

2i − 2µ

∑ni=1 xi + nµ2

σ2+µ2 − 2µµ0 + µ2

0

σ20

)}∝ exp

{−1

2

[(n

σ2+

1

σ20

)µ2 − 2µ

(∑ni=1 xiσ2

+µ0

σ20

)]}∝ exp

{−1

2

[nσ2

0 + σ2

σ2σ20

µ2 − 2

(σ2

0

∑ni=1 xi + µ0σ

2

σ20σ

2

]}∝ exp

{−1

2

(nσ2

0 + σ2

σ2σ20

)[µ2 − 2µ

(σ2

0

∑ni=1 xi + σ2µ0

nσ20 + σ2

)]}∝ exp

{−1

2

(nσ2

0 + σ2

σ2σ20

)[µ2 − 2µ

(σ2

0

∑ni=1 xi + σ2µ0

nσ20 + σ2

)+

(σ2

0

∑ni=1 xi + σ2µ0

nσ20 + σ2

)2]}

∝ exp

{−1

2

(nσ2

0 + σ2

σ2σ20

)(µ− σ2

0

∑ni=1 xi + σ2µ0

nσ20 + σ2

)2}

(Kernel normal)

∴ µ|x ∼ N

(σ2

0

∑ni=1 xi + σ2µ0

nσ20 + σ2

,σ2σ2

0

nσ20 + σ2

)donde:

µaposteriori =σ2

0

∑ni=1 xi + σ2µ0

nσ20 + σ2

y

σ2aposteriori =

σ2σ20

nσ20 + σ2

b. Supóngase que µ es conocida y σ2 deconocido. Sea τ = 1/σ2, donde τ es elparámetro de precisión. Además, supóngase que τ ∼ Gamma (δ0/2, γ0/2).Así que la función de densidad de probabilidad es:

f(τ) ∝ τ δ0/2−1 exp{−τ γ0

2

}Se desea obtener la distribución a posteriori de τ |x, entonces:

P (τ |x) ∝ L(µ, τ)f(τ)

=n∏i=1

τ 1/2

√2π

exp{−τ

2(xi − µ)2

}τ δ0/2−1 exp

{−τγ0

2

}∝ τ 1/2 exp

{−τ

2

n∑i=1

(xi − µ)2

}τ δ0/2−1 exp

{−τγ0

2

}

FACYT-MATEMÁTICAS

Page 73: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

73 CAPÍTULO 3: Modelos Paramétricos Simples y Múltiples

∝ τ (n+δ0)/2−1 exp

{−τ[∑n

i=1(xi − µ)2 + γ0

2

]}(Kernel Gamma)

De modo que:

τ |x ∼ Gamma

(n+ δ0

2,γ0 +

∑ni=1(xi − µ)2

2

)

c. Supóngase que µ y σ2 son ambos desconocidos. Además, suponga que ladistribución a priori conjunta es:

Π(µ, τ) = Π(µ|τ)Π(τ)

donde µ|τ ∼ N (µ0, σ20/τ) y τ ∼ Gamma (δ0/2, γ0/2). Hallar la conjunta

P (µ, τ |x):

P (µ, τ |x) = L(µ, τ |x)Π(µ, τ) = L(µ, τ |x)Π(µ|τ)Π(τ)

=n∏i=1

τ 1/2

√2π

exp{−τ

2(xi − µ)2

}τ 1/2 exp

{− τ

2σ20

(µ− µ0)2

}× τ δ0/2−1 exp

{−τγ0

2

}∝ τ (n+δ0+1)/2−1 exp

{−τ

2

[γ0 +

(µ− µ0)2

σ20

+n∑i=1

(xi − µ)2

]}

La densidad a posteriori no tiene una forma conocida. Por lo tanto, paragenerar una muestra de esta distribución a posteriori se debe obtener lasmarginales:

P (µ, τ |x) = P (µ|τ, x)P (τ |x)

⇒ P (µ|x, τ) =

∫ ∞0

P (µ, τ |x)dτ

=

∫ ∞0

τ (n+δ0+1)/2−1 exp

{−τ

2

[γ0 +

(µ− µ0)2

σ20

+n∑i=1

(xi − µ)2

]}dτ

=

∫ ∞0

τ (n+δ0+1)/2−1 exp

{−τ

2

(γ0 +

µ2

σ20

− 2µµ0

σ20

+µ2

0

σ20

+n∑i=1

x2i

−2µn∑i=1

xi + nµ2

)}dτ

UNIVERSIDAD DE CARABOBO

Page 74: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

SECCIÓN 3.2: Datos Normales con Distribuciones a Priori Conjugadas 74

=

∫ ∞0

τ (n+δ0+1)/2−1 exp

{−τ

2

(γ0 +

µ20

σ20

+n∑i=1

x2i

)}

× exp

{−τ

2

[µ2

(n+

1

σ20

)− 2µ

(n∑i=1

xi +µ0

σ20

)]}dτ

=

∫ ∞0

τ (n+δ0+1)/2−1 exp

{−τ

2

(γ0 +

µ20

σ20

+n∑i=1

x2i

)}

× exp

{−τ

2

(n+

1

σ20

)[µ2 − 2µ (

∑ni=1 xi + µ0/σ

20)

(n+ 1/σ20)

]}dτ

=

∫ ∞0

τ (n+δ0+1)/2−1 exp

{−τ2

(γ0 +

µ20

σ20

+n∑i=1

x2i

)}

× exp

{−τ

2

(n+

1

σ20

)[µ2 − 2µ (

∑ni=1 xi + µ0/σ

20)

n+ 1/σ20

+

(∑ni=1 xi + µ0/σ

20

n+ 1/σ20

)2

−(∑n

i=1 xi + µ0/σ20

n+ 1/σ20

)2]}

=

∫ ∞0

τ (n+δ0+1)/2−1 exp

{−τ

2

(γ0 +

µ20

σ20

+n∑i=1

x2i

)}

× exp

{−τ

2

(n+

1

σ20

)[µ− (

∑ni=1 xi + µ0/σ

20)

n+ 1/σ20

]2}

× exp

2

(∑n

i=1 xi + µ0/σ20)

2

n+ 1/σ20

}dτ

Nota 3.2. Sea C = βα/Γ(α) y P (x) = Cxα−1e−βx, entonces:∫P (x)dx = 1⇒

∫xα−1e−βx =

Γ(α)

βα

Ahora, sea:

a =

∑ni=1 xi + µ0/σ

20

n+ 1/σ20

así que:

P (µ|x, τ) =

∫ ∞0

τ (n+δ0+1)/2−1 exp

{−τ2

[γ0 +

µ20

σ20

+n∑i=1

x2i +

(n+

1

σ20

)(µ− a)2

−(n+

1

σ20

)a2

]}dτ

FACYT-MATEMÁTICAS

Page 75: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

75 CAPÍTULO 3: Modelos Paramétricos Simples y Múltiples

=Γ(n+δ0+1

2

)2(n+δ0+1)/2−1[

γ0 +µ2

0

σ20

+n∑i=1

x2i +

(n+

1

σ20

)(µ− a)2 −

(n+

1

σ20

)a2

](n+δ0+1)/2

Si c = n+ 1/σ20 y b = γ0 + µ2

0/σ20 +

n∑i=1

xi, se tiene que:

P (µ|x, τ) ∝ 1

[b+ c(µ− a)2 − ca2](n+δ0+1)/2

=1

[b− ca2 + c(µ− a)2](n+δ0+1)/2

∝[1 +

c(µ− a)2

b− ca2

]−(n+δ0+1)/2

⇒ µ|x, τ ∼ t

(n+ δ0, a,

[(n+ δ0)c

b− ca2

]−1)

De�nición 3.3. Sea Y = (Y1, . . . ,Yp)T un vector aleatorio p × 1. Entonces,

Y tiene una distribución t multivariada p-dimensional con d grados de libertad,parámetro de localización m y matriz de dispersión Σp×p, si Y tiene la siguientedensidad:

P (Y) =Γ(d+p

2

)(πd)−p/2|Σ|−1/2

Γ (d/2)

[1 +

1

d(y −m)TΣ−1(y −m)

]−[(d+p)/2]

es decir, Y ∼ tp(d,m,Σ). En la parte c del ejemplo 3.7, se observó que µ|x, τtiene una distribución t con los siguientes parámetros:

• p = 1.

• Grados de libertad: d = n+ S0.

• Parámetro de localización: m = a .

• Parámetro de dispersión: Σ = [(n+ δ0)c/ (b− ca2)]−1.

Por otra parte, la distribución marginal de τ está dada por:

P (τ |x, µ) =

∫ ∞−∞

τ (n+δ0+1)/2−1 exp

{−τ2

(γ0 +

µ20

σ20

+n∑i=1

x2i

)}exp

2

(n+

1

σ20

)a2

}× exp

{−τ

2

(n+

1

σ20

)(µ− a)2

}dµ

UNIVERSIDAD DE CARABOBO

Page 76: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

SECCIÓN 3.2: Datos Normales con Distribuciones a Priori Conjugadas 76

∝ τ (n+δ0+1)/2−1 exp

{−τ

2

[γ0 +

µ20

σ20

+n∑i=1

x2i −

(n+

1

σ20

)a2

]}

×∫ ∞−∞

exp

{−τ

2

(n+

1

σ20

)(µ− a)2

}dµ

Obviando las constantes adecuadas, el kernel de una normal es:∫ ∞−∞

exp

{−τ

2

(n+

1

σ20

)(µ− a)2

}dµ = 1

Por lo tanto:

P (τ |x, µ) = τ (n+δ0+1)/2−1 exp

{−τ

2

[γ0 +

µ20

σ20

+n∑i=1

x2i −

(n+

1

σ20

)a2

]}de modo que:

τ |x, µ ∼ Gamma

(n+ δ0 + 1

2,1

2

[γ0 +

µ20

σ20

+n∑i=1

x2i −

(n+

1

σ20

)a2

])

El algoritmo de muestreo es el siguiente:

Algoritmo 3.1.

Paso [1] Se genera:

• µ|x, τ ∼ t

(n+ δ0, a,

[(n+δ0)cb−ca2

]−1)

Paso [2] Se genera:

• τ |x, µ ∼ Gamma

(n+δ0+1

2, 1

2

[γ0 +

µ20

σ20

+n∑i=1

x2i −

(n+

1

σ20

)a2

])

Ejercicio 3.1. Si x|τ ∼ Np (m, τ−1Σ) y τ ∼ Gamma (δ0/2, γ0/2), entonces probarque:

P (x) =

∫ ∞0

f(x|τ)Π(τ)dτ ⇒ x ∼ tp

(δ0,m,

γ0

δ0

Σ

)donde:

f(x|τ) =1

(2π)p/2τ p/2|Σ|−1/2 exp

{−τ

2(x−m)TΣ−1(x−m)

}FACYT-MATEMÁTICAS

Page 77: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

77 CAPÍTULO 3: Modelos Paramétricos Simples y Múltiples

3.3. Modelo Binomial

Supóngase que x|θ ∼ Binomial(N, θ), entonces:

f(x|θ) =

(Nx

)θx(1− θ)N−x

Se puede tomar L(θ|x) = θx(1 − θ)N−x, donde el parámetro θ es desconocido. Porlo tanto, la incertidumbre sobre θ puede expresarse especi�cando una distribución apriori, P (θ). Nuevamente, la a posteriori se puede calcular y obtener varios resúmenesa posteriori, tales como la media, mediana, la moda, la varianza y cuantiles. Porejemplo, la media de θ está dada por:

E(θ|x) =

∫Θ

θP (θ|x)dθ

La moda a posteriori de θ es el valor θ que maximiza a P (θ|x).Sea X|θ ∼ Binomial(16, θ), entonces la verosimilitud es la siguiente:

f(X|θ) =

(16X

)θX(1− θ)16−X

Supóngase que θ ∼ Beta(α, β), así que:

P (θ) =Γ(α + β)

Γ(α)Γ(β)θα−1(1− θ)β−1

La distribución a posteriori se obtiene como sigue:

P (θ|X) ∝ f(X|θ)P (θ)

=

(16X

)θX(1− θ)16−X Γ(α + β)

Γ(α)Γ(β)θα−1(1− θ)β−1

∝ θα+X−1(1− θ)β+16−X−1

⇒ θ|X ∼ Beta(α + X, β + 16−X)

Ejemplo 3.8. Supóngase que x1, . . . , xn|θ ∼ Binomial(1, θ), son variables aleatoriasindependientes y θ ∼ Beta(α, β). Los parámetros de la distribución a priori sellaman hiperparámetros. Obtener la distribución a posteriori de θ y la marginal deX. Además, obtenga E(θ|X) y V ar(θ|X).

UNIVERSIDAD DE CARABOBO

Page 78: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

SECCIÓN 3.4: Modelo de Poisson 78

Solución: Sea X = (x1, . . . , xn), entonces la verosimilitud viene dada por:

L(θ|X) =n∏i=1

f(xi|θ)

∝n∏i=1

θxi(1− θ)1−xi

= θ∑ni=1 xi(1− θ)n−

∑ni=1 xi

La distribución a priori es de la siguiente forma:

P (θ) =Γ(α + β)

Γ(α)Γ(β)θα−1(1− α)β−1

∝ θα−1(1− θ)β−1

En consecuencia la densidad a posteriori viene dada como sigue:

P (θ|X) ∝ L(θ|X)P (θ)

= θ∑ni=1 xi(1− θ)n−

∑ni=1 xiθα−1(1− θ)β−1

= θ∑ni=1 xi+α−1(1− θ)n+β−

∑ni=1 xi−1

⇒ θ|X ∼ Beta

(α +

n∑i=1

xi, n+ β −n∑i=1

xi

)De modo que:

E(X) =α

α + β

V ar(X) =αβ

(α + β + 1)(α + β)2

3.4. Modelo de Poisson

Sea X|θ ∼ Poisson(θ) y θ ∼ Gamma(α, β), entonces:

P (θ|X) = L(θ|X)P (θ)

=

(n∏i=1

θxie−θ

xi!

)βα−1

Γ(α)θα−1e−βθ

=θ∑ni=1 xie−nθ∏ni=1 xi!

βα−1

Γ(α)θα−1e−βθ

∝ θnX+α−1βα−1

Γ(α)e−βθ−nθ

∝ θnX+α−1e−(n+β)θ (Kernel Gamma)

FACYT-MATEMÁTICAS

Page 79: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

79 CAPÍTULO 3: Modelos Paramétricos Simples y Múltiples

De esta forma:

θ|X ∼ Gamma(α + nX, n+ β)

La distribución Gamma es conjugada con la distribución de Poisson. Supóngase queX es el número de mujeres preñadas que arriban a un hospital particular a tratarsedurante un mes dado. La naturaleza de conteo discreto más la tasa de arribo sugiereuna verosimilitud Poisson, como sigue:

f(X|θ) =

{exp {−θ} θX/X! si X = 0, 1, 2, . . . ; θ > 0

0 en otro caso

Supóngase que la distribución a priori es:

θ ∼ Gamma(α, β)⇒ π(θ) =θα−1e−θ/β

Γ(α)βα

donde θ > 0, α > 0 y β > 0. Entonces:

π(θ|X) ∝ f(X|θ)π(θ) =e−θθX

X!

θα−1e−θ/β

Γ(α)βα

∝ θα+X−1 exp

{−θ − θ

α

}= θα+X−1 exp

{−θ(

1 +1

α

)}Así que:

θ|X ∼ Gamma

(α + X, 1 +

1

β

)

3.5. Modelo Exponencial

Sean X|θ ∼ Exponencial(θ) y θ ∼ Gamma(α, β). Para obtener la a posteriori sehace lo siguiente:

P (θ|X) ∝ L(θ|X)P (θ)

=n∏i=1

θe−θxiβα

Γ(α)θα−1e−βθ

= θne−θ∑ni=1 xi

βα

Γ(α)θα−1e−βθ

∝ θα+n−1e−nXθ−βθ

= θα+n−1e−θ(nX+β)

UNIVERSIDAD DE CARABOBO

Page 80: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

SECCIÓN 3.6: Ventajas de las Distribuciones Conjugadas 80

Por lo tanto:

θ|X ∼ Gamma(α + n, nX + β

)En consecuencia la distribución Exponencial es conjugada con la distribución Gamma.

3.6. Ventajas de las Distribuciones Conjugadas

El proceso de aprendizaje es sencillamente el proceso de cambiar los valores delos parámetros de la distribución a priori.

Se pueden interpretar los valores de los parámetros de la distribución a priori.

Teorema 3.1. Priori normal y una observación.Si θ ∼ N(µ, τ 2) y X|θ ∼ N(θ, σ2), con σ2 conocido, entonces la distribución aposteriori θ|X ∼ N(µ1, τ

21 ), donde:

µ1 =τ−2µ+ σ−2X

τ−2 + σ−2=µ/τ 2 + X/σ2

1/τ 2 + 1/σ2

y

1

τ 21

=1

τ 2+

1

σ2

Demostración.

P (θ|X) ∝ L(θ|X)P (θ)

=1√

2πσ2exp

{− 1

2σ2(X− θ)2

}1√

2πτ 2exp

{− 1

2τ 2(θ − µ)2

}∝ exp

{− 1

2σ2(X− θ)2 − 1

2τ 2(θ − µ)2

}∝ exp

{− 1

2σ2

(X2 − 2Xθ + θ2

)− 1

2τ 2

(θ2 − 2θµ+ µ2

)}∝ exp

{− 1

2σ2θ2 +

2θX

2σ2− 1

2τ 2θ2 +

2θµ

2τ 2

}= exp

{−θ

2

2

(1

σ2+

1

τ 2

)+ θ

(X

σ2+µ

τ 2

)}Sean:

1

τ 21

=1

σ2+

1

τ 2⇒ τ 2

1 =1

1σ2 + 1

τ2

µ1 =

(X

σ2+µ

τ 2

)τ 2

1 ⇒µ1

τ 21

=X

σ2+µ

τ 2

FACYT-MATEMÁTICAS

Page 81: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

81 CAPÍTULO 3: Modelos Paramétricos Simples y Múltiples

Entonces:

P (θ|X) ∝ exp

{− θ2

2τ 21

+ θµ1

τ 21

}= exp

{− 1

2τ 21

(θ2 − 2θµ1

)}= exp

{− 1

2τ 21

(θ2 − 2θµ1 + µ2

1 − µ21

)}= exp

{− 1

2τ 21

(θ − µ1)2

}exp

{µ2

1

2τ 21

}∝ exp

{− 1

2τ 21

(θ − µ1)2

}∝ 1√

2πτ 21

exp

{− 1

2τ 21

(θ − µ1)2

}De este modo:

P (θ|X) ∼ N(µ1, τ

21

)En consecuencia la normal es conjugada con ella misma. 2

De�nición 3.4. La familia de mezclas de distribuciones conjugadas es tambiénconjugada. Si se de�ne la distribución a priori:

P (θ) =k∑i=1

wiPi(θ)

donde Pi(θ) ∈ P, son conjugadas con una distribución muestral f(X|θ) en el sentidode la de�nición 3.1. Luego:

P (θ|X) =k∑i=1

w∗iP∗i (θ)

donde P ∗i (θ) ∈ P.

Ejemplo 3.9. Se quiere predecir la probabilidad θ de que en un lanzamiento de unamoneda sale un sello. Supóngase que se utiliza una mezcla para la distribución apriori:

θ ∼[

1

4Beta(2, 3) +

3

4Beta(4, 4)

]S|θ ∼ Binomial(10, 6)

UNIVERSIDAD DE CARABOBO

Page 82: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

SECCIÓN 3.7: El Modelo Multinomial 82

Si se observan 6 sellos en 10 lanzamientos, ¾cuál es la distribución a posteriori de θ?Solución:

P (θ|X) ∝ L(θ|X)P (θ)

∝[

1

4

1

Beta(2, 3)θ2−1(1− θ)3−1 +

3

4

1

Beta(4, 4)θ4−1(1− θ)4−1

]θ6(1− θ)4

=

[1

4

1

Beta(2, 3)θ(1− θ)2 +

3

4

1

Beta(4, 4)θ3(1− θ)3

]θ6(1− θ)4

=

[1

4θ8−1(1− θ)7−1 +

3

4

1

Beta(4, 4)θ10−1(1− θ)8−1

]=

1

4

[Beta(8, 7)

Beta(2, 3)Beta(8, 7)θ8−1(1− θ)7−1

]+

1

4

[3Beta(10, 8)

Beta(4, 4)Beta(10, 8)θ10−1(1− θ)8−1

]∝ WBeta(8, 7) + (1−W )Beta(10, 8)

donde:

W =

Beta(8,7)Beta(2,3)

Beta(8,7)Beta(2,3)

+ 3Beta(10,8)Beta(4,4)

y

1−W = 1−Beta(8,7)Beta(2,3)

Beta(8,7)Beta(2,3)

+ 3Beta(10,8)Beta(4,4)

3.7. El Modelo Multinomial

La distribución de muestreo multinomial es usada para describir datos en los cualescada observación tiene una de los k posibles resultados. Si y es un vector de conteodel número de observaciones por salidas, entonces:

P (y|θ) ∝k∏j=1

θyjj

donde:∑k

j=1 θj = 1 y∑k

j=1 yj = n. La distribución a priori conjugada es unageneralización multivariada de la distribución Beta conocida como la distribuciónde Dirichlet, dada por:

P (θ|α) =k∏j=1

θαj−1j

FACYT-MATEMÁTICAS

Page 83: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

83 CAPÍTULO 3: Modelos Paramétricos Simples y Múltiples

donde la distribución es restringida a θj's no negativos con∑k

j=1 θj = 1. Ladistribución a posteriori para los θj's es nuevamente un proceso de Dirichlet conparámetros αj + yi, es decir:

P (θ|y) =k∏j=1

θyij

k∏j=1

θαj−1j

= θy11 θy22 · · · θ

ykk θ

α1−11 θα2−1

2 · · · θαk−1k

= θy1+α1−11 θy2+α2−1

2 · · · θyk+αk−1k

Entonces la distribución a posteriori es:

θ|y ∼ Dirichlet(αj + yi)

3.8. El Modelo Normal Multivariado

Sea:

y|µ,Σ ∼ N(µ,Σ)

donde µ es un vector columna de longitud d, Σ es una matriz de varianza d × d,simétrica y de�nida positiva. La función de verosimilitud para una observación simplees:

P (y|µ,Σ) ∝ |Σ|−1/2 exp

{−1

2(y − µ)TΣ−1(y − µ)

}y la función de verosimilitud para n observaciones independientes e idénticamentedistribuidas y1, y2, . . . , yn, es la siguiente:

P (y1, y2, . . . , yn|µ,Σ) ∝ |Σ|−n/2 exp

{−1

2

n∑i=1

(yi − µ)TΣ−1(yi − µ)

}

= |Σ|−n/2 exp

{−1

2tr(Σ−1S0

)}donde S0 =

∑ni=1(yi − µ)(yi − µ)T. Recuerde que:

(y − µ)TΣ−1(y − µ) =n∑i=1

(y(i) − µ(i)

)TΣ−1ii

(y(i) − µ(i)

)UNIVERSIDAD DE CARABOBO

Page 84: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

SECCIÓN 3.9: Distribución a Priori para µ con Σ Conocida 84

3.9. Distribución a Priori para µ con Σ Conocida

Supóngase que µ ∼ N(µ0,Λ0), entonces:

P (µ|y,Σ) ∝ P (y|µ,Σ)P (µ)

∝ |Σ|−n/2 exp

{−1

2tr(Σ−1S0

)}exp

{−1

2(µ− µ0)TΛ−1

0 (µ− µ0)

}= |Σ|−n/2 exp

{−1

2

[tr(Σ−1S0

)+ (µ+ µ0)TΛ−1

0 (µ− µ0)]}

= |Σ|−n/2 exp

{−1

2

[n∑i=1

(yi − µ)TΣ−1(yi − µ) + (µ+ µ0)TΛ−10 (µ− µ0)

]}

= |Σ|−n/2 exp

{−1

2

[n∑i=1

[(yTi − µT

)Σ−1(yi − µ)

]+ (µ+ µ0)TΛ−1

0 (µ− µ0)

]}Veamos que:

n∑i=1

(yTi − µT

)Σ−1(yi − µ) =

n∑i=1

(yTi Σ−1yi − yT

i Σ−1µ− µTΣ−1yi + µTΣ−1µ)

=n∑i=1

(yTi Σ−1yi − 2µTΣ−1yi + µTΣ−1µ

)= nµTΣ−1µ− 2µTΣ−1ny +

n∑i=1

yTi Σ−1yi

= n

(µTΣ−1µ− 2µTΣ−1y +

1

n

n∑i=1

yTi Σ−1yi

)Por otro lado:

(µ+ µ0)TΛ−10 (µ− µ0) =

(µT + µT

0

)Λ−1

0 (µ− µ0)

= µTΛ−10 µ− µTΛ−1

0 µ0 − µT0 Λ−1

0 µ+ µT0 Λ−1

0 µ0

= µTΛ−10 µ− 2µTΛ−1

0 µ0 + µT0 Λ−1

0 µ0

Así que:

P (µ|y,Σ) ∝ exp

{−n

2

(µTΣ−1µ− 2µTΣ−1y +

1

n

n∑i=1

yTi Σ−1yi

)

−1

2

(µTΛ−1

0 µ− 2µTΛ−10 µ0 + µT

0 Λ−10 µ0

)}∝ exp

{−n

2

(µTΣ−1µ− 2µTΣ−1y +

1

nµTΛ−1

0 µ− 2

nµTΛ−1

0 µ0

)}

FACYT-MATEMÁTICAS

Page 85: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

85 CAPÍTULO 3: Modelos Paramétricos Simples y Múltiples

= exp

{−n

2

[µT

(Σ−1 +

Λ−10

n

)µ− 2µT

(Σ−1y +

Λ−10 µ0

n

)]}= exp

{−1

2(µ− µn)TΣ−1

n (µ− µn)

}donde:

µn =(Λ−1

0 + nΣ−1)−1 (

Λ−10 µ0 + nΣ−1y

)y

Σ−1n = Λ−1

0 + nΣ−1

Las marginales a posteriori son:

µ(1)|µ(2), y ∼ N(µ(1)n + β1/2

[µ(2) − µ(2)

n

],Λ1/2

)donde:

β1/2 = Λ12n

(Λ(22)n

)−1

Λ1/2 = Λ(11)n − Λ(12)

n

(Λ(22)n

)−1Λ(12)n

3.10. La Distribución Normal Multivariada con

Media y Varianza Desconocida

La distribución conjugada para la normal univariada con media y varianzadesconocida es la χ2 − Inversa. Se puede usar la distribución Inversa Wishart, unageneralización de la χ2 − Inversa.

Σ ∼ Inv −Wishartv0(Λ−1

0

)µ|Σ ∼ N

(µ0,

Σ

k0

)La distribución a priori es la siguiente:

P (µ,Σ) ∝ |Σ|−[(v0+d)/2+1] exp

{−1

2tr(Λ0Σ−1

)− k0

2(µ− µ0)TΣ−1(µ− µ0)

}entonces:

µ,Σ ∼ Normal − Inversa−Wishart

(µ0,

Λ0

k0

, v0,Λ0

)

UNIVERSIDAD DE CARABOBO

Page 86: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

SECCIÓN 3.11: Práctica de Ejercicios del Capítulo 3 86

La a posteriori es:

P (µ,Σ|Datos) ∝ L(µ,Σ|Datos)P (µ,Σ)

∝ |Σ|−n/2 exp

{−1

2tr(Σ−1S0

)}× exp

{−1

2tr(Λ0Σ−1

)− k0

2(µ− µ0)TΣ−1(µ− µ0)

}∝ |Σ|−n/2 exp

{−1

2

[tr(Σ−1S0

)+ tr

(Λ0Σ−1

)−k0(µ− µ0)TΣ−1(µ− µ0)

] }Esta a posteriori es de la misma familia Normal-Inversa-Wishart.

µn =k0

k0 + nµ0 +

n

k0 + ny,

kn = k0 + n,

vn = v0 + n,

Λn = Λ0 + S +k0n

k0 + n(y − µ0)(y − µ0)T,

donde:

S =n∑i=1

(yi − y)(yi − y)T

3.11. Práctica de Ejercicios del Capítulo 3

1. Sea X|θ ∼ ε(θ)

(a) Demostrar que la distribución de X es una familia exponencial.

(b) Calcular la forma de una distribución a priori conjugada para θ. ¾A quéfamilia de distribuciones pertenece esta distribución?

(c) Dada la distribución a priori conjugada y una muestra X = (X1, . . . ,Xn),hallar la distribución a posteriori de θ.

2. La distribución de Maxwell es la siguiente:

f(X|α) =

√2

πα3/2X2 exp

(−1

2αX2

), para X > 0 y α > 0

(a) Demostrar que la distribución de Maxwell pertenece a una familiaexponencial.

FACYT-MATEMÁTICAS

Page 87: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

87 CAPÍTULO 3: Modelos Paramétricos Simples y Múltiples

(b) Dada una muestra de datos X = (X1, . . . ,Xn) calcular un estadísticosu�ciente para α.

(c) ¾Cuál es la forma de una distribución a priori conjugada para α?(d) ¾A qué familia de distribuciones pertenece la distribución natural a priori?(e) Dada la distribución a priori calculada anteriormente, calcule la distribución

a posteriori de α.(f) Veri�car que la media a posteriori de α es una media ponderada de la media

a priori y el estimador de máxima verosimilitud. ¾Cuáles son los pesos?

3. Si X|θ es una familia exponencial, demostrar que dada una muestra X, siempreexiste un estadístico su�ciente para θ. Utilizar un ejemplo para demostrar quela existencia de un estadístico su�ciente no siempre implica que X pertenece auna familia exponencial.

4. El número de minutos de espera al autobús cada mañana (X) tiene unadistribución uniforme:

X|θ ∼ U(0, θ)

Suponer una distribución a priori:

f(θ) ∝ 1

θ4, θ > 12

(a) Calcular la constante de integración de la distribución a priori.(b) ¾A qué familia de distribuciones (conocida y conjugada) pertenece esta

distribución?(c) Dadas las observaciones durante una semana: X = (2, 1, 8, 3, 10, 5, 7),

obtener la distribución a posteriori de θ.(d) Calcular la media a posteriori de θ.(e) Obtener la media predictiva del número de minutos de espera mañana por

la mañana.

5. Suponga que x tiene una distribución Poisson de media 1/λ2, asi que laverosimilitud toma la forma:

L(λ|x) = λ−2x exp{−1/λ2

}Encuentre una familia de prioris conjugadas para λ.

6. Suponga que las observaciones x1, x2, . . . , xn están displonibles con una densidad:

P (x|θ) ∝ exp {−θ/x} , 0 < x < θ

Explique, ¾cómo podría hacer inferencia acerca del parámetro θ usando unapriori conjugada?

UNIVERSIDAD DE CARABOBO

Page 88: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

SECCIÓN 3.11: Práctica de Ejercicios del Capítulo 3 88

7. Suponga que las observaciones x1, x2, . . . , xn están disponibles con una densidad:

P (x|θ) = (c+ 1)θ−(c+1)xc, 0 < x < θ

Explique, ¾cómo podría hacer inferencia acerca del parámetro θ usando unapriori conjugada?

8. Demostrar que la familia Beta es conjugada con respecto a las muestras dedistribuciones binomial, geométrica y binomial negativa.

9. Sea X1, . . . ,Xn una muestra aleatoria de distribución N (θ, φ−1) y considere ladistribución a priori conjugada para θ y φ.

(a) En una muestra de tamaño n = 10, X = 1 y∑n

i=1

(Xi −X

)2= 8 fue

observada. Determine la distribución a posteriori de θ y haga un grá�co delas funciones a priori, a posteriori y verosimilitud con φ �jo.

(b) Obtenga P (|Y| > 1|X), donde Y es una nueva observación tomada de lamisma población.

10. Sea X1,. . . ,Xn una muestra aleatoria de distribución Poisson(θ).

(a) Determinar los parámetros de la a priori conjugada para θ asumiendo queE(θ) = 4 y CV ar(θ) = 0.5, y determine n tal que V ar(θ|X) < 0.01.

(b) Demostrar que la media a posteriori es de la forma:

γnxn + (1− γn)µ0

donde µ0 = E(θ) y que γn → 1 cuando n→∞.

(c) Repita el item anterior para una muestra de distribución Bernoulli, conprobabilidad de éxito θ y θ ∼ Beta(a, b).

11. Sea X = (X1, . . . ,Xn) una muestra aleatoria de distribución U(0, θ).

(a) Demuestre que la familia de distribuciones Pareto, con parámetros a y b, ydensidad P (θ) = aba/θ1+a, θ > b, a > 0 y b > 0, es una familia conjugadade la uniforme.

(b) Obtenga la moda, la media y la mediana de la distribución a posteriori deθ.

12. Veri�que si las siguientes distribuciones pertenecen a la familia exponencial. Sies asi, determine las funciones b, g, µ y φ.

(a) Binomial(n, θ), n conocido.

(b) Exponencial(θ)

(c) Gamma(α, β)

(d) Beta(α, β)

(e) N(µ,Σ), Σ conocido.

FACYT-MATEMÁTICAS

Page 89: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

89 CAPÍTULO 3: Modelos Paramétricos Simples y Múltiples

13. ¾Cuál de las siguientes familias de distribuciones son miembros de la familiaexponencial?

(a) P (x|θ) = 1/9, donde x ∈ {0.1 + θ, . . . , 0.9 + θ}(b) La familia de distribuciones N (θ, θ2)

(c) La familia de distribuciones N (θ, θ), con θ > 0

(d) P (x|θ) = 2(x+ θ)/(1 + 2θ), donde x ∈ (0, 1) y θ > 0

(e) La familia de distribución de X|X 6= 0, donde X ∼ Binomial(n, θ)

(f) f(x|θ) = θ/(1 + x)1+θ, x ∈ R+

(g) f(x|θ) = θx log θ/(θ − 1), x ∈ (0, 1)

(h) f(x|θ) = (1/2) exp {−|x− θ|}, x ∈ R14. Sea (X1,X2,X3) un vector con función de probabilidad:

n!∏3i=1 xi!

3∏i=1

pxii , xi ≥ 0, x1 + x2 + x3 = n

donde p1 = θ2, p2 = 2θ(1 − θ), p3 = (1 − θ)2 y 0 ≤ θ ≤ 1. Veri�que si estadistribución pertenece a la familia exponencial con k parámetros. Si esto escierto, ¾cuál es el valor de k?

15. Considere una muestra X = (X1, . . . ,Xn) de una tv (µ, σ2) y θ = (v, µ, σ2).Demuestre que esta distribución no pertenece a la familia exponencial.

16. Implementar colocando una a priori:

(a) θ ∼ Beta(0.5, 0.5)

(b) θ ∼ Beta(1, 1)

(c) θ ∼ Beta(2, 2)

donde:

X =

{0 si nace hembra1 si nace varón

Estimar E(θ|X) y V ar(θ|X), para tamaños de muestra n = 1000, n = 2000 yn = 5000.

UNIVERSIDAD DE CARABOBO

Page 90: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

SECCIÓN 3.11: Práctica de Ejercicios del Capítulo 3 90

FACYT-MATEMÁTICAS

Page 91: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

Capítulo 4

Elementos de Inferencia

4.1. Información de Fisher

De�nición 4.1. Sea X un vector aleatorio con función de densidad de probabilidadP (X|θ). La medida de información de Fisher esperada de θ a través de X se de�nepor:

I(θ) = EX|θ

[−∂

2 logP (X|θ)∂θ2

](4.1.1)

Si θ = (θ1, . . . , θp) es un vector de parámetros entonces la matriz de informaciónesperada de Fisher de θ a través de X puede ser de�nida por:

I(θ) = EX|θ

[−∂

2 logP (X|θ)∂θ∂θT

](4.1.2)

con elementos Iij(θ) dados por:

Iij(θ) = EX|θ

[−∂

2 logP (X|θ)∂θi∂θj

]donde i, j = 1, . . . , p. La medida de información de Fisher está relacionada conel valor esperado de la curvatura de la verosimilitud. Si la curvatura es grande, lainformación contenida en la función de verosimilitud es grande.

Lema 4.1. Sea X = (X1, . . . ,Xn) una colección de variables aleatoriasindependientes con función de distribución Pi(X|θ), donde i = 1, . . . , n. Sean:

JX(θ) = −∂2 logP (X|θ)∂θ∂θT

y

JXi(θ) = −∂

2 logP (Xi|θ)∂θ2

, i = 1, . . . , n

91

Page 92: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

SECCIÓN 4.1: Información de Fisher 92

la media de observación de Fisher observada de X y Xi, respectivamente. Sean I yIi las medidas de información esperada de X y Xi, respectivamente, entonces:

JX(θ) =n∑i=1

JXi(θ)

y

I(θ) =n∑i=1

Ii(θ)

El Lema prueba que la información total obtenida de observaciones independientes esla suma de la información de las observaciones individuales.

Demostración.

P (X|θ) =n∏i=1

Pi(Xi|θ)

⇒ log [P (X|θ)] =n∑i=1

logPi(Xi|θ)

−∂2 logP (X|θ)∂θ∂θT

= −n∑i=1

∂2 logPi(Xi|θ)∂θ∂θT

⇒ JX(θ) =n∑i=1

JXi(θ)

Ahora, se calcula la esperanza:

EX|θ [I(θ)] = EX|θ

[−

n∑i=1

∂2 logPi(Xi|θ)∂θ∂θT

θ

]

=n∑i=1

EX|θ

[−∂

2 logPi(Xi|θ)∂θ∂θT

θ

]=

n∑i=1

Ii(θ)

2

De�nición 4.2. La función Score de X, se denota por U(X; θ) y se de�ne de lasiguiente manera:

U(X; θ) =∂ logP (X|θ)

∂θ(4.1.3)

FACYT-MATEMÁTICAS

Page 93: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

93 CAPÍTULO 4: Elementos de Inferencia

En el caso de un vector paramétrico θ = (θ1, . . . , θp)T, la función Score es un vector

U(X; θ) con componentes:

Ui(X; θ) =∂ logP (X|θ)

∂θi, i = 1, . . . , p

Lema 4.2. Bajo ciertas condiciones de regularidad, tales como: diferenciabilidad de laverosimilitud, la integración y diferenciabilidad pueden ser intercambiables, entonces:

I(θ) = EX|θ[U2(X; θ)

]y en el caso de un vector paramétrico:

I(θ) = EX|θ[U(X; θ)UT(X; θ)

]Demostración. ∫

P (X|θ)dX = 1

Diferenciando ambos lados con respecto a θ se tiene que:

0 =

∫∂P (X|θ)

∂θdX

=

∫P (X|θ)P (X|θ)

∂P (X|θ)∂θ

dX

=

∫∂ logP (X|θ)

∂θP (X|θ)dX

=

∫U(X; θ)P (X|θ)dX

= EX|θ [U(X; θ)]

Nuevamente diferenciando con respecto a θ e intercambiando la integración y ladiferenciación, se obtiene lo siguiente:

0 =

∫∂ logP (X|θ)

∂θ

[∂P (X|θ)

∂θ

]T

dX +

∫∂2 logP (X|θ)

∂θ∂θTP (X|θ)dX

=

∫∂ logP (X|θ)

∂θ

[∂ logP (X|θ)

∂θ

]T

P (X|θ)dX

+∂2 logP (X|θ)

∂θ∂θT

∫P (X|θ)dX

=

∫∂ logP (X|θ)

∂θ

[∂ logP (X|θ)

∂θ

]T

P (X|θ)dX− I(θ)

UNIVERSIDAD DE CARABOBO

Page 94: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

SECCIÓN 4.2: Naturaleza Secuencial del Teorema de Bayes 94

⇒ I(θ) =

∫∂ logP (X|θ)

∂θ

[∂ logP (X|θ)

∂θ

]T

P (X|θ)dX

=

∫U(X; θ)UT(X; θ)P (X|θ)dX

= EX|θ[U2(X; θ)

]2

4.2. Naturaleza Secuencial del Teorema de Bayes

Experimento 1: Supóngase que X1 ∼ P (X1|θ), entonces la distribución a posterioriviene dada por:

P (θ|X1) ∝ L1(θ|X1)P (θ)

Experimento 2: Supóngase que X2 ∼ P (X2|θ), entonces la distribución a posterioriviene dada por:

P (θ|X2,X1) ∝L2(θ|X2)P (θ|X1)

...

Experimento n: Supóngase que Xn ∼ P (Xn|θ), entonces la distribución a posterioriviene dada por:

P (θ|Xn,Xn−1, . . . ,X2,X1) ∝ Ln(θ|Xn)P (θ|Xn−1,Xn−2, . . . ,X2,X1)

o alternativamente:

P (θ|Xn,Xn−1, . . . ,X2,X1) ∝

[n∏i=1

Li(θ; Xi)

]P (θ)

4.3. Intercambiabilidad

De�nición 4.3. Sea k = {k1, . . . , kn} una permutación de {1, . . . , n}. Las variablesaleatorias X1, . . . ,Xn son intercambiables si las n! permutaciones (Xk1 , . . . ,Xkn)tienen la misma distribución de probabilidad n-dimensional.

Una consecuencia inmediata de la intercambiabilidad, es que todas las distribucionesmarginales pueden ser las mismas.

FACYT-MATEMÁTICAS

Page 95: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

95 CAPÍTULO 4: Elementos de Inferencia

Ejemplo 4.1. Considérese una urna con m bolas, enumeradas r de ellas desde 1hasta m − r con el número cero. Las bolas son tomadas de la urna, una a la vezsin reemplazo. Si Xk denota el número asociado con la k-ésima bola seleccionada.Entonces X1, . . . ,Xn, con n ≤ m, es una secuencia intercambiable, pero las X noson independientes.

Teorema 4.1. Para todas las secuencia in�nitas de cantidades intercambiables{Xn, n = 1, 2, . . .}. Asumiendo valores en [0, 1], le corresponde una distribución Fen (0, 1), tal que ∀n y k ≤ n, se tiene que:

P (k, n− k) =

∫ 1

0

θk(1− θ)n−kdF (θ) (4.3.1)

donde (k, n − k) denota el evento que k de los X′is son unos y los otros n − k soncero (Teorema de Finetti, 1937).Si se introduce la hipótesis de simetría de las distribuciones y la propiedad deinvarianza bajo transformaciones lineales, no es difícil probar que la densidadconjunta de alguna subsecuencia está dada por:

P (X1, . . . ,Xn) =

∫ ∞0

∫ ∞−∞

n∏i=1

PN(Xi; θ, σ

2)dF(θ, σ2

)=

∫ ∞0

∫ ∞−∞

n∏i=1

1√2πσ2

exp

{− 1

2σ2(Xi − θ)2

}dθdσ2

=

∫ ∞0

∫ ∞−∞

1

(2πσ2)n/2exp

{− 1

2σ2

n∑i=1

(Xi − θ)2

}dθdσ2

De�nición 4.4. Sea {Xi, i = 1, . . . , n} alguna secuencia de cantidades aleatoriasy sea k alguna permutación de {1, 2, . . . , n}. Se dice que X es intercambiableparcialmente si las cantidades {Zi, i = 1, . . . , n} tal que la distribución de (X|Z)es la misma que (Xk|Zk) para alguna permutación k.

De�nición 4.5. (Punto de vista de la estadística clásica).Sea X una cantidad aleatoria con función de densidad de probabilidad P (X|θ).Entonces el estimador T = T (X) es su�ciente para el parámetro θ si:

P (X|T, θ) = P (X|T ) (4.3.2)

La de�nición indica que dado T , X no brinda información adicional acerca de θ.

Teorema 4.2. Si T = T (X) es un estadístico su�ciente para θ, entonces:

P (θ|X) = P (θ|T ), ∀ P (θ), a priori. (4.3.3)

UNIVERSIDAD DE CARABOBO

Page 96: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

SECCIÓN 4.3: Intercambiabilidad 96

Demostración.

P (X|θ) = P (X, T |θ); si T = T (X) y 0 si T 6= T (X)

= P (X|T, θ)P (T, θ)

= P (X|T, θ)P (T |θ)P (θ)

∝ P (X|T )P (T |θ)

Por el teorema de Bayes se tiene que:

P (θ|X) ∝ P (X|θ)P (θ)

= P (X|T )P (T |θ)P (θ)

∝ P (T |θ)P (θ); P (X|T ) no depende de θ.

= P (θ|T )

Entonces:

P (θ|X) = kP (θ|T ), para k > 0

Debido a que P (θ|X) es una función de densidad de probabilidad, se tiene que:

1 =

∫Θ

P (θ|X)dθ = k

∫Θ

P (θ|T )dθ = k

De esta forma, se concluye que:

P (θ|X) = P (θ|T )

2

De�nición 4.6. (Punto de vista de la estadística Bayesiana).El estadístico T (X) es su�ciente para θ si existe una función f tal que:

P (θ|X) ∝ f(θ;T ) (4.3.4)

Nota 4.1. Si T = T (X), es un estadístico p-dimensional, y At se de�ne por:

At = {X : T (X) = t},

entonces la colección de conjuntos{At : t ∈ RP

}= {At} es una partición si:

At ∩ At′ = ∅, ∀t, t′ ∈ RP

y ⋃t

At = S.

FACYT-MATEMÁTICAS

Page 97: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

97 CAPÍTULO 4: Elementos de Inferencia

Teorema 4.3. Criterio de factorizacion de Neyman's.El estadístico T es su�ciente para θ si y sólo si:

P (X|θ) = f(T, θ)g(X) (4.3.5)

donde f y g son funciones no negativas.

Demostración. (⇒)

P (X|θ) = P (X|T )P (T |θ) = g(X)f(T, θ)

(⇐)

P (X|θ) = f(T, θ)g(X)

Sea AT = {X : T (X) = T}. La función de densidad de probabilidad de T |θ está dadapor:

P (T |θ) =

∫AT

P (X|θ)dθ =

∫AT

f(T ; θ)g(X)dX

= f(T ; θ)

∫AT

g(X)dX = f(T ; θ)G(X)

para alguna función G. Por otra parte:

f(T, θ) =P (T |θ)G(X)

⇒ P (X|θ)g(X)

=P (T |θ)G(X)

de modo que:

G(X)

g(X)=P (T |θ)P (X|θ)

⇒ P (X|θ)P (T |θ)

=g(X)

G(X)

Además, se sabe que:

P (X|T, θ) =P (X|θ)P (T |θ)

⇒ P (X|T, θ) =g(X)

G(X)= P (X|T )

es decir, P (X|T, θ) no depende de θ, por consiguiente T es su�ciente para θ. 2

4.4. Eliminación de Parámetros.

Supóngase que se observa X = x y se quiere obtener P (θ, φ|X).

UNIVERSIDAD DE CARABOBO

Page 98: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

SECCIÓN 4.4: Eliminación de Parámetros. 98

1. Distribuciones marginales:

P (θ|X) =

∫Φ

P (θ, φ|X)dφ

y

P (φ|X) =

∫Θ

P (θ, φ|X)dθ

2. Distribuciones a posteriori condicionales:

P (θ|φ,X) ∝ P (θ, φ|X).

P (φ|θ,X) ∝ P (θ, φ|X).

P (θ, φ,X) = P (θ, φ|X)P (X) ∝ P (θ, φ|X)

P (θ, φ,X) ∝ P (θ|φ,X)P (φ|X)

⇒ P (θ|φ,X) =P (θ, φ|X)

P (φ|X)∝ P (θ, φ|X)

3. Función de verosimilitud marginal: Sea L(θ, φ; X) = P (X|θ, φ). La verosimilitudmarginal se obtiene de la siguiente manera:

L(θ; X) = P (X|θ)

=

∫φ

P (X, φ|θ)dφ

=

∫φ

P (X|θ, φ)P (φ|θ)dφ

L(φ; X) =

∫θ

P (X|φ, θ)P (θ|φ)dθ

Ejemplo 4.2. Sea X1,X2, . . . ,Xn ∼ N (θ, σ2) y sea φ = 1/σ2, entonces el vectorde parámetros desconocidos es (θ, φ) y supóngase que interesa estimar la media dela población. La precisión φ es un parámetro de ruido que podría ser eliminado delanálisis. Supóngase que φ ∼ Gamma (n0/2, σ

20/2) y φ es independiente de θ a priori.

Entonces:

P (φ|θ) = P (φ) ∝ φn0/2−1 exp

{−n0σ

20

}P (X|θ, φ) ∝ φn/2 exp

{−φ

2

n∑i=1

(Xi − θ)2

}

FACYT-MATEMÁTICAS

Page 99: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

99 CAPÍTULO 4: Elementos de Inferencia

Por otra parte, se tiene que:

n∑i=1

(Xi − θ)2 =n∑i=1

(Xi −X + X− θ

)2

=n∑i=1

(Xi −X

)2+ n

(X− θ

)2

= n[S2 +

(X− θ

)2]

donde:

S2 =1

n

n∑i=1

(Xi −X

)2 ⇒ nS2 =n∑i=1

(Xi −X

)2

Por lo tanto, la verosimilitud marginal de θ es:

L(θ; X) =

∫φ

P (X|φ, θ)P (φ|θ)dφ

=

∫ ∞0

φn0/2−1 exp

{−φ

2n0σ

20

}φn/2 exp

{−φ

2

[nS2 + n

(X− θ

)2]}

=

∫ ∞0

φn/2+n0/2−1 exp

{−φ

2

[nS2 + n

(X− θ

)2+ n0σ

20

]}dφ

=

∫ ∞0

[2W

nS2 + n(X− θ

)2+ n0σ2

0

](n0+n)/2−1

exp {−W}

× 2dW[nS2 + n

(X− θ

)2+ n0σ2

0

]dφdonde:

W =[nS2 + n

(X− θ

)2+ n0σ

20

] φ2

⇒ φ =2W

nS2 + n(X− θ

)2+ n0σ2

0

⇒ dφ =2dW

nS2 + n(X− θ

)2+ n0σ2

0

De modo que:

L(θ; X) ∝

[1

nS2 + n(X− θ

)2+ n0σ2

0

](n0+n)/2 ∫ ∞0

W(n0+n)/2−1e−WdW

UNIVERSIDAD DE CARABOBO

Page 100: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

SECCIÓN 4.5: Familias de Escala y Localización 100

=Γ(n0+n

2)[

nS2 + n(X− θ

)2+ n0σ2

0

](n0+n)/2

∝ 1[nS2 + n

(X− θ

)2+ n0σ2

0

](n0+n)/2

=1{

(nS2 + n0σ20)

[1 +

n(X−θ)2

nS2+n0σ20

]}(n0+n)/2

∝ k

1

1 +(X−θ)

2

S2

−n/2 ; n0 → 0

= k

[1 +

T 2(X, θ)

n− 1

]−[(n−1)+1]/2

donde:

T (X, θ) =X− θ√

S2

n−1

y

T ∼ tn−1

4.5. Familias de Escala y Localización

Teorema 4.4. Sea f(X) una función de densidad de probabilidad y sean µ y σ2 > 0constantes, entonces la función:

g(X|µ, σ) =1

σf

(X− µσ

)(4.5.1)

es una función de densidad de probabilidad.

Demostración. Se debe probar que:

1. 1σf(

X−µσ

)≥ 0

2.

∫ ∞−∞

1

σf

(X− µσ

)dX = 1

FACYT-MATEMÁTICAS

Page 101: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

101 CAPÍTULO 4: Elementos de Inferencia

Debido a que f(X) es una función de densidad de probabilidad, f(X) ≥ 0, ∀ X,entonces:

1

σf

(X− µσ

)≥ 0, ∀ X, µ, σ.

Además, nótese que si:

y =X− µσ

⇒ σdy = dX

De modo que nos queda lo siguiente:∫ ∞−∞

1

σf

(X− µσ

)dX =

∫ ∞−∞

f(y)dy = 1

En consecuencia, g(X|µ, σ) = 1σf(

X−µσ

)es una función de densidad de

probabilidad. 2

De�nición 4.7. Sea f(X) una función de densidad de probabilidad, entonces lafamilia de función de densidad de probabilidad f(X − µ) indexada por µ, donde−∞ < µ < ∞, es llamada la familia de localización con función de densidad deprobabilidad estándar f(X) y µ es llamado el parámetro de localización de familia delocalización.

De�nición 4.8. Sea f(X) una función de densidad de probabilidad, entonces paraalgún σ > 0, la familia 1

σf(

)indexada por el parámetro σ, es llamada la familia

escala con función de densidad de probabilidad estándar f(X) y σ es llamadoparámetro de escala de la familia.

De�nición 4.9. Sea f(X) una función de densidad de probabilidad, entonces paraalgún µ, donde −∞ < µ < ∞, y algún σ > 0, la familia de función de densidadde probabilidad 1

σf(

X−µσ

)indexada por el parámetro (µ, σ), es llamada la familia de

escala y localización con función de densidad de probabilidad estándar f(X), µ es elparámetro de localización y σ es el parámetro de escala.

4.6. Distribuciones a Priori

Hay varios tipos de distribuciones a priori:

4.6.1. Prioris no Informativas

Una distribución a priori es no informativa si la priori es relativamente plana a lafunción de verosimilitud. Una priori π(θ) es no informativa si ésta tiene mínimo

UNIVERSIDAD DE CARABOBO

Page 102: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

SECCIÓN 4.6: Distribuciones a Priori 102

impacto sobre la distribución a posteriori de θ. Otros nombres para la priori noinformativa son los siguientes: priori de referencia, priori vaga o priori plana. Cuandose tiene una priori no informativa, la distribución a posteriori es la siguiente:

π(θ|X) ∝ CL(θ|X) ∝ L(θ|X)

donde C es una constante.

Ejemplos de Prioris no Informativas

1. Si 0 < θ < 1, entonces θ ∼ U(0, 1), π(θ) = 1.

2. Sea −∞ < µ0 < ∞, entonces si θ ∼ N (µ0, σ20) y σ2

0 → ∞, se obtiene una apriori no informativa.

Una priori inversa π (σ2) = 1/σ2, puede ser aproximada por una densidad Gamma.

Ejemplo 4.3. Sea X = (x1, . . . , xn) ∼ Poisson(θ) una muestra de variablesaleatorias, donde la verosimilitud de las observaciones viene dada por:

L(θ|X) =e−nθθ

∑ni=1 xi∏n

i=1 xi!

Ahora, tomando logaritmo:

logL(θ|X) = −nθ +n∑i=1

xi log θ − logn∏i=1

xi!

∂ logL(θ|X)

∂θ= −n+

∑ni=1 xiθ

∂2 logL(θ|X)

∂2θ= −

∑ni=1 xiθ2

Luego, la información de Fisher es la siguiente:

I(θ) = EX|θ

(∑ni=1 xiθ2

)=

1

θ2

n∑i=1

E(xi) =1

θ2nθ =

n

θ

La a priori no informativa es:

P (θ) = [I(θ)]1/2 ∝(

1

θ

)1/2

= θ−1/2

FACYT-MATEMÁTICAS

Page 103: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

103 CAPÍTULO 4: Elementos de Inferencia

La densidad a posteriori viene dada por:

P (θ|X) ∝ L(θ|X)P (θ)

∝ e−nθθ∑ni=1 xiθ−1/2

= θ∑ni=1 xi−1/2e−nθ

= θ∑ni=1 xi+1/2−1e−nθ

⇒ θ|X ∼ Gamma

(n∑i=1

xi +1

2, n

)

Ejemplo 4.4. Si X ∼ Binomial(n, θ), entonces la verosimilitud viene dada de lasiguiente manera:

f(X|θ) =

(nX

)θX(1− θ)n−X

⇒ log f(X|θ) = log

(nX

)+ X log(θ) + (n−X) log(1− θ)

∂ log f(X|θ)∂θ

=X

θ− (n−X)

1− θ∂2 log f(X|θ)

∂2θ= −X

θ2− (n−X)

(1− θ)2

⇒ EX|θ

(∂2 log f(X|θ)

∂2θ

)= − 1

θ2E(X)− 1

(1− θ)2E(n−X)

= −[nθ

θ2+

n− nθ(1− θ)2

]= −

[n

θ+

n− nθ(1− θ)2

]=n(1− θ)2 + (n− nθ)θ

θ(1− θ)2

=n− 2nθ + nθ2 + nθ − nθ2

θ(1− θ)2

=n− nθθ(1− θ)2

=n(1− θ)θ(1− θ)2

=n

θ(1− θ)

∝ 1

θ(1− θ)= IB(θ)

Así que la a priori no informativa se de�ne como:

p(θ) ∝ [IB(θ)]1/2 = θ−1/2(1− θ)−1/2 = θ1/2−1(1− θ)1/2−1

UNIVERSIDAD DE CARABOBO

Page 104: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

SECCIÓN 4.6: Distribuciones a Priori 104

⇒ θ ∼ Beta

(1

2,1

2

)Ejemplo 4.5. Supóngase que Y ∼ BN(s, θ), con función de densidad deprobabilidad:

f(Y|θ) =

(n− 1s− 1

)θs(1− θ)Y−s

Hallar la priori no informativa PBN(θ).

Solución:

log f(Y|θ) = log

(n− 1s− 1

)+ s log(θ) + (Y − s) log(1− θ)

⇒ ∂ log f(Y|θ)∂θ

=s

θ−(

Y − s1− θ

)∂2 log f(Y|θ)

∂θ2= − s

θ2− (Y − s)

(1− θ)2

La información esperada es:

IBN(θ) = E

[−∂

2 log f(Y|θ)∂θ2

]=

1

θ2E(s) +

1

(1− θ)2E(Y − s)

=s

θ2+

1

(1− θ)2

(sθ− s); E(Y|θ) =

s

θ

=s

θ2+

1

(1− θ)2

(s− sθθ

)=

s

θ2+

(1− θ)s(1− θ)2θ

=s

θ2+

s

(1− θ)θ

=s(1− θ)θ + sθ2

(1− θ)θ2=sθ − sθ2 + sθ2

(1− θ)θ2

=sθ

(1− θ)θ2=

s

(1− θ)θ∝ 1

θ(1− θ)

De este modo la a priori no informativa es la siguiente:

PBN(θ) ∝ [IBN(θ)]1/2 =[θ−1(1− θ)−1

]1/2FACYT-MATEMÁTICAS

Page 105: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

105 CAPÍTULO 4: Elementos de Inferencia

Problemas con las Distribuciones no Informativas

Posibilidades de distribuciones a posteriori impropias.

No cumple con el principio de verosimilitud.

Ejemplo 4.6. (datos normales con distribuciones a priori no informativas).Sea P (µ, σ2) ∝ 1/σ2 y suponga que X1, . . . ,Xn ∼ N (µ, σ2). La distribución conjuntase puede factorizar de la siguiente manera:

P(µ, σ2|X

)∝(

1

σ2

)n/2exp

{− 1

2σ2

n∑i=1

(Xi − µ)2

}1

σ2

∝(

1

σ2

)n/2+1

exp

{− 1

σ2

[n∑i=1

(Xi −X

)2+ n

(X− µ

)2

]}

∝(

1

σ2

)n/2+1

exp

{− 1

2σ2

[(n− 1)S2 + n

(X− µ

)2]}

donde: S2 = 1n−1

∑ni=1

(Xi −X

)2es la varianza muestral. Los estadísticos Y

y S2 son estadísticos su�cientes. Si µ es conocida y σ2 es desconocida, paraX = (X1, . . . ,Xn) variables aleatorias, independientes e idénticamente distribuidas,entonces la verosimilitud es:

L(σ2|Y

)∝

n∏i=1

1√2πσ2

exp

{− 1

2σ2(Xi − µ)2

}

∝(

1

σ2

)n/2exp

{− 1

2σ2

n∑i=1

(Xi − µ)2

}

=(σ2)−n/2

exp

{− 1

σ2

n∑i=1

(Xi − µ)2

}=(σ2)−n/2

exp{− n

2σ2v}

El estadístico su�ciente es el siguiente:

v =1

n

n∑i=1

(Xi − µ)2

La densidad a priori conjugada correspondiente es la Inversa Gamma, es decir,σ2 ∼ IG(α, β), entonces:

P(σ2)∝(σ2)−(α+1)

e−β/σ2

UNIVERSIDAD DE CARABOBO

Page 106: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

SECCIÓN 4.6: Distribuciones a Priori 106

Una parametrización conveniente es la distribución χ2 − Inversa escalada con σ20 y

v0 grados de libertad, es decir:

σ2 ∼ Inv − χ2(v0, σ

20

)P(σ2|Y

)∝ L

(σ2|Y

)P(σ2)

Debido a que σ2 ∼ Inv − χ2 (v0, σ20), entonces:

P(σ2)

=(v0/2)v0/2

Γ (v0/2)σv00

(σ2)−(v0/2+1)

exp{−v0σ

20/2σ

2}, σ2 > 0

∝(σ2)−(v0/2+1)

exp{−v0σ

20/2σ

2}

Así que:

P(σ2|Y

)∝(σ2)−n/2

exp{− nv

2σ2

}(σ2)−(v0/2+1)

exp

{−v0σ

20

2σ2

}∝(σ2)−[(n+v0)/2+1]

exp

{− 1

2σ2

(nv + v0σ

20

)}⇒ σ2|Y ∼ Inv − χ2

(v0 + n,

v0σ20 + nv

v0 + n

)

Por otra parte, si se sabe que: µ|σ2,X ∼ N(X, σ2/n

)⇒ P

(µ, σ2|X

)∝(

1

σ2

)n/2+1

exp

{− 1

2σ2

[(n− S2

)+ n

(X− µ

)2]}

Se puede determinar P (σ2|X), de la siguiente manera:

P(σ2|Y

)∝∫ ∞−∞

(1

σ2

)n/2+1

exp

{− 1

2σ2

[(n− 1)S2 + n

(X− µ

)2]}

=

(1

σ2

)n/2+1

exp

{− 1

2σ2

[(n− 1)S2

]}∫ ∞−∞

exp

{− 1

2σ2n(X− µ

)2}dµ

=

(1

σ2

)n/2+1

exp

{− 1

2σ2

[(n− 1)S2

]} √2πσ2/n√2πσ2/n

×∫ ∞−∞

exp

{− 1

2σ2n(X− µ

)2}dµ

FACYT-MATEMÁTICAS

Page 107: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

107 CAPÍTULO 4: Elementos de Inferencia

Además, debido a que:

1√2πσ2/n

∫ ∞−∞

exp

{− 1

2σ2n(X− µ

)2}dµ = 1

⇒ P(σ2|Y

)=

(1

σ2

)n/2+1

exp

{− 1

2σ2

[(n− 1)S2

]}√2πσ2

n

∝(

1

σ2

)n/2+1

exp

{− 1

2σ2

[(n− 1)S2

]}⇒ σ2|Y ∼ Inv − χ2

(n− 1, S2

)(Inversa χ2-escalada)

La distribución marginal P (µ|Y), viene dada por:

P (µ|Y) =

∫ ∞0

P(µ, σ2|Y

)dσ2

=

∫ ∞0

(1

σ2

)n/2+1

exp

{− 1

2σ2

[(n− 1)S2 + n

(X− µ

)2]}

dσ2 = I

Sea z = A/2σ2, tal que:

A = (n− 1)S2 + n(X− µ

)2

⇒ 2z

A=

1

σ2

⇒ σ2 =A

2z=Az−1

2

⇒ dσ2 = − A2zdz

Luego:

I = −∫ ∞

0

(2z

A

)n/2+1A

2z2e−zdz

∝ A−n/2∫ ∞

0

zn/2+1−2e−zdz

= A−n/2∫ ∞

0

zn/2−1e−zdz (Kernel Gamma)

=[(n− 1)S2 + n

(X− µ

)2]−n/2

[1 +

n(X− µ

)2

(n− 1)S2

]−n/2

UNIVERSIDAD DE CARABOBO

Page 108: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

SECCIÓN 4.6: Distribuciones a Priori 108

En consecuencia:

µ|Y ∼ tn−1

(X,

S2

n

)Ejemplo 4.7. Supóngase que X ∼ N(θ, σ2), donde σ2 es conocido y θ ∈ (a, b), cona < b.

a. Obtenga la a priori no informativa para θ.

b. Obtener la expresión completa de la a posteriori resultante.

c. Obtenga la media y la moda a posteriori.

Solución:

a. Sea θ ∼ U(a, b), entonces:

P (θ) =

{1/(b− a) si a < θ < b.

0 en otro caso.

b.

L(X; θ) ∝ exp

{− 1

2σ2(X− θ)2

}P (θ|X) ∝ L(X; θ)P (θ)

= exp

{− 1

2σ2(X− θ)2

}(1

b− a

)∝ exp

{− 1

2σ2(X− θ)2

}⇒ θ|X ∼ N

(θ, σ2

)c. De acuerdo a b. se tiene que:

E(θ|X) = θ

Para estimar la moda se hace lo siguiente:

∂ logL(X; θ)

∂θ= 0

De modo que:

logL(X; θ) = − 1

2σ2(X− θ)2

⇒ ∂ logL(X; θ)

∂θ=

2(X− θ)2σ2

⇒2(X− θ

)2σ2

= 0

⇒ θ = X

FACYT-MATEMÁTICAS

Page 109: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

109 CAPÍTULO 4: Elementos de Inferencia

4.6.2. Prioris Impropias.

Una a priori π(θ) es impropia si: ∫Θ

π(θ)dθ =∞

Ejemplos

1. Supóngase que para −∞ < θ <∞, entonces la priori π(θ) ∝ 1, así que:∫ ∞−∞

π(θ)dθ =

∫ ∞−∞

dθ =∞

2. De una a priori impropia puede resultar una a posteriori impropia. No se puedehacer inferencia con distribuciones a posteriori impropias.

3. Una a priori impropia puede conducir a una distribución a posteriori.

4.6.3. Prioris Informativas

1. Una distribución a priori informativa no es dominada por la verosimilitud, ytiene impacto sobre la distribución a posteriori.

2. Es útil, si se tiene información real de un estudio similar previo.

4.6.4. Je�reys (Principio de Invarianza)

Un método usado para de�nir priori no informativa fue introducido por Je�reys,basado sobre una transformación uno a uno del parámetro φ = h(θ). Por latransformación de variables, la densidad a priori P (θ) es equivalente en términosde expresar la misma creencia en la siguiente densidad a priori sobre φ:

P (φ) = P (θ)

∣∣∣∣dθdφ∣∣∣∣ = P (θ) |h′(θ)|−1

De�nición 4.10. La distribución a priori de Je�reys es:

P (θ) ∝ [I(θ)]1/2

donde I(θ) es la información de Fisher para θ:

I(θ) = E

[(d logP (y|θ)

)2∣∣∣∣∣ θ]

= −E[d2 logP (y|θ)

dθ2

∣∣∣∣ θ]Si se elige P (θ) ∝

√I(θ), entonces P (φ) ∝

√I(φ). La inferencia no depende de la

escala elegida para el parámetro.

UNIVERSIDAD DE CARABOBO

Page 110: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

SECCIÓN 4.6: Distribuciones a Priori 110

Lema 4.3. La priori de Je�reys, P (θ) ∝ [I(θ)]1/2, es invariante bajo transforma-ciones uno a uno, es decir, si φ = g(θ) es una transformación uno a uno de θ,entonces la priori de Je�reys para φ es P (φ) ∝ [I(φ)]1/2.

Demostración. Sea φ = g(θ) una transformación uno a uno de θ. Se evalúa I(φ) enθ = g−1(φ):

I(φ) = −E[d2 logP (y|φ)

dφ2

]= −E

[d2 logP (y|θ = g−1(φ))

dθ2

∣∣∣∣dθdφ∣∣∣∣2]

= −E[d2 log (y|θ = g−1(φ))

dθ2

]E

∣∣∣∣dθdφ∣∣∣∣2

= I(θ)

∣∣∣∣dθdφ∣∣∣∣2

∴ [I(φ)]1/2 = [I(θ)]1/2∣∣∣∣dθdφ

∣∣∣∣como se requiere. 2

4.6.5. Priori de Je�reys

La regla de Je�reys permite encontrar distribuciones a priori que son invariantesbajo transformaciones:

π(σ2)∝ 1

σ2⇒ π(σ) ∝ 1

σ

En la mayoría de los casos, la a priori de Je�reys, es una a priori impropia, sinembargo la distribución a posteriori es propia.

Ejemplo 4.8. Suponga n ensayos de Bernoulli, entonces la verosimilitud para θ esla siguiente:

P (X|θ) ∝ θX(1− θ)n−X

Sea:

L = logP (X|θ) ∝ X log(θ) + (n−X) log(1− θ)

de modo que:

∂L

∂θ=

X

θ− n−X

1− θ∂2L

∂θ2= −X

θ2− n−X

(1− θ)2

FACYT-MATEMÁTICAS

Page 111: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

111 CAPÍTULO 4: Elementos de Inferencia

Luego, se tiene que:

E

(∂2L

∂θ2

)= −nθ

θ− n− nθ

(1− θ)2

= −[nθ

θ+n(1− θ)(1− θ)2

]= −n

[1

θ+

1

(1− θ)

]⇒ −E

(∂2L

∂θ2

)= n

(1

θ+

1

1− θ

)= I(θ) =

n

θ(1− θ)

π(θ) ∝√I(θ) =

√n

θ(1− θ)∝ θ−1/2(1− θ)−1/2

⇒ θ ∼ Beta

(1

2,1

2

)

Ejemplo 4.9. Sean X1, . . . ,Xn ∼ Poisson (θ), independientes e idénticamentedistribuidas, de modo que:

P (X|θ) =n∏i=1

θXie−θ

Xi!=θ∑ni=1 Xie−nθ

n∏i=1

Xi!

⇒ L = logP (X|θ) =n∑i=1

Xi log(θ)− nθ −n∑i=1

Xi!

Por lo tanto:

∂L

∂θ=

∑ni=1 Xi

θ− n

∂2L

∂θ2= −

∑ni=1 Xi

θ2

Ahora, se obtiene lo siguiente:

I(θ) =

∑ni=1 E(Xi)

θ=n

θ⇒√I(θ) ∝ 1

θ1/2∫ ∞0

π(θ)dθ =

∫ ∞0

θ−1/2dθ =∞

De lo anterior se concluye que la distribución a priori es impropia. La distribución a

UNIVERSIDAD DE CARABOBO

Page 112: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

SECCIÓN 4.6: Distribuciones a Priori 112

posteriori viene dada por:

π(θ|X) =θ∑ni=1 Xie−nθ∏ni=1 Xi!

θ−1/2

∝ θ∑ni=1 Xi−1/2e−nθ

= θ∑ni=1 Xi+

12−1enθ

⇒ θ|X ∼ Gamma

(n∑i=1

Xi +1

2, n

)

En consecuencia la distribución a posteriori es propia.

En algunas situaciones no se requiere colocar información en la distribución a priori,debido a que:

No se sabe nada sobre el problema.

Se quiere ser objetivo.

En estas situaciones se tienen que elegir distribuciones iniciales no informativas, perohay muchas posibilidades, así que se desea saber cuál es la más útil.

4.6.6. Principio de Razón Insu�ciente

Este principio dice que si no hay información para diferenciar entre valores diferentesde θ, se debe dar la misma probabilidad a todos los valores. Entonces el principioimplica una distribución a priori uniforme para θ.

1. Si Θ = {θ1, . . . , θn}, entonces f(θi) = 1/N

2. Si Θ = (a, b), entonces f(θ) = 1/(b− a)

3. Si Θ = {1, 2, . . .}, entonces f(θ) ∝ 1

4. Si Θ = (−∞,∞), se tiene f(θ) ∝ 1

Los casos 3 y 4 nos llevan a distribuciones a priori impropias. Por ejemplo, en el caso3 para cualquier distribución constante P (θ) = C,

∑∞θ=1 P (θ) = ∞. La distribución

a priori impropia no importa tanto, lo importante es que exista la distribución aposteriori y que sea propia.Recordar que P (x) es una densidad propia si:

P (x) ≥ 0,∀x

I =

∫P (x)dx = 1

Si I es in�nito, se dice que P (x) es impropia.

FACYT-MATEMÁTICAS

Page 113: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

113 CAPÍTULO 4: Elementos de Inferencia

Observación 4.1. La distribución uniforme no es invariante en caso detransformación. Por ejemplo, si φ = log θ y la distribución a priori para θ esuniforme, entonces se tiene que:

P (θ) ∝ eφ

el cual no es uniforme.

4.7. Práctica de Ejercicios del Capítulo 4

1. Sea X|θ ∼ f(X|θ). Dada una muestra X, se dice que un estadístico t = t(X) essu�ciente para θ si:

f(X|θ) = f(t|θ)f(X|t)

(a) Demostrar que si t es su�ciente, dada una distribución a priori f(θ), ladistribución a posteriori es f(θ|X) = f(θ|t).

2. Sea:

f(X|θ) =θ2

θ + 1(X + 1) exp{−θX}, θ ≥ 0

una función de densidad.

(a) Hallar el núcleo de la distribución de Je�reys para θ.(b) ¾Es propia o impropia la distribución a priori de Je�reys?

3. La distribución de Maxwell es:

f(X|α) =

√2

πα3/2X2 exp

{−1

2αX2

}, para X > 0

donde α > 0.

(a) Calcular la distribución a priori de Je�reys para α.(b) Demostrar que dada la distribución a priori de Je�reys y una muestra de

datos (X1, . . . ,Xn), la media a posteriori de α es igual al estimador demáxima verosimilitud.

4. Suponer que X = (X1,X2,X3)T se distribuye como trinomial dado θ = (θ1, θ2)T;

P (X = x|θ) =

(n

x1 x2 x3

)θx1

1 θx22 (1− θ1 − θ2)x3

donde x1 + x2 + x3 = n. Demostrar que la distribución a priori de Je�reys paraθ es:

f(θ) ∝ 1√θ1θ2(1− θ1 − θ2)

Además, se tiene que E[X1|θ] = nθ1, E[X2|θ] = nθ2 y E[X3|θ] = n(1− θ1 − θ2).

UNIVERSIDAD DE CARABOBO

Page 114: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

SECCIÓN 4.7: Práctica de Ejercicios del Capítulo 4 114

5. Las observaciones X1,X2, . . . ,Xn son una muestra aleatoria de una distribuciónPareto con densidad:

f(X|θ) =

{θ3θ/Xθ+1 si X > 3

0 si no

donde θ > 0. Demostrar que la distribución inicial de Je�reys para θ esf(θ) ∝ 1/θ. Dados los datos y la distribución inicial de Je�reys:

(a) Obtener la distribución a posteriori de θ.(b) Demostrar que la distribución a posteriori de θ es una gamma. Para a > 0

y b, ab = exp(b log a).(c) Demostrar que la media a posteriori es igual al estimador de máxima

verosimilitud.

6. Se observan 12 datos de una distribución normal N(µ, 1):

X = (15.644, 16.437, 17.287, 14.448, 15.308, 15.169,

18.123, 17.635, 17.259, 16.311, 15.390, 17.252) .

(a) Dada la distribución a priori de Je�reys, hallar la distribución a posterioride µ.

(b) Sea Y|µ ∼ N(2µ, 4), donde µ es el mismo parámetro. ¾Cuál es ladistribución predictiva para Y?

7. Una empresa dedicada a la producción de pasta dentífrica desea introducir unnuevo producto en el mercado y necesita saber si la campaña publicitaria inicialla dirige a la población fumadora o no fumadora. Para ella, posee datos relativosal gasto por persona y año en productos de higiene dental de la población:Fumadores: 39.8 34.2 34.7 35.2 33.5 34.2 36.3 33.6 33.8 38.8No fumadores: 35.9 34.7 33.6 33.2 36.3 34.3 31.8 32.8 36.3 32.9Suponiendo que los gastos en cada grupo se distribuyen como normales convarianza 1, dadas las distribuciones a priori de Je�reys para la media de cadagrupo:

(a) Hallar la distribución a posteriori del gasto medio de la población defumadores.

(b) Calcular la distribución de la diferencia en el gasto medio para las dospoblaciones. ¾Cuál es la probabilidad de que, en media, los no fumadoresgasten más en productos de higiene dental que los fumadores?

(c) Hallar un intervalo predictivo de 95 % de probabilidad a posteriori para losgastos anuales de un fumador en productos de higiene dental.

(d) Repetir las partes (a) y (c) suponiendo que ahora las dos poblaciones sonnormales con la misma precisión φ desconocida, y dada la distribución apriori de Je�reys.

FACYT-MATEMÁTICAS

Page 115: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

115 CAPÍTULO 4: Elementos de Inferencia

8. Sea X1, . . . ,Xn una muestra de distribución con densidad:

f(x|θ1, θ2) =

{θ1θ2e− xθ2 para x > 0

(1−θ1)θ2

ex/θ2 para x < 0

donde: 0 < θ1 < 1 y θ2 > 0.

(a) Demuestre que (S,K) es su�ciente para (θ1, θ2), donde K es el número depositivos X′is, K =

∑ni=1 I(Xi > 0) y S =

∑ni=1 |Xi|

(b) Encuentre el estimador de máxima verosimilitud,(θ1, θ2

)de (θ1, θ2).

(c) Encuentre la matriz de información de Fisher, I(θ1, θ2).

9. Las observaciones Xi = Zi + εi, i = 1, 2, . . . , n, donde Zi son variables aleatoriascon distribución exponencial, independientes e idénticamente distribuidas, noobservables, con media θ > 0 (fZ(z) = (1/θ) exp{−z/θ}I{z > 0}), y los términosdel error εi son independientes e idénticamente distribuidos, Bernoulli conparámetro p, independiente de los Zi (p = P (εi = 1) = 1− P (εi = 0)).

(a) Encuentrar los estimadores del método de los momentos de θ y p. ¾Para quévalores de (θ, p) son estas estimaciones consistentes?

(b) Demostrar que hay un estadístico su�ciente bidimensional para (θ, p).

(c) Encuentre la información de Fisher.

10. Para cada una de las siguientes distribuciones veri�que si el modelo es delocalización, escala o localización-escala:

(a) tα (µ, σ2), con α conocido.

(b) Pareto(x0, α), con α �jo, densidad P (x|x0) = αxα0/x1+α, x > x0 y a, x0 > 0

(c) Distribución uniforme en (θ − 1, θ + 1)

(d) Distribución uniforme en (−θ, θ)11. Sea X1, . . . ,Xn cantidades aleatorias, independientes e idénticamente dis-

tribuidas, de distribución Weibull, denotada por Weibull(α, β), con α, β > 0,donde:

P (x|α, β) = βαxα−1 exp {−βxα} , α > 0, β > 0

(a) Obtenga la función de verosimilitud, la función Score y la matriz deinformación de Fisher observada y esperada para el par de parámetros (α, β).

(b) La distribución Weibull está algunas veces parametrizada en términos de αy θ = 1/βα. Repetir (a) para el par de parámetros (α, θ).

12. Sea X|θ, µ ∼ N (θ, σ2), σ2 conocido y θ|µ ∼ N (µ, τ 2), τ 2 conocido yµ ∼ N(0, 1). Obtenga las siguientes distribuciones:

UNIVERSIDAD DE CARABOBO

Page 116: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

SECCIÓN 4.7: Práctica de Ejercicios del Capítulo 4 116

(a) (θ|x, µ)

(b) (µ|x)

(c) (θ|x)

13. Sea X = (X1, . . . ,Xn) una muestra aleatoria de una distribución U(θ1, θ2),donde:

P (x|θ1, θ2) =1

θ2 − θ1

, θ1 ≤ x ≤ θ2

Sea T (X) =(X(1),X(n)

), obtenga su distribución conjunta y demuestre que este

es un estadístico su�ciente para θ = (θ1, θ2).

14. Sea (X1,X2,X3) un vector aleatorio de distribución trinomial con parámetroθ = (θ1, θ2, θ3), donde θ3 = 1 − θ1 − θ2 y asuma que la a priori para θ esconstante.

(a) De�na λ = θ1/(θ1 + θ2) y ψ = θ1 + θ2, y obtenga sus prioris.

(b) Obtenga la verosimilitud marginal de ψ.

(c) Demuestre que X1 + X2 es un estadístico su�ciente para ψ.

15. Sea X1,. . . , Xn una muestra aleatoria de P (X|θ1, θ2). Demuestre que si T1 essu�ciente para θ1 cuando θ2 es conocido y T2 es su�ciente para θ2 cuando θ1 esconocido, entonces T = (T1, T2) es su�ciente para θ = (θ1, θ2).

16. Sea −∞ < µ0 < ∞, entonces si θ ∼ N (µ0, σ20) y σ2

0 → ∞, se obtiene una apriori no informativa. Gra�car en WinBUGS usando los siguientes datos:

(a) µ0 = 0; σ20 = 10

(b) µ0 = 0; σ20 = 100

(c) µ0 = 0; σ20 = 1000

17. Sea yi = µ+αi+εi, i = 1, 2, . . . , n, εi ∼ N(0, 1), independientes e idénticamentedistribuidos. Sea Θ = (α1, α2, . . . , αn, θ) y supóngase una a priori plana π(θ) ∝ 1.Demostrar que π(θ|y1, . . . , yn) es impropia.

FACYT-MATEMÁTICAS

Page 117: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

Capítulo 5

Estimación

Supóngase que se está interesado en una variable aleatoria X, la cual tiene unmodelo de probabilidad dado por: f(X|θ).

Supóngase que se observa n variables aleatorias, independientes e idénticamentedistribuidas: X1, . . . ,Xn.

Supóngase que se quiere hacer inferencia sobre θ.

5.1. Métodos Clásicos

Para el análisis clásico, la función de verosimilitud juega un rol importante en lainferencia estadística:

1. Por el principio de máxima verosimilitud, se usa el estimador de máximaverosimilitud denotado por θ = g (X1, . . . ,Xn), el cual es el valor de θ quemaximiza la función de verosimilitud L(θ|X) para estimar θ.

2. La variabilidad de θ depende de la varianza de θ a través de la función dedistribución de probabilidad de f(X|θ).

3. Un intervalo de con�anza (1 − α) % dice que si se repiten las n realizacionesobtenidas de f(X|θ) un número grande de veces, se obtiene la correspondientecon�anza (1− α) % de que el intervalo incluye el parámetro θ.

5.2. Método Bayesiano

Para el análisis bayesiano, la distribución a posteriori juega un rol importante en lainferencia estadística.

Se considera un parámetro desconocido que tiene una densidad a priori π(θ)antes de ver los datos.

117

Page 118: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

SECCIÓN 5.3: Comparación de Dos Medias. 118

Se actualiza la a priori mediante el teorema de Bayes y se obtiene la distribucióna posteriori como sigue:

π(θ|X) ∝ L(θ|X)P (θ)

Se estima θ por la media a posteriori E(θ|X).

La varianza a posteriori V ar(θ|X) es una medida de como varía θ.

Se pueden obtener los intervalos de con�anza bayesianos, mediante la estimaciónde la densidad a posteriori más alta (HPD).

5.3. Comparación de Dos Medias.

Considere dos distribuciones normales:

X1, . . . ,Xn|µX, σ2X ∼ N

(µX, σ

2X

)Y1, . . . ,Ym|µY, σ

2Y ∼ N

(µY, σ

2Y

)Suponga que las dos muestras son independientes. Se está interesado en la distribucióna posteriori para la diferencia de medias δ = µX − µY.

5.3.1. Solución Usando una Priori Vaga

Suponga que las dos varianzas σ2X y σ2

Y son desconocidas pero iguales, convarianza común σ2

X = σ2Y = σ2.

Supóngase que la distribución a priori conjunta está dada por:

Π(µX, µY, σ

2)∝ 1

σ2

Es fácil demostrar para una muestra simple de distribución normal que:

δ −(X−Y

)Sp

√1n

+ 1m

∼ tv

donde: v = n + m − 2, son los grados de libertad de una t de Student yS2p =

(n−1)S2X+(m−1)S2

Y

n+m−2, es un pool de varianza de las dos muestras.

FACYT-MATEMÁTICAS

Page 119: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

119 CAPÍTULO 5: Estimación

5.4. Datos no Apareados

Sea X = (x1, . . . , xn) y Y = (y1, . . . , yn), donde x1, . . . , xn ∼ N (µ1, 1/φ1) yy1, . . . , yn ∼ N (µ2, 1/φ2), son variables aleatorias independientes e idénticamentedistribuidas. Supóngase que todos los parámetros son desconocidos, y sea:

L(µ1, µ2, φ1, φ2|X,Y) ∝ L(µ1, φ1|X)L(µ2, φ2|Y)

∝ φn12

1 exp

{−φ1

2

[(n1 − 1)S2

1 + n1

(µ1 −X

)2]}

φn22

2

∗ exp

{−φ2

2

[(n2 − 1)S2

2 + n2

(µ2 −Y

)2]}

(5.4.1)

donde: X, Y son las medias y S21 , S

22 son las varianzas de las dos muestras,

respectivamente.

5.4.1. Varianzas Conocidas.

Suponga que las distribuciones a priori de µ1 y µ2 son independientes, dondeµ1 ∼ N (m1, 1/α1φ1) y µ2 ∼ N (m2, 1/α2φ2). Es fácil demostrar que:

µ1|X ∼ N

(m∗1,

1

α∗1φ1

)y

µ2|Y ∼ N

(m∗2,

1

α∗2φ2

)donde: α∗1 = α1 + n1, α∗2 = α2 + n2, m∗1 =

(α1m1 + n1X

)/ (α1 + n1) y m∗2 =(

α2m2 + n2Y)/ (α2 + n2). Entonces se obtiene una distribución a posteriori de δ.

Teorema 5.1. Sea δ|X,Y ∼ N(m∗1 −m∗2, 1

α∗1φ1+ 1

α∗2φ2

). Suponiendo la siguiente a

priori: P (µ1) = P (µ2) ∝ 1, entonces las distribuciones marginales vienen dadas por:

µ1|X ∼ N(X, 1

n1φ1

)µ2|Y ∼ N

(Y, 1

n2φ2

)δ|X,Y ∼ N

(X−Y, 1

n1φ1+ 1

n2φ2

)El intervalo de credibilidad HPD para δ es el siguiente:

X−Y ± Z1−α2

√1

n1φ1

+1

n2φ2

el cual es igual al intervalo clásico.

UNIVERSIDAD DE CARABOBO

Page 120: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

SECCIÓN 5.4: Datos no Apareados 120

5.4.2. Varianzas Desconocidas pero Iguales

Supónga ahora que φ1 = φ2 = φ, entonces la verosimilitud es:

L(µ1, µ2, φ|X,Y) ∝ φn1+n2

2 exp

{−φ

2

[(n1 − 1)S2

1 + (n2 − 1)S22

+n1

(µ1 −X

)2+ n2

(µ2 −Y

)2]}

Suponiendo las distribuciones a priori habituales:

µ1|φ ∼ N(m1,

1α1φ

)µ2|φ ∼ N

(m2,

1α2φ

)φ ∼ Gamma

(a2, b

2

)La distribución a priori es la siguiente:

P (µ1, µ2, φ) = P (µ1)P (µ2)P (φ)

∝ φa+22−1 exp

{−φ

2

[b+ α1 (µ1 −m1)2 + α2 (µ2 −m2)2]}

Asimismo, la distribución a posteriori es:

P (µ1, µ2, φ|X,Y) ∝ L (µ1, µ2, φ|X,Y)P (µ1, µ2, φ)

= φn1+n2

2 exp

{−φ

2

[(n1 − 1)S2

1 + (n2 − 1)S22 + n1

(µ1 −X

)2

+n2

(µ2 −Y

)2] }

φa+22−1 exp

{−φ

2

[b+ α1 (µ1 −m1)2

+α2 (µ2 −m2)2] }= φ

n1+n2+a2

−1 exp

{−φ

2

[b+ (n1 − 1)S2

1 + (n2 − 1)S22 + n1

(µ1 −X

)2

+n2

(µ2 −Y

)2+ α1 (µ1 −m1)2 + α2 (µ2 −m2)2

] }∝ φ

a∗+22−1 exp

{−φ

2

[b∗ + α∗1 (µ1 −m∗1)2 + α∗2 (µ2 −m∗2)2]}

donde:

α∗1 = α1 + n1

α∗2 = α2 + n2

m∗1 = α1m1+n1Xα1+n1

FACYT-MATEMÁTICAS

Page 121: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

121 CAPÍTULO 5: Estimación

m∗2 = α2m2+n2Yα2+n2

a∗ = a+ n1 + n2

b∗ = b+ (n1 − 1)S21 + (n2 − 1)S2

2 + α1n1

α1+n1

(X−m1

)2+ α2n2

α2+n2

(Y −m2

)2

Teorema 5.2. Sea:

1. δ|X,Y, φ ∼ N[m∗1 −m∗2, (1/α∗1 + 1/α∗2) 1

φ

]2. φ|X,Y ∼ Gamma (a∗/2, b∗/2)

3. δ, φ|X,Y ∼ N −Gamma[m∗1 −m∗2, (1/α∗1 + 1/α∗2)−1 , a∗/2, b∗/2

]El intervalo de credibilidad para δ es:

m∗1 −m∗2 ±

√(1

α∗1+

1

α∗2

)b∗

a∗t1−α

2a∗

Observación 5.1. Suponiendo una distribución a priori no informativa:

P (µ1, µ2, φ) ∝ 1

φ

se puede demostrar que la distribución a posteriori es:

P (µ1, µ2, φ|X,Y) ∝ 1

φL (µ1, µ2, φ|X,Y)

la cual es de la misma forma que la anterior, pero con valores distintos para losparámetros. Ahora, se tiene que: α∗1 = n1, α

∗2 = n2,m

∗1 = X, m∗2 = Y, a∗ = n1+n2−2

y b∗ = (n1 − 1)S21 + (n2 − 1)S2

2 , entonces:

δ, φ|X,Y ∼ N −Gamma

[X−Y,

(1

n1

+1

n2

)−1

,n1 + n2 − 2

2,(n1 − 1)S2

1 + (n2 − 1)S22

2

]

y un intervalo de credibilidad para δ será:

X−Y ± t1−α2

n1+n2−2Sp

√1

n1

+1

n2

donde:

S2p =

(n1 − 1)S21 + (n2 − 1)S2

2

n1 + n2 − 2

es el estimador clásico de la varianza.

UNIVERSIDAD DE CARABOBO

Page 122: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

SECCIÓN 5.4: Datos no Apareados 122

5.4.3. Varianzas Desconocidas

El problema de Behrens y FisherSupóngase que las distribuciones a priori son no informativas:

P (µ1, φ1) ∝ 1

φ1

P (µ2, φ2) ∝ 1

φ2

Se sabe que las distribuciones marginales a posteriori de µ1 y µ2, son distribucionest de Student no centradas, es decir:

µ1|X ∼ t

(n1 − 1,X,

S21

n1

)µ2|Y ∼ t

(n2 − 1,Y,

S22

n2

)Entonces la distribución a posteriori de δ es la distribución de la diferencia entre dosvariables t de Student.

P (δ|X,Y) =

∫Pµ1 (δ + µ2|X)P (µ2|Y)dµ2

donde δ = µ1−µ2, así que µ1 = δ+µ2. Sin embargo, se necesitan métodos numéricospara resolver la integral. Es más fácil considerar la función normalizada:

δ′=δ −

(X−Y

)√S2

1

n1+

S22

n2

Si se de�ne:

tanW =s1/√n1

s2/√n2

se puede demostrar que:

δ′= T1 cosW − T2senW

donde:

T1 =µ1 −X

s1/√n1

T2 =µ2 −Y

s2/√n2

tienen distribuciones t de Student centradas.

FACYT-MATEMÁTICAS

Page 123: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

123 CAPÍTULO 5: Estimación

Demostración. Sean T1 ∼ tn1−1 y T2 ∼ tn2−1. Se tiene que:

δ′= T1

s1√n1√

s21n1

+s22n2

− T2

s2√n2√

s21n1

+s22n2

=µ1 −X

s1√n1

s1√n1√

s21n1

+s22n2

− µ2 −Ys2√n2

s2√n2√

s21n1

+s22n2

=µ1 −X√s21n1

+s22n2

−(µ2 −Y

)√s21n1

+s22n2

⇒ δ′ ∼ BF (v1, v2,W )

es decir:

δ′ ∼ BF

(n1 − 1, n2 − 1, arctan

(s1/√n1

s2/√n2

))2

Nota 5.1. Es complicado calcular intervalos de credibilidad, sin embargo se puedeutilizar una aproximación. Si X ∼ BF (v1, v2,W ), se tiene que: X ≈ tb, donde a yb se pueden estimar. Otro método es muestrear de las distribuciones marginales aposteriori µ1|X y µ2|Y, es decir:

P (δ|X,Y) ∝ P (µ1|X)P (µ2|Y)

5.5. Datos Apareados

Sea (X1,Y1), (X2,Y2), . . . , (Xn,Yn) una muestra apareada, es habitual trabajar conlas diferencias di = Xi −Yi, donde i = 1, . . . , n, y:

di ∼ N

(δ,

1

φd

)Si se hace inferencia sobre δ, suponiendo una distribución a priori Gamma para (δ, φd),esto es:

P (δ, φd) ∝1

φd

entonces la distribución a posteriori viene dada por:

P (δ, φd|X,Y) ∝ φ(α∗+1)/2−1d exp

{−φd

2

[b∗ + α∗ (δ −m∗)2]}

donde: a∗ = a + n, b∗ = b + (n − 1)S2d + αn

α+n(m − δ)2, α∗ = α + n y m∗ =

(αm+ nδ)/(α + n).

UNIVERSIDAD DE CARABOBO

Page 124: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

SECCIÓN 5.6: Estimación por Intervalo Usando el Método Bayesiano 124

5.6. Estimación por Intervalo Usando el Método

Bayesiano

De�nición 5.1. Sea θ una cantidad desconocida de�nida en Θ. Una región C ∈ Θes una región de con�anza bayesiana o de credibilidad 100(1− α) % para θ, si:

P (θ ∈ C|X) ≥ 1− α

En este caso 1−α es llamado la credibilidad o nivel de con�anza. En el caso escalar,la región C es dada en el intervalo [c1, c2].

Ejemplo 5.1. Si X1, . . . ,Xn ∼ N (θ, σ2), σ2 es conocido y P (θ) ∝ 1, entonces:

P (θ|X) ∼ N

(X,

σ2

n

)o equivalentemente:

√n

(θ−X)σ2 X ∼ N(0, 1)

Sea φ(x) = FX(x) = P (X ≤ x). Un intervalo de con�anza para θ es:

1− α = P(−zα

2<√n(θ−X)σ

< zα2

X

)= P

(−zα

2

σ√n< θ −X < zα

2

σ√n

X)

= P(

X− zα2

σ√n< θ < X + zα

2

σ√n

X)

De�nición 5.2. La densidad a posteriori más alta (HPD) de un intervalo de100(1− α) % para θ, es el intervalo bayesiano C dado por:

C = {θ ∈ Θ : P (θ|X) > k(α)} (5.6.1)

donde k(α) es el contraste más grande, tal que: P (θ ∈ C|X) ≥ 1− α

1. Sea X1, . . . ,Xn ∼ N (θ, σ2), y φ = 1/σ2. Si φ es conocida y θ ∼ N (µ0, τ20 ),

entonces:

θ|X ∼ N(µ1, τ

21

)donde:

µ1 =

nσX + µ0

τ20

n/σ2 + 1/τ 20

FACYT-MATEMÁTICAS

Page 125: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

125 CAPÍTULO 5: Estimación

y

τ 21 =

1

n/σ2 + 1/τ 2

Un HPD se obtiene como sigue:

θ−µ1

τ1X ∼ N(0, 1)

así que:

1− α = P(−zα

2< θ−µ1

τ1< zα

2X)

= P(µ1 − zα

2τ1 < θ < µ1 + zα

2τ1 X

)En consecuencia, un HPD para θ es el siguiente:(

µ1 − zα2τ1, µ1 + zα

2τ1

)2. Si θ es conocido y σ2 = 1/φ está dado por: n0σ

20φ ∼ χ2

n0, la distribución a

posteriori viene dada de la siguiente manera: (n0σ20 + nS2

0)φ|X ∼ χ2n+n0

, dondeS2

0 = 1n

∑ni=1(Xi − θ)2.

E[

(n0σ20 + nS2

0)φ X]

= n+ n0 ⇒ E(φ|X) =n+ n0

n0σ20 + nS2

0

V ar [φ|X] =2(n+ n0)

(n0σ20 + nS2

0)2 ⇐ 2(n+ n0) = V ar

[(n0σ

20 + nS2

0

)φ|X

]Los HPD para φ y σ2, vienen dados por:

1− α = P(χ2

1−α2,n1

< (n0σ20 + nS2

0)φ < χ2α2,n1

X); n1 = n0 + n

= P(

χ21−α2 ,n1

n0σ20+nS2

0< φ <

χ2α2 ,n1

n0σ20+nS2

0X

)Si σ2 = 1/φ, entonces el HPD del 100(1− α) % para σ2 es:

1− α = P

(n0σ

20 + nS2

0

χ2α2,n1

< σ2 <n0σ

20 + nS2

0

χ21−α

2,n1

)

3. Si θ y σ2 son cantidades desconocidas, θ|φ ∼ N (µ0, 1/c0φ) y n0σ20φ ∼ χ2

n0,

entonces:

θ|X ∼ tn1

(µ1,

σ21

c1

)y

n0σ20φ|X ∼ χ2

n1

UNIVERSIDAD DE CARABOBO

Page 126: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

SECCIÓN 5.6: Estimación por Intervalo Usando el Método Bayesiano 126

donde:

n1σ21 = n0σ

20 + (n− 1)S2 +

c0n(µ0 −X

)n+ c0

y

S2 =

∑ni=1

(Xi −X

)2

n− 1

El HPD para θ es el siguiente:

1− α = P

(−tα

2,n1 <

√c1

(θ − µ1)

σ1

< tα2,n1

)= P

(µ1 − tα

2,n1

σ1√c1

< θ < µ1 + tα2,n1

σ1√c1

)y el HPD para φ es:

1− α = P(χ2

1−α2,n1

< n1σ21φ < χ2

α2,n1

X)

= P(

χ21−α2 ,n1

n1σ21

< φ <χ2α2 ,n1

n1σ21

X

)Si P (θ, φ) ∝ φ−1, entonces las distribuciones marginales vienen dadas por:

θ|X ∼ tn−1

(X,

S2

n

)y

(n− 1)φS2|X ∼ χ2n−1

Debido a que:(θ −X

)√n/S ∼ N(0, 1), y (n− 1)S2/σ2 ∼ χ2

n−1, entonces:

T =

(θ −X

)√n/S√

(n− 1)S2/σ2(n− 1)=

(θ −X

)√n

S∼ tn−1

El HPD para θ es el siguiente:(X− tα

2,n−1

S√n,X + tα

n,n−1

S√n

)y el HPD para σ2 es: (

(n− 1)S2

χ2α2,n−1

,(n− 1)S2

χ21−α

2,n−1

)

FACYT-MATEMÁTICAS

Page 127: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

127 CAPÍTULO 5: Estimación

5.7. Razones de Dos Varianzas

Supóngase que φ1|X ∼ Gamma (a1/2, b1/2) y φ2|X ∼ Gamma (a2/2, b2/2), donde:

σ21 =

1

φ1

⇒ φ1 =1

σ21

σ22 =

1

φ2

⇒ φ2 =1

σ22

Suponga que b1φ1 ∼ χ2a1

y b2φ2 ∼ χ2a2, entonces:

b1φ1/a1

b2φ2/a2

=a2b1φ1

a1b2φ2

∼ F a1a2

Sea θ = φ1/φ2 =1/σ2

1

1/σ22

= σ22/σ

21, de modo que:

P (li < θ < ls) = 1− αPor lo tanto:

P

(1

ls<

1

θ<

1

li

)= P

(1

ls<σ2

1

σ22

<1

li

)= P

(b1a2

a1b2

1

F 1−αa1,a2

<σ2

1

σ22

<b1a2

a1b2

F 1−αa2,a1

)Nota 5.2. Veamos lo siguiente:

1− α = P (θ < ls) = P

(φ1

φ2

< ls

)= P

(a2b1

a1b2

φ1

φ2

≤ a2b1

a1b2

ls

)= P

(F 1−αa1,a2≤ a2b1

a1b2

ls

)Así que:

a2b1

a1b2

ls = F 1−αa1,a2⇒ ls =

a1b2

a2b1

F 1−αa1,a2

Por otro lado:

1− α = P (θ > li) = P

(φ1

φ2

> li

)= P

(a2b1

a1b2

>a2b1

a1b2

li

)= P

(F 1−αa2,a1

>a2b1

a1b2

li

)Entonces:

a2b1

a1b2

li = F 1−αa2,a1⇒ li =

a1b2

a2b1

F 1−αa2,a1

UNIVERSIDAD DE CARABOBO

Page 128: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

SECCIÓN 5.8: Estimación Puntual 128

5.8. Estimación Puntual

Para los bayesianos el problema de estimación es un problema de decisión. Asociadocon cada estimador T hay una pérdida L(T, θ) que re�eja la diferencia entre θ y T .Por ejemplo:

L(T, θ) = (T − θ)2, la pérdida cuadrática.

L(T, θ) = |T − θ|, la pérdida lineal absoluta.

L(T, θ) =

{0 si T = 01 si T 6= 0

, la pérdida de todo o nada.

L(T, θ) = (T−θ)2|θ|+1

De�nición 5.3. El estimador de Bayes TB es la solución de:

TB = mınTE {L(T, θ)} (5.8.1)

Ejemplo 5.2. Hallar el estimador TB cuando L(T, θ) = (T − θ)2.

Solución:

E{L(T, θ)} =

∫(T − θ)2f(θ)dθ

=

∫[T − E(θ) + E(θ)− θ]2 f(θ)dθ

=

∫ {[T − E(θ)]2 + [E(θ)− θ]2

+ 2 [T − E(θ)][E(θ)− θ]} f(θ)dθ

=

∫[E(θ)− θ]2f(θ)dθ + 2[T − E(θ)]

∫[E(θ)− θ]f(θ)dθ

+

∫[T − E(θ)]2f(θ)dθ

= V ar(θ) + 2[T − E(θ)]

[E(θ)

∫f(θ)dθ −

∫θf(θ)dθ

]+ [T − E(θ)]2

∫f(θ)dθ

= [T − E(θ)]2 + V ar(θ) + 2[T − E(θ)] [E(θ)− E(θ)]

= [T − E(θ)]2 + V ar(θ)

FACYT-MATEMÁTICAS

Page 129: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

129 CAPÍTULO 5: Estimación

Se sabe que: V ar(θ) = E (θ2)− [E(θ)]2. Además:∫[E(θ)− θ]2f(θ)dθ =

∫[E(θ)]2f(θ)dθ − 2

∫θE(θ)f(θ)dθ +

∫θ2f(θ)dθ

= [E(θ)]2∫f(θ)dθ − 2E(θ)

∫θf(θ)dθ + E

(θ2)

= [E(θ)]2 − 2[E(θ)]2 + E(θ2)

= E(θ2)− [E(θ)]2

⇒ ∂E [L (T, θ)]

∂T= 2

[TB − E(θ)

]= 0

⇒ TB − E(θ) = 0

Por lo tanto TB = E(θ|X) es el estimador de Bayes.

Ejemplo 5.3. Hallar TB si L(T, θ) = |T − θ|.

Solución:

|T − θ| ={−(T − θ) si T − θ < 0T − θ si T − θ > 0

=

{θ − T si T < θT − θ si T > θ

Por consiguiente:

E{L(T, θ)} =

∫|T − θ|f(θ)dθ =

∫ T

−∞(T − θ)f(θ)dθ +

∫ ∞T

(θ − T )f(θ)dθ

Asi que:

∂E{L(T, θ)}∂θ

= (T − T )f(T ) +

∫ T

−∞f(θ)dθ − (T − T )f(T ) +

∫ ∞T

f(θ)dθ

= F (T )− [1− F (T )]

= 2F (T )− 1 (5.8.2)

Igualando a cero 5.8.2, se obtiene la mediana de la distribución de θ:

F (T ) =1

2

Ejemplo 5.4. Sea X1, . . . ,Xn ∼ Bernoulli(θ), independientes e idénticamentedistribuidas, θ desconocido y θ ∼ U(0, 1). Se desea estimar θ usando la función depérdida:

L(d, θ) =(θ − d)2

θ(1− θ)

UNIVERSIDAD DE CARABOBO

Page 130: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

SECCIÓN 5.8: Estimación Puntual 130

a. Calcule el estimador de Bayes.

b. Determine la distribución predictiva para Xn+1. Además, determine la media yla varianza.

Solución:

a.

P (θ|X) ∝ L(X; θ)P (θ)

= θX1(1− θ)1−X1 · · · θXn(1− θ)1−Xn1

= θ∑ni=1 Xi(1− θ)n−

∑ni=1 Xi

= θt(Xi)(1− θ)n−t(Xi)

= θt(Xi)+1−1(1− θ)n−t(Xi)+1−1

⇒ θ|X ∼ Beta(t+ 1, n− t+ 1)

donde: t = t(Xi) =n∑i=1

Xi, i = 1, . . . , n. Entonces:

E [L(d, θ)] =

∫ 1

0

L(d, θ)P (θ|X)dθ

=

∫ 1

0

(θ − d)2

θ(1− θ)θt(1− θ)n−tdθ

=

∫ 1

0

(θ − d)2θt−1(1− θ)n−t−1dθ

= EBeta(t,n−t)(θ − d)2

De modo que:

∂E [L(d, θ)]

∂d= −2EBeta(t,n−t)(θ − d) (5.8.3)

Igualando a cero 5.8.3, se obtiene lo siguiente:

EBeta(t,n−t)(θ) = d

Así que:

d =t

t+ n− t=t

n=

∑ni=1 Xi

n= X

FACYT-MATEMÁTICAS

Page 131: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

131 CAPÍTULO 5: Estimación

b.

P (Xn+1|X1, . . . ,Xn) =

∫ 1

0

P (Xn+1|θ)P (θ|X1, . . . ,Xn)dθ

=

∫ 1

0

P (Xn+1|θ)θt(1− θ)n−tdθ

=

∫ 1

0

θXn+1(1− θ)1−Xn+1θt(1− θ)n−tdθ

=

∫ 1

0

θt+Xn+1(1− θ)n−t−Xn+1+1dθ

=

∫ 1

0

θt+Xn+1+1−1(1− θ)n−t−Xn+1+2−1dθ

=Γ(t+ Xn+1 + 1)Γ(n− t−Xn+1 + 2)

Γ(n+ 3)

= Beta(t+ Xn+1 + 1, n− t−Xn+1 + 2)

En consecuencia:

E(Xn+1|X1, . . . ,Xn) =t+ Xn+1 + 1

n+ 3

y

V ar(Xn+1|X1, . . . ,Xn) =t+ Xn+1 + 1

(n+ 4)2(n+ 3)

Nota 5.3. La Integral Beta.

Si

∫ 1

0

Γ(α + β)

Γ(α)Γ(β)θα−1(1− θ)β−1dθ = 1, entonces se tiene que:

∫ 1

0

θα−1(1− θ)β−1dθ =Γ(α)Γ(β)

Γ(α + β)

5.9. Práctica de Ejercicios del Capítulo 5

1. Suponga que la proporción de manzanas malas en un gran lote es desconociday tiene la siguiente densidad a priori:

π(θ) =

{60θ2(1− θ)3 si 0 < θ < 1

0 en otro caso

Se seleccionan aleatoriamente del lote 10 manzanas, obteniéndose tres malas.Encuentre el estimador de Bayes de θ:

UNIVERSIDAD DE CARABOBO

Page 132: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

SECCIÓN 5.9: Práctica de Ejercicios del Capítulo 5 132

(a) de máxima densidad a posteriori.

(b) en relación a la pérdida cuadrática.

2. Suponga que X ∼ U(0, θ) y que θ ∼ Exponencial(1). Determine el estimadorde Bayes:

(a) en relación a la pérdida cuadrática.

(b) en relación a la pérdida de valor absoluto.

3. Suponga que se dispone de una muestra aleatoria de cuatro observaciones de ladistribución U(0, θ) y que la densidad a priori para θ es:

π(θ) =

{1/θ2 si θ ≥ 1

0 en otro caso

Determine el estimador de Bayes:

(a) en relación a la pérdida cuadrática.

(b) en relación a la pérdida de valor absoluto.

4. Suponga que X es una observación Geometrica(p), es decir, P (X = x|p) =qk−1p, donde x = 1, 2, . . .; 0 < p < 1. Además, considere la distribución uniformecomo distribución a priori para p.

(a) Encuentre los estimadores de Bayes bajo pérdida cuadrática y bajo pérdidaen valor absoluto.

(b) Encuentre el estimador de máxima verosimilitud y compare los resultadoscon los otros estimadores encontrados.

5. Considere la función de pérdida dada por:

L(θ, a) =

{K0(θ − a) si θ − a ≥ 0K1(a− θ) si θ − a < 0

donde K0, K1 > 0.

(a) Demuestre que el estimador de Bayes de θ es el K0

K0+K1−percentil de la

densidad a posteriori.

(b) Denotemos por X el puntaje de un test de inteligencia aplicado a alumnosde un curso de octavo básico. Suponga que X ∼ N(θ, 100), donde θ es elverdadero coe�ciente intelectual del alumno. Además θ ∼ N(100, 225). SiK0 = 2 y K1 = 1, determine el estimador de Bayes de θ.

(c) Determine una región de credibilidad de HPD para θ de nivel 0.95.

6. Un sistema está formado por varias componentes, cinco de las cuales sonrevisadas. El número de componentes defectuosas X, tiene una distribuciónBinomial(5, θ) y del pasado se sabe que θ ∼ Beta(1, 9). Suponga que se observax = 0.

FACYT-MATEMÁTICAS

Page 133: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

133 CAPÍTULO 5: Estimación

(a) Determine el estimador de Bayes de θ, si:i. L(θ, a) = (θ − a)2

ii. L(θ, a) = |θ − a|(b) Determine la región de credibilidad de nivel 0.95 de HPD para θ.

7. Sea X = (X1, . . . ,Xn) una muestra aleatoria proveniente de la distribuciónnormal de media 0 y varianza φ, es decir N(0, φ), donde φ > 0.

(a) Calcule el estimador máximo verosímil de φ.(b) Suponga que a priori φ ∼ Gamma − Inversa(r, λ), donde r es un entero

positivo. Calcule el estimador de Bayes de φ bajo pérdida cuadrática.Discuta la solución cuando r, λ→ 0.

(c) Determine ahora el estimador de Bayes de φ bajo pérdida cuadrática,considerando una priori de Je�reys. Relacione su resultado con el item (b).

(d) Suponga que se observó x = (−3.2,−1.0, 0.6, 1.8, 1.2) y se considera la prioridel item (c). Determine una región de credibilidad de nivel 0.90 para φ, dealta probabilidad en torno de la moda a posteriori.

(e) Escriba las ecuaciones para desarrollar el item (d) considerando la priori delitem (b).

8. El número de incendios semanal en una cierta extensión geográ�ca tienedistribución de Poisson de parámetro λ. Nada se conoce acerca de λ, asi quese considera la distribución a priori no-informativa para λ, π(λ) = λ−1, dondeλ > 0. El número de incendios en cinco períodos semanales fue x = (0, 1, 0, 1, 0).

(a) Calcule la distribución a posteriori.(b) Determine una región de credibilidad para λ de nivel 0.95.(c) Si 0 < λ < 0.2, el área es considerada de bajo riesgo, si 0.2 ≤ λ < 0.5, el

área es considerada de riesgo medio, y si λ ≥ 0.5, el área es considerada dealto riesgo. La función de pérdida L(λ, a) viene dada en la siguiente tabla:Con la información que se cuenta, ¾cuál es la acción que usted tomaría?

a1(bajo) a2(medio) a3(alto)

0≤ λ < 0.2 0 2 20.2≤ λ < 0.5 1 0 1λ ≥ 0.5 2 2 0

9. Demuestre que si L1 y L2 son dos funciones de pérdida proporcionales, esto es,L1(δ, θ) = kL2(δ, θ), entonces el estimador de Bayes asociado con estas pérdidascoinciden.

10. Suponga que el tiempo de espera en la cola de un banco tiene distribuciónExponencial(θ) con θ > 0. Una muestra de n clientes es observada durante unperíodo de T minutos.

UNIVERSIDAD DE CARABOBO

Page 134: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

SECCIÓN 5.9: Práctica de Ejercicios del Capítulo 5 134

(a) Suponga que los tiempos de espera individual fueron descartados ysolamente el número X de clientes fue registrado. Determine el estimadorde máxima verosimilitud de θ basado en X.

(b) Determine los estimadores de Bayes y máxima verosimilitud de θ, asumiendoque en una muestra de n = 20 clientes el tiempo de servicio promedio fue3.8 minutos y todos los 20 clientes fueron atendidos.

(c) Suponga que además de las observaciones reportadas en (b), una observaciónadicional fue hecha pero todo lo que se sabe es que duró más de 5 minutos.Obtenga los estimadores de Bayes y máxima verosimilitud de θ en este caso.

11. Suponga que se desea probar tres tipos de bombillas: vida normal, vida largay vida extra larga. Los tiempos de vida de las bombillas tienen distribuciónexponencial con medias θ, 2θ y 3θ, respectivamente. Asuma que la pruebaconsiste en observar una bombilla selecionada aleatoriamente de cada tipo.

(a) Determine el estimador de máxima verosimilitud de θ.(b) Determine el estimador del método de los momentos de θ.(c) Sea ψ = 1/θ y asuma la a priori ψ ∼ Gamma(α, β). Determine la

distribución a posteriori de θ.(d) Determine el estimador de Bayes de θ usando la función de pérdida

cuadrática.

12. Sea X1, . . . ,Xn una muestra aleatoria de distribución uniforme en el intervalo[a− b, a+ b], donde a ∈ R y b > 0.

(a) Veri�que si a y b son parámetros de localización y/o escala.(b) Obtenga el estimador de máxima verosimilitud de a y b.(c) Asuma ahora que b = 1 y de�na:

T1 = X =

∑ni=1 Xi

n

T2 =1

2

(max1≤i≤n

Xi + mın1≤i≤n

Xi

)(d) Demuestre que T1 y T2 son estimadores consistentes e insesgados de a.(e) Compare T1 y T2 especi�cando una elección entre ellos y justi�cando esto.

13. Sea X ∼ Binomial(n, θ) y asuma la a priori θ ∼ U(0, 1). Suponga que el valorobservado fue X = n.

(a) Demuestre que el intervalo HPD de 100(1 − α) % de θ tiene forma [a, 1],donde a < 1.

(b) Sea ψ = θ/(1 − θ). Demuestre tomando en cuenta (a) que P (a/(1 − a) ≤ψ|x) = 1− α y por tanto [a/(1− a),∞) es un intervalo de credibilidad de100(1− α) % para ψ.

FACYT-MATEMÁTICAS

Page 135: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

135 CAPÍTULO 5: Estimación

(c) Obtenga la distribución a posteriori de ψ y discuta la forma de un intervaloHPD de 100(1− α) % para ψ.

(d) En particular, ¾es el intervalo obtenido en (b) de HPD?

14. Sea Xi = θti + εi, donde i = 1, . . . , n y los εi ∼ N(0, σ2), independientes eidénticamente distribuidos, con σ2 conocido. Además, se asume la a priori noinformativa para θ.

(a) Obtenga la distribución a posteriori de θ.

(b) Obtenga la región HPD de 100(1− α) % para θ.

(c) Basado en la distribución de muestreo del estimador de máximaverosimilitud de θ, construya un intervalo de con�anza de 100(1 − α) %para θ.

15. Sea X = (X1, . . . ,Xn) una muestra aleatoria de distribución N (θ1, σ2) y

Y = (Y1, . . . ,Yn) una muestra aleatoria de distribución N (θ2, kσ2), con k

conocida.

(a) Asumiendo una a priori no informativa para (θ1, θ2, σ2), obtenga la

distribución a posteriori de θ1 − θ2 y σ2.

(b) Construya un intervalo HPD de 100(1− α) % para θ1 − θ2.

UNIVERSIDAD DE CARABOBO

Page 136: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

SECCIÓN 5.9: Práctica de Ejercicios del Capítulo 5 136

FACYT-MATEMÁTICAS

Page 137: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

Capítulo 6

Inferencia Sobre Muestras

Grandes

6.1. Aproximación de la Distribución a

Posteriori Conjunta.

Si la distribución a posteriori P (θ|Y) es unimodal y simétrica, es convenienteaproximarla por una distribución normal centrada en la moda, es decir, el logaritmode la función de densidad a posteriori es aproximada por una función cuadrática,mediante:

log [P (θ|Y)] ≈ log[P(θ|Y

)]+

1

2

(θ − θ

)T[∂2

∂θ2logP (θ|Y)

]θ=θ

(θ − θ

)+ · · ··

(6.1.1)

El término lineal en la expansión es cero debido a que la densidad del log−a posterioritiene derivada cero en la moda. El resto de los términos de mayor orden desaparecencuando θ está cerca de θ y n es grande. Entonces es fácil probar que:

P (θ|Y) ≈ N

(θ,[I(θ)]−1

)donde: I(θ) es la información observada, de�nida por:

I(θ) = − ∂2

∂θ2log[P (θ|Y)]

Teorema 6.1. Suponga que xi|θ ∼ f(xi|θ) y que P (θ) es la distribución a priori.Dado los datos X, cuando n→∞:

1. θ|X ≈ N [E(θ|X), V ar(θ|X)], suponiendo que la media y la varianza existen.

2. θ|X ≈ N[θ, I−1

1

(θ)]

, donde: θ es la moda de la distribución �nal y I1(θ) es la

información observada.

137

Page 138: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

SECCIÓN 6.1: Aproximación de la Distribución aPosteriori Conjunta. 138

3. θ|X ≈ N[θ, I−1

2

(θ)]

, donde: θ es el estimador de máxima verosimilitud de θ,

suponiendo que I2(θ) = − ∂2

∂θ2log [f(X|θ)]

4. θ|X ≈ N[θ, I−1

3

(θ)]

, donde: I3(θ) = −nEX

{∂2

∂θ2log [f(X|θ)]

}, es la

información esperada.

Ejemplo 6.1. Sea y1, y2, . . . , yn ∼ N (µ, σ2), independientes e idénticamentedistribuidas. Suponga que P (µ, log σ) ∝ 1. A continuación se construirá laaproximación:

logP (µ, log σ|y) = C − n log σ − 1

2σ2

[(n− 1)S2 + n (y − µ)2]

donde C es una constante.

Solución:

∂ logP

∂µ=n(y − µ)

σ2

∂ logP

∂ log σ= −n+

(n− 1)S2 + n(y − µ)2

σ2

La moda a posteriori es la siguiente:

(µ, log σ) =

[y, log

(n− 1

nS2

)]Las segundas derivadas son:

∂2 logP (µ, log σ|y)

∂µ2= − n

σ2

∂2P (µ, log σ|y)

∂µ∂ log σ= 0

∂2 logP (µ, log σ|y)

∂(log σ)2= − 1

2σ2

[(n− 1)S2 + n(y − µ)2

]Evaluando en cada una de las segundas derivadas, se obtiene que:

∂2 logP

∂µ2

∣∣∣∣µ=µ,σ2=σ2

= − n

σ2

∂2 logP

∂(log σ)2

∣∣∣∣µ=µ,σ2=σ2

=1

2 (n−1)S2

n

(n− 1)S2 =1

2n

FACYT-MATEMÁTICAS

Page 139: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

139 CAPÍTULO 6: Inferencia Sobre Muestras Grandes

En consecuencia:

I(θ) =

(−n/σ2 0

0 1/2n

)⇒ I−1(θ) =

(σ2/n 0

0 2n

)Por lo tanto:

P (µ, log σ|y) ≈ N

[(y

log[

(n−1)nS2] )

,

(σ2/n 0

0 2n

)]

Ejemplo 6.2. Aproximación a una distribución Beta.Supóngase que x|θ ∼ Binomial(n, θ) y θ ∼ Beta(α, β). Obtener la aproximación deP (θ|x).

Solución:

P (θ|x) ∝ L(θ|x)P (θ)

=

(nx

)θx(1− θ)n−xΓ(α)Γ(β)

Γ(α + β)θα−1(1− θ)β−1

∝ θx+α−1(1− θ)n+β−x−1

⇒ θ|x ∼ Beta(α + x, β + n− x)

Si se utiliza la primera aproximación, se obtiene que:

E(θ|x) =α + x

β + n− x

V ar(θ|x) =(α + x)(β + n− x)

(α + β + n)2(α + β + n+ 1)2

De esta forma:

θ|x ≈ N

[α + x

β + n− x,

(α + x)(β + n− x)

(α + β + n)2(α + β + n+ 1)2

]Si se utiliza la segunda aproximación, se tiene que:

P (θ|x) ∝ θα+x−1(1− θ)β+n−x−1

Se calcula la moda de la siguiente manera:

logP (θ|x) = C + (α + x− 1) log θ + (β + n− x− 1) log(1− θ)

UNIVERSIDAD DE CARABOBO

Page 140: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

SECCIÓN 6.1: Aproximación de la Distribución aPosteriori Conjunta. 140

donde C es una constante. Luego:

∂ logP (θ|x)

∂θ=

(α + x− 1)

θ+β + n− x− 1

1− θ(−1) (6.1.2)

Igualando a cero 6.1.2, entonces:

α + x− 1

θ=β + n− x− 1

1− θα + x− 1− (α + x− 1)θ = (β + n− x− 1)θ

α + x− 1 = (α + x− 1 + β + n− x− 1)θ

⇒ θ =α + x− 1

α + β + n− 2

donde θ es la moda. Se calcula la información observada como sigue:

∂2 logP (θ|x)

∂θ2= −(α + x− 1)

θ2− (β + n− x− 1)

(1− θ)2

⇒ I1

(θ)

= − ∂2

∂θ2log [P (θ|x)]

=α + x− 1

θ2+β + n− x− 1(

1− θ)2

=α + x− 1(α+x−1

α+β+n−2

)2 +β + n− x− 1(1− α+x−1

α+β+n−2

)2

=(α + β + n− 2)2

α + x− 1+

β + n− x− 1(α+β+n−2−α−x+1

α+β+n−2

)2

=(α + β + n− 2)2

α + x− 1+

(α + β + n− 2)2(β + n− x− 1)

(β + n− x− 1)2

=(α + β + n− 2)2

α + x− 1+

(α + β + n− 2)2

(β + n− x− 1)

= (α + β + n− 2)2

(1

α + x− 1+

1

β + n− x− 1

)= (α + β + n− 2)2

[β + n− x− 1 + α + x− 1

(α + x− 1)(β + n− x− 1)

]=

(α + β + n− 2)2(β + α + n− 2)

(α + x− 1)(β + n− x− 1)

=(α + β + n− 2)3

(α + x− 1)(β + n− x− 1)

FACYT-MATEMÁTICAS

Page 141: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

141 CAPÍTULO 6: Inferencia Sobre Muestras Grandes

∴ I−11

(θ)

=(α + x− 1)(β + n− x− 1)

(α + β + n− 2)3

En consecuencia:

θ|x ≈ N

[α + x− 1

α + β + n− 2,(α + x− 1)(β + n− x− 1)

(α + β + n− 2)3

]Si se utiliza la tercera aproximación, se obtiene que:

L(θ|x) =

(nx

)θx(1− θ)n−x

logL(θ|x) = log

(nx

)+ x log θ + (n− x) log(1− θ)

∂ logL(θ|x)

∂θ=x

θ− (n− x)

1− θ(6.1.3)

Igualando a cero 6.1.3, se tiene lo siguiente:

x

θ=n− x1− θ

⇒ x(

1− θ)

= (n− x)θ

⇒ x− xθ = (n− x)θ

⇒ x = (n− x+ x)θ

⇒ θ =x

nAsí que:

I2(θ) = −∂2 log[L(θ|x)]

∂θ2

∂2 log[L(θ|x)]

∂θ2= − x

θ2− (n− x)

(1− θ)2

⇒ I2(θ) =x

θ2+

(n− x)

(1− θ)2

I2

(θ)

=x(xn

)2 +n− x(1− x

n

)2

=n2x

x2+

(n− x)n2

(n− x)2= n2

(1

x+

1

n− x

)= n2

[n− x+ x

x(n− x)

]=

n3

x(n− x)

⇒ I−12

(θ)

=(n− x)x

n3

UNIVERSIDAD DE CARABOBO

Page 142: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

SECCIÓN 6.1: Aproximación de la Distribución aPosteriori Conjunta. 142

De esta forma:

θ|x ≈ N

[x

n,(n− x)x

n3

]Si se utiliza la cuarta aproximación, se tiene que:

I3(θ) = −nEx[∂2 logL(θ|x)

∂θ2

]Debido a que:

∂2 logL(θ|x)

∂θ2= − x

θ2− (n− x)

(1− θ)2

⇒ Ex∂2 logL(θ|x)

∂θ2= −Ex

[x

θ2+

(n− x)

(1− θ)2

]= −

[Ex(x)

θ2+n− E(x)

(1− θ)2

]= −

[nθ

θ2+

n− nθ(1− θ)2

]= −

[n

θ+n(1− θ)(1− θ)2

]= −

(n

θ+

n

1− θ

)= −n

[1− θ + θ

θ(1− θ)

]= − n

θ(1− θ)

En consecuencia:

I3(θ) = −nEx∂2 logL(θ|x)

∂θ2=

n2

θ(1− θ)

De este modo:

I3

(θ)

=n2

xn

(1− x

n

) =n4

x(n− x)

⇒ I−13

(θ)

=x(n− x)

n4

Por consiguiente:

θ|x ≈ N

[x

n,x(n− x)

n4

]Por ejemplo, si α = β = 1, n = 100 y x = 20, entonces las aproximaciones son lassiguientes:

Primera aproximación: θ|x ≈ N (0.2592, 0.00001541)

Segunda aproximación: θ|x ≈ N(0.2, 0.0016)

FACYT-MATEMÁTICAS

Page 143: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

143 CAPÍTULO 6: Inferencia Sobre Muestras Grandes

Tercera aproximación: θ|x ≈ N(0.2, 0.0016)

Cuarta aproximación: θ|x ≈ N(0.2, 0.000016)

Observación 6.1. Normalmente la primera aproximación será mejor que la segunda.Se utiliza la segunda aproximación cuando es difícil o imposible calcular la media yvarianza a posteriori. La tercera aproximación es equivalente a la segunda suponiendouna distribución a priori uniforme para θ. La cuarta aproximación es la peor. Sólose utiliza si no se puede calcular la información de Fisher observada.

Ejemplo 6.3. Suponga que x|λ ∼ Exponencial(λ) y λ ∼ Gamma(1, 1). Dados losdatos n = 99 y x = 1, obtener P (λ|x) y aproximar un intervalo de credibilidad de95 % para λ.

Solución:

λ|x ∼ Gamma(1 + 99, 1 + 99× 1) = Gamma(100, 100) ≈ N

(100

100,

100

1002

)= N(1, 0.01)

Entonces el intervalo de credibilidad para λ es:

1± 1.96√

0.01 = (0.804, 1.196)

Nota 6.1. Hay algunas situaciones donde no vale el teorema. Por ejemplo:

Si la probabilidad inicial de θ es cero.

Si la a posteriori es impropia.

Si el modelo no es identi�cable.

Por ejemplo, cuando el modelo L(θ1, θ2, . . . , θk) = w1g(θ1|x) + · · · + wkg(θk|x) esuna mezcla de densidades de la misma familia. Dado los datos, la verosimilitud serámultimodal porque el modelo no es indenti�cable. Se necesita restringir el espacioΘ para que el modelo sea indenti�cable. Se puede suponer que: θ1 < · · · < θk, y elteorema es válido todavía.

6.2. Práctica de Ejercicios del Capítulo 6

1) Suponga que la distribución a priori P (µ, c) para los parámetros µ y c de unadistribución con densidad:

P (x|µ, c) = Mc−1 exp{−∑|x− µ|3/c3

}, con M constante

es uniforme en µ y c, y que las cuatro observaciones:

x1 = 1, x2 = 1, x3 = 2, x4 = 3,

UNIVERSIDAD DE CARABOBO

Page 144: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

SECCIÓN 6.2: Práctica de Ejercicios del Capítulo 6 144

están disponibles con esta distribución. Calculado el valor de la densidad aposteriori P (µ, c) (ignorando la constante) con un decimal de µ = 1, 1.5, 2, 2.5, 3y c = 1.2, 1.4, 1.6, 1.8, 2.0. Use la regla de Simpson:∫ b

a

f(t)dt =(b− a)

3n{f(t0) + 4f(t1) + 2f(t2) + 4f(t3) + · · · ·+f(tn)}

para aproximar la densidad a posteriori de µ. Encuentre una aproximación a lapropabilidad a posteriori tal que:

1.75 < µ < 2.25

2) Suponga que x ∼ Poisson(10), es decir, x es Poisson con media 10, y y ∼Poisson(20). ¾Cuál es la distribución aproximada de 2x+ y?

3) Sea Xn = (X1, . . . ,Xn) una muestra aleatoria de distribución N (0, θ2).

(a) Obtenga la distribución a posteriori asintótica de θ cuando n→∞.

(b) Obtenga la media y la varianza a posteriori asintótica de θ2. Ayuda:X ∼ N(0, 1)⇒ X2 ∼ χ2

1.

4) Sea X ∼ Binomial(20, θ) y asuma que X = 7 fue observado. Obtenga unintervalo de con�anza de 90 % para θ usando una a priori uniforme y:

(a) el hecho de que si z ∼ Beta(a, b) entonces:

b

a

z

1− z∼ F (2a, 2b);

(b) una aproximación asintótica para ψ = θ/(1− θ)(c) una aproximación asintótica para φ = sen−1

(√θ)

(d) Compare los resultados.

5) Sea Xn = (X1, . . . , Xn) un vector de variables aleatorias independientes dondeXi ∼ Poisson(θti), i = 1, . . . , n y t1, . . . , tn son los tiempos conocidos.

(a) Pruebe que el estimador de máxima verosimilitud de θ es θ = X/t, dondeX =

∑ni=1Xi/n y t =

∑ni=1 ti/n.

(b) Obtenga la distribución asintótica a posteriori de θ|xn| y construya unintervalo de con�anza asintótico de 100(1 − α) % para θ asumiendo quen es grande.

(c) Obtenga la distribución asintótica a posteriori de θ1/2|xn| y basándose enesto, construya un intervalo de con�anza asintótico de 100(1− α) % para θasumiendo que n es grande.

(d) Compare los intervalos de con�anza obtenidos en (b) y (c), considerandoespecialmente sus longitudes.

FACYT-MATEMÁTICAS

Page 145: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

145 CAPÍTULO 6: Inferencia Sobre Muestras Grandes

6) Sea X1, . . . ,Xn una muestra aleatoria de una distribución con densidad:

f(x|θ) = θxθ−1Ix ([0, 1])

(a) Obtenga el intervalo de con�anza asintótico de 100(1 − α) % para θbasándose en las aproximaciones para la distribución a posteriori de θ.

(b) Repita el item (a) basando los cálculos ahora en la distribución asintóticade la función Score U(X; θ).

(c) Repita el item (a) basando los cálculos ahora en el teorema del límite centralaplicado a la muestra Xn = (X1, . . . ,Xn).

7) Sea X1, . . . ,Xn una muestra aleatoria de distribución Poisson(θ) y de�naλ = θ1/a, a 6= 0.

(a) Obtenga la función de verosimilitud L(λ; X).(b) Obtenga la a priori de Je�reys no informativa para λ.(c) Obtenga la expansión de Taylor de l(λ) = logL(λ) alrededor del estimador

de máxima verosimilitud de λ y determine el valor o los valores de a parael cual el término de tercer orden desaparece.

8) Suponga que x ∼ Poisson(8.5) y y ∼ Poisson(11.0). ¾Cuál es la distribuciónaproximada de x− y?

9) Un reporte publicado en 1966 acerca del efecto de radiación en pacientes concáncer de pulmón comparó los efectos del tratamiento de radiación con losplacebos. El número de sobrevivientes después de un año fue:

Radiación PlacebosNúmero de casos 308 246

Número de sobrevivientes 56 34

¾Cuáles son las posibilidades a posteriori aproximadas de que el rango desupervivencia en un año de pacientes irradiados sea al menos 0.01 mayor que losque no fueron irradiados?

10) La siguiente tabla da los resultados de los exámenes de 100 varones y 100hembras de escuela de edades similares sobre el soplo cardíaco:

Soplo Sin soplo Total

Varones 58 42 100Hembras 46 54 100Total 100 96 200

¾Cuáles son las posibilidades a posteriori aproximadas de que la proporción devarones con soplo cardíaco sea al menos 10 % mayor que el de las hembras?

UNIVERSIDAD DE CARABOBO

Page 146: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

SECCIÓN 6.2: Práctica de Ejercicios del Capítulo 6 146

FACYT-MATEMÁTICAS

Page 147: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

Capítulo 7

Métodos de Aproximación y

Simulación.

7.1. Algoritmo Newton-Raphson (N-R).

Es un algoritmo para encontrar ceros de una función diferenciable dos veces, dadapor: g : Rp → R, con p ≥ 1. Es fácil obtener la expansión de Taylor de g alrededorde un punto arbitrario x(0) ∈ Rp:

g(x) = g[x(0)]

+(x− x(0)

)′ ∂g [x(0)]

∂x+ · · ··

Sin tomar en cuenta los términos de orden mayor en x − x(0) para valores cercanosadecuados de x y x(0), se obtiene que:

g(x) ' g[x(0)]

+(x− x(0)

)′ ∂g [x(0)]

∂x

Si x∗ es un cero de g entonces se resuelve la ecuación anterior para x∗, donde seescoge:

x∗ ' x(1) = x(0) −

[∂g[x(0)]

∂x

]−1

g[x(0)]

Esto permite que se comience con un valor inicial x(0) y que se use la relaciónmostrada anteriormente. El algoritmo suministra un nuevo valor x(1) cercano a laraíz de la ecuación de arriba. Este nuevo punto es la intersección de la línea tangente,la aproximación lineal de g en x(0), con el eje x. El procedimiento se repite con x(1)

reemplazando x(0). Esto conduce a una mejor aproximación para x∗ denotado porx(2). Se repite el proceso sucesivamente y se obtiene la relación recursiva:

x(j) = x(j−1) −

[∂g[x(j−1)

]∂x

]−1

g[x(j−1)

](7.1.1)

147

Page 148: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

SECCIÓN 7.1: Algoritmo Newton-Raphson (N-R). 148

El criterio de parada es el siguiente:∣∣x(j) − x(j−1)∣∣ < δ

y ∣∣g [x(j)]∣∣ < ε

donde δ y ε son valores arbitrarios.

Figura 7.1: Representación grá�ca del método iterativo para encontrar las raíces deuna ecuación en el caso escalar.

7.1.1. Solución Usando la Verosimilitud

Sea:

U(X; θ) =∂ logP (X|θ)

∂θ

la función Score. El estimador de máxima verosimilitud es la solución de la ecuaciónU(X; θ) = 0.

FACYT-MATEMÁTICAS

Page 149: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

149 CAPÍTULO 7: Métodos de Aproximación y Simulación.

Por otro lado, sea J(θ) = −∂U(X;θ)∂θ

la matriz de información observada, entoncesusando el algoritmo Newton-Raphson se tiene que:

θ(j) = θ(j−1) +{J[θ(j−1)

]}−1U[θ(j−1)

]Ejemplo 7.1. Sean x1, x2, . . . , xn ∼ Weibull(α, β), variables aleatorias, independi-entes e idénticamente distribuidas, cada una con función de densidad de probabilidaddada por:

f(x|α, β) =

{αβxα−1 exp {−βxα} si α > 0, β > 0

0 en otro caso

La verosimilitud viene dada de la siguiente manera:

l = L(x1, . . . , xn;α, β)

= f(x1;α, β) . . . f(xn;α, β)

= αβxα−11 exp {−βxα1} . . . αβxα−1

n exp {−βxαn}

= αnβn exp

{−

n∑i=1

βxαi

}n∏i=1

xα−1i

Así que:

ln(l) = n ln(α) + n ln(β)−n∑i=1

βxαi +n∑i=1

(α− 1) ln(xi) (7.1.2)

Por lo tanto:

∂ ln(l)

∂β=n

β−

n∑i=1

xαi (7.1.3)

Igualando a cero 7.1.3, entonces:

n

β=

n∑i=1

xαi ⇒ β =n∑ni=1 x

αi

Sustituyendo β en 7.1.2, se obtiene lo siguiente:

ln(l) = n ln(α) + n ln

(n∑ni=1 x

αi

)−

n∑i=1

n∑ni=1 x

αi

xαi + (α− 1)n∑i=1

ln(xi)

= n ln(α) + n ln(n)− n ln

(n∑i=1

xαi

)+ (α− 1)

n∑i=1

ln(xi)− n

UNIVERSIDAD DE CARABOBO

Page 150: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

SECCIÓN 7.1: Algoritmo Newton-Raphson (N-R). 150

Diferenciando con respecto a α, se tiene que:

∂L

∂α=

n∑i=1

log xi +n

α− nα

∑ni=1 x

αi ln(xi)∑n

i=1 xαi

= U(x, α)

⇒ ∂U(x, α)

∂α= − n

α2−

{[nα

∑ni=1 x

αi ln(xi)]

′∑ni=1 x

αi

(∑n

i=1 xαi )

2

−nα∑n

i=1 xαi ln(xi) (

∑ni=1 x

αi )′

(∑n

i=1 xαi )

2

}

= − n

α2−

{[n∑n

i=1 xαi ln(xi) + nα

∑ni=1 x

αi ln2(xi)

]∑ni=1 x

αi

(∑n

i=1 xαi )

2

−nα∑n

i=1 xαi ln(xi)

∑ni=1 x

αi ln(xi)

(∑n

i=1 xαi )

2

}

= − n

α2−

{n∑n

i=1 xαi ln(xi)

∑ni=1 x

αi + nα

∑ni=1 x

2i ln2(xi)

∑ni=1 x

αi

(∑n

i=1 xαi )

2

−nα [∑n

i=1 xαi ln(xi)]

2

(∑n

i=1 xαi )

2

}

= − n

α2−nα∑n

i=1 (xαi )[ln2 (xi)−

∑ni=1 x

αi ln(xi)]

2

(∑n

i=1 x2i )

2

− n∑n

i=1 xαi ln(xi)

∑ni=1 x

αi

(∑n

i=1 xαi )

2

Ahora, sea:

J(α) = −∂U(x, α)

∂α

=n

α2+nα∑n

i=1 xαi

[ln2(xi)−

∑ni=1 x

αi ln(xi)

]2(∑n

i=1 x2i )

2 + n

∑ni=1 x

αi lnxi

∑ni=1 x

αi

(∑n

i=1 xαi )

2

Aplicando el algoritmo Newton-Raphson (N-R) con un valor inicial α(0), se obtieneque:

α(j) = α(j−1) + J−1[α(j−1)

]U[x;α(j−1)

](7.1.4)

Debido a que la convergencia en α es alcanzada, β puede ser estimada por:

β =n∑ni=1 x

αi

(7.1.5)

FACYT-MATEMÁTICAS

Page 151: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

151 CAPÍTULO 7: Métodos de Aproximación y Simulación.

Ejemplo 7.2. Genere muestras de tamaño n = 1000, n = 2000, n = 3000 y n = 5000de una distribución Weibull(α = 1.5, β = 2), y estime α y β.

Solución: El siguiente algoritmo tiene como �nalidad realizar la estimación de αy β:

Algoritmo en R 7.1. (Newton-Raphson)

# Algoritmo Newton-Raphson

# a iterado inicial

# b beta inicial

# tol tolerancia

newraph <-function(a,b,tol,n){

A<-rep(0,1000)

B<-rep(0,1000)

c=0;

i=1

A[i]=a

j=1

B[j]=b

while(abs(a-c)>tol){

i=i+1

j=j+1

x<-rweibull(n,b,a);

U<-(n/a)-(n*a*sum((x^a)*log(x)))/sum(x^a)+sum(log(x));

J = n/a^2+(n*sum((x^a)*log(x))*sum(x^a))/(sum(x^a)^2)

+n*a*sum(x^a*(log(x)^2-sum(x^a*log(x)))^2)/(sum(x^a))^2

c<-a;

a<-a+(J^-1)*U;

A[i]=a

b=n/sum(x^a);

B[j]=b

}

C<- rep(0,i)

for (t in 1:i){

if(A[t]!=0){

C[t]=A[t]

}

}

D<- rep(0,j)

UNIVERSIDAD DE CARABOBO

Page 152: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

SECCIÓN 7.2: El Algoritmo EM (Dempster, Laird y Rubin, 1977) 152

for (h in 1:j){

if(B[h]!=0){

D[t]=B[t]

}

}

print("Resumen estadístico de alpha:")

H=summary(C)

print(H)

K=summary(D)

print("Resumen estadístico de beta:")

print(K)

par(mfrow=c(2,1))

ALPHA=C

BETA=D

plot(ALPHA,ylim=c(0,2),pch=15,col="red")

plot(BETA,ylim=c(0,0.02),pch=15,col="purple")

}

Utilizando el algoritmo en R 7.1, para n = 1000, a = 1.5, b = 2 y tol = 0.01, seobtuvo la �gura 7.2, la cual muestra el comportamiento de α y β obtenido a travésde las iteraciones realizadas por el algoritmo. Además se obtuvo el siguiente resumenestadístico tanto para α como para β:

> newraph(1.5,2,0.01,1000)

[1] "Resumen estadístico de alpha:"

Min. 1st Qu. Median Mean 3rd Qu. Max.

0.3079 0.7799 0.9733 1.0100 1.2300 1.7410

[1] "Resumen estadístico de beta:"

Min. 1st Qu. Median Mean 3rd Qu. Max.

0.00000 0.00000 0.00000 0.02551 0.00000 1.12200

Las estimaciones de α y β, con n = 2000, n = 3000 y n = 5000, se dejan planteadascomo ejercicio.

7.2. El Algoritmo EM (Dempster, Laird y Rubin,

1977)

Sean X ∈ Rn un vector n-dimensional de cantidades observadas y Z ∈ Rm un vectorm-dimensional de cantidades no observadas. Los datos completos se denotan porY = (X,Z)T ∈ Rn+m y su función de densidad es P (Y|θ) = P (X,Z|θ), donde θ ∈ Θ.Sea P (Z|X, θ) la densidad condicional de los datos no observados. Para obtener

FACYT-MATEMÁTICAS

Page 153: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

153 CAPÍTULO 7: Métodos de Aproximación y Simulación.

Figura 7.2: Grá�cos arrojados por el algoritmo en R 7.1., con a= 1.5, b= 2, tol= 0.01y n= 1000.

el estimador de máxima verosimilitud de θ se usa el logaritmo de la verosimilitudmarginal, de la siguiente manera:

L(θ,X) = log

[∫P (X,Z|θ)dZ

]el cual es directamente maximizado. Para evitar calcular integrales en altasdimensiones, se puede usar la siguiente relación:

L(θ,X) = log

[P (X,Z|θ)P (Z|X, θ)

]= logP (X,Z|θ)− logP (Z|X, θ)

ya que Z es no observada, entonces es necesario eliminarla antes de maximizar L(θ,X).Una forma de hacer esto es tomando el valor esperado con respecto a la densidadcondicional P (Z|X, θ). Note que:

EZ|X,θ [L(θ,X)] = Q(θ; θ(0)

)−H

(θ; θ(0)

)UNIVERSIDAD DE CARABOBO

Page 154: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

SECCIÓN 7.2: El Algoritmo EM (Dempster, Laird y Rubin, 1977) 154

donde:

Q(θ; θ(0)

)= EZ|X,θ(0) [logP (X,Z|θ)]

y

H(θ; θ(0)

)= EZ|X,θ(0) [logP (Z|X, θ)]

Nótese que θ(0) es algún valor inicial dado para θ. La esperanza involucrada en lade�nición de Q está basada en la verosimilitud completa de Y. Si θ(j) denota el valorde θ en la j-ésima iteración, el algoritmo EM está de�nido en dos pasos:

1. Paso E (Esperanza): evaluación de:

Q(θ, θ(j−1)

)= EZ|X,θ(j−1) log [L(θ,Y)] (7.2.1)

2. Paso M (Maximización): evaluación de θ(j), el valor de θ que maximizaQ(θ, θ(j−1)

).

La convergencia está establecida por un criterio de parada, como el siguiente:∣∣θ(j) − θ(j−1)∣∣ < δ

o ∣∣Q (θ(j), θ(j−1))−Q

(θ(j−1), θ(j−1)

)∣∣ < ε

Ejemplo 7.3. Considere el estudio genético [11] que tiene un vector de conteo deanimales X = (x1, x2, x3, x4), el cual se distribuye multinomial con parámetros n yπ, donde:

π =

(1

2+θ

4,1

4(1− θ), 1

4(1− θ), θ

4

)La función de verosimilitud de los datos X está dada por:

P (X|θ) =(x1 + x2 + x3 + x4)!

x1!x2!x3!x4!

(1

2+θ

4

)x1(

1− θ4

)x2(θ

4

)x4(

1− θ4

)x3

La maximización de P (X|θ) es complicada debido al término (1/2 + θ/4). Para evitaresto, se hace el siguiente cambio de variable: x1 = y0 + y1, x2 = y2, x3 = y3 y x4 = y4.

El vector Y = (y0, y1, y2, y3, y4) tiene distribución multinomial con parámetros ny Π∗ = (1/2, θ/4, (1− θ)/4, (1− θ)/4, θ/4). Para completar la notación se de�ne

FACYT-MATEMÁTICAS

Page 155: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

155 CAPÍTULO 7: Métodos de Aproximación y Simulación.

Z = y0, por lo que Y = (X,Z). En consecuencia, la verosimilitud de los datoscompletos es:

P (Y|θ) =n!

y0!y1!y2!y3!y4!y5!

(1

2

)y0 (θ4

)y1+y4 (1− θ4

)y2+y3

(7.2.2)

Ahora, tomando logaritmo en ambos lados de la ecuación 7.2.2, se tiene que:

logP (Y|θ) = k1(Y) + y0 log

(1

2

)+ (y1 + y4) log

4

)+ (y2 + y3) log

(1− θ

4

)= k2(Y) + (y1 + y4) log(θ) + (y2 + y3) log(1− θ) (7.2.3)

donde k1(Y) y k2(Y) son constantes que no dependen de θ. Tomando esperanza en7.2.3, se obtiene lo siguiente:

Q(θ, θ(j)

)= E

[k2(Y) + (y1 + y4) log(θ) + (y2 + y3) log(1− θ)|X; θ(j)

]= k

(X, θ(j)

)+ E

(y1 + y4|X, θ(j)

)log θ

+ E(y2 + y3|X, θ(j)

)log(1− θ)

= k(X, θ(j)

)+[E(y1|X, θ(j)

)+ x4

]log θ + (x2 + x3) log(1− θ)

donde k2(Y) y k(X, θ(j)

)son constantes. Debido a que yi = xi, para i = 2, 3, 4,

solamente se requiere evaluar la esperanza de y1. De la construcción de Y se tieneque:

(Z|X, θ) ∼ (Z|x1, θ) ∼ Binomial(x1, p)

donde p = (1/2)/[(1/2) + (θ/4)] = 2/(2 + θ). Por lo tanto:

E(y0|X, θ) = x1p

y

Q(θ, θ(j)

)= k

(X, θ(j)

)+(x1p

(j) + x4

)log(θ) + (x2 + x3) log(1− θ)

tal que:

p(j) =2

2 + θ(j)

El pasoM involucra encontrar el valor de θ que maximiza Q(θ, θ(j)). Luego, derivandoQ con respecto a θ se obtiene lo siguiente:

∂Q(θ, θ(j))

∂θ=x1P

(j) + x4

θ− x2 + x3

1− θ(7.2.4)

UNIVERSIDAD DE CARABOBO

Page 156: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

SECCIÓN 7.2: El Algoritmo EM (Dempster, Laird y Rubin, 1977) 156

Igualando a cero 7.2.4, se tiene que:

x1P(j) + x4

θ(j+1)=

x2 + x3

1− θ(j+1)

Resolviendo, se llega al siguiente resultado:

θ(j+1) =x1P

(j) + x4

x1P (j) + x4 + x2 + x3

=(x1 + x4)θ(j) + 2x4

(x1 + x2 + x3 + x4)θ(j) + 2(x2 + x3 + x4)

Si X = (125, 18, 20, 34)T, la fórmula de maximización para el algoritmo EM queda dela siguiente manera:

θ(j+1) =159θ(j) + 68

197θ(j) + 144

Algoritmo en R 7.2. (Esperanza-Maximización, aplicado al ejemploanterior)

# Algoritmo EM (ejemplo anterior)

# a iterado inicial

# tol tolerancia

em<-function(a,tol)

{

c=5

i=1

A<-rep(0,100)

A[i]<-a

while(abs(a-c)>tol){

i=i+1

c<-a

a<-(159*a+68)/(197*a+144)

A[i]=a

}

B<-rep(0,i)

for(j in 1:i){

if (A[j]!=0){

B[j]=A[j]

}

}

FACYT-MATEMÁTICAS

Page 157: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

157 CAPÍTULO 7: Métodos de Aproximación y Simulación.

print(B)

THETA=B

plot(THETA,ylim=c(0,1),pch=15,col="blue")

}

Figura 7.3: Grá�co arrojado por el algoritmo en R 7.2., con a= 0 y tol= 0.0001

7.3. Aproximación Laplace

Esta clase de métodos de aproximación son muy útiles para evaluar integrales deltipo:

I =

∫f(θ)dθ

UNIVERSIDAD DE CARABOBO

Page 158: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

SECCIÓN 7.3: Aproximación Laplace 158

Reescribiéndola como:

I =

∫g(θ) exp{−nh(θ)}dθ

donde g : Rp −→ R y h : Rp −→ R son funciones suavizadas, las cuales son al menostres veces diferenciables. Sea θ el valor de θ que minimiza h. El método de Laplaceaproxima I mediante:

I = g(θ)(2π

n

)p/2 ∣∣∣Σ∣∣∣1/2 exp{−nh

(θ)}

(7.3.1)

donde:

Σ =

∂2h(θ)

∂θ∂θT

−1

La aproximación de Laplace está basada en el desarrollo de Taylor para h y g alrededorde θ. Considérese el caso univariado y sea Σ = σ2 y supóngase que θ y θ estánpróximos. Usando una expansión de Taylor hasta de tercer orden, se tiene que:

nh(θ) = nh(θ)

+n

2σ2

(θ − θ

)2

+nt(θ)

3!+ o

(n−1)

tal que:

σ2 = Σ

y

t(θ) =∂3h

(θ)

∂θ3

(θ − θ

)3

Tomando exponencial y aplicando una expansión lineal a exp{−nt(θ)}, se obtiene losiguiente:

exp{−nh(θ)} = exp{−nh

(θ)}

exp

{− n

2σ2

(θ − θ

)2}

×[1− nt(θ)

6+ o

(n−1)] [

1 + o(n−1)]

De manera similar, al desarrollar g(θ) alrededor de θ se tiene que:

g(θ) = g(θ)

+∂g(θ)

∂θ

(θ − θ

)+ o

(n−1)

Reorganizando, se concluye lo siguiente:

FACYT-MATEMÁTICAS

Page 159: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

159 CAPÍTULO 7: Métodos de Aproximación y Simulación.

1.

∫exp

{− n

2σ2

(θ − θ

)2}dθ = (2π)1/2

(σ2

n

)1/2

2.

∫ (θ − θ

)2k+1

exp

{− n

2σ2

(θ − θ

)2}dθ = 0, ∀k ∈ Z

3.

∫nt(θ)

(θ − θ

)exp

{− n

2σ2

(θ − θ

)2}dθ = o

(n−1)

Entonces, cuando n→∞, el valor de la integral es:

I = I[1 + o

(n−1)]

En el contexto Bayesiano, generalmente −nh(θ) = L(θ) + logP (θ) y L(θ) =logP (x|θ), lo cual representa a la densidad a posteriori por una constante deproporcionalidad. Si g(θ) es no negativa, la integral puede ser rede�nida por:

I =

∫exp{−nh∗(θ)}dθ

donde: nh∗(θ) = nh(θ)− log g(θ).

Sea θ∗ el valor que minimiza h∗(θ) y σ∗2 =∂2h∗(θ)∂θ2

. La aproximación para I está dadapor:

I = (2π)1/2σ∗ exp{−nh∗ (θ∗)} (7.3.2)

En el caso multivariado, se tiene que:

I = (2π)p/2∣∣∣Σ∗∣∣∣1/2 exp

{−nh∗

(θ∗)}

(7.3.3)

donde θ∗ es el valor de θ que minimiza h y Σ∗ es la matriz inversa de las segundasderivadas de h∗ evaluadas en θ∗.

7.4. Métodos de Simulación

7.4.1. Método de Monte Carlo

La idea básica del método Monte Carlo es escribir la integral deseada como un valoresperado con respecto alguna distribución de probabilidad. Supóngase que se deseacalcular la integral de alguna función suavizada en un intervalo conocido (a, b), esdecir:

I =

∫ b

a

g(θ)dθ

UNIVERSIDAD DE CARABOBO

Page 160: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

SECCIÓN 7.4: Métodos de Simulación 160

La integral dada en 7.4.1, puede ser reescrita como:

I =

∫ b

a

(b− a)g(θ)1

(b− a)dθ = EU(a,b) [(b− a)g(θ)]

donde U(a, b) es una variable aleatoria cuya distribución es uniforme en (a, b). Elmétodo de los momentos es un estimador de esta cantidad, es decir:

I =1

n

n∑i=1

(b− a)g(θi)

donde θ1, . . . , θn es una muestra aleatoria seleccionada de una distribución uniformesobre (a, b).

Algoritmo 7.1.

Paso [1] Se generan θ1, . . . , θn ∼ U(a, b)Paso [2] Se calcula g(θ1), . . . , g(θn)Paso [3] Se estima g = 1

n

∑ni=1 g(θi)

Paso [4] Se aproxima I = (b− a)g

Una generalización puede ser obtenida en forma clara. Sea I = Ep[g(θ)], el valoresperado de g(θ) con respecto a una función de densidad de probabilidad P (θ). Elalgoritmo es similar al anterior, sólo se hacen modi�caciones de muestreo en el paso [1];es decir, se generan θ1, θ2, . . . , θn ∼ P (·) en vez de una uniforme y el resto queda igual.La extensión multivariada se basa sobre una evaluación de la integral multivariadasiguiente:

I =

∫ b1

a1

· · · ·∫ bp

ap

g(θ)dθ

y el estimador Monte Carlo es:

I =1

n

n∑i=1

g(θi) (7.4.1)

donde θ1, . . . , θn es una muestra aleatoria seleccionada de la distribución uniformesobre (a1, b1)× · · · × (ap, bp).

Ejemplo 7.4. Evaluar:

I =

∫ 1

0

exdx

FACYT-MATEMÁTICAS

Page 161: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

161 CAPÍTULO 7: Métodos de Aproximación y Simulación.

usando el método Monte Carlo.Solución:El estimador Monte Carlo de I es el siguiente:

I =1

n

n∑i=1

exp {xi}

donde xi ∼ U(0, 1), i = 1, . . . , n. Además, I es la media muestral y su precisión paraestimar I puede ser medida por la varianza, es decir:

V ar(I)

=1

nV ar (ex) =

1

n

{E (ex)2 − [E (ex)]2

}=

1

n

{E(e2x)− [E (ex)]2

}Entonces:

V ar(I)

= V ar

(1

n

n∑i=1

exi

)=

1

n2V ar(ex1 + · · ·+ exn) =

1

n2nV ar(exi)

=1

n

[∫ 1

0

e2xdx−(∫ 1

0

exdx

)2]

=1

n

[1

2exp{2x}

∣∣∣∣10

−(

exp{x}∣∣∣10

)2]

=1

n

[1

2

(e2 − 1

)− (e− 1)2

]7.4.2. Monte Carlo con Muestreo de Importancia.

El método de Monte Carlo con muestreo de importacia es una técnica desarrolladapara reducir el estimador de la varianza. Considérese explícitamente que la integralI de interés, es la esperanza de una función g dada con respecto a una densidad p(·),de esta forma:

I =

∫g(x)p(x)dx =

∫g(x)

p(x)

h(x)h(x)dx

donde h(x) es una función positiva para toda x, p(x) > 0 y∫h(x)dx = 1. A

continuación, se muestra un método alternativo al de los momentos. Sea:

I =1

n

n∑i=1

g(xi)W (xi)

UNIVERSIDAD DE CARABOBO

Page 162: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

SECCIÓN 7.4: Métodos de Simulación 162

donde W (xi) = p(xi)/h(xi) y xi ∼ h(x), i = 1, . . . , n. Además, h es llamada lafunción de importancia y:

V(I)

=1

n

∫[g(x)W (x)− I]2 h(x)dx

Por otro lado, se escoge g(x)W (x) aproximadamente constante para que V(I)sea

pequeña.

Ejemplo 7.5. Sea la función de importancia:

h(x) =2

3(1 + x), x ∈ (0, 1)

y

g(x) = ex

De modo que:∫ 1

0

h(x)dx =2

3

∫ 1

0

(1 + x)dx =2

3

(x+

x2

2

)∣∣∣∣10

=2

3

(1 +

1

2

)=

2

3

(2 + 1

2

)= 1

Sea p(x) = 1, entonces:

W (x) =p(x)

h(x)=

p(x)23(1 + x)

=3p(x)

2(1 + x)=

3

2(1 + x)

⇒ g(x)W (x) =3

2(1 + x)ex ∝ k, ∀x ∈ (0, 1)

De esta manera:

I =

∫ 1

0

g(x)W (x)h(x)dx =

∫ 1

0

3ex

2(1 + x)h(x)dx

En consecuencia:

I =1

n

n∑i=1

3exi

2(1 + xi)

donde xi ∼ h(x), i = 1, 2, . . . , n, y:

V ar(I)

=1

n

[(3/2)2

∫ 1

0

e2x

(1 + x)2dx− I2

]=

0.027

n

FACYT-MATEMÁTICAS

Page 163: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

163 CAPÍTULO 7: Métodos de Aproximación y Simulación.

La implementación del algoritmo depende del muestreo de la densidad h(·). Si ladistribución de muestreo de importancia está dada por:

H(x) =

0 si x < 0

23

(x+ x2

2

)si 0 < x < 1

1 si x ≥ 1

entonces:

H(x) =

∫ x

0

h(w)dw =

∫ x

0

2

3(1 + w)dw

=2

3

∫ x

0

(1 + w)dw =2

3

(w +

w2

2

∣∣∣∣x0

)=

2

3

(x+

x2

2

), 0 < x < 1

Usando el método de la transformada inversa para generar una muestra, se tiene losiguiente:

U = H(x) =2

3

(x+

x2

2

)⇒ 3U

2= x+

x2

2⇒ 3U = 2x+ x2

⇒ 3U = x2 + 2x+ 1− 1

⇒ 3U = (x+ 1)2 − 1

⇒ (x+ 1)2 = 3U + 1

⇒ (x+ 1) =√

3U + 1

⇒ x =√

3U + 1− 1

Luego, se genera U ∼ U(0, 1).

Algoritmo 7.2.

Paso [1] Se genera Ui ∼ U(0, 1)Paso [2] Se genera xi =

√3Ui + 1− 1

Paso [3] Se calcula I = 1n

∑ni=1 3exi/2(1 + xi)

Ejemplo 7.6. Sea θ = P (x > 2) y x ∼ Cauchy(π), con función de densidad deprobabilidad dada por:

P (x) =1

π (1 + x2), x ∈ R

UNIVERSIDAD DE CARABOBO

Page 164: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

SECCIÓN 7.4: Métodos de Simulación 164

Sean:

g(x) = Ix[2,∞] =

{1 si x ∈ [ 2,∞)0 en otro caso

y

θ = P (x > 2) =

∫ ∞−∞

g(x)P (x)dx

Asimismo, sean x1, . . . , xn una muestra aleatoria de distribución Cauchy. Es fácilencontrar:

θ =1

n

n∑i=1

g(θi) =1

n

n∑i=1

Ixi(2,∞) =#(xi > 2)

n⇒ nθ = #(xi > 2)

Por lo tanto, nθ ∼ Binomial(n, θ). Note que:

PX(x) = P (X ≤ x) =

∫ x

−∞P (t)dt

=

∫ x

−∞

1

π (1 + t2)=

1

π

∫ x

−∞

1

1 + t2dt

=1

πarctan(t)

∣∣∣∣x−∞

=1

π[arctan(x)− arctan(−∞)]

=1

π

[arctan(x) +

π

2

]=

1

πarctan(x) +

1

2

De este modo:

θ = P (xi > 2) = 1− P (xi ≤ 2)

= 1− Pxi(2) = 1−[

1

πarctan(2) +

1

2

]≈ 0.1476

Luego, se obtiene que:

E(nθ)

= nθ ⇒ nE(θ)

= nθ ⇒ E(θ)

= θ

V ar(nθ)

= nθ(1− θ)⇒ n2V ar(θ)

= nθ(1− θ)

⇒ V ar(θ)

=θ(1− θ)

n=

0.126

n

Por otra parte, la función de importancia es la siguiente:

h(x) =2

x2Ix(2,∞)

FACYT-MATEMÁTICAS

Page 165: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

165 CAPÍTULO 7: Métodos de Aproximación y Simulación.

Así que:

H(x) =

∫h(t)dt =

∫ x

2

2

t2It(2,∞)dt

= 2

∫ x

2

t−2It(2,∞)dt = 2t−1

−1

∣∣∣∣x2

It(2,∞)

= 2

(−1

t

∣∣∣∣x2

)= 2

(−1

x+

1

2

)= 1− 2

x

es decir:

H(x) =

{1− 2/x si x ∈ (2,∞)

0 en otro caso

Además, sea:

Ui = H(xi) = 1− 2/xi ⇒ 2/xi = 1− Ui ⇒ xi = 2/(1− Ui)

donde xi ∈ [ 2,+∞ ). El algoritmo queda de la siguiente manera:

Algoritmo 7.3.

Paso [1] Se genera:

Ui ∼ U(0, 1)

Paso [2] Se calcula:

xi = 2/ (1− Ui)

Paso [3] Se aproxima el estimador por:

θ =1

n

n∑i=1

g(xi)P (xi)

h(xi)

=1

n

n∑i=1

Ixi(2,∞)1/π (1 + x2

i )2x2iIxi(2,∞)

=1

n

n∑i=1

x2i

2π (1 + x2i )

En consecuencia, el algoritmo Monte Carlo puede ser usado para resolver algunosproblemas de inferencia básica. En el caso bayesiano cuando uno desea evaluarE [g(θ)|X], el algoritmo se resume como se muestra a continuación:

UNIVERSIDAD DE CARABOBO

Page 166: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

SECCIÓN 7.5: Métodos de Remuestreo. 166

Algoritmo 7.4.

Paso [1] Se genera θ1, . . . , θn de la densidad a posteriori P (θ|X) (o de la densidadde importancia h(θ)).Paso [2] Se calcula:

gi = g(θi)

o

gi =g(θi)P (θi|X)

h(θi), i = 1, . . . , n

Paso [3] Se obtiene el estimador:

E[g(θ)] =1

n

n∑i=1

gi

7.5. Métodos de Remuestreo.

7.5.1. Jackknife

El Jackknife es una técnica útil para construir intervalos de con�anza y su función esreducir el sesgo. La idea se debe a Quenouille (1949, 1956). Supóngase que x1, . . . , xnes una muestra aleatoria de P (X|θ) y que θ(X) es un estimador de θ. Denotemos porθi el estimador basado en la muestra original sin la i-ésima observación. Sea:

θi = nθ − (n− 1)θi

una secuencia de pseudo valores y defínase el estimador Jackknife de θ como:

θJ =1

n

n∑i=1

θi (7.5.1)

El nombre de pseudo valor se debe al hecho de que para el caso especial dondeθ(X) = X, el pseudo valor coincide con la i-ésima observación, es decir:

θi =n∑j=1

xj −n∑j 6=i

xj = xi

No es complicado probar que θJ es un estimador insesgado si θ y θi son insesgados.El estimador Jackknife tiene la propiedad de eliminar los términos de orden 1/n delsesgo del estimador.

FACYT-MATEMÁTICAS

Page 167: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

167 CAPÍTULO 7: Métodos de Aproximación y Simulación.

Ejemplo 7.7. Sea x1, . . . , xn ∼ U(0, θ) y T = max {xi} un estadístico su�ciente paraθ con E(T ) = (1− 1/n) θ, para todo θ. El estimador Jackknife está dado por:

θJ =1

n

n∑i=1

θi

donde θi = nT − (n− 1)θi y θi = max{x1, . . . , xi−1, xi+1, . . . , xn}, entonces:

E(θJ

)= E

[nT − (n− 1)θi

]= nE(T )− (n− 1)E

(θi

)= n

(1− 1

n

)θ − (n− 1)

(1− 1

n− 1

=n(n− 1)

nθ − (n− 1)

(n− 1− 1

n− 1

= nθ − θ − nθ + 2θ

= θ

Sean θ1, θ2, . . . , θn variables aleatorias aproximadamente independientes e idéntica-mente distribuidas con media θ. Un estimador Jackknife de la varianza muestral estádado por:

θ2J =

1

n− 1

n∑i=1

(θi − θJ

)2

y

T ∗ =θj − θ√θ2J/n∼ tn−1

Un intervalo de con�anza aproximado del 100(1− α) % para θ, es el siguiente:(θJ − tn−1,α

2

σJ√n, θJ + tn−1,α

2

σJ√n

)7.5.2. Bootstrap.

El concepto de Bootstrap fue introducido por Efron (1979) y consiste en generar unnúmero grande de muestras basadas en la distribución empírica obtenida de los datosoriginales muestreados.Sea X1,X2, . . . ,Xn los datos observados de una muestra aleatoria de distribuciónP (X|θ), donde θ ∈ Θ es un parámetro desconocido. Sea θ(X) un estimador de θ. Lafunción de distribución empírica se de�ne por:

Fn(x) =# (Xi < x)

n; ∀x ∈ R

UNIVERSIDAD DE CARABOBO

Page 168: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

SECCIÓN 7.5: Métodos de Remuestreo. 168

El procedimiento de remuestreo consiste en la selección de muestras con reemplazode una población �nita usando igual probabilidad. Esto corresponde seleccionarmuestras de una distribución empírica Fn(x). Los valores muestreados se denotan por{x∗1, . . . , x∗n} y el estimador Bootstrap de θ por θ∗ (x∗). Las inferencias están basadassobre B réplicas del procedimiento anterior y se obtiene el estimador θ∗(x∗) para cadaréplica. los resultados se denotan por θ∗1, θ

∗2, . . . , θ

∗B. La distribución Bootstrap de θ∗

está dada por la distribución empírica formada por los valores remuestreados. Lassuposiciones principales son las siguientes:

1. Fn es una buena aproximación de F .

2. θ∗ es una buena aproximación de θ.

La media y la varianza de las B réplicas son:

θ∗ =1

n

B∑i=1

θ∗i

y

σ2(θ∗)

=1

B − 1

B∑i=1

(θ∗i − θ∗

)2

respectivamente. Los intervalos de θ pueden ser construidos de los percentiles de ladistribución Bootstrap. Sea θ∗(α) el percentil 100(α) % de la distribución Bootstrap de

θ∗, es decir, P(θ∗ ≤ θ∗(α)

)= α. El intervalo de con�anza Bootstrap del 100(1−α) %

está dado por: (θ∗α

2, θ∗1−α

2

)7.5.3. Bootstrap Repesado.

Algunas veces no se puede muestrear directamente de la distribución de interés P (·).Una estrategia útil es muestrear de una distribución aproximada usando el esquemade aceptación y rechazo.

Algoritmo 7.5.

Paso [1] Se genera x de una densidad auxiliar h(x).Paso [2] Se genera u ∼ U(0, 1).Paso [3] Si u ≤ P (x)/Ah(x), donde A = max{P (x)}/h(x), entonces se acepta x. Enotro caso se retorna al paso [1].

Si la determinación de A es difícil, el algoritmo puede ser modi�cado como sigue:

FACYT-MATEMÁTICAS

Page 169: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

169 CAPÍTULO 7: Métodos de Aproximación y Simulación.

Algoritmo 7.6.

Paso [1] Se toma una muestra x1, . . . , xn de una densidad h(x).Paso [2] Se evalúan los pesos de importancia:

w(xi) =P (xi)

h(xi), i = 1, . . . , n

Paso [3] Se selecciona una nueva muestra x∗1, . . . , x∗n de {x1, . . . , xn} con probabilidad

wi/∑n

i=1wi, donde i = 1, . . . , n con reemplazo.

Nótese que:

P (x∗ ≤ a) =n∑i=1

wi∑nj=1 wj

Ixi(−∞, a)

entonces:

lımn→∞

P (x∗ ≤ a)→∫ a

−∞P (x)dx

Si la idea es estimar P (θ|x) = kL(θ, x)P (θ), para θ ∈ Θ, al tomar h(x) = P (θ) yw(x) = P (θ|x)/P (θ) = kL(θ, x), el algoritmo queda como sigue:

Algoritmo 7.7.

Paso [1] Se toma una muestra θ1, . . . , θn de una distribución a priori P (θ).Paso [2] Se evalúan los pesos:

wi =P (θ|x)

P (θ)= kL(θ, x), i = 1, . . . , n

Paso [3] Se muestrea θ∗1, θ∗2, . . . , θ

∗m con reemplazo de {θ1, . . . , θn}, utilizando las

probabilidades respectivas:

Li∑ni=1 Li

, i = 1, . . . , n

donde Li = L(θi, x).

7.6. Métodos de Monte Carlo por Cadenas de

Markov

7.6.1. Muestreador de Gibbs

El muestreador de Gibbs es una forma de simular distribuciones multivariadas, elcual sólo se basa en la capacidad de las distribuciones condicionales. En particular,

UNIVERSIDAD DE CARABOBO

Page 170: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

SECCIÓN 7.6: Métodos de Monte Carlo por Cadenas de Markov 170

es apropiado cuando el muestreo de las distribuciones a posteriori conjunta no esposible. Se introducirá el algoritmo mediante el siguiente ejemplo:

Ejemplo 7.8. Considérese el modelo jerárquico siguiente:

xi|µ, τ ∼ N

(µ,

1

τ

), i = 1, . . . , n

son variables independientes e idénticamente distribuidas. Además, sea:

τ ∼ Gamma(a, b)

µ ∼ N

(c,

1

d

)Solución:En primer lugar, se escribe la verosimilitud de los datos:

L(x;µ, τ) =n∏i=1

f(xi|µ, τ)

=n∏i=1

√τ

2πexp

{−τ

2(xi − µ)2

}=( τ

)n2

exp

{−τ

2

n∑i=1

(xi − µ)2

}

=( τ

)n2

exp{−τ

2

[(n− 1)S2 + n(x− µ)2

]}∝ τ

n2 exp

{−τ

2

[(n− 1)S2 + n(x− µ)2

]}donde x = (1/n)

∑ni=1 xi y S

2 = [1/ (n− 1)]∑n

i=1(xi − x)2. La distribución a prioriestá dada de la siguiente manera:

P (µ, τ) = P (µ)P (τ) ∝ exp

{−d

2(µ− c)2

}τa−1 exp {−bτ}

De esta forma, la distribución a posteriori viene dada por:

P (µ, τ |x) ∝ L(x;µ, τ)P (µ, τ)

∝ τn/2 exp{−τ

2

[(n− 1)S2 + n(x− µ)2

]}× τa−1 exp {−bτ} exp

{−d

2(µ− c)2

}= τa+n

2−1 exp

{−τ

2

[(n− 1)S2 + n(x− µ)2

]− d

2(µ− c)2 − bτ

}

FACYT-MATEMÁTICAS

Page 171: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

171 CAPÍTULO 7: Métodos de Aproximación y Simulación.

Esta distribución no es de la forma estándar; la distribución a posteriori noes conjugada. Este problema se suele denominar semiconjugado, ya que las dosdistribuciones condicionales P (µ|τ, x) y P (τ |µ, x) son de la forma estándar. Estoes:

P (τ |µ, x) ∝ τa+n2−1 exp

{−τ[

(n− 1)S2 + n(x− µ)2

2+ b

]}⇒ τ |µ, x ∼ Gamma

(a+

n

2, b+

1

2

[(n− 1)S2 + n(x− µ)2

])P (µ|τ, x) = exp

{−τ

2

[(n− 1)S2 + n(x− µ)2

]− d

2(µ− c)2

}∝ exp

{−τn

2(x− µ)2 − d

2(µ− c)2

}⇒ µ|τ, x ∼ N

(cd+ nτx

nτ + d,

1

nτ + d

)(Hacerlo)

Por lo tanto, siempre que sea posible simular de cantidades gamma y normales,se puede simular de las condicionales completas. Por otra parte, ¾cómo se puedesimular de la densidad conjunta P (µ, τ |x)?. Para este ejemplo, es posible simular delas marginales P (τ |µ, x) y P (µ|τ, x); es decir:

P (µ, τ |x) ∝ P (τ |µ, x)P (µ|τ, x)

Sobre esta idea se basa el muestreador de Gibbs.

7.7. Muestreo de Densidades Bivariadas.

Considérese la densidad bivariada P (X,Y). Se tiene que:

P (X,Y) = P (X|Y)P (Y)

o

P (X,Y) = P (Y|X)P (X)

por lo que se puede simular de P (X,Y). Primero, se simula Y = y de PY(y), y luegose procede a simular X = x de P (X|Y), esto es:

P (X,Y) = P (X|Y)PY(y)

También se puede simular X = x de PX(x), para luego simular Y = y de P (Y|X),es decir:

P (X,Y) = P (Y|X)PX(x)

UNIVERSIDAD DE CARABOBO

Page 172: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

SECCIÓN 7.8: Muestreador de Gibbs. 172

De cualquier manera se tiene que ser capaz de simular de PX(x), PY(y), P (X|Y) oP (Y|X). El muestreo de las distribuciones condicionales de�ne una cadena de Markovbivariada y muestra una explicación intuitiva de por qué P (X,Y) es una distribuciónestacionaria. El algoritmo consiste en:

Algoritmo 7.8.

Paso [1] Generar X = x ∼ PX(x)Paso [2] Generar Y = y ∼ P (Y|X)Paso [3] Obtener las muestras de P (X,Y) = P (Y|X)PX(x)

Asimismo, el algoritmo puede ser de la siguiente forma:

Algoritmo 7.9.

Paso [1] Generar Y = y ∼ PY(y)Paso [2] Generar X = x ∼ P (X|Y)Paso [3] Aproximar P (X,Y) = P (X|Y)PY(y)

El kernel de transición de una cadena de Markov bivariada es el siguiente:

P {[(x, y), (x′, y′)]} = P [(x′, y′) |(x, y)] = P (x′|x, y)P (y′|x′, x, y) = P (x′|y) (y′|x′)

7.8. Muestreador de Gibbs.

Supóngase que la densidad de interés es P (θ), donde θ = (θ1, . . . , θd)T. Por otra parte,

las distribuciones condicionales completas son:

Π(θi|θ1, . . . , θi−1, θi+1, . . . , θd) = Π(θi|θ−i) = Πi(θi), i = 1, . . . , d

y están disponibles para simular. El muestreador de Gibbs itera de la siguientemanera:

Algoritmo 7.10.

Paso [1] Sea j = 1. Se inicializa el estado de la cadena θ(0) =(θ

(0)1 , . . . , θ

(0)d

)T

.

Paso [2] Se obtiene un nuevo valor θ(j) de θ(j−1) por sucesivos valores generados:

θ(j)1 ∼ Π

(θ1|θ(j−1)

2 , . . . , θ(j−1)d

(j)2 ∼ Π

(θ2|θ(j)

1 , θ(j−1)3 , . . . , θ

(j−1)d

)...

θ(j)d ∼ Π

(θd|θ(j)

1 , . . . , θ(j)d−1

)FACYT-MATEMÁTICAS

Page 173: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

173 CAPÍTULO 7: Métodos de Aproximación y Simulación.

Paso [3] Se aumenta el contador de j a j + 1, y luego se retorna al paso [2].

Este proceso de�ne una cadena de Markov homogénea ya que cada valor simuladodepende solamente del valor simulado anterior y no de otros valores. Sin embargo,se debe probar que Π(θ) es una distribución estacionaria de la cadena. El kernel detransición de la cadena es el siguiente:

P (θ, φ) =d∏i=1

Π(φi|φ1, . . . , φi−1, θi+1, . . . , θd)

Por lo tanto se necesita chequear que Π(θ) es la distribución estacionaria de estacadena, es decir:

Π(φ) =

∫S

P (θ, φ)Π(θ)dθ

Para el caso bivariado se tiene que:

Π(φ) =

∫S

P (θ, φ)Π(θ)dθ =

∫S

P [(θ1, θ2), (φ1, φ2)] Π(θ1, θ2)dθ

=

∫S

Π(φ1|θ2)Π(φ2|φ1)Π(θ1, θ2)dθ1dθ2

= Π(φ2|φ1)

∫S1

∫S2

Π(φ1|θ2)Π(θ1, θ2)dθ1dθ2

= Π(φ2|φ1)

∫S2

Π(φ1|θ2)dθ2

∫S1

Π(θ1, θ2)dθ1

= Π(φ2|φ1)

∫S2

Π(φ1|θ2)Π(θ2)dθ2

= Π(φ2|φ1)Π(φ1)

= Π(φ1, φ2)

= Π(φ)

El caso general es similar, por lo que Π(θ) es una distribución estacionaria de estacadena. La discusión de la unicidad y convergencia se escapa del nivel de este curso.

7.8.1. Muestreador de Gibbs Reversible.

Supóngase que se desea actualizar la componente i, es decir, actualizar θreemplazando θi con φi tomada de Π(φi|θ−i). Todas las otras componentespermanecen igual. El kernel de transición para esta actualización se muestra acontinuación:

P (θ, φ) = Π(φi|θ−i)I(θ−i = φ−i) (7.8.1)

UNIVERSIDAD DE CARABOBO

Page 174: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

SECCIÓN 7.8: Muestreador de Gibbs. 174

donde:

I(E) =

{1 si E es verdad0 si E es falso

Nótese lo siguiente:

Π(θ)P (θ, φ) = Π(θ)Π(φi|θ−i)I(θ−i = φ−i)

Debido a que Π(θ) = Π(θi, θ−i) = Π(θ−i|θ−i)Π(θ−i), entonces:

Π(θ)P (θ, φ) = Π(θi|θ−i)Π(θ−i)Π(φi|θ−i)I(θ−i = φ−i)

= Π(θi|φ−i)Π(φ−i)Π(φi|θ−i)I(θ−i = φ−i)

= Π(φ)Π(θi|φ−i)I(θ−i = φ−i)

= Π(φ)P (φ, θ)

Por lo tanto existe un balance y de aquí la actualización es reversible con ladistribución estacionaria Π(θ).

Ejemplo 7.9. Considere el siguiente modelo de efectos aleatorios de una vía:

yij|θi, τ ∼ N

(θi,

1

τ

), i = 1, . . . ,m, j = 1, . . . , ni

son variables aleatorias, independientes e idénticamente distribuidas. Además, sea:

θi|µ, v ∼ N (µ, 1/v)

µ ∼ N (a, 1/b)

τ ∼ Gamma(c, d)

v ∼ Gamma(e, f)

Encontrar las distribuciones condicionales completas (o marginales).

Solución:La contribución de cada observación yij se muestra a continución:

f(yij|θi, τ) =

√τ

2πexp

{−τ

2(yij − θi)2

}De este modo, la verosimilitud completa queda como sigue:

L(θ, τ ; y) =m∏i=1

ni∏j=1

f (yij|θi, τ)

=( τ

)N/2exp

{−τ

2

m∑i=1

[(ni − 1)S2

i + ni(yi· − θi)2]}

donde:

FACYT-MATEMÁTICAS

Page 175: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

175 CAPÍTULO 7: Métodos de Aproximación y Simulación.

N =∑m

i=1 ni

yi· = (1/ni)∑ni

j=1 yij

S2i = [1/ (ni − 1)]

∑nij=1 (yij − yi·)2

La distribución a priori toma la siguiente forma:

Π(µ, τ, v, θ) = Π(µ)Π(τ)Π(v)Π(θ)

∝ exp

{− b

2(µ− a)2

}τ c−1 exp {−dτ} ve−1 exp {−fv}Π(θ)

Π(θi|µ, v) =

√v

2πexp

{−v

2(θi − µ)2

}∝ v1/2 exp

{−v

2(θi − µ)2

}⇒ Π(θ) = Π(θ1|µ, v) · · ·Π(θm|µ, v)

∝ v1/2 exp{−v

2(θ1 − µ)2

}· · · v1/2 exp

{−v

2(θm − µ)2

}∝ vm/2 exp

{−v

2

m∑i=1

(θi − µ)

}

En consecuencia:

Π(µ, τ, v, θ) ∝ vm/2+e−1τ c−1 exp

{−1

2

[2dτ + 2fv + b(µ− a)2 + v

m∑i=1

(θi − µ)2

]}

Por lo tanto, la distribución a posteriori es:

Π(µ, τ, v, θ|y) ∝ L(θ, τ ; y)Π(µ, τ, v, θ)

∝ τ c+N/2−1ve+m/2−1 exp

{−1

2

[2dτ + 2fv + b(µ− a)2

+vm∑i=1

(θi − µ)2 + τm∑i=1

(ni − 1)S2i + τ

m∑i=1

ni(yi· − θi)2

]}

= τ c+N/2−1ve+m/2−1 exp

{−1

2

[2dτ + 2fv + b(µ− a)2

+m∑i=1

[v(θi − µ)2 + τ(ni − 1)S2

i + τni(yi· − θi)2] ] }

De lo anterior se puede observar que la distribución a posteriori no tiene una formaestándar conocida, así que se debe contruir un muestreador de Gibbs. Para ello hay

UNIVERSIDAD DE CARABOBO

Page 176: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

SECCIÓN 7.8: Muestreador de Gibbs. 176

que encontrar las condicionales completas. De este modo, la condicional completapara µ es la siguiente:

Π(µ|τ, v, θ, y) ∝ exp

{−1

2

[b(µ− a)2 +

m∑i=1

v(θi − µ)2

]}

= exp

{−1

2

[b(µ2 − 2µa+ a2

)+ v

m∑i=1

θ2i − 2µv

m∑i=1

θi +mvµ2

]}

∝ exp

{−1

2

[(b+mv)µ2 −

(2ab+ 2nvθ

)µ]}

; θ =1

m

m∑i=1

θi

= exp

{−1

2

[(b+mv)µ2 − 2

(ab+ nvθ

)µ]}

= exp

{−1

2(b+mv)

[µ2 − 2

(ab+ nvθ

b+mv

]}∝ exp

{−1

2(b+mv)

[µ−

(ab+ nvθ

b+mv

)]2}

Entonces:

µ|τ, v, θ, y ∼ N

(ab+ nvθ

b+mv,

1

b+mv

)

La condicional completa para τ es:

Π(τ |µ, v, θ, y) ∝ τ c+N/2−1 exp

{−τ

[d+

1

2

m∑i=1

[(ni − 1)S2

i + ni(yi· − θi)2]]}

⇒ τ |µ, v, θ, y ∼ Gamma

(c+

N

2, d+

1

2

m∑i=1

[(ni − 1)S2

i + ni(yi· − θi)2])

La condicional completa para v es:

Π(v|τ, µ, θ, y) ∝ ve+m/2−1 exp

{−v

[f +

1

2

m∑i=1

(θi − µ)2

]}

⇒ v|τ, µ, θ, y ∼ Gamma

(e+

m

2, f +

1

2

m∑i=1

(θi − µ)2

)

FACYT-MATEMÁTICAS

Page 177: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

177 CAPÍTULO 7: Métodos de Aproximación y Simulación.

Por último, la condicional completa para θi es:

Π(θi|τ, µ, v, y) ∝ exp

{−1

2

[v(θi − µ)2 + τni(yi· − θi)2

]}= exp

{−1

2

[v(θ2i − 2θiµ+ µ2

)+ τni

(y2i· − 2θiyi· + θ2

i

)]}∝ exp

{−1

2

[(v + τni)θ

2i − 2(vµ+ niτyi·)θi

]}= exp

{−1

2(v + niτ)

[θ2i − 2

(vµ+ niyi·τ

v + niτ

)θi

]}∝ exp

{−1

2(v + niτ)

[θi −

(vµ+ niyi·τ

v + niτ

)]2}

⇒ θi|τ, µ, v, y ∼ N

(vµ+ niyi·τ

v + niτ,

1

v + niτ

), i = 1, . . . ,m

Algoritmo 7.11. Resumen del algoritmo Gibbs para el modelo de una vía.

Paso [1] Generar µ ∼ N(ab+nvθb+mv

, 1b+mv

)Paso [2] Generar τ ∼ Gamma

(c+ N

2, d+ 1

2

m∑i=1

[(ni − 1)S2

i + ni(yi· − θi)2])

Paso [3] Generar v ∼ Gamma

(e+ m

2, f + 1

2

m∑i=1

(θi − µ)2

)Paso [4] Generar θi ∼ N

(vµ+niyi·τv+niτ

, 1v+niτ

)Algoritmo en R 7.3. Simulación de una normal bivariada con media cero y varianzauno, pero con una correlación ρ entre las dos componentes:

#·······················································································································# Muestreador de Gibbs

#·······················································································································

MG1<-function(n,rho){

x<-rnorm(n,0,1)

y<-rnorm(n,rho*x,sqrt(1-rho*rho))

cbind(x,y)

}

# Este código crea un vector de valores de X y luego construye

# un vector de valores de Y condicional sobre X. Estos valores

UNIVERSIDAD DE CARABOBO

Page 178: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

SECCIÓN 7.8: Muestreador de Gibbs. 178

# son colocados en una matriz de orden n por 2.

MG11<-MG1(10000,0.1)

par(mfrow=c(3,1))

plot(MG11,col=1:10000)

plot(MG11,type="l")

plot(ts(MG11[,1]))

par(mfrow=c(3,1))

plot(ts(MG11[,2]))

hist(MG11[,1],50)

hist(MG11[,2],50)

Figura 7.4: Grá�cos arrojados por el algoritmo en R 7.3.

FACYT-MATEMÁTICAS

Page 179: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

179 CAPÍTULO 7: Métodos de Aproximación y Simulación.

Figura 7.5: Grá�co obtenido por el algoritmo en R 7.3.

Algoritmo en R 7.4. Otra forma de hacer el algoritmo en R 7.3. mostradoanteriormente:

#···············································································································# Otra forma

#···············································································································

MG2<-function(n,rho){

matriz<-matrix(ncol=2,nrow=n)

x<-0

y<-0

matriz[1,]<-c(x,y)

for(i in 2:n){

x<-rnorm(1,rho*y,3)

UNIVERSIDAD DE CARABOBO

Page 180: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

SECCIÓN 7.8: Muestreador de Gibbs. 180

y<-rnorm(1,rho*x,9)

matriz[i,]<-c(x,y)

}

matriz

}

# El código crea una matriz con los resultados, entonces la cadena

# es inicializada en (0,0). Luego el bucle permite obtener muestras

# sucesivamente de las full condicionales, almacenando los resultados

# en la matriz.

MG22<-MG2(10000,-0.98)

par(mfrow=c(3,1))

plot(MG22,col=1:10000)

plot(MG22,type="l")

plot(ts(MG22[,1]))

par(mfrow=c(3,1))

plot(ts(MG22[,2]))

hist(MG22[,1],50)

hist(MG22[,2],50)

Algoritmo en R 7.5. Modelo normal con media desconocida y varianza conocida:

MG3<-function(n,rho){

theta<-0

mu0<-0

tao0<-3

sigmac<-9

y<-0

matriz<-matrix(ncol=2,nrow=n)

mu1<-((mu0/tao0*tao0)+y/sigmac)/((1/tao0*tao0)+(1/sigmac))

tao1<-1/((1/tao0*tao0)+(1/sigmac))

matriz[1,]<-c(theta,y)

for(i in1:n){

theta<-rnorm(1,mu1*y,tao1)

y<-rnorm(1,theta,sigmac)

matriz[i,]<-c(theta,y)

}

matriz

}

FACYT-MATEMÁTICAS

Page 181: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

181 CAPÍTULO 7: Métodos de Aproximación y Simulación.

Figura 7.6: Grá�cos arrojados por el algoritmo en R 7.4.

resultado2<-MG3(10000,-0.1)

par(mfrow=c(3,1))

plot(resultado2,col=1:1000)

plot(resultado2,type="l")

plot(ts(resultado2[,1]))

par(mfrow=c(3,1))

plot(ts(resultado2[,2]))

hist(resultado2[,1],500)

hist(resultado2[,2],500)

# Convergencia

par(mfrow=c(2,1))

cum11<-cumsum(resultado2[,1])/c(1:10000)

UNIVERSIDAD DE CARABOBO

Page 182: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

SECCIÓN 7.8: Muestreador de Gibbs. 182

Figura 7.7: Grá�cos arrojados por el algoritmo en R 7.4.

plot(cum11,type="l")

cum22<-cumsum(resultado2[,2])/c(1:10000)

plot(cum22,type="l")

Algoritmo en R 7.6. Datos del ejemplo del vínculo genético:

# Para generar datos faltantes

n<-3000

xa<-c(125,18,18,20,34)

MG3<-function(n,xa){

z<-20

theta<-0.5

z.0<-z

FACYT-MATEMÁTICAS

Page 183: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

183 CAPÍTULO 7: Métodos de Aproximación y Simulación.

Figura 7.8: Grá�co obtenido por el algoritmo en R 7.5.

theta.0<-theta

for(j in 1:n){

theta<-rbeta(1,z+xa[5]+1,xa[3]+xa[4]+1)

prob<-theta/(theta+2)

z<-rbinom(1,xa[1],prob)

theta.0<-c(theta.0,theta)

z.0<-c(z.0,z)

}

cbind(theta.0,z.0)

}

salida3<-MG3(n,xa)

par(mfrow=c(2,2))

plot(salida3,col=1:197)

plot(salida3,type="l")

UNIVERSIDAD DE CARABOBO

Page 184: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

SECCIÓN 7.8: Muestreador de Gibbs. 184

Figura 7.9: Grá�cos arrojados por el algoritmo en R 7.5.

plot(ts(salida3[,1]))

plot(ts(salida3[,2]))

par(mfrow=c(2,2))

hist(salida3[,1],50)

hist(salida3[,2],50)

plot(density(salida3[,1],50))

plot(density(salida3[,2],50))

# Convergencia

par(mfrow=c(2,1))

acumulado0<-cumsum(salida3[,1])/c(1:3001)

plot(acumulado0,type="l")

acumulado00<-cumsum(salida3[,2])/c(1:3001)

plot(acumulado00,type="l")

FACYT-MATEMÁTICAS

Page 185: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

185 CAPÍTULO 7: Métodos de Aproximación y Simulación.

Figura 7.10: Grá�co obtenido por el algoritmo en R 7.5.

Ejemplo 7.10. Sea y1, . . . , yn una muestra de distribución Poisson. Existe lasuposición de un cambio de punto m a lo largo del proceso de observación, dondeel cambio se da en m = 1, . . . , n. Dado el m, se tiene que:

yi|λ ∼ Poisson(λ), i = 1, . . . ,m

yi|φ ∼ Poisson(φ), i = m+ 1, . . . , n

λ ∼ Gamma(α, β)

φ ∼ Gamma(γ, δ)

m ∼ U{1, . . . , n}donde α, β, γ y δ son conocidos.

a. Escriba la distribución a posteriori: Π

(λ, φ,m|y˜

)b. Obtenga las full condicionales siguientes:

• Π

(λ|φ, y˜,m

)UNIVERSIDAD DE CARABOBO

Page 186: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

SECCIÓN 7.8: Muestreador de Gibbs. 186

Figura 7.11: Grá�cos arrojados por el algoritmo en R 7.6.

• Π

(φ|λ, y˜,m

)• Π

(m|λ, φ, y˜

)Solución: (Ejercicio).

Algoritmo en R 7.7. El problema de cambio de punto:

y<-c(4,5,4,0,1,4,3,4,0,6,3,3,4,0,2,6,

3,3,5,4,5,3,1,4,4,1,5,5,3,4,2,5,

2,2,3,4,2,1,3,2,2,1,1,1,1,3,0,0,

1,0,1,1,0,0,3,1,0,3,2,2,0,1,1,1,

0,1,0,1,0,0,0,2,1,0,0,0,1,1,0,2,

3,3,1,1,2,1,1,1,1,2,4,2,0,0,1,4,

0,0,0,1,0,0,0,0,0,1,0,0,1,0,1,0)

ano<-c(1851:1962)

n<-3000

gibbs1<-function(n,y,ano){

FACYT-MATEMÁTICAS

Page 187: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

187 CAPÍTULO 7: Métodos de Aproximación y Simulación.

Figura 7.12: Grá�cos arrojados por el algoritmo en R 7.6.

th<-0.05

la<-0.08

b1<-0.2

b2<-0.6

k<-1

a1<-0.5

a2<-0.5

c1<-0

c2<-0

d1<-1

d2<-1

nn<-length(y)

v<-NULL

th.0<-NULL

la.0<-NULL

k.0<-NULL

b1.0<-NULL

UNIVERSIDAD DE CARABOBO

Page 188: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

SECCIÓN 7.8: Muestreador de Gibbs. 188

Figura 7.13: Grá�co obtenido por el algoritmo en R 7.6.

b2.0<-NULL

for(i in 1:n){

alfa1<-a1+cumsum(y)[k]

beta1<-k+b1

alfa2<-a2+sum(y)-cumsum(y)[k]

beta2<-nn-k+b2

th<-rgamma(1,alfa1,beta1)

la<-rgamma(1,alfa2,beta2)

b1<-rgamma(1,a1+c1,th+d1)

b2<-rgamma(1,a2+c2,la+d2)

for(j in 1:nn){

v[j]<-exp((la-th)*j)*(th/la)^(cumsum(y)[j])

}

FACYT-MATEMÁTICAS

Page 189: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

189 CAPÍTULO 7: Métodos de Aproximación y Simulación.

k<-sample(1:nn,size=1, prob = v)

th.0<-c(th.0,th)

la.0<-c(la.0,la)

k.0<-c(k.0,k)

b1.0<-c(b1.0,b1)

b2.0<-c(b2.0,b2)

}

cbind(th.0,la.0,k.0,b1.0,b2.0)

}

salida1<-gibbs1(n,y)

n<-3000

summary(salida1)

par(mfrow=c(3,1))

plot(ano,y, xlab="Años",ylab="Número de desastres")

hist(salida1[,1],main="Histograma de los datos simuldos de Teta")

hist(salida1[,2], main="Histograma de los datos de lamda")

par(mfrow=c(3,1))

hist(salida1[,3], main="Histograma de los datos de k")

hist(salida1[,4], main="Histograma de los datos de b1")

hist(salida1[,5], main="Histograma de los datos de b2")

par(mfrow=c(3,1))

plot(density(salida1[,1]))

plot(density(salida1[,2]))

plot(density(salida1[,3]))

par(mfrow=c(3,1))

plot(density(salida1[,4]))

plot(density(salida1[,5]))

plot(density(salida1[,3]),type="l",main="Datos simuldos de k")

par(mfrow=c(3,1))

plot(salida1[,1],type="l",main="Traza de los datos simuldos de Teta")

plot(salida1[,2],type="l", main="Traza de los datos de lamda")

plot(salida1[,3],type="l", main="Traza de los datos de k")

par(mfrow=c(2,1))

plot(salida1[,4],type="l", main="Traza de los datos de b1")

plot(salida1[,5],type="l", main="Traza de los datos de b2")

par(mfrow=c(3,1))

acumulado1<-cumsum(salida1[,1])/c(1:3000)

plot(acumulado1,type="l",main="Convergencia de Teta")

acumulado2<-cumsum(salida1[,2])/c(1:3000)

plot(acumulado2,type="l",main="Convergencia de lamda")

acumulado3<-cumsum(salida1[,3])/c(1:3000)

UNIVERSIDAD DE CARABOBO

Page 190: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

SECCIÓN 7.9: Algoritmo Metropolis-Hastings 190

plot(acumulado3,type="l",main="Convergencia de k")

par(mfrow=c(2,1))

acumulado4<-cumsum(salida1[,4])/c(1:3000)

plot(acumulado4,type="l",main="Convergencia de b1")

acumulado5<-cumsum(salida1[,5])/c(1:3000)

plot(acumulado5,type="l",main="Convergencia de b2")

Figura 7.14: Grá�cos arrojados por el algoritmo en R 7.7.

7.9. Algoritmo Metropolis-Hastings

En un algoritmo MCMC general, supóngase que el valor actual de la cadena es:θ

(j)1 , . . . , θ

(j)d y que ahora se desea simular θ(j+1)

1 . Para ello se hace lo siguiente:

1. Se propone un valor candidato θcan1 , el cual es generado de una distribución

FACYT-MATEMÁTICAS

Page 191: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

191 CAPÍTULO 7: Métodos de Aproximación y Simulación.

Figura 7.15: Grá�cos arrojados por el algoritmo en R 7.7.

arbitraria con densidad:

q(θcan1

∣∣∣ θ(j)1 , θ

(j)2 , . . . , θ

(j)d

)2. Se toma como el próximo valor de θ1 en la cadena a:

θ(j+1)1 =

{θcan1 con probabilidad pθ

(j)1 con probabilidad 1− p

donde:

p = mın

1,Π(θcan1

∣∣ θ(j)2 , . . . , θ

(j)d

)q(θ

(j)1 |θcan1 , θ

(j)2 , . . . , θ

(j)d

)Π(θ

(j)1 |θ

(j)2 , . . . , θ

(j)d

)q(θcan1

∣∣ θ(j)1 , θ

(j)2 , . . . , θ

(j)d

)

UNIVERSIDAD DE CARABOBO

Page 192: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

SECCIÓN 7.9: Algoritmo Metropolis-Hastings 192

Figura 7.16: Grá�co obtenido por el algoritmo en R 7.7.

y Π(θcan1

∣∣ θ(j)2 , . . . , θ

(j)d

)es la densidad a posteriori condicional de θ1 en

θ1 = θcan1 y similarmente para Π(θ

(j)1 |θ

(j)2 , . . . , θ

(j)d

).

Algunos Comentarios sobre el Algoritmo Metropolis-Hastings.

Para implementar el paso 2 del algoritmo Metropolis-Hastings, se toma un valoru ∼ U(0, 1) y θ(j+1)

1 = θcan1 , si u < p y θ(j+1)1 = θ

(j)1 en otro caso.

El generador candidato q(θ

(can)1

∣∣∣ θ(j)1 , θ

(j)2 , . . . , θ

(j)d

)es arbitrario.

El algoritmo Metropolis-Hastings tiene mayor ventaja que el muestreador deGibbs, ya que no se requiere conocer de todas las distribuciones a posterioricondicionales completas. Solamente se necesita conocer de las condicionaleshasta una constante de proporcionalidad.

FACYT-MATEMÁTICAS

Page 193: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

193 CAPÍTULO 7: Métodos de Aproximación y Simulación.

Figura 7.17: Grá�co obtenido por el algoritmo en R 7.7.

El muestreador de Gibbs es un caso especial del algoritmo Metropolis-Hastings,donde el generador candidato es:

q(θcan1

∣∣∣ θ(j)1 , θ

(j)2 , . . . , θ

(j)d

)= Π

(θcan1

∣∣∣ θ(j)2 , . . . , θ

(j)d

)

Casos Particulares del Algoritmo Metropolis-Hastings.

1. Caminata aleatoria (algoritmo Metropolis con incrementos normales):

Sea q(θcan1

∣∣ θ(j)1 , θ

(j)2 , . . . , θ

(j)d

)la densidad de una normal N

(j)1 , v

). La

simetría del generador candidato signi�ca que los términos que involucran

a q(θcan1

∣∣ θ(j)1 , θ

(j)2 , . . . , θ

(j)d

)se cancelan en la fórmula de la probabilidad de

UNIVERSIDAD DE CARABOBO

Page 194: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

SECCIÓN 7.9: Algoritmo Metropolis-Hastings 194

Figura 7.18: Grá�cos arrojados por el algoritmo en R 7.7.

aceptación, es decir:

p = mın

1,Π(θcan1

∣∣ θ(j)2 , . . . , θ

(j)d

)Π(θ

(j)1 |θ

(j)2 , . . . , θ

(j)d

)

La varianza del generador candidato v juega un rol importante en las propiedadesde mezcla del algoritmo. Si v es grande entonces la propuesta de moverse esdemasiado acentuado, así que la probabilidad de aceptación es baja. Si v espequeña entonces la probabilidad de aceptación es alta pero se mueve en pocospasos. Típicamente v se escoge por ensayo y error, exigiendo una probabilidadde aceptación alrededor del 30 %.

FACYT-MATEMÁTICAS

Page 195: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

195 CAPÍTULO 7: Métodos de Aproximación y Simulación.

Figura 7.19: Grá�co obtenido por el algoritmo en R 7.7.

2. Para obtener θ(j+1)2 se propone un candidato θcan2 de:

q(θcan2

∣∣∣ θ(j+1)1 , θ

(j)2 , . . . , θ

(j)d

)y se acepta θ(j+1)

2 con probabilidad:

p = mın

1,Π(θcan2

∣∣ θ(j+1)1 , θ

(j)3 , . . . , θ

(j)d

)q(θ

(j)2 |θ

(j+1)1 , θcan2 , . . . , θ

(j)d

)Π(θ

(j)2 |θ

(j+1)1 , θ

(j)3 , . . . , θ

(j)d

)q(θcan2

∣∣ θ(j+1)1 , θ

(j)2 , . . . , θ

(j)d

)

Si θcan2 es rechazado entonces se hace θ(j+1)2 = θ

(j)2 .

Ejemplo 7.11. El ejemplo 7.3 del vínculo genético, toma en cuenta 197 animales.Los animales se distribuyen en 4 categorías dadas por:

y = (y1, y2, y3, y4) = (125, 18, 20, 34)

UNIVERSIDAD DE CARABOBO

Page 196: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

SECCIÓN 7.9: Algoritmo Metropolis-Hastings 196

Figura 7.20: Grá�cos arrojados por el algoritmo en R 7.7.

con probabilidades:

(2 + θ

4,1

4(1− θ), 1

4(1− θ), θ

4

), 0 ≤ θ ≤ 1

Considérese que θ ∼ U(0, 1), entonces la distribución a posteriori viene dada por(demostrarla):

Π(θ|y) ∝ f(y|θ)P (θ) ∝ (2 + θ)y1(1− θ)y2+y3θy4Iθ(0, 1)

Solución:Como generador candidato se puede tomar a θcan ∼ U(0, 1) y la probabilidad de

FACYT-MATEMÁTICAS

Page 197: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

197 CAPÍTULO 7: Métodos de Aproximación y Simulación.

Figura 7.21: Grá�co obtenido por el algoritmo en R 7.7.

aceptación p es la siguiente:

p = mın

{1,

Π(θcan|y)

Π(θ|y)

}= mın

{1,

(2 + θcan

2 + θ

)y1 (1− θcan

1− θ

)y2+y3 (θcanθ

)y4}Algoritmo 7.12. (Metropolis-Hastings)

Paso [1] Se comienza la cadena en algún valor θ(0).Paso [2] Se propone un valor candidato θcan ∼ U(0, 1). Se toma como el nuevo valorde la cadena a:

θ(1) =

{θcan con probabilidad pθ(0) con probabilidad 1− p

UNIVERSIDAD DE CARABOBO

Page 198: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

SECCIÓN 7.9: Algoritmo Metropolis-Hastings 198

donde:

p = mın

{1,

(2 + θcan

2 + θ(0)

)y1 (1− θcan

1− θ(0)

)y2+y3 (θcanθ(0)

)y4}

Este último se lleva a cabo por el muestreo de u ∼ U(0, 1), y tomando θ(1) = θcan siy sólo si u < p.Paso [3] Se itera este procedimiento hasta alcanzar la convergencia de los parámetros.

Ejemplo 7.12. Supóngase que yi|µ,w ∼ Cauchy (µ, 1/w) son variables aleatorias,independientes e idénticamente distribuidas, donde i = 1, . . . , n, con función dedensidad de probablidad dada por:

f(y|µ,w) =n∏i=1

f(yi|µ,w) =n∏i=1

w1/2

π[1 + w(yi − µ)2]

Supóngase que µ ∼ N (µ0, 1/k0) y w ∼ Gamma(α0, λ0), donde µ y w sonindependientes a priori y µ0, k0, α0 y λ0 son hiperparámetros conocidos.

Solución:

Π(µ,w|y) ∝ f(y|µ,w)P (µ,w)

{n∏i=1

1

1 + w(yi − µ)2

}wn/2+α0−1 exp

{−k0

2(µ− µ0)2 − λ0w

}I{w>0}

Las condicionales completas son las siguientes:

Π(µ|w, y) ∝n∏i=1

1

1 + w(yi − µ)2exp

{−k0

2(µ− µ0)2

}Π(w|µ, y) ∝

n∏i=1

1

1 + w(yi − µ)2wn/2+α0−1 exp{−λ0w}I{w>0}

Ninguna de estas distribuciones tiene una forma conocida, por lo que el muestreadorde Gibbs no se puede implementar, se requiere usar algoritmos MCMC más generales.De esta forma, se procede a utilizar el algoritmo Metrópolis-Hastings:

Algoritmo 7.13.

Paso [1] Se escogen valores iniciales(µ(0), w(0)

).

Paso [2] Dado que la cadena se encuentra actualmente en(µ(j), w(j)

):

FACYT-MATEMÁTICAS

Page 199: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

199 CAPÍTULO 7: Métodos de Aproximación y Simulación.

Se toma µcan ∼ N(µ(j),Σµ

)y se hace:

µ(j+1) =

{µcan con probabilidad pµ(j) con probabilidad 1− p

donde:

p = mın

{1,

Π(µcan|w(j), y

)q(µ(j)|µcan

)Π (µ(j)|w(j), y) q (µcan|µ(j))

}

= mın

{1, exp

{k0

2

[(µ(j) − µ0

)2 − (µcan − µ0)2]} n∏

i=1

[1 + w(j)

(yi − µ(j)

)2

1 + w(j) (yi − µcan)2

]}

Este paso es llevado a cabo generando u ∼ U(0, 1) y tomando µ(j+1) = µcan siy sólo si u < p.

Se simula wcan ∼ N(w(j),Σw

)y se hace:

w(j+1) =

{wcan con probabilidad pw(j) con probabilidad 1− p

donde:

p = mın

{1,

[wcan

w(j)

]n/2+α0−1

exp{λ0

[w(j) − wcan

]} n∏i=1

[1 + w(j)

(yi − µ(j+1)

)2

1 + wcan (yi − µ(j+1))2

]}

Para llevar a cabo este paso, se simula u ∼ U(0, 1) y se hace w(j+1) = wcan si ysólo si u < p.

Nota 7.1. Se acepta wcan > 0 si wcan < 0, entonces p = 0 y w(j+1) = w(j).

Paso [3] Se itera el paso [2] un número grande de veces. Se descarta un númeroinicial de muestras y en base al resto de las muestras se hace inferencia.

Algoritmo en R 7.8. Muestreo de una normal estándar usando Metropolis-Hastings:

# Simulación de una normal con media 0 y varianza 1, usando el

# algoritmo Metropolis-Hastings. La cadena es inicializada en 0

# y en cada paso se innova utilizando U(-alpha,alpha) como

# distribución propuesta.

norm<-function(n,alpha){

vec<-vector("numeric",n)

x<-0

UNIVERSIDAD DE CARABOBO

Page 200: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

SECCIÓN 7.9: Algoritmo Metropolis-Hastings 200

vec[1]<-x

for (i in 2:n){

innov<-runif(1,-alpha,alpha)

can<-x+innov

aprob<-min(1,dnorm(can)/dnorm(x))

u<-runif(1)

if (u<aprob)

x<-can

vec[i]<-x

}

vec

}

normvec<-norm(10000,10)

par(mfrow=c(3,1))

plot(ts(normvec))

hist(normvec,30)

plot(density(normvec))

Algoritmo en R 7.9. Datos del ejemplo del vínculo genético usando Metropolis-Hastings:

y<-c(143,18,18,20,34)

n<-10000

MetroHast<-function(n,y){

pi.theta<-function(theta,y){

(2+theta)^{y[1]}*(1-theta)^{y[2]+y[3]}*theta^{y[4]}

}

theta<-0.2

theta.0<-theta

for(j in 1:n){

yy<-runif(1,0,1)

alfha<-min(1,pi.theta(yy,y)/pi.theta(theta,y))

u<-runif(1,0,1)

if(u<alfha)

theta<-yy

theta.0<-c(theta.0,theta)

}

theta.0

}

resuMH<-MetroHast(n,y)

summary(resuMH)

FACYT-MATEMÁTICAS

Page 201: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

201 CAPÍTULO 7: Métodos de Aproximación y Simulación.

Figura 7.22: Grá�cos arrojados por el algoritmo en R 7.8.

par(mfrow=c(3,1))

plot(resuMH,type="l",main="resuMH")

hist(resuMH,main="Datos simulados de Teta")

plot(density(resuMH),type="l",main="Densidad a posteiori de Teta")

acumulado1<-cumsum(salida1[,1])/c(1:10000)

par(mfrow=c(2,1))

plot(acumulado1,type="l",main="Convergencia de Teta")

##########################################################

g<-function(x,omega,n){

for(i in 1:n){

mu=rnorm(n,sum(x*omega)/sum(omega+0.05),sqrt(1/(0.05+2*sum(omega))))

omega<-rexp(n,1+(x-mu)^2)

UNIVERSIDAD DE CARABOBO

Page 202: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

SECCIÓN 7.9: Algoritmo Metropolis-Hastings 202

mat=cbind(mu,omega)

}

mat

}

result=g(1,2,10)

plot(result[,1])

Figura 7.23: Grá�co obtenido por el algoritmo en R 7.9.

Consideraciones acerca del MCMC

1. La evaluación de la convergencia de los algoritmos es importante, pero puedeser problemático en situaciones de altas dimensiones.

2. Se debe ejecutar la cadena varias veces con diferentes valores y comprobar quela salida de las distintas cadenas es muy similar.

FACYT-MATEMÁTICAS

Page 203: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

203 CAPÍTULO 7: Métodos de Aproximación y Simulación.

Figura 7.24: Grá�cos arrojados por el algoritmo en R 7.9.

3. Se deben ejecutar cadenas largas durante grandes periodos de tiempo.

4. Sea extremadamente cuidadoso si usa previas impropias.

5. Si utiliza previas impropias siempre se debe chequear que la distribucióna posteriori conjunta es propia, de lo contrario no se puede con�ar en losresultados obtenidos.

6. Este último problema no se presenta si se usan previas propias.

UNIVERSIDAD DE CARABOBO

Page 204: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

SECCIÓN 7.10: Práctica de Ejercicios del Capítulo 7 204

7.10. Práctica de Ejercicios del Capítulo 7

1. Considere el algoritmo EM con una secuencia de valores iterados θ(j), dondej ≥ 1. Demuestre que la secuencia satisface lo siguiente:

l(θ(j)|x

)= logL

(θ(j)|x

)≤ l(θ(j+1)|x

)= logL

(θ(j+1)|x

)y entonces es monótonamente creciente en la verosimilitud L(θ|x).

2. Use el método simple de Monte Carlo para evaluar∫∞−∞ e

−x2/2dx y compare

esto con la respuesta conocida√

2π. Además, evalúe la varianza del estimador.Ayuda: haga una transformación que tome la recta en el intervalo [0, 1] yentonces proceda como antes.

3. Demuestre que si una integral I =∫g(x)p(x)dx es estimada por un muestreo

importante, entonces su estimador:

I =1

n

n∑i=1

g(xi)w(xi)

donde:

w(xi) =p(xi)

h(xi)

y

xi ∼ h(x), i = 1, . . . , n,

es insesgado y tiene varianza dada por:

V ar(I)

= (1/n)

∫(g(x)w(x)− I)2h(x)dx

4. Sea θ = P (X > 2), donde X tiene una distribución estándar Cauchy condensidad:

P (x) =1

π (1 + x2), x ∈ R

Sea h una densidad de muestreo importante de�nida por:

h(x) = 2Ix[(2,∞)]/x2

Demuestre que el uso de esta densidad de muestreo reduce la varianza delestimador de θ sobre el estimador simple de Monte Carlo.

FACYT-MATEMÁTICAS

Page 205: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

205 CAPÍTULO 7: Métodos de Aproximación y Simulación.

5. Sea X1, . . . ,Xn una muestra aleatoria de distribución Poisson, cuya mediapuede ser θ ó φ. La media es θ hasta un punto desconocido m desde dondese convierte en φ.

(a) Obtenga la verosimilitud del parámetro desconocido θ, φ y m.

(b) Sugiera una familia razonable de distribuciones a priori conjugadas paraθ, φ y m. Ayuda: Para simpli�car, asuma a prioris independientes paraθ, φ y m.

(c) Obtenga las distribuciones full condicionales requeridas para la imple-mentación del muestreador de Gibbs.

(d) Genere datos (X1, . . . ,Xn) para valores dados de θ, φ y m, y aplique elmuestreador de Gibbs para hacer inferencia acerca de ellos.

6. Encuentre el valor de∫ 1

0sen(πx)dx por el método de integración Monte Carlo

usando una muestra de tamaño n = 10 valores de una distribución U(0, 1)tomada de una tabla de números aleatorios. Repita el experimento 10 veces ycalcule la media total y la desviación estándar de los valores que se obtengan.¾Cuál es el valor teórico de la desviación estándar de la población y cómo elvalor obtenido se compara con éste?

7. Un ejemplo sobre el vínculo genético del cual se tiene observaciones x =(x1, x2, x3, x4) con probabilidades:(

1

4+

1

4η,

1

4(1− η),

1

4(1− η) +

1

4

)Los valores citados son x1 = 461, x2 = 130, x3 = 161 y x4 = 515. Separe x1 eny0, y y1 y x4 en y4, y y5 para producir datos aumentados y = (y0, y1, y2, y3, y4, y5)y use el algoritmo EM para estimar η.

8. Identi�que las full condicionales de la densidad bivariada:

π(x, y) ∝ x2 exp{−xy2 − y2 + 2y − 4x

}, x > 0, y ∈ R

y úselos para construir un muestreador de Gibbs que tenga esta distribuciónestacionaria.

9. Sea X una variable aleatoria con la siguiente función de densidad deprobabilidad:

f(x) =

{sen(x) si 0 ≤ x ≤ π/2

0 en otro caso

(a) Construya un muestreador Metropolis-Hastings basado en una U(0, π/2).

UNIVERSIDAD DE CARABOBO

Page 206: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

SECCIÓN 7.10: Práctica de Ejercicios del Capítulo 7 206

(b) Si la cadena está actualmente en θ, ¾cuál es la probabilidad de que lacadena se moverá (incondicional sobre el valor propuesto)?

10. Suponga que en una cadena de Markov con sólo dos estados, las probabilidadesde ir del estado i al estado j en una unidad de tiempo están dadas por lasentradas de la siguiente matriz:

A =

(1/3 2/31/2 1/2

)en el cual i representa la �la y j la columna. Demuestre que la probabilidadde ir del estado i al estado j en t unidades de tiempo está dada por la t-ésimapotencia de la matriz A y que:

At =

(3/7 4/73/7 4/7

)+

(−1

6

)t(4/7 −4/7−3/7 3/7

)Deduzca que independientemente del estado de donde comience la cadena,después de un largo tiempo estará en el primer estado con probabilidad 3/7y en el segundo estado con probabilidad 4/7.

11. Suponga lo siguiente:

µ0, c0, v0, a0, b0, θ0, τ0 ∼ U(0, 1)

Un ingeniero civil está interesado en determinar si 4 métodos diferentes paraestimar la frecuencia de inundaciones producen estimaciones equivalentes delgasto máximo cuando se aplica a una misma cuenca.

Datos de gasto máximoMétodos de estimación Observaciones

1 0.34 0.12 1.23 0.70 1.75 0.122 0.91 2.94 2.14 2.36 2.86 4.553 6.31 8.37 9.75 6.09 9.82 7.244 17.15 11.82 10.95 17.20 14.35 16.82

donde i = 1, 2, 3, 4, j = 1, 2, 3, 4, 5, 6. Estimar la media y la varianza a posterioride µ, τ, v y θi.

FACYT-MATEMÁTICAS

Page 207: INTRODUCCIÓN A LA INFERENCIA BAYESIANA - Inicio · Universidad de Carabobo aculFtad Experimental de Ciencias y ecnologíaT Departamento de Matemáticas INTRODUCCIÓN A LA INFERENCIA

Bibliografía

[1] J. M Bernardo and A. F. M. Smith. Bayes Theory. 1999.

[2] G. Box and G. Tiao. Bayesian Inference in Statistical Analysis. 1992.

[3] G. E. P. Box and M. E. Muller. A note on the generation of random normaldeviates. The Annals of Mathematical Statistics, 29:610�611, 1958.

[4] B. Carlin and T. Louis. Bayes and Empirical Bayes Methods for Data Analysis.Chapman and Hall, 1996.

[5] R. Christian and C. George. Markov Chain Monte Carlo Methods. 1999.

[6] P. Congdon. Bayesian Statistical Modelling. John Wiley Sons, New York, 2001.

[7] M. H. DeGroot. Probability and Statistics. Addison-Wesley, 2 edition, 1986.

[8] D. Gamerman. Markov Chain Monte Carlo Stochastic for Bayesian Inference.Chapman and Hall, 1997.

[9] P. M. Lee. Bayesian Statistics: An Introduction. Arnold, London, 3 edition,2004.

[10] H. S. Migon and D. Gamerman. Statistical Inference: An Integrated Aproach.Wiley, New York, 2 edition, 1973.

[11] C. R. Rao. Linear Statistical Inference. Wiley, New York, 2 edition, 1973.

[12] J. Carlin H. Stern, A. Gelman and D. Rubin. Bayesian Data Analysis. Chapmanand Hall, 2 edition, 2003.

[13] M. Tanner. Tools for Statistical Inference. 1993.

207