inferencia bayesiana - ulpgcnunez/mastertecnologiastelecomunicac... · 2011-03-08 · 2.1....

29
Cap´ ıtulo 2 Inferencia bayesiana Desarrollaremos a continuaci´ on las t´ ecnicas explicadas en el cap´ ıtulo anterior referentes a la estimaci´on bayesiana para los modelos pr´acticos m´as habituales. 2.1. An´ alisis bayesiano para datos binarios En esta secci´on desarrollaremos los rudimentos para el aprendizaje sobre pro- porciones. En nuestra pr´actica diaria la utilizaci´on de proporciones o porcentajes para clasificar en grupos una poblaci´on cualquiera es muy habitual. B´asicamente, una poblaci´on es una colecci´on de personas o unidades que son objeto de nues- tra inferencia y supondremos que dicha poblaci´on est´a dividida en dos grupos que podemos referenciar como “´ exitos” y “fallos”. La proporci´on de ´ exitos, que denotaremos por φ, es nuestro par´ametro de inter´ es, pero obviamente la propor- ci´ on de fracasos se deduce autom´aticamente. Para aprender sobre el valor de esta proporci´on, tomaremos datos. Se toma una muestra aleatoria de n individuos y supongamos que s ´ exitos y f fallos aparecen en dicha muestra. Una manera inmediata (y que coincide con la estimaci´on cl´asica) de inferir la tasa de ´ exitos es considerar el cociente s n . Como veremos posteriormente, es- ta manera de proceder presenta serios inconvenientes en algunas situaciones. En el an´alisis bayesiano, una vez observados los datos, toda la informaci´on sobre la proporci´on est´a contenida en su distribuci´on a posteriori. Esta distribuci´on a pos- teriori puede resumirse de varias maneras. Uno puede estar interesado en un valor particular de φ que tenga una probabilidad alta bajo la distribuci´on a posteriori, o su valor medio, o mediano o cualquier otra expresi´on bajo alg´ un criterio de elec- ci´ on. Un segundo tipo de inferencia consiste en estimar φ mediante un intervalo que tenga una alta probabilidad de contenerlo y finalmente, tambi´ en podremos estar interesados en obtener las probabilidades a posteriori que ciertas conjeturas sobre el par´ametro se hagan. Adicionalmente, uno tambi´ en puede estar interesa- 45

Upload: others

Post on 03-Jan-2020

3 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Inferencia bayesiana - ULPGCnunez/mastertecnologiastelecomunicac... · 2011-03-08 · 2.1. An¶alisis bayesiano para datos binarios 47 sobre el par¶ametro de inter¶es, `: Los m¶etodos

Capıtulo 2

Inferencia bayesiana

Desarrollaremos a continuacion las tecnicas explicadas en el capıtulo anteriorreferentes a la estimacion bayesiana para los modelos practicos mas habituales.

2.1. Analisis bayesiano para datos binarios

En esta seccion desarrollaremos los rudimentos para el aprendizaje sobre pro-porciones. En nuestra practica diaria la utilizacion de proporciones o porcentajespara clasificar en grupos una poblacion cualquiera es muy habitual. Basicamente,una poblacion es una coleccion de personas o unidades que son objeto de nues-tra inferencia y supondremos que dicha poblacion esta dividida en dos gruposque podemos referenciar como “exitos” y “fallos”. La proporcion de exitos, quedenotaremos por φ, es nuestro parametro de interes, pero obviamente la propor-cion de fracasos se deduce automaticamente. Para aprender sobre el valor de estaproporcion, tomaremos datos. Se toma una muestra aleatoria de n individuos ysupongamos que s exitos y f fallos aparecen en dicha muestra.

Una manera inmediata (y que coincide con la estimacion clasica) de inferirla tasa de exitos es considerar el cociente

s

n. Como veremos posteriormente, es-

ta manera de proceder presenta serios inconvenientes en algunas situaciones. Enel analisis bayesiano, una vez observados los datos, toda la informacion sobre laproporcion esta contenida en su distribucion a posteriori. Esta distribucion a pos-teriori puede resumirse de varias maneras. Uno puede estar interesado en un valorparticular de φ que tenga una probabilidad alta bajo la distribucion a posteriori,o su valor medio, o mediano o cualquier otra expresion bajo algun criterio de elec-cion. Un segundo tipo de inferencia consiste en estimar φ mediante un intervaloque tenga una alta probabilidad de contenerlo y finalmente, tambien podremosestar interesados en obtener las probabilidades a posteriori que ciertas conjeturassobre el parametro se hagan. Adicionalmente, uno tambien puede estar interesa-

45

Page 2: Inferencia bayesiana - ULPGCnunez/mastertecnologiastelecomunicac... · 2011-03-08 · 2.1. An¶alisis bayesiano para datos binarios 47 sobre el par¶ametro de inter¶es, `: Los m¶etodos

46 Inferencia bayesiana

do en aprender sobre futuras observaciones. Supongamos que tomamos una nuevamuestra aleatoria, ¿cual serıa la probabilidad de que en esta nueva muestra hubieset exitos y u fallos? Este planteamiento corresponde a un problema de predicciontıpico del analisis bayesiano.

Introducimos ahora un poco de formulacion matematica. En general, considera-mos el caso en el que el parametro de interes es la probabilidad φ de un determinadosuceso que se repite un numero determinado de veces y cuyo resultado en cadaprueba puede ser exito {1} o fracaso {0}. Las pruebas se consideran independientesunas de otras, teniendo todas la misma probabilidad de exito. Supongamos queexiste un numero n de pruebas, de esta forma tendremos una observacion x querecoge el numero de exitos. Matematicamente se dice que la variable X que mideel numero de exitos en n realizaciones del experimento se distribuye segun unadistribucion Binomial de parametros n y φ, que denotaremos por X ∼ B(n, φ).

La variable X por tanto puede tomar los valores 0, 1, ..., n. Por tanto, la expre-sion que define su verosimilitud (es decir, la informacion de los datos observados)puede expresarse como:

Pr(X = x|φ) =(

n

x

)φx(1− φ)n−x =

n!x!(n− x)!

φx(1− φ)n−x, x = 0, 1, . . . , n

(2.1)donde n! (se lee n factorial) vale n! = n× (n− 1)× ...× 3× 2× 1 y adoptaremosque 0! = 1. Esta distribucion es muy usual en la practica actuarial y ya ha sidoestudiada en profundidad en el capıtulo 6, seccion 6.4. Varias de sus medidasdescriptivas de interes son su valor medio y su varianza. En concreto, la media yla varianza de esta distribucion son:

E[X] = nφ

V [X] = nφ(1− φ)

Ademas, tambien puede probarse que su valor modal (es decir su valor masfrecuente) es:

Moda[X] = (n + 1)φ

Observemos que en nuestro planteamiento el dato x ya habra sido observadoy por tanto nuestro interes se centra en conocer la tasa de exitos. Es decir, de laexpresion anterior nos interesa solo la parte que afecta al parametro y por tantopodemos escribir la verosimilitud utilizando la notacion de proporcionalidad como:

L(x|φ) ∝ φx(1− φ)n−x

Por abuso de la notacion y puesto que la verosimilitud nos interesa como fun-cion del parametro, en ocasiones escribiremos L(φ) para referirnos a ella. En eldesarrollo de los metodos bayesianos para responder a los problemas de este tiposobre proporciones, hay dos maneras basicas de construir el conocimiento a priori

Page 3: Inferencia bayesiana - ULPGCnunez/mastertecnologiastelecomunicac... · 2011-03-08 · 2.1. An¶alisis bayesiano para datos binarios 47 sobre el par¶ametro de inter¶es, `: Los m¶etodos

2.1. Analisis bayesiano para datos binarios 47

sobre el parametro de interes, φ. Los metodos discretos en los que se considera queφ solo puede tomar un posible valor de un conjunto finito de valores o los modeloscontinuos en los que se considera a φ valorada de manera continua en el intervalo(0, 1). En cualquiera de ellos, la informacion a priori debe reflejar la plausibilidadque cada uno de los valores del parametro tiene para el experto.

2.1.1. Datos binarios en el caso discreto

En esta seccion ilustraremos el aprendizaje sobre proporciones en el caso enque el parametro venga expresado de forma discreta, es decir, tome un conjuntofinito de valores. Mediante un ejemplo concreto entenderemos bien todo el proceso.

Ejemplo 2.1 Una empresa aseguradora desea estimar el porcentaje de morosidaden una determinada cartera de gran dimension que tiene emitidas 10000 polizas.El investigador encargado, teniendo en cuenta toda la informacion disponible ysu conocimiento sobre el funcionamiento interno de la empresa, considera quepuede evaluar la morosidad mediante la siguiente distribucion (a priori o inicial)de probabilidad asignada a cada porcentaje de morosidad susceptibles de ocurrir(basicamente estos coinciden con los habidos hasta la fecha y cualquier otro queconsidere oportuno el investigador), tal y como se indica en la tabla 2.1:

Tabla 2.1: Porcentajes de morosidad y probabilidades a priori

Porcentajes Probabilidadesde morosidad (a priori)

0.01 0.120.02 0.300.03 0.280.04 0.150.05 0.120.06 0.020.10 0.01

El investigador se plantea si en el momento actual puede admitir la mismaevaluacion o modificarla, y decide obtener una muestra aleatoria de 5 polizas entrelos que encuentra m morosos. Estudiar como se procederıa para aprender sobre elporcentaje de morosidad de la entidad cuando se observaron m = 0 y m = 1,respectivamente.

Solucion: Veamos como debemos proceder para aprender sobre el porcentaje demorosidad. En primer lugar, la tabla anterior muestra la opinion actual del inves-tigador sobre el sistema que esta inspeccionando. De ella se observa que para el lo

Page 4: Inferencia bayesiana - ULPGCnunez/mastertecnologiastelecomunicac... · 2011-03-08 · 2.1. An¶alisis bayesiano para datos binarios 47 sobre el par¶ametro de inter¶es, `: Los m¶etodos

48 Inferencia bayesiana

Tabla 2.2: Calculo de las verosimilitudes

Porcentajes Probabilidades Verosimilitudde morosidad (a priori) [φm(1− φ)n−m]

0.01 0.12 0.9510.02 0.30 0.9040.03 0.28 0.8590.04 0.15 0.8150.05 0.12 0.7740.06 0.02 0.7340.10 0.01 0.590

mas frecuente es que el porcentaje de morosidad sea del 2%(0,02) (corresponde conla mayor probabilidad a priori) y que en termino medio el porcentaje de morosidades de 0,01×0,12+ ...+0,10×0,01 = 0,0298, es decir, del 2,98 ≈ 3%. Habitualmen-te para asignar estas probabilidades (a priori) el experto puede tomar dos valoresde referencia (mas y menos probable, por ejemplo) y a continuacion asignar cadauna de las probabilidades al resto de los valores mediante comparacion con estosvalores de referencia.

Ahora necesitamos obtener la plausibilidad que cada uno de los datos obser-vados tiene bajo cada uno de los posibles modelos considerados. Realizamos esteejercicio para el caso m = 0 y de forma analoga se hace para cualquier otro resulta-do observado (de entre los seis posibles). En primer lugar, merece la pena observarque para cada valor de φ considerado tenemos un modelo de generacion de losdatos proveniente de la distribucion Binomial con n = 5 y ese valor de φ, luego laverosimilitud (informacion muestral) la podemos obtener sin mas que hacer:

Verosimilitud ∝ φm × (1− φ)n−m = 0,010 × (1− 0,01)5 = 0,995 = 0,951.

Analogamente se procede con el resto de las cantidades, estos calculos puedenhacerse de forma sistematica y automatica mediante una hoja de calculo (tabla2.2)

El siguiente paso consiste en obtener los productos entre las a priori y las vero-similitudes (ver tabla 2.3). Observemos que esta nueva columna nos ha permitidoobtener la predictiva asociada a la observacion m = 0. Ahora basta con que divi-damos cada elemento de esta ultima columna por la predictiva para obtener lasprobabilidades a posteriori de cada tasa de morosidad posible (tabla 2.1.1).

Como vemos finalmente, el investigador y una vez observada la muestra ex-traıda tiene una nueva opinion sobre el sistema (que no necesariamente tiene queser distinta a la inicial). En este caso, nuevamente el valor modal esta en el 2 %,con una media (a posteriori) del 2,48 ≈ 2,5% (vemos que la media ahora es ligera-

Page 5: Inferencia bayesiana - ULPGCnunez/mastertecnologiastelecomunicac... · 2011-03-08 · 2.1. An¶alisis bayesiano para datos binarios 47 sobre el par¶ametro de inter¶es, `: Los m¶etodos

2.1. Analisis bayesiano para datos binarios 49

Tabla 2.3: Calculo de los productos cruzados priori × verosimilitud

Porcentajes Probabilidades Verosimilitudde morosidad (a priori) [φm(1− φ)n−m] Prob. × Veros.

0.01 0.12 0.951 0.1140.02 0.30 0.904 0.2710.03 0.28 0.859 0.2400.04 0.15 0.815 0.1220.05 0.12 0.774 0.0930.06 0.02 0.734 0.0150.10 0.01 0.590 0.006

Predictiva = 0.8615

Tabla 2.4: Obtencion de las probabilidades a posteriori

Porcentajes Probabilidades Verosimilitudde morosidad (a priori) [φm(1− φ)n−m] Prob. × Veros. Posteriori

0.01 0.12 0.951 0.114 0.1320.02 0.30 0.904 0.271 0.3150.03 0.28 0.859 0.240 0.2790.04 0.15 0.815 0.122 0.1420.05 0.12 0.774 0.093 0.1080.06 0.02 0.734 0.015 0.0170.10 0.01 0.590 0.006 0.007

mente inferior puesto que la no aparicion de morosos ha hecho que nuestra opinionsobre el ındice de morosidad ha sido modificada). De hecho, podemos afirmar quecon una probabilidad del 96,6% la tasa de morosidad es menor del 5 %. Es impor-tante notar que con una muestra como esta en el analisis clasico la estimacion de

la tasa de morosidad serıa de05

= 0 %. Obviamente la tasa de morosidad debe serbaja, pero desde luego ningun actuario en ejercicio estarıa dispuesto a asumir quedicha tasa es nula.

Ejemplo 2.2 (Continuacion ejemplo 2.1) Queda propuesto al lector realizarlos calculos para el caso m = 1 y comparar los resultados con los anteriores.

Page 6: Inferencia bayesiana - ULPGCnunez/mastertecnologiastelecomunicac... · 2011-03-08 · 2.1. An¶alisis bayesiano para datos binarios 47 sobre el par¶ametro de inter¶es, `: Los m¶etodos

50 Inferencia bayesiana

2.1.2. Datos binarios en el caso continuo: analisis conjugado

Consideraremos ahora la situacion mas realista en la que el parametro (la pro-porcion en nuestro caso) puede tomar valores comprendidos entre 0 y 1 (o 0 y 100si hablamos en porcentajes directamente). Para comprender bien esta situacion encomparacion con la anterior debemos pensar que nos encontramos en un contextoen el que tendrıamos infinitos “modelos”, uno para cada valor de φ y tenemosque 0 ≤ φ ≤ 1. Luego ahora lo unico que nos diferencia del caso discreto son doscosas fundamentales: la primera es que tendremos que sustituir la distribucion deprobabilidad a priori discreta por una continua, denominada funcion de densidad apriori, y la segunda, consecuencia de la anterior, es que sustituiremos los sumandospor integrales. Aunque como veremos a continuacion los calculos matematicos ne-cesarios en este caso son cerrados y los ejemplos posteriores utilizaremos el softwareFirstBayes para su realizacion y visualizacion grafica.

El analisis bayesiano basico recomienda utilizar densidades a priori que permi-tan calculos exactos, es decir, que sean de facil manejo matematico y que puedanser facilmente asignables por el investigador. En el caso de proporciones, existeuna familia particular de curvas, denominadas densidades Beta o tambien Betade primera especie, que como en el capıtulo 7dedicado a distribuciones continuas,notaremos como Be, que cumplen estas condiciones y que estudiaremos con detallea continuacion.

Supongamos que φ es la proporcion de exitos y por tanto φ es un numeroentre 0 y 1 (corresponderıa con el eje horizontal de la grafica de una densidad).La expresion de una densidad Be(α, β) contiene potencias de φ (probabilidad deexito) multiplicada por potencias de 1−φ, de esta manera: φα−1× (1−φ)β−1. Losvalores de α y β deben ser numeros positivos. Utilizando la notacion del capıtulo7 tendremos:

π(φ) =Γ(α + β)Γ(α)Γ(β)

φα−1(1− φ)β−1, 0 < φ < 1, α, β > 0. (2.2)

La distribucion Beta es suficientemente flexible como para recoger la mayorparte de las posibles creencias del experto. Basicamente, cualquier distribucionunimodal acotada entre los valores [0, 1] sera muy aproximada por una distribu-cion Beta. Como vimos en las figuras 7.2 y 7.3, las densidades Beta adoptan formasabsolutamente distintas para diferentes valores de la parametros. Un catalogo com-pleto de las formas y su relacion con sus parametros de las densidades beta puedeobtenerse en Homberg (1991) y que resumidamente podemos ver en las siguientesgraficas.

Ejemplo 2.3 (Interpretacion de los diagramas de Homberg, 1991) En es-te ejemplo estamos interesados en estudiar como clasifica de manera exhaustiva elprocedimiento de Homberg (1991) recogido en las figuras 2.1 y 2.2

Page 7: Inferencia bayesiana - ULPGCnunez/mastertecnologiastelecomunicac... · 2011-03-08 · 2.1. An¶alisis bayesiano para datos binarios 47 sobre el par¶ametro de inter¶es, `: Los m¶etodos

2.1. Analisis bayesiano para datos binarios 51

Figura 2.1: Tipos de distribuciones Beta, Homberg (1991)

Figura 2.2: Clasificacion de las distribuciones Beta en funcion de sus parametrosα = x′ y β = n′ − x′, Homberg (1991)

Solucion: La interpretacion de las figuras extraıdas del trabajo de Homberg me-rece un poco de atencion pues clasifica de forma inmediata toda la clase de dis-tribuciones Beta. En primer lugar, la figura 2.1 nos muestra y clasifica (tipo A,B, C,...) las posibilidades graficas de cada una de las densidades Beta en funcionde los valores de sus parametros. En la figura 2.2, se relaciona dicha grafica conlos valores concretos de cada parametro. En particular por ejemplo, fijemosnos enla densidad Be(10, 1,5) que aparece en la figura ??. Pues bien, los valores de losparametros para esta densidad son α = x′ = 10 y β = n′−x′ = 1,5 que observando

Page 8: Inferencia bayesiana - ULPGCnunez/mastertecnologiastelecomunicac... · 2011-03-08 · 2.1. An¶alisis bayesiano para datos binarios 47 sobre el par¶ametro de inter¶es, `: Los m¶etodos

52 Inferencia bayesiana

en las figuras 2.1 y 2.2 vemos que se corresponden con tipo F+ tal y como vemosen la figura 2.2 (se denota por A+, B+, etc. a las mismas representaciones graficastipo A, B, etc. pero asimetricas hacia la derecha).

♦Es muy importante la interpretacion que hacemos de las densidades a priori.

Basicamente, una densidad a priori indica la plausibilidad que para el expertotienen cada uno de los valores del parametro. De esta manera la densidad a priorisobre el parametro recoge la opinion sobre dicho parametro del experto, debiendorecoger de manera adecuada todos sus juicios. Un caso particular importante esBe(1, 1) tambien denominada densidad uniforme, en la notacion del capıtulo 7la expresaremos por U(0, 1). Para este caso particular α = 1 y β = 1 y por tantolas potencias de la expresion quedan: φ0(1 − φ)0 = 1, es decir que la expresionde la densidad Beta para el caso α = β = 1 es constantemente igual a 1 (y nodepende del valor de φ). Graficamente se corresponde con una grafica del tipo Een las figuras anteriores. En nuestro lenguaje, esta densidad indica que el expertoconsidera igualmente plausibles todos los valores del parametro o equivalentementese muestra indiferente ante cualquier valor de este, no tiene opinion sobre el. Estees un hecho muy importante, sobre el luego volveremos pues viene a decirnos quela “no opinion” tambien puede modelizar como “opinion”.

La densidad Beta por tanto esta relacionada con sus parametros y en conse-cuencia es muy importante conocer varias de sus medidas descriptivas. En concreto,el conocimiento de la expresion de la media, moda y varianza de la densidad Betasera util en el proceso de asignacion de parametros para la densidad a priori:

Media =α

α + β,

Moda =α− 1

α + β − 2),

Varianza =αβ

(α + β)2(α + β + 1).

La densidad a priori Beta viene definida por dos parametros (α y β). Por lo tantoel experto deberıa ofrecer informacion acerca de dos momentos de la distribuciona priori, por ejemplo media–moda o media–varianza, o cualquier otra combinacion(tambien pueden asignarse valores puntuales de la distribucion).

Actualizando nuestras opiniones

Como actualizamos ahora nuestro juicio sobre φ. Supongamos por tanto quehemos observado una muestra aleatoria de n individuos y que hemos obtenido sexitos y f = n− s fallos o fracasos. La verosimilitud obtenida coincide con el casodiscreto y esta es la informacion de la muestra:

Verosimilitud ∝ φs(1− φ)f = φs(1− φ)n−s. (2.3)

Page 9: Inferencia bayesiana - ULPGCnunez/mastertecnologiastelecomunicac... · 2011-03-08 · 2.1. An¶alisis bayesiano para datos binarios 47 sobre el par¶ametro de inter¶es, `: Los m¶etodos

2.1. Analisis bayesiano para datos binarios 53

Observemos que la verosimilitud es identica en las concepciones clasicas y ba-yesianas. El punto de vista bayesiano incorpora a la verosimilitud (informacion delos datos) el juicio del experto. La concepcion clasica no, basa toda su inferenciaen la informacion muestral y por tanto solo utiliza para sus analisis la funcion deverosimilitud.

Pues bien, ya estamos en condiciones de actualizar nuestros juicios. El teoremade Bayes nos dice como debemos combinar ambas fuentes de informacion.

Teorema 2.1 Sea φ ∈ (0, 1) un parametro de interes sobre el que deseamos hacerinferencia. Supongamos que para φ asignamos una densidad a priori Be(α, β) yque en una muestra de tamano n se han observado s exitos de acuerdo a unaverosimilitud de tipo Binomial, B(n, φ). Entonces, la densidad a posteriori de φobservados los datos x, π(φ|x), es tambien una densidad Beta, Be(α+s, β+n−s).

Ademas la distribucion predictiva de una futura observacion es una Beta-Binomial.

Demostracion: De acuerdo al Teorema de Bayes, multiplicando la densidad apriori por la verosimilitud tenemos,

φα−1(1− φ)β−1 × φs(1− φ)n−s = φα+s−1(1− φ)β+n−s−1. (2.4)

y como vemos esta expresion corresponde a otra densidad Beta, en la que el papelde α le corresponde ahora a α + s y el de β le corresponde a β + f. Es decir, laactualizacion de una densidad a priori Beta, Be(α, β), cuando se han observado sexitos y f fallos, corresponde a otra densidad Beta, Be(α + s, β + f).

Calculemos ahora la distribucion predictiva de una futura observacion z :

p(z|x) =∫ 1

0

f(z|φ)·π(φ|x)dφ =(

n

z

)· Γ(α + β + n)Γ(α + s)Γ(β + n− s)

∫ 1

0

φα+s+z(1−φ)β+n−s+n−zdφ

=(

n

z

)Γ(α + β + n)

Γ(α + s)Γ(β + n− s)· Γ(α + s + z)Γ(β + 2n− s− z)

Γ(α + β + 2n),

expresion que se corresponde con una distribucion Beta-Binomial.En definitiva bajo un proceso de muestreo Binomial (o equivalentemente de

tipo Bernoulli) la familia de distribuciones a priori Beta cumple la propiedad deque sus distribuciones a posteriori asociadas son tambien de tipo Beta. A estapropiedad se le distingue diciendo que la familia Beta es conjugada para unmuestreo Binomial.

Vemos como en el proceso de aprendizaje sobre φ la informacion muestral dadapor s y f se ha incorporado de manera inmediata. Veamos este comentario sobrela media a posteriori. En efecto, de la expresion anterior para la media de unadensidad Beta tenemos ahora que la media (a posteriori) sera:

α + s

α + s + β + f. (2.5)

Page 10: Inferencia bayesiana - ULPGCnunez/mastertecnologiastelecomunicac... · 2011-03-08 · 2.1. An¶alisis bayesiano para datos binarios 47 sobre el par¶ametro de inter¶es, `: Los m¶etodos

54 Inferencia bayesiana

Escribiremos esta expresion de la siguiente manera:

α + s

α + s + β + f= w

α

α + β+ (1− w)

s

s + f= w

α

α + β+ (1− w)

s

n,

con w =α + β

α + β + n. Lo importante es ver que la media a posteriori (es decir

nuestro juicio actualizado sobre la media) se ha formado como una combinacionponderada de la media a priori

α

β(media proveniente de los juicios del experto)

y la media muestrals

n(informacion proveniente de los datos). De nuevo se pone

de manifiesto que el paradigma bayesiano es un compromiso entre los datos y eljuicio inicial. Ademas esta expresion nos permite analizar dos situaciones lımite:

1. Caso de “no” informacion muestral: n = 0. En tal caso la expresion w vale1 y por tanto la media a posteriori coincide con la a priori. Obviamente,si no hay informacion adicional de los datos, mis juicios sobre el parametrocoincidiran con mis actuales (a priori) juicios.

2. Caso de “infinita” informacion muestral: n →∞. En este hipotetico caso dedisponer de toda la informacion posible de la poblacion, el factor de ponde-racion w tiende a 0 y por tanto 1−w vale 1, y por tanto la media a posterioricoincide con la media muestral. Es decir, en situaciones en las que el tamanomuestra es muy grande las estimaciones clasicas (media muestral) y bayesia-nas (media a posteriori) coinciden. En general, podemos decir que cuandoel tamano muestral es muy grande las estimaciones bayesianas y clasicas nodifieren sustancialmente (aunque obviamente sı en la interpretacion).

Volvamos ahora sobre el caso no informativo a priori. Es decir, supongamosque deseamos comportarnos de manera clasica y por tanto, deseamos que todonuestro aprendizaje este basado unicamente en la informacion de los datos. Enefecto, tal y como vimos anteriormente, podemos tambien plantear un analisisbayesiano desinformativo, es decir, asumiendo carencia de conocimiento a prioriacerca del parametro de interes. El propio Reverendo Thomas Bayes (1763) propu-so el uso de la distribucion uniforme para representar esta desinformacion inicial.La distribucion uniforme asignarıa el mismo peso a priori para todos los posiblesvalores de φ entre 0 y 1. Laplace (1774) tambien utilizo esta distribucion a priori.La distribucion uniforme puede expresarse como indicando que la probabilidad decada valor de φ es igual y, por tanto, proporcional a la unidad.

π(φ) ∝ 1 ∼ Be(1, 1) ≡ U(0, 1).

En este caso particular, la distribucion a posteriori se obtiene por tanto como:

π(φ|x) ∝ φs(1− φ)n−s,

Page 11: Inferencia bayesiana - ULPGCnunez/mastertecnologiastelecomunicac... · 2011-03-08 · 2.1. An¶alisis bayesiano para datos binarios 47 sobre el par¶ametro de inter¶es, `: Los m¶etodos

2.1. Analisis bayesiano para datos binarios 55

que comparando con la densidad Beta vemos que se corresponde con una Beta deparametros s+1 y n−s+1 siendo s el numero de exitos en n pruebas. Lo importantede esta situacion es ver que en un contexto de desinformacion, las decisiones finalesse derivan de la a posteriori que coincide con las decisiones obtenidas a traves de laverosimilitud (que es como toman las decisiones los clasicos). Es decir, si deseamosobtener respuestas parecidas a la que darıa el analisis clasico debemos optar poruna a priori no informativa.

Se comprueba en este caso como la moda de la distribucion a posteriori coincidecon la estimacion frecuentista maximo verosımil.

Moda =s + 1− 1

s + 1 + 1 + n− s− 2=

s

n

Existen otras elecciones de densidades no informativas como la densidad Be-ta de parametros nulos, Be(0, 0) (introducida por Haldane en 1931, estrictamentehablando no corresponde a una densidad Beta). La media de la distribucion a pos-teriori empleando esta distribucion a priori coincide con el estimador frecuentista:

Media =0 + s

0 + s + 0 + n− s=

s

n

Veamos el ejemplo anterior de morosidad ilustrado ahora como un caso conti-nuo.

Ejemplo 2.4 Consideremos el caso del ejemplo 2.1 abordado ahora como un pro-blema continuo. Consideremos el caso de n = 5 y que no hemos observado impagoen ninguna de las polizas muestreadas. Para la informacion del experto conside-remos la media y moda deducidas del mismo ejemplo que valıan respectivamente,3% y 2%.

Solucion: En efecto, en primer lugar tenemos que el parametro de interes, la tasade morosidad de la companıa, sera un parametro que varıa entre 0 y 1. Pues bien,debemos construir una densidad a priori Beta que refleje correctamente el juiciodel actuario sobre el valor medio y modal. Para la asignacion de una densidad Betaconcreta debemos dar unos valores especıficos de α y β. Utilizando la relacion entrela media y la moda y los valores de los parametros anteriores podemos obtenerlo.En efecto, conocemos que:

Media =α

α + β= 0,03(3%)

Moda =α− 1

α + β − 2= 0,02(2%)

Resolviendo este sistema obtendremos los valores de α y β que se correspondencon los juicios iniciales del experto:

α = 0,03α + 0,03β ⇐⇒ 0,97α = 0,03β ⇐⇒ 0,97α− 0,03β = 0

Page 12: Inferencia bayesiana - ULPGCnunez/mastertecnologiastelecomunicac... · 2011-03-08 · 2.1. An¶alisis bayesiano para datos binarios 47 sobre el par¶ametro de inter¶es, `: Los m¶etodos

56 Inferencia bayesiana

α− 1 = 0,02α + 0,02β − 0,04 ⇐⇒ 0,98α− 0,02β = 0,96

La solucion de este sistema es α = 2,88 y β = 93,12.Ahora la aplicacion directa del teorema anterior 2.1 nos permite obtener analıti-

camente la distribucion a posteriori. Tenemos que de una muestra de n = 5 polizasno ha aparecido ningun moroso, es decir s = 0.

Verosimilitud ∝ φ0(1− φ)5 ∝ (1− φ)5,

luego la densidad a posteriori sera:

Posteriori ∝ φ1,88(1− φ)97,12,

es decir, una densidad Beta: Be(2,88; 98,12).♦

Ejemplo 2.5 (Resolucion del ejemplo 2.4 con FirstBayes) Resolver el ejem-plo 2.4 con FirstBayes y obtener graficas de las cantidades de interes.

Solucion: Utilizaremos en este ejemplo el software FirstBayes que nos permi-tira realizar los calculos necesarios. Un breve manual del programa puede con-sultarse en el Apendice A. Basta entrar en el programa (haciendo doble click) yactivar la opcion APL data entry en Options. Puesto que se trata de datos bino-miales (0 y 1) en el apartado de Analyses iremos a su menu de Binomial sample.Automaticamente nos pedira en el margen superior derecho que introduzcamos ladensidad a priori donde introduciremos el valor 2,88 en parameter p (que es suequivalente a α) y 93,12 en parameter q equivalente a β. En la figura 2.3 podemosver los valores obtenidos una vez que se pulsa Next.

Una grafica de esta densidad puede obtenerse facilmente sin mas que pincharen la opcion Plot, como muestra la figura 2.4.

Una inspeccion de la grafica anterior nos confirma los valores de la media ymoda que habıamos asignado anteriormente. Pero tambien nos da mas informa-cion adicional. Por ejemplo, el investigador piensa que es altamente improbableencontrarse con una tasa de morosidad mayor del 10 % (graficamente vemos que ladensidad se aproxima a cero a partir de 0,10). En definitiva, el investigador conside-ra que toda la tasa de morosidad se encuentra concentrada en valores menores del10% (como mucho del 12 % como puede apreciarse graficamente). Ahora debemosincorporar la informacion muestral. Aprovecharemos este ejemplo, sin embargo,para realizar tambien los calculos mediante FirstBayes pues nos permite realizarmuchas mas inspecciones de la densidad a posteriori. Para ello, en primer lugarintroduciremos los datos para obtener la a posteriori. Para ello debemos ir a laopcion Data y pulsando en New podremos introducir nuestros datos (pondremosnombre al nuevo fichero y conviene poner una descripcion de que contiene parafuturos accesos a este fichero). Dicho fichero contendra cinco ceros pues han sido

Page 13: Inferencia bayesiana - ULPGCnunez/mastertecnologiastelecomunicac... · 2011-03-08 · 2.1. An¶alisis bayesiano para datos binarios 47 sobre el par¶ametro de inter¶es, `: Los m¶etodos

2.1. Analisis bayesiano para datos binarios 57

Figura 2.3: Introduccion de la densidad Be(2,88; 93,12)

Figura 2.4: Grafica de la densidad Be(2,88; 93,12)

las observaciones obtenidas (conviene grabar el fichero para futuros accesos, paraello pulsar Save). En la figura 2.5 puede apreciarse el proceso realizado.

Ahora volvemos al menu inicial pulsando en Quit. Para obtener la densidad aposteriori solo nos queda actualizar la densidad a priori. Para ello, si observamos

Page 14: Inferencia bayesiana - ULPGCnunez/mastertecnologiastelecomunicac... · 2011-03-08 · 2.1. An¶alisis bayesiano para datos binarios 47 sobre el par¶ametro de inter¶es, `: Los m¶etodos

58 Inferencia bayesiana

Figura 2.5: Introduccion de datos para el ejemplo 2.4

justo debajo de la a priori que acabamos de definir hay una “pestana” denominadaData que actualmente esta en Nul. Si desplegamos esa pestana podremos ver losficheros que tenemos disponibles para cargar.

Cargaremos el fichero datos_morosidad (figura 2.5). Realizada esta operacionautomaticamente en la parte superior izquierda aparece la densidad a posteriorique se obtiene, que es la misma que la obtenida analıticamente. Adicionalmentenos aporta varias de sus medidas descriptivas que son importantes: la media (aposteriori) vale 0.028515 (es decir, del 2,85 %; a diferencia de lo que pensaba ini-cialmente que era del 3 %. Obviamente lo que ha ocurrido es que al no observarmorosidad alguna en dicha muestra la opinion del investigador se ha escorado li-geramente hacia la izquierda tendiendo a ser mas proxima a cero, pero no valecero desde luego que es la estimacion que aportarıa un clasico). La moda vale1,9 %, tambien ligeramente mas pequena que en la situacion inicial. Graficamentepodemos ver dicha densidad en la siguiente figura 2.6, en la que hemos insertadosimultaneamente la grafica y los valores obtenidos en la a posteriori.

Inferencia bayesiana para proporciones

La inferencia bayesiana para esta situacion es inmediata. Los estimadores pun-tuales mas habituales ya sabemos que son la media, mediana y moda dependiendodel tipo de funcion de perdidas que asumamos. Por ejemplo, los valores de la media

Page 15: Inferencia bayesiana - ULPGCnunez/mastertecnologiastelecomunicac... · 2011-03-08 · 2.1. An¶alisis bayesiano para datos binarios 47 sobre el par¶ametro de inter¶es, `: Los m¶etodos

2.1. Analisis bayesiano para datos binarios 59

Figura 2.6: Densidad a posteriori para la tasa de morosidad

y la moda son respectivamente

E (θ|x) =α + s

α + β + n, Moda(θ|x) =

α + s− 1α + β + n− 2

.

El calculo de los intervalos de credibilidad bayesianos con probabilidad 1 − αde acuerdo a las definiciones 1.5 y 1.6, consiste en un intervalo [a, b] de tal formaque la probabilidad (a posteriori) de que dicho intervalo contenga al parametro es(1− α)%, esto es ∫ b

a

π(φ|x)dθ = 1− α,

con π(φ|x) ∼ Be(α+ s, β +n− s). Estas cantidades pueden obtenerse de cualquiersoftware estadıstico general y de manera muy sencilla (como veremos en ejemplosposteriores) en FirstBayes.

Ejemplo 2.6 (Continuacion ejemplo 2.4) Obtener los estimadores puntualesde φ y un intervalo bayesiano de credibilidad con probabilidad 0,95 para el caso delejemplo 2.4

Solucion: Calcular el intervalo bayesiano de credibilidad al 95 % por ejemplo, esinmediato con FirstBayes ademas de los estimadores puntuales media, mediana

Page 16: Inferencia bayesiana - ULPGCnunez/mastertecnologiastelecomunicac... · 2011-03-08 · 2.1. An¶alisis bayesiano para datos binarios 47 sobre el par¶ametro de inter¶es, `: Los m¶etodos

60 Inferencia bayesiana

y moda que valen 0,028, 0,025 y 0,019, respectivamente (figura 2.7). Basta ir a lapestana denominada HDI que aparece debajo de la densidad a posteriori e indicarel nivel de probabilidad deseado, 95 % en nuestro caso.

Figura 2.7: Intervalo bayesiano al 95 % para el ejemplo 2.4

Como vemos los lımites obtenidos son 0,0027 y 0,0608, respectivamente. ¿Comolo interpretamos? Pues muy sencillamente, una vez observados los datos, la tasade morosidad esta comprendida entre el 0,2% y el 6,1%, con una probabilidad del95%.

Es realmente sencillo interpretar los intervalos de credibilidad, pero hay nuevasmedidas que tambien tienen la misma sencillez para su calculo e interpretacion.Por ejemplo, ¿cual sera la probabilidad de que la tasa de morosidad sea mayor del10%? Para ello, basta con indicar en la opcion Prob. el intervalo del que queremosobtener la probabilidad, en este caso sera entre 0.10 y 1. El resultado obtenido(figura 2.8) es 0.001612, es decir, la probabilidad de que la tasa de morosidadsea mayor del 10 % es 0,001 (obviamente muy pequena, pues los datos nos haninformado de que no habıa errores en la muestra).

Graficamente podemos observar cual ha sido el proceso de aprendizaje delinvestigador respecto a la tasa de morosidad una vez observados los 5 contratossin morosidad. Para ello basta pinchar en la opcion Triplot (figura 2.9).

Page 17: Inferencia bayesiana - ULPGCnunez/mastertecnologiastelecomunicac... · 2011-03-08 · 2.1. An¶alisis bayesiano para datos binarios 47 sobre el par¶ametro de inter¶es, `: Los m¶etodos

2.1. Analisis bayesiano para datos binarios 61

Figura 2.8: Probabilidad a posteriori de que la tasa de morosidad sea mayor del10% en el ejemplo 2.4

Como vemos, los datos han variado muy poco la opinion inicial del investigador(de hecho priori y posteriori estan casi superpuestas, pero ligeramente mas hacia laizquierda la a posteriori y mas apuntada indicando por tanto menor variabilidad).

♦Los test de hipotesis se realizan facilmente acudiendo a las expresiones de los

“odds” y factor Bayes deducidas en la seccion 10.7.3.

Ejemplo 2.7 Supongamos que una companıa aseguradora desea conocer el porcen-taje de asegurados que de una determinada cartera presentaran alguna reclamaciona lo largo del presente ano. Se han observado n = 100 clientes de los cuales 45han presentado alguna reclamacion. Se trata de realizar el contraste:

H0 : φ =12

vs H1 : φ =23,

para una situacion a priori desinformativa.

Solucion: Estamos en una situacion de hipotesis nula simple frente alternativasimple y por tanto utilizaremos las expresiones de los “odds” y factor Bayes de-ducidas en (1.12) y (1.13). En general el problema se resuelve facilmente teniendo

Page 18: Inferencia bayesiana - ULPGCnunez/mastertecnologiastelecomunicac... · 2011-03-08 · 2.1. An¶alisis bayesiano para datos binarios 47 sobre el par¶ametro de inter¶es, `: Los m¶etodos

62 Inferencia bayesiana

Figura 2.9: “Triplot” para la tasa de morosidad

en cuenta que si hay s exitos en una muestra de tamano n tendremos que:

L(s|φ) =(

n

s

)· φs · (1− φ)n−s.

Luego el “odds” a posteriori vale

p0

p1=

π0

π1· φs

0(1− φ0)n−s

φs1(1− φ1)n−s

, (2.6)

y el factor Bayes valdra

B01 =(

φ0

φ1

)s

·(

1− φ0

1− φ1

)n−s

. (2.7)

Para el caso que nos ocupa n = 100, s = 45, π0 = π1 =12, φ0 =

12

y φ1 =23

dedonde se obtiene que

B01 =(

34

)45

·(

32

)55

≈ 1155,5

Page 19: Inferencia bayesiana - ULPGCnunez/mastertecnologiastelecomunicac... · 2011-03-08 · 2.1. An¶alisis bayesiano para datos binarios 47 sobre el par¶ametro de inter¶es, `: Los m¶etodos

2.1. Analisis bayesiano para datos binarios 63

que nos indica que a la luz de los datos la hipotesis nula es 1155,5 veces mas creıble

que la alternativa. Parece claro que admitiremos que φ =12. Observemos que en

este caso factor Bayes y “odds” a posteriori coinciden.♦

Veamos como serıa el caso de hipotesis nula simple con alternativa compuesta.Supongamos una experimentacion binomial de parametros n y φ, en la que desea-mos investigar la hipotesis H0 : φ = φ0 vs H1 : φ 6= φ0. La informacion a priori esdel tipo:

1. Pr{H0} = π0, Pr{H1} = 1− π0.

2. La densidad a priori mixta tendra la forma siguiente:

π(φ) ={

π0 si φ = φ0

(1− π0) · π1(φ) si φ 6= φ0,

con π1(φ) ∼ Be(α, β).

Siguiendo los pasos de (1.19), (1.20), (1.21) y de manera analoga al ejemplo1.10 sobre la paradoja de Lindley tendremos

f(s|φ0) =(

n

s

)· φs

0 · (1− φ0)n−s, (2.8)

p1(s) =∫

{φ6=φ0}f(s|φ)·π1(φ)·dφ =

(n

s

)· Γ(α + β)Γ(α)Γ(β)

· Γ(α + s)Γ(β + n− s)Γ(α + β + n)

, (2.9)

luego el “odds” a posteriori vale

p0

p1=

π0

1− π0· (φs

0 · (1− φ0)n−s) · Γ(α)Γ(β)Γ(α + β + n)

Γ(α + β)Γ(α + s)Γ(β + n− s), (2.10)

y el factor Bayes tiene la expresion,

B01 = φs0 · (1− φ0)n−s · Γ(α)Γ(β)Γ(α + β + n)

Γ(α + β)Γ(α + s)Γ(β + n− s), (2.11)

Ejemplo 2.8 (Continuacion ejemplo 2.7) Para el caso del ejemplo 2.7 reali-

zar ahora el contraste H0 : φ =12

vs H1 : φ 6= 12

Solucion: Atendiendo a las expresiones (2.8) y (2.9) y para el caso particular

de este ejemplo: n = 100, s = 45, π0 =12

y supongamos el caso desinformativoα = β = 1 tendremos que el “odds” a posteriori y el factor Bayes tienen el mismo

valor(

12

)100

· Γ(102)Γ(46)Γ(56)

≈ 4,9. Es decir, la hipotesis nula es casi 5 veces mas

Page 20: Inferencia bayesiana - ULPGCnunez/mastertecnologiastelecomunicac... · 2011-03-08 · 2.1. An¶alisis bayesiano para datos binarios 47 sobre el par¶ametro de inter¶es, `: Los m¶etodos

64 Inferencia bayesiana

creıble a posteriori que la alternativa. Observemos que en el caso de hipotesisnula simple frente alternativa simple (ejemplo 2.7) este valor era marcadamentemayor. Es decir, si tenemos que decidir entre dos posibles valores los datos aportanevidencia muy clara hacia la hipotesis nula. Ahora bien, cuando solo se trata deuna hipotesis nula simple, los datos ofrecen evidencia en favor de H0 pero no enla magnitud en la que lo hacıa en el otro caso.

♦Para el caso de hipotesis nula y alternativa compuesta el procedimiento es

analogo, como ya hemos comentado. En los siguientes ejemplos veremos comopodemos proceder en estos casos.

Ejemplo 2.9 (Continuacion ejemplo 2.4) Volviendo al caso de la inspeccionde polizas sin pagar de una companıa aseguradora del ejemplo 2.4, supongamosque el investigador esta interesado en contrastar la hipotesis de que la tasa demorosidad es menor del 4 % frente a la hipotesis de que es mayor.

Solucion: Debemos realizar el contraste:

H0 : 0 ≤ φ ≤ 0,04 vs H1 : φ > 0,04

El procedimiento bayesiano para estos contrastes de hipotesis es analogo a todoel proceso realizado hasta el momento. Es decir, el experto posee informacion inicialsobre las hipotesis y dichos juicios iniciales son actualizados con la observacionmuestral. Obtenidos estos juicios a posteriori, el decisor debera tomar una decisionsobre el contraste. Utilizaremos FirstBayes para realizar los calculos.

En efecto, cada una de las hipotesis tendra unas probabilidades iniciales de sercierta:

π0 = Pr{H0 cierta } = Pr{0 ≤ φ ≤ 0,04} = 0,76 (ver figura 2.10).

En consecuencia la probabilidad a priori de que la tasa de morosidad sea mayordel 4% sera de π1 = 0,24. El “odds” a priori valdra

π0

π1=

0,760,24

≈ 3,17.

Este cociente nos dice que a priori la hipotesis nula (la tasa de morosidad esmenor del 4 %) es 3,17 veces mas creible que la alternativa (es mayor del 4 %).Esta relacion es una cantidad perfectamente entendible por el investigador quien apriori tiene una opinion sobre cada una de las hipotesis (en este caso, aproximada-mente tres veces mas creible la primera hipotesis que la segunda). Ahora debemoscalcular las probabilidades a posteriori de cada una de las hipotesis. Para ello,volviendo a la ventana correspondiente a la densidad a posteriori indicamos lasmismas probabilidades que anteriormente y se obtiene:

Page 21: Inferencia bayesiana - ULPGCnunez/mastertecnologiastelecomunicac... · 2011-03-08 · 2.1. An¶alisis bayesiano para datos binarios 47 sobre el par¶ametro de inter¶es, `: Los m¶etodos

2.1. Analisis bayesiano para datos binarios 65

Figura 2.10: Probabilidad a priori de H0 en el ejemplo 2.9

p0 = Pr{H0 cierta | datos } = Pr{0 ≤ φ ≤ 0,04} = 0,788 (ver figura 2.11).

La probabilidad a posteriori de H1 sera por tanto de p1 = 0,21. Observemosahora el “odds” a posteriori:

p0

p1=

0,790,21

≈ 3,76.

Es decir, una vez incorporada la informacion muestral, una tasa de morosidadmenor del 4 % es casi 4 veces mas creible que una tasa mayor. En consecuencia, ladecision del experto puede ser del siguiente tipo: A la luz de los datos, aceptamosque la tasa de morosidad es menor del 4% con una probabilidad de ser cierta de0,79 (o equivalentemente, del 79%). Frente a la hipotesis de ser mayor, la hipotesisinicial de morosidad menor del 4 % es aproximadamente 4 veces mas creıble. Elfactor Bayes de H0 frente a H1 vale

B01 =p0/p1

π0/π1=

0,79/0,210,76/0,24

≈ 1,19,

Page 22: Inferencia bayesiana - ULPGCnunez/mastertecnologiastelecomunicac... · 2011-03-08 · 2.1. An¶alisis bayesiano para datos binarios 47 sobre el par¶ametro de inter¶es, `: Los m¶etodos

66 Inferencia bayesiana

Figura 2.11: Probabilidad a posteriori de H0 en el ejemplo 2.9

dicho valor se interpreta diciendo que los datos (por sı solos) dan aproximadamente1,19 veces mas credibilidad a la hipotesis nula que a la alternativa. Realmente, eneste caso los datos dan practicamente la misma credibilidad a una u otra hipotesis.De manera analoga, sin mas que intercambiarse los ındices, puede definirse el factorBayes de H1 frente a H0, en notacion B10.

♦En resumen, los test de hipotesis se realizan de una manera realmente natural

y de forma intuitiva. Las hipotesis tendran unas probabilidades de ser ciertas quese actualizan a la luz de los datos (mediante el teorema de Bayes). El factor Bayesademas nos proporciona la evidencia que aportan los datos a nuestra decision.Finalmente otras de las cantidades de interes en el analisis bayesiano es la distri-bucion predicitiva de futuros datos. Distribucion que conocemos por el teorema2.1 que es Beta-Binomial. En efecto, en muchas ocasiones el experto esta tambieninteresado en conocer que puede ocurrir en futuras observaciones una vez que tienesu nuevo conocimiento con los datos anteriores. Desde el punto de vista clasico, lounico que se hace es considerar la misma verosimilitud pero no se incorpora nadade lo observado anteriormente. El analisis secuencial por tanto es crucial para estedesarrollo y el metodo bayesiano es especialmente bien comportado para esta si-

Page 23: Inferencia bayesiana - ULPGCnunez/mastertecnologiastelecomunicac... · 2011-03-08 · 2.1. An¶alisis bayesiano para datos binarios 47 sobre el par¶ametro de inter¶es, `: Los m¶etodos

2.1. Analisis bayesiano para datos binarios 67

tuacion. Matematicamente el problema se resuelve facilmente mediante el calculode la denominada distribucion predictiva de una nueva observacion z:

p(z|x) =∫ 1

0

L(φ|z)π(φ|x)dφ.

Ejemplo 2.10 (Continuacion ejemplo 2.4) Supongamos que nuestro investi-gador esta interesado en conocer que puede esperar de la observacion de 4 nuevoscontratos en cuanto a su morosidad

Figura 2.12: Introduccion de la distribucion predictiva en el ejemplo 2.10

Solucion: Mediante FirstBayes el calculo se puede hacer a traves de la pestanaque aparece como Predictive analysis en la opcion Show predictive (figura2.12), indicando el numero de nuevas observaciones que deseamos predecir (cuan-do son mas de una observacion se obtiene la predictiva del total de las nuevasobservaciones). Pues bien, bastara con que en la opcion de Predict sum of seindiquen 4 observaciones y pulsemos en Show predictive

La distribucion predictiva obtenida es Beta–Binomial con unos determinadosparametros, en este caso puede verse que es BB(4; 2,99, 98,12). Mas alla de loscalculos necesarios para la obtencion de esta distribucion es interesante ver que la

Page 24: Inferencia bayesiana - ULPGCnunez/mastertecnologiastelecomunicac... · 2011-03-08 · 2.1. An¶alisis bayesiano para datos binarios 47 sobre el par¶ametro de inter¶es, `: Los m¶etodos

68 Inferencia bayesiana

Figura 2.13: Obtencion de la distribucion predictiva e intervalo bayesiano de cre-dibilidad al 95 % para dicha predictiva en el ejemplo 2.10

prediccion para futuras observaciones es una nueva distribucion y por tanto ten-dra todas las caracterısticas que las distribuciones tienen (media, moda, etc.). Enconcreto podemos observar que esta distribucion tiene una moda de 0 (es decir,que lo mas frecuente es que en las futuras 4 observaciones no haya ningun contratomoroso). Del mismo modo, podemos calcular el intervalo bayesiano de credibilidadpara la predictiva. En este caso, con una probabilidad de 0,95 dicho intervalo es[0, 1]. Es decir, con una probabilidad del 95% las futuras 4 observaciones presen-taran 0 o 1 contratos morosos (figura 2.13). De nuevo, la interpretacion se hace demanera natural en terminos de probabilidad.

Ejemplo 2.11 (Continuacion ejemplo 2.10) Realizar el mismo analisis ante-rior pero considerando que en la muestra de n = 5 contratos aparecio un moroso,y = 1.

Page 25: Inferencia bayesiana - ULPGCnunez/mastertecnologiastelecomunicac... · 2011-03-08 · 2.1. An¶alisis bayesiano para datos binarios 47 sobre el par¶ametro de inter¶es, `: Los m¶etodos

2.1. Analisis bayesiano para datos binarios 69

2.1.3. Comparacion de dos proporciones

Como ya hemos visto, el analisis bayesiano nos permite realizar un estudiodetallado sobre proporciones sin mas que incorporar nuestros juicios sobre la tasaobjeto de interes y la informacion muestral recogida en forma de exitos o fracasos.Hay algunas situaciones relativas a proporciones o tasas en las que tambien elanalisis bayesiano puede aportar una buena forma de realizar el aprendizaje sobredicha tasa. Pensemos, por ejemplo, en el caso en que una companıa que posee dosfiliales desea comprobar si la tasa de exitos en una u otra filiar puede considerarseesencialmente la misma o si hay evidencia de que en una u otra es mayor.

Formalmente podemos enunciar el problema de la siguiente forma. Supongamosque observamos dos muestras binomiales de dos poblaciones: x ∼ B(nx, φx), y ∼B(ny, φy). Y estamos interesados en la relacion entre φx y φy. Bajo el supuesto deque ambos parametros son independientes con densidades a priori de tipo Beta,Be(αx, βx) y Be(αy, βy)

Conocemos ya que la densidad a posterior de cada parametro sera respectiva-mente Be(αx +x, βx +nx−x) y Be(αy +y, βy +ny−y). Ahora estamos interesadosen comparar las proporciones en cada una de las poblaciones. Habitualmente, esta

comparacion puede hacer a traves de la diferencia φx − φy o bien el cocienteφx

φy.

Existen varias alternativas bayesianas para resolver este problema. Un primerprocedimiento consiste en considerar la reparametrizacion

λx =φx

1− φx, λy =

φy

1− φy,Λx = log λx y Λy = log λy.

Como puede verse en Lee (2003, p. 152) las siguientes cantidades

12Λx +

12

log(

βx + nx − x

αx + x

),

12Λy +

12

log(

βy + ny − y

αy + y

),

se distribuyen a posteriori aproximadamente como una distribucion Normal con

parametros log(

αx + x− 1/2βx + nx − x− 1/2

)y

1αx + x

+1

βx + nx − x, para Λx (analoga-

mente para Λy sin mas que cambiar x por y).

Ahora teniendo en cuenta que Λx − Λy = log(

λx

λy

), tendremos que

Λx = Λy ⇐⇒ λx

λy= 1 ⇐⇒ φx = φy. (2.12)

De esta ultima identidad podremos obtener las relaciones entre las proporciones sinmas que considerar que las diferencias entre normales independientes es tambienuna distribucion Normal, esto es N (µ(x, y), σ2(x, y)) con

Page 26: Inferencia bayesiana - ULPGCnunez/mastertecnologiastelecomunicac... · 2011-03-08 · 2.1. An¶alisis bayesiano para datos binarios 47 sobre el par¶ametro de inter¶es, `: Los m¶etodos

70 Inferencia bayesiana

µ(x, y) = log(

(αx + x)(βy + ny − y)(βx + nx − x)(αy + y)

), (2.13)

σ2(x, y) =1

αx + x+

1βx + nx − x

+1

αy + y+

1βy + ny − y

. (2.14)

Un segundo procedimiento mas simple, y con resultados analogos al anteriorpara tamanos muestrales adecuados consiste en lo siguiente. Bastara con aproximarlas distribuciones a posteriori de los parametros de interes por aquellas distribu-ciones normales que tienen la misma media y varianza que la original distribucionBeta a posteriori. A continuacion y puesto que son independientes, la diferenciaentre estos dos parametros volvera a ser tambien Normal. Es decir, aproximamoslas densidades a posteriori de φx y φy mediante las distribuciones N (µx, σ2

x) yN (µy, σ2

y), respectivamente, siendo

µx =αx + x

αx + βx + nx, σ2

x =(αx + x)(βx + nx − x)

(αx + βx + nx)2(αx + βx + nx + 1), (2.15)

µy =αy + y

αy + βy + ny, σ2

y =(αy + y)(βy + ny − y)

(αy + βy + ny)2(αy + βy + ny + 1), (2.16)

y por tanto, φx − φy ∼ N (µx − µy, σ2x + σ2

y).

Ejemplo 2.12 El servicio de investigacion de una entidad aseguradora desea co-nocer si existe o no evidencia sobre el efecto de una campana publicitaria parala captacion de nuevos clientes en determinadas zonas de la ciudad. Existen dosgrupos de potenciales clientes a los que se dirige. Para el grupo A, se analizaron720 individuos de forma aleatoria; de los que 380 aceptaron, y el resto no. Enla zona B, fueron analizados 290, de los que 120 eran positivos. Desarrollar unprocedimiento que permita comparar las proporciones de positivos, bajo el supuestode inexistencia de informacion a priori.

Solucion: La modelizacion de esta situacion podemos hacerla de la siguiente for-ma. Consideremos φA la tasa de positivos o exitos de la zona A y φB su analogopara la zona B. Para cada una de estas zonas debemos utilizar de acuerdo alenunciado, una a priori desinformativa que conocemos que se corresponde con unadensidad Beta, Be(1, 1), lo que equivale a:

π(φA) ∝ 1, π(φB) ∝ 1.

La informacion muestral en cada zona sera:

Zona A: Verosimilitud ∝ φ380A (1− φA)340.

Zona B: Verosimilitud ∝ φ120B (1− φB)170.

Page 27: Inferencia bayesiana - ULPGCnunez/mastertecnologiastelecomunicac... · 2011-03-08 · 2.1. An¶alisis bayesiano para datos binarios 47 sobre el par¶ametro de inter¶es, `: Los m¶etodos

2.1. Analisis bayesiano para datos binarios 71

Luego la actualizacion de cada una de los juicios sobre las tasas de exito encada zona seran:

π(φA| datos ) ∝ π(φA)L(φA| datos ) ∝ φ380A (1− φA)340,

que como sabemos se corresponde con una densidad Beta, Be(381; 341). Esta den-sidad puede conocerse mejor con FirstBayes.

Figura 2.14: Tasa de exito en la zona A

Como vemos (figura 2.14), la tasa de exito en la zona A podemos estimarlaen torno al 52,77 %, estando toda la tasa de exito de la zona A concentrada entreel 46% y 59% con un intervalo bayesiano al 95 % de entre 49,1% y 56,4%, esdecir, existe una probabilidad del 05% de que la tasa de exito de la campana enla zona A este comprendida entre el 49,1% y el 56,4%. Observemos que ahorahemos utilzado FirstBayes directamente desde la opcion de Distributions sinpasar por el analisis binomial. Obviamente lo podrıamos haber realizado perohubiesemos tenido que crear un fichero de 720 registros con 380 unos y 340 cerosy dado que los calculos para la a posteriori son inmediatos se ha preferido estaopcion. Es tambien interesante observar que la varianza para el parametro en lazona A puede estimarse por 0,000345.

Page 28: Inferencia bayesiana - ULPGCnunez/mastertecnologiastelecomunicac... · 2011-03-08 · 2.1. An¶alisis bayesiano para datos binarios 47 sobre el par¶ametro de inter¶es, `: Los m¶etodos

72 Inferencia bayesiana

Para la zona B se procede de forma analoga obteniendose una densidad aposteriori Beta, Be(121, 171).

Figura 2.15: Tasa de exito en la zona B

Como vemos (figura 2.15), la tasa de exito en la zona B podemos estimarlaen torno al 41,4%, estando toda la tasa de exito de la zona B concentrada entreel 32% y 51% con un intervalo bayesiano al 95 % de entre 35,8% y 47,1%, esdecir, existe una probabilidad del 5 % de que la tasa de exito de la campana enla zona B este comprendida entre el 35,8% y el 47,1%. Del mismo modo queanteriormente, observemos que hemos utilizado FirstBayes directamente desdela opcion de Distributions sin pasar por el analisis binomial. La varianza parael parametro en la zona B es 0,000828.

Ya tenemos el comportamiento de la tasa de exito en cada zona, el problemaque debemos ahora resolver es ver si hay evidencia de que la tasa de exito en lazona A es mayor que en la zona B, es decir, en terminos de probabilidad estamoshablando de saber cuanto vale:

Pr{φA > φB} = Pr{φA − φB > 0}.Se trata por tanto de saber como se distribuye la diferencia entre ambos parame-tros, sabiendo que cada uno de ellos es una Beta. Debemos decir que en principio

Page 29: Inferencia bayesiana - ULPGCnunez/mastertecnologiastelecomunicac... · 2011-03-08 · 2.1. An¶alisis bayesiano para datos binarios 47 sobre el par¶ametro de inter¶es, `: Los m¶etodos

2.2. Analisis bayesiano para datos de Poisson 73

este no es un problema sencillo de resolver pues la diferencia de Betas no es, engeneral, otra distribucion Beta. Sin embargo, existe una manera adecuada de sos-layar este impedimento. En efecto, si observamos las densidades a posteriori decada una de las zonas podemos ver que cada una de ellas se parece o aproximade manera muy buena a una campana de Gauss, es decir, a una densidad Normal;de hecho aunque no es objeto de este modulo, puede calcularse el grado de simi-litud entre ambas densidades y ver que sus “distancias” son realmente pequenasy por tanto, podemos concluir que la aproximacion mediante una curva normalde las densidades Betas no supone ninguna perdida de exactitud en los calculosnecesarios. Ahora bien, si deseamos aproximar estos juicios a posteriori mediantedensidades de tipo Normal, ¿por cual debemos hacerlo?

Parece claro que si queremos aproximar estas densidades, lo logico es apro-ximar la densidad Beta para la zona A por aquella densidad Normal que tengala misma media y varianza (parametros que determinan una densidad Normal)que la densidad Beta obtenida anteriormente. En este caso, aproximaremos ladensidad a posteriori de φA por una densidad Normal, N (0,5277; 0,000345). Elmismo razonamiento es valido para la zona B y por tanto, proponemos aproximarlos juicios sobre la tasa de exito para la zona B mediante una densidad Normal,N (0,414; 0,000828).

Ya estamos en condiciones de obtener como se distribuye la diferencia entreambos parametros, puesto que usamos la propiedad de que la suma (o diferencia)de densidades Normales independientes es tambien una densidad Normal con me-dia la suma (o diferencia, segun proceda) de las medias y la suma de las varianzascorrespondientes. Para el caso que nos ocupa tendremos que φA − φB se compor-ta como una densidad Normal, N (0,1137; 0,001173). Y de esta densidad podemosobtener todas las cantidades de interes que procedan, para ello basta con que intro-duzcamos desde la opcion Distributions la familia Normal, con los parametrosanteriores. Para el caso que nos ocupa se tiene que: Pr{φA > φB} = 0,999. Luegopodemos asegurar con una probabilidad del 99,9% (ver figura 2.16) que la tasa deexitos en la zona A es mayor que en la zona B.

2.2. Analisis bayesiano para datos de Poisson

Como ya hemos comentado en el capıtulo 6, seccion 6.5, la distribucion dePoisson aparece de manera natural en el estudio de datos que provienen de proce-sos de conteo, como es el caso del numero de siniestros, numero de llegadas a unsistema, llegadas a una ventanilla de una oficina bancaria, llegadas a una caja desupermercado, llegadas a un semaforo que regula el trafico, numero de reclamacio-nes que presentan unos usuarios, numero de partes de accidentes que recibe unacompanıa de seguros, etc. Estudiaremos en esta seccion el procedimiento bayesianode inferencia para este modelo muestral.