bayes polo asignatura inf bayesiana binarios

Upload: alejandro-guillermo-monzon-montoya

Post on 10-Oct-2015

42 views

Category:

Documents


0 download

TRANSCRIPT

  • Captulo 2

    Inferencia bayesiana

    Desarrollaremos a continuacion las tecnicas explicadas en el captulo anteriorreferentes a la estimacion bayesiana para los modelos practicos mas habituales.

    2.1. Analisis bayesiano para datos binarios

    En esta seccion desarrollaremos los rudimentos para el aprendizaje sobre pro-porciones. En nuestra practica diaria la utilizacion de proporciones o porcentajespara clasificar en grupos una poblacion cualquiera es muy habitual. Basicamente,una poblacion es una coleccion de personas o unidades que son objeto de nues-tra inferencia y supondremos que dicha poblacion esta dividida en dos gruposque podemos referenciar como exitos y fallos. La proporcion de exitos, quedenotaremos por , es nuestro parametro de interes, pero obviamente la propor-cion de fracasos se deduce automaticamente. Para aprender sobre el valor de estaproporcion, tomaremos datos. Se toma una muestra aleatoria de n individuos ysupongamos que s exitos y f fallos aparecen en dicha muestra.

    Una manera inmediata (y que coincide con la estimacion clasica) de inferirla tasa de exitos es considerar el cociente

    s

    n. Como veremos posteriormente, es-

    ta manera de proceder presenta serios inconvenientes en algunas situaciones. Enel analisis bayesiano, una vez observados los datos, toda la informacion sobre laproporcion esta contenida en su distribucion a posteriori. Esta distribucion a pos-teriori puede resumirse de varias maneras. Uno puede estar interesado en un valorparticular de que tenga una probabilidad alta bajo la distribucion a posteriori,o su valor medio, o mediano o cualquier otra expresion bajo algun criterio de elec-cion. Un segundo tipo de inferencia consiste en estimar mediante un intervaloque tenga una alta probabilidad de contenerlo y finalmente, tambien podremosestar interesados en obtener las probabilidades a posteriori que ciertas conjeturassobre el parametro se hagan. Adicionalmente, uno tambien puede estar interesa-

    45

  • 46 Inferencia bayesiana

    do en aprender sobre futuras observaciones. Supongamos que tomamos una nuevamuestra aleatoria, cual sera la probabilidad de que en esta nueva muestra hubieset exitos y u fallos? Este planteamiento corresponde a un problema de predicciontpico del analisis bayesiano.

    Introducimos ahora un poco de formulacion matematica. En general, considera-mos el caso en el que el parametro de interes es la probabilidad de un determinadosuceso que se repite un numero determinado de veces y cuyo resultado en cadaprueba puede ser exito {1} o fracaso {0}. Las pruebas se consideran independientesunas de otras, teniendo todas la misma probabilidad de exito. Supongamos queexiste un numero n de pruebas, de esta forma tendremos una observacion x querecoge el numero de exitos. Matematicamente se dice que la variable X que mideel numero de exitos en n realizaciones del experimento se distribuye segun unadistribucion Binomial de parametros n y , que denotaremos por X B(n, ).

    La variable X por tanto puede tomar los valores 0, 1, ..., n. Por tanto, la expre-sion que define su verosimilitud (es decir, la informacion de los datos observados)puede expresarse como:

    Pr(X = x|) =(n

    x

    )x(1 )nx = n!

    x!(n x)!x(1 )nx, x = 0, 1, . . . , n

    (2.1)donde n! (se lee n factorial) vale n! = n (n 1) ... 3 2 1 y adoptaremosque 0! = 1. Esta distribucion es muy usual en la practica actuarial y ya ha sidoestudiada en profundidad en el captulo 6, seccion 6.4. Varias de sus medidasdescriptivas de interes son su valor medio y su varianza. En concreto, la media yla varianza de esta distribucion son:

    E[X] = n

    V [X] = n(1 )Ademas, tambien puede probarse que su valor modal (es decir su valor mas

    frecuente) es:Moda[X] = (n+ 1)

    Observemos que en nuestro planteamiento el dato x ya habra sido observadoy por tanto nuestro interes se centra en conocer la tasa de exitos. Es decir, de laexpresion anterior nos interesa solo la parte que afecta al parametro y por tantopodemos escribir la verosimilitud utilizando la notacion de proporcionalidad como:

    L(x|) x(1 )nx

    Por abuso de la notacion y puesto que la verosimilitud nos interesa como fun-cion del parametro, en ocasiones escribiremos L() para referirnos a ella. En eldesarrollo de los metodos bayesianos para responder a los problemas de este tiposobre proporciones, hay dos maneras basicas de construir el conocimiento a priori

  • 2.1. Analisis bayesiano para datos binarios 47

    sobre el parametro de interes, . Los metodos discretos en los que se considera que solo puede tomar un posible valor de un conjunto finito de valores o los modeloscontinuos en los que se considera a valorada de manera continua en el intervalo(0, 1). En cualquiera de ellos, la informacion a priori debe reflejar la plausibilidadque cada uno de los valores del parametro tiene para el experto.

    2.1.1. Datos binarios en el caso discreto

    En esta seccion ilustraremos el aprendizaje sobre proporciones en el caso enque el parametro venga expresado de forma discreta, es decir, tome un conjuntofinito de valores. Mediante un ejemplo concreto entenderemos bien todo el proceso.

    Ejemplo 2.1 Una empresa aseguradora desea estimar el porcentaje de morosidaden una determinada cartera de gran dimension que tiene emitidas 10000 polizas.El investigador encargado, teniendo en cuenta toda la informacion disponible ysu conocimiento sobre el funcionamiento interno de la empresa, considera quepuede evaluar la morosidad mediante la siguiente distribucion (a priori o inicial)de probabilidad asignada a cada porcentaje de morosidad susceptibles de ocurrir(basicamente estos coinciden con los habidos hasta la fecha y cualquier otro queconsidere oportuno el investigador), tal y como se indica en la tabla 2.1:

    Tabla 2.1: Porcentajes de morosidad y probabilidades a priori

    Porcentajes Probabilidadesde morosidad (a priori)

    0.01 0.120.02 0.300.03 0.280.04 0.150.05 0.120.06 0.020.10 0.01

    El investigador se plantea si en el momento actual puede admitir la mismaevaluacion o modificarla, y decide obtener una muestra aleatoria de 5 polizas entrelos que encuentra m morosos. Estudiar como se procedera para aprender sobre elporcentaje de morosidad de la entidad cuando se observaron m = 0 y m = 1,respectivamente.

    Solucion: Veamos como debemos proceder para aprender sobre el porcentaje demorosidad. En primer lugar, la tabla anterior muestra la opinion actual del inves-tigador sobre el sistema que esta inspeccionando. De ella se observa que para el lo

  • 48 Inferencia bayesiana

    Tabla 2.2: Calculo de las verosimilitudes

    Porcentajes Probabilidades Verosimilitudde morosidad (a priori) [m(1 )nm]

    0.01 0.12 0.9510.02 0.30 0.9040.03 0.28 0.8590.04 0.15 0.8150.05 0.12 0.7740.06 0.02 0.7340.10 0.01 0.590

    mas frecuente es que el porcentaje de morosidad sea del 2%(0,02) (corresponde conla mayor probabilidad a priori) y que en termino medio el porcentaje de morosidades de 0,010,12+ ...+0,100,01 = 0,0298, es decir, del 2,98 3%. Habitualmen-te para asignar estas probabilidades (a priori) el experto puede tomar dos valoresde referencia (mas y menos probable, por ejemplo) y a continuacion asignar cadauna de las probabilidades al resto de los valores mediante comparacion con estosvalores de referencia.

    Ahora necesitamos obtener la plausibilidad que cada uno de los datos obser-vados tiene bajo cada uno de los posibles modelos considerados. Realizamos esteejercicio para el casom = 0 y de forma analoga se hace para cualquier otro resulta-do observado (de entre los seis posibles). En primer lugar, merece la pena observarque para cada valor de considerado tenemos un modelo de generacion de losdatos proveniente de la distribucion Binomial con n = 5 y ese valor de , luego laverosimilitud (informacion muestral) la podemos obtener sin mas que hacer:

    Verosimilitud m (1 )nm = 0,010 (1 0,01)5 = 0,995 = 0,951.Analogamente se procede con el resto de las cantidades, estos calculos pueden

    hacerse de forma sistematica y automatica mediante una hoja de calculo (tabla2.2)

    El siguiente paso consiste en obtener los productos entre las a priori y las vero-similitudes (ver tabla 2.3). Observemos que esta nueva columna nos ha permitidoobtener la predictiva asociada a la observacion m = 0. Ahora basta con que divi-damos cada elemento de esta ultima columna por la predictiva para obtener lasprobabilidades a posteriori de cada tasa de morosidad posible (tabla 2.1.1).

    Como vemos finalmente, el investigador y una vez observada la muestra ex-trada tiene una nueva opinion sobre el sistema (que no necesariamente tiene queser distinta a la inicial). En este caso, nuevamente el valor modal esta en el 2%,con una media (a posteriori) del 2,48 2,5% (vemos que la media ahora es ligera-

  • 2.1. Analisis bayesiano para datos binarios 49

    Tabla 2.3: Calculo de los productos cruzados priori verosimilitud

    Porcentajes Probabilidades Verosimilitudde morosidad (a priori) [m(1 )nm] Prob. Veros.

    0.01 0.12 0.951 0.1140.02 0.30 0.904 0.2710.03 0.28 0.859 0.2400.04 0.15 0.815 0.1220.05 0.12 0.774 0.0930.06 0.02 0.734 0.0150.10 0.01 0.590 0.006

    Predictiva = 0.8615

    Tabla 2.4: Obtencion de las probabilidades a posteriori

    Porcentajes Probabilidades Verosimilitudde morosidad (a priori) [m(1 )nm] Prob. Veros. Posteriori

    0.01 0.12 0.951 0.114 0.1320.02 0.30 0.904 0.271 0.3150.03 0.28 0.859 0.240 0.2790.04 0.15 0.815 0.122 0.1420.05 0.12 0.774 0.093 0.1080.06 0.02 0.734 0.015 0.0170.10 0.01 0.590 0.006 0.007

    mente inferior puesto que la no aparicion de morosos ha hecho que nuestra opinionsobre el ndice de morosidad ha sido modificada). De hecho, podemos afirmar quecon una probabilidad del 96,6% la tasa de morosidad es menor del 5%. Es impor-tante notar que con una muestra como esta en el analisis clasico la estimacion de

    la tasa de morosidad sera de05= 0%. Obviamente la tasa de morosidad debe ser

    baja, pero desde luego ningun actuario en ejercicio estara dispuesto a asumir quedicha tasa es nula.

    Ejemplo 2.2 (Continuacion ejemplo 2.1) Queda propuesto al lector realizarlos calculos para el caso m = 1 y comparar los resultados con los anteriores.

  • 50 Inferencia bayesiana

    2.1.2. Datos binarios en el caso continuo: analisis conjugado

    Consideraremos ahora la situacion mas realista en la que el parametro (la pro-porcion en nuestro caso) puede tomar valores comprendidos entre 0 y 1 (o 0 y 100si hablamos en porcentajes directamente). Para comprender bien esta situacion encomparacion con la anterior debemos pensar que nos encontramos en un contextoen el que tendramos infinitos modelos, uno para cada valor de y tenemosque 0 1. Luego ahora lo unico que nos diferencia del caso discreto son doscosas fundamentales: la primera es que tendremos que sustituir la distribucion deprobabilidad a priori discreta por una continua, denominada funcion de densidad apriori, y la segunda, consecuencia de la anterior, es que sustituiremos los sumandospor integrales. Aunque como veremos a continuacion los calculos matematicos ne-cesarios en este caso son cerrados y los ejemplos posteriores utilizaremos el softwareFirstBayes para su realizacion y visualizacion grafica.

    El analisis bayesiano basico recomienda utilizar densidades a priori que permi-tan calculos exactos, es decir, que sean de facil manejo matematico y que puedanser facilmente asignables por el investigador. En el caso de proporciones, existeuna familia particular de curvas, denominadas densidades Beta o tambien Betade primera especie, que como en el captulo 7dedicado a distribuciones continuas,notaremos como Be, que cumplen estas condiciones y que estudiaremos con detallea continuacion.

    Supongamos que es la proporcion de exitos y por tanto es un numeroentre 0 y 1 (correspondera con el eje horizontal de la grafica de una densidad).La expresion de una densidad Be(, ) contiene potencias de (probabilidad deexito) multiplicada por potencias de 1, de esta manera: 1 (1)1. Losvalores de y deben ser numeros positivos. Utilizando la notacion del captulo7 tendremos:

    pi() =(+ )()()

    1(1 )1, 0 < < 1, , > 0. (2.2)

    La distribucion Beta es suficientemente flexible como para recoger la mayorparte de las posibles creencias del experto. Basicamente, cualquier distribucionunimodal acotada entre los valores [0, 1] sera muy aproximada por una distribu-cion Beta. Como vimos en las figuras 7.2 y 7.3, las densidades Beta adoptan formasabsolutamente distintas para diferentes valores de la parametros. Un catalogo com-pleto de las formas y su relacion con sus parametros de las densidades beta puedeobtenerse en Homberg (1991) y que resumidamente podemos ver en las siguientesgraficas.

    Ejemplo 2.3 (Interpretacion de los diagramas de Homberg, 1991) En es-te ejemplo estamos interesados en estudiar como clasifica de manera exhaustiva elprocedimiento de Homberg (1991) recogido en las figuras 2.1 y 2.2

  • 2.1. Analisis bayesiano para datos binarios 51

    Figura 2.1: Tipos de distribuciones Beta, Homberg (1991)

    Figura 2.2: Clasificacion de las distribuciones Beta en funcion de sus parametros = x y = n x, Homberg (1991)

    Solucion: La interpretacion de las figuras extradas del trabajo de Homberg me-rece un poco de atencion pues clasifica de forma inmediata toda la clase de dis-tribuciones Beta. En primer lugar, la figura 2.1 nos muestra y clasifica (tipo A,B, C,...) las posibilidades graficas de cada una de las densidades Beta en funcionde los valores de sus parametros. En la figura 2.2, se relaciona dicha grafica conlos valores concretos de cada parametro. En particular por ejemplo, fijemosnos enla densidad Be(10, 1,5) que aparece en la figura ??. Pues bien, los valores de losparametros para esta densidad son = x = 10 y = nx = 1,5 que observando

  • 52 Inferencia bayesiana

    en las figuras 2.1 y 2.2 vemos que se corresponden con tipo F+ tal y como vemosen la figura 2.2 (se denota por A+, B+, etc. a las mismas representaciones graficastipo A, B, etc. pero asimetricas hacia la derecha).

    Es muy importante la interpretacion que hacemos de las densidades a priori.

    Basicamente, una densidad a priori indica la plausibilidad que para el expertotienen cada uno de los valores del parametro. De esta manera la densidad a priorisobre el parametro recoge la opinion sobre dicho parametro del experto, debiendorecoger de manera adecuada todos sus juicios. Un caso particular importante esBe(1, 1) tambien denominada densidad uniforme, en la notacion del captulo 7la expresaremos por U(0, 1). Para este caso particular = 1 y = 1 y por tantolas potencias de la expresion quedan: 0(1 )0 = 1, es decir que la expresionde la densidad Beta para el caso = = 1 es constantemente igual a 1 (y nodepende del valor de ). Graficamente se corresponde con una grafica del tipo Een las figuras anteriores. En nuestro lenguaje, esta densidad indica que el expertoconsidera igualmente plausibles todos los valores del parametro o equivalentementese muestra indiferente ante cualquier valor de este, no tiene opinion sobre el. Estees un hecho muy importante, sobre el luego volveremos pues viene a decirnos quela no opinion tambien puede modelizar como opinion.

    La densidad Beta por tanto esta relacionada con sus parametros y en conse-cuencia es muy importante conocer varias de sus medidas descriptivas. En concreto,el conocimiento de la expresion de la media, moda y varianza de la densidad Betasera util en el proceso de asignacion de parametros para la densidad a priori:

    Media =

    + ,

    Moda = 1

    + 2) ,

    Varianza =

    (+ )2(+ + 1).

    La densidad a priori Beta viene definida por dos parametros ( y ). Por lo tantoel experto debera ofrecer informacion acerca de dos momentos de la distribuciona priori, por ejemplo mediamoda o mediavarianza, o cualquier otra combinacion(tambien pueden asignarse valores puntuales de la distribucion).

    Actualizando nuestras opiniones

    Como actualizamos ahora nuestro juicio sobre . Supongamos por tanto quehemos observado una muestra aleatoria de n individuos y que hemos obtenido sexitos y f = n s fallos o fracasos. La verosimilitud obtenida coincide con el casodiscreto y esta es la informacion de la muestra:

    Verosimilitud s(1 )f = s(1 )ns. (2.3)

  • 2.1. Analisis bayesiano para datos binarios 53

    Observemos que la verosimilitud es identica en las concepciones clasicas y ba-yesianas. El punto de vista bayesiano incorpora a la verosimilitud (informacion delos datos) el juicio del experto. La concepcion clasica no, basa toda su inferenciaen la informacion muestral y por tanto solo utiliza para sus analisis la funcion deverosimilitud.

    Pues bien, ya estamos en condiciones de actualizar nuestros juicios. El teoremade Bayes nos dice como debemos combinar ambas fuentes de informacion.

    Teorema 2.1 Sea (0, 1) un parametro de interes sobre el que deseamos hacerinferencia. Supongamos que para asignamos una densidad a priori Be(, ) yque en una muestra de tamano n se han observado s exitos de acuerdo a unaverosimilitud de tipo Binomial, B(n, ). Entonces, la densidad a posteriori de observados los datos x, pi(|x), es tambien una densidad Beta, Be(+s, +ns).

    Ademas la distribucion predictiva de una futura observacion es una Beta-Binomial.

    Demostracion: De acuerdo al Teorema de Bayes, multiplicando la densidad apriori por la verosimilitud tenemos,

    1(1 )1 s(1 )ns = +s1(1 )+ns1. (2.4)y como vemos esta expresion corresponde a otra densidad Beta, en la que el papelde le corresponde ahora a + s y el de le corresponde a + f. Es decir, laactualizacion de una densidad a priori Beta, Be(, ), cuando se han observado sexitos y f fallos, corresponde a otra densidad Beta, Be(+ s, + f).

    Calculemos ahora la distribucion predictiva de una futura observacion z :

    p(z|x) = 10

    f(z|)pi(|x)d =(n

    z

    ) (+ + n)(+ s)( + n s)

    10

    +s+z(1)+ns+nzd

    =(n

    z

    )(+ + n)

    (+ s)( + n s) (+ s+ z)( + 2n s z)

    (+ + 2n),

    expresion que se corresponde con una distribucion Beta-Binomial.En definitiva bajo un proceso de muestreo Binomial (o equivalentemente de

    tipo Bernoulli) la familia de distribuciones a priori Beta cumple la propiedad deque sus distribuciones a posteriori asociadas son tambien de tipo Beta. A estapropiedad se le distingue diciendo que la familia Beta es conjugada para unmuestreo Binomial.

    Vemos como en el proceso de aprendizaje sobre la informacion muestral dadapor s y f se ha incorporado de manera inmediata. Veamos este comentario sobrela media a posteriori. En efecto, de la expresion anterior para la media de unadensidad Beta tenemos ahora que la media (a posteriori) sera:

    + s+ s+ + f

    . (2.5)

  • 54 Inferencia bayesiana

    Escribiremos esta expresion de la siguiente manera:

    + s+ s+ + f

    = w

    + + (1 w) s

    s+ f= w

    + + (1 w) s

    n,

    con w =+

    + + n. Lo importante es ver que la media a posteriori (es decir

    nuestro juicio actualizado sobre la media) se ha formado como una combinacionponderada de la media a priori

    (media proveniente de los juicios del experto)

    y la media muestrals

    n(informacion proveniente de los datos). De nuevo se pone

    de manifiesto que el paradigma bayesiano es un compromiso entre los datos y eljuicio inicial. Ademas esta expresion nos permite analizar dos situaciones lmite:

    1. Caso de no informacion muestral: n = 0. En tal caso la expresion w vale1 y por tanto la media a posteriori coincide con la a priori. Obviamente,si no hay informacion adicional de los datos, mis juicios sobre el parametrocoincidiran con mis actuales (a priori) juicios.

    2. Caso de infinita informacion muestral: n. En este hipotetico caso dedisponer de toda la informacion posible de la poblacion, el factor de ponde-racion w tiende a 0 y por tanto 1w vale 1, y por tanto la media a posterioricoincide con la media muestral. Es decir, en situaciones en las que el tamanomuestra es muy grande las estimaciones clasicas (media muestral) y bayesia-nas (media a posteriori) coinciden. En general, podemos decir que cuandoel tamano muestral es muy grande las estimaciones bayesianas y clasicas nodifieren sustancialmente (aunque obviamente s en la interpretacion).

    Volvamos ahora sobre el caso no informativo a priori. Es decir, supongamosque deseamos comportarnos de manera clasica y por tanto, deseamos que todonuestro aprendizaje este basado unicamente en la informacion de los datos. Enefecto, tal y como vimos anteriormente, podemos tambien plantear un analisisbayesiano desinformativo, es decir, asumiendo carencia de conocimiento a prioriacerca del parametro de interes. El propio Reverendo Thomas Bayes (1763) propu-so el uso de la distribucion uniforme para representar esta desinformacion inicial.La distribucion uniforme asignara el mismo peso a priori para todos los posiblesvalores de entre 0 y 1. Laplace (1774) tambien utilizo esta distribucion a priori.La distribucion uniforme puede expresarse como indicando que la probabilidad decada valor de es igual y, por tanto, proporcional a la unidad.

    pi() 1 Be(1, 1) U(0, 1).En este caso particular, la distribucion a posteriori se obtiene por tanto como:

    pi(|x) s(1 )ns,

  • 2.1. Analisis bayesiano para datos binarios 55

    que comparando con la densidad Beta vemos que se corresponde con una Beta deparametros s+1 y ns+1 siendo s el numero de exitos en n pruebas. Lo importantede esta situacion es ver que en un contexto de desinformacion, las decisiones finalesse derivan de la a posteriori que coincide con las decisiones obtenidas a traves de laverosimilitud (que es como toman las decisiones los clasicos). Es decir, si deseamosobtener respuestas parecidas a la que dara el analisis clasico debemos optar poruna a priori no informativa.

    Se comprueba en este caso como la moda de la distribucion a posteriori coincidecon la estimacion frecuentista maximo verosmil.

    Moda =s+ 1 1

    s+ 1 + 1 + n s 2 =s

    n

    Existen otras elecciones de densidades no informativas como la densidad Be-ta de parametros nulos, Be(0, 0) (introducida por Haldane en 1931, estrictamentehablando no corresponde a una densidad Beta). La media de la distribucion a pos-teriori empleando esta distribucion a priori coincide con el estimador frecuentista:

    Media =0 + s

    0 + s+ 0 + n s =s

    n

    Veamos el ejemplo anterior de morosidad ilustrado ahora como un caso conti-nuo.

    Ejemplo 2.4 Consideremos el caso del ejemplo 2.1 abordado ahora como un pro-blema continuo. Consideremos el caso de n = 5 y que no hemos observado impagoen ninguna de las polizas muestreadas. Para la informacion del experto conside-remos la media y moda deducidas del mismo ejemplo que valan respectivamente,3% y 2%.

    Solucion: En efecto, en primer lugar tenemos que el parametro de interes, la tasade morosidad de la compana, sera un parametro que vara entre 0 y 1. Pues bien,debemos construir una densidad a priori Beta que refleje correctamente el juiciodel actuario sobre el valor medio y modal. Para la asignacion de una densidad Betaconcreta debemos dar unos valores especficos de y . Utilizando la relacion entrela media y la moda y los valores de los parametros anteriores podemos obtenerlo.En efecto, conocemos que:

    Media =

    + = 0,03(3%)

    Moda = 1

    + 2 = 0,02(2%)Resolviendo este sistema obtendremos los valores de y que se correspondencon los juicios iniciales del experto:

    = 0,03+ 0,03 0,97 = 0,03 0,97 0,03 = 0

  • 56 Inferencia bayesiana

    1 = 0,02+ 0,02 0,04 0,98 0,02 = 0,96La solucion de este sistema es = 2,88 y = 93,12.

    Ahora la aplicacion directa del teorema anterior 2.1 nos permite obtener analti-camente la distribucion a posteriori. Tenemos que de una muestra de n = 5 polizasno ha aparecido ningun moroso, es decir s = 0.

    Verosimilitud 0(1 )5 (1 )5,

    luego la densidad a posteriori sera:

    Posteriori 1,88(1 )97,12,

    es decir, una densidad Beta: Be(2,88; 98,12).

    Ejemplo 2.5 (Resolucion del ejemplo 2.4 con FirstBayes) Resolver el ejem-plo 2.4 con FirstBayes y obtener graficas de las cantidades de interes.

    Solucion: Utilizaremos en este ejemplo el software FirstBayes que nos permi-tira realizar los calculos necesarios. Un breve manual del programa puede con-sultarse en el Apendice A. Basta entrar en el programa (haciendo doble click) yactivar la opcion APL data entry en Options. Puesto que se trata de datos bino-miales (0 y 1) en el apartado de Analyses iremos a su menu de Binomial sample.Automaticamente nos pedira en el margen superior derecho que introduzcamos ladensidad a priori donde introduciremos el valor 2,88 en parameter p (que es suequivalente a ) y 93,12 en parameter q equivalente a . En la figura 2.3 podemosver los valores obtenidos una vez que se pulsa Next.

    Una grafica de esta densidad puede obtenerse facilmente sin mas que pincharen la opcion Plot, como muestra la figura 2.4.

    Una inspeccion de la grafica anterior nos confirma los valores de la media ymoda que habamos asignado anteriormente. Pero tambien nos da mas informa-cion adicional. Por ejemplo, el investigador piensa que es altamente improbableencontrarse con una tasa de morosidad mayor del 10% (graficamente vemos que ladensidad se aproxima a cero a partir de 0,10). En definitiva, el investigador conside-ra que toda la tasa de morosidad se encuentra concentrada en valores menores del10% (como mucho del 12% como puede apreciarse graficamente). Ahora debemosincorporar la informacion muestral. Aprovecharemos este ejemplo, sin embargo,para realizar tambien los calculos mediante FirstBayes pues nos permite realizarmuchas mas inspecciones de la densidad a posteriori. Para ello, en primer lugarintroduciremos los datos para obtener la a posteriori. Para ello debemos ir a laopcion Data y pulsando en New podremos introducir nuestros datos (pondremosnombre al nuevo fichero y conviene poner una descripcion de que contiene parafuturos accesos a este fichero). Dicho fichero contendra cinco ceros pues han sido

  • 2.1. Analisis bayesiano para datos binarios 57

    Figura 2.3: Introduccion de la densidad Be(2,88; 93,12)

    Figura 2.4: Grafica de la densidad Be(2,88; 93,12)

    las observaciones obtenidas (conviene grabar el fichero para futuros accesos, paraello pulsar Save). En la figura 2.5 puede apreciarse el proceso realizado.

    Ahora volvemos al menu inicial pulsando en Quit. Para obtener la densidad aposteriori solo nos queda actualizar la densidad a priori. Para ello, si observamos

  • 58 Inferencia bayesiana

    Figura 2.5: Introduccion de datos para el ejemplo 2.4

    justo debajo de la a priori que acabamos de definir hay una pestana denominadaData que actualmente esta en Nul. Si desplegamos esa pestana podremos ver losficheros que tenemos disponibles para cargar.

    Cargaremos el fichero datos_morosidad (figura 2.5). Realizada esta operacionautomaticamente en la parte superior izquierda aparece la densidad a posteriorique se obtiene, que es la misma que la obtenida analticamente. Adicionalmentenos aporta varias de sus medidas descriptivas que son importantes: la media (aposteriori) vale 0.028515 (es decir, del 2,85%; a diferencia de lo que pensaba ini-cialmente que era del 3%. Obviamente lo que ha ocurrido es que al no observarmorosidad alguna en dicha muestra la opinion del investigador se ha escorado li-geramente hacia la izquierda tendiendo a ser mas proxima a cero, pero no valecero desde luego que es la estimacion que aportara un clasico). La moda vale1,9%, tambien ligeramente mas pequena que en la situacion inicial. Graficamentepodemos ver dicha densidad en la siguiente figura 2.6, en la que hemos insertadosimultaneamente la grafica y los valores obtenidos en la a posteriori.

    Inferencia bayesiana para proporciones

    La inferencia bayesiana para esta situacion es inmediata. Los estimadores pun-tuales mas habituales ya sabemos que son la media, mediana y moda dependiendodel tipo de funcion de perdidas que asumamos. Por ejemplo, los valores de la media

  • 2.1. Analisis bayesiano para datos binarios 59

    Figura 2.6: Densidad a posteriori para la tasa de morosidad

    y la moda son respectivamente

    E (|x) = + s+ + n

    , Moda(|x) = + s 1+ + n 2 .

    El calculo de los intervalos de credibilidad bayesianos con probabilidad 1 de acuerdo a las definiciones 1.5 y 1.6, consiste en un intervalo [a, b] de tal formaque la probabilidad (a posteriori) de que dicho intervalo contenga al parametro es(1 )%, esto es b

    a

    pi(|x)d = 1 ,

    con pi(|x) Be(+ s, +n s). Estas cantidades pueden obtenerse de cualquiersoftware estadstico general y de manera muy sencilla (como veremos en ejemplosposteriores) en FirstBayes.

    Ejemplo 2.6 (Continuacion ejemplo 2.4) Obtener los estimadores puntualesde y un intervalo bayesiano de credibilidad con probabilidad 0,95 para el caso delejemplo 2.4

    Solucion: Calcular el intervalo bayesiano de credibilidad al 95% por ejemplo, esinmediato con FirstBayes ademas de los estimadores puntuales media, mediana

  • 60 Inferencia bayesiana

    y moda que valen 0,028, 0,025 y 0,019, respectivamente (figura 2.7). Basta ir a lapestana denominada HDI que aparece debajo de la densidad a posteriori e indicarel nivel de probabilidad deseado, 95% en nuestro caso.

    Figura 2.7: Intervalo bayesiano al 95% para el ejemplo 2.4

    Como vemos los lmites obtenidos son 0,0027 y 0,0608, respectivamente. Comolo interpretamos? Pues muy sencillamente, una vez observados los datos, la tasade morosidad esta comprendida entre el 0,2% y el 6,1%, con una probabilidad del95%.

    Es realmente sencillo interpretar los intervalos de credibilidad, pero hay nuevasmedidas que tambien tienen la misma sencillez para su calculo e interpretacion.Por ejemplo, cual sera la probabilidad de que la tasa de morosidad sea mayor del10%? Para ello, basta con indicar en la opcion Prob. el intervalo del que queremosobtener la probabilidad, en este caso sera entre 0.10 y 1. El resultado obtenido(figura 2.8) es 0.001612, es decir, la probabilidad de que la tasa de morosidadsea mayor del 10% es 0,001 (obviamente muy pequena, pues los datos nos haninformado de que no haba errores en la muestra).

    Graficamente podemos observar cual ha sido el proceso de aprendizaje delinvestigador respecto a la tasa de morosidad una vez observados los 5 contratossin morosidad. Para ello basta pinchar en la opcion Triplot (figura 2.9).

  • 2.1. Analisis bayesiano para datos binarios 61

    Figura 2.8: Probabilidad a posteriori de que la tasa de morosidad sea mayor del10% en el ejemplo 2.4

    Como vemos, los datos han variado muy poco la opinion inicial del investigador(de hecho priori y posteriori estan casi superpuestas, pero ligeramente mas hacia laizquierda la a posteriori y mas apuntada indicando por tanto menor variabilidad).

    Los test de hipotesis se realizan facilmente acudiendo a las expresiones de los

    odds y factor Bayes deducidas en la seccion 10.7.3.

    Ejemplo 2.7 Supongamos que una compana aseguradora desea conocer el porcen-taje de asegurados que de una determinada cartera presentaran alguna reclamaciona lo largo del presente ano. Se han observado n = 100 clientes de los cuales 45han presentado alguna reclamacion. Se trata de realizar el contraste:

    H0 : =12vs H1 : =

    23,

    para una situacion a priori desinformativa.

    Solucion: Estamos en una situacion de hipotesis nula simple frente alternativasimple y por tanto utilizaremos las expresiones de los odds y factor Bayes de-ducidas en (1.12) y (1.13). En general el problema se resuelve facilmente teniendo

  • 62 Inferencia bayesiana

    Figura 2.9: Triplot para la tasa de morosidad

    en cuenta que si hay s exitos en una muestra de tamano n tendremos que:

    L(s|) =(n

    s

    ) s (1 )ns.

    Luego el odds a posteriori vale

    p0p1

    =pi0pi1

    s0(1 0)ns

    s1(1 1)ns, (2.6)

    y el factor Bayes valdra

    B01 =(01

    )s(1 01 1

    )ns. (2.7)

    Para el caso que nos ocupa n = 100, s = 45, pi0 = pi1 =12, 0 =

    12y 1 =

    23de

    donde se obtiene que

    B01 =(34

    )45(32

    )55 1155,5

  • 2.1. Analisis bayesiano para datos binarios 63

    que nos indica que a la luz de los datos la hipotesis nula es 1155,5 veces mas creble

    que la alternativa. Parece claro que admitiremos que =12. Observemos que en

    este caso factor Bayes y odds a posteriori coinciden.

    Veamos como sera el caso de hipotesis nula simple con alternativa compuesta.Supongamos una experimentacion binomial de parametros n y , en la que desea-mos investigar la hipotesis H0 : = 0 vs H1 : 6= 0. La informacion a priori esdel tipo:

    1. Pr{H0} = pi0,Pr{H1} = 1 pi0.2. La densidad a priori mixta tendra la forma siguiente:

    pi() ={

    pi0 si = 0(1 pi0) pi1() si 6= 0 ,

    con pi1() Be(, ).Siguiendo los pasos de (1.19), (1.20), (1.21) y de manera analoga al ejemplo

    1.10 sobre la paradoja de Lindley tendremos

    f(s|0) =(n

    s

    ) s0 (1 0)ns, (2.8)

    p1(s) ={6=0}

    f(s|)pi1()d =(n

    s

    ) (+ )()()

    (+ s)( + n s)(+ + n)

    , (2.9)

    luego el odds a posteriori vale

    p0p1

    =pi0

    1 pi0 (s0 (1 0)ns

    ) ()()(+ + n)(+ )(+ s)( + n s) , (2.10)

    y el factor Bayes tiene la expresion,

    B01 = s0 (1 0)ns ()()(+ + n)

    (+ )(+ s)( + n s) , (2.11)

    Ejemplo 2.8 (Continuacion ejemplo 2.7) Para el caso del ejemplo 2.7 reali-

    zar ahora el contraste H0 : =12vs H1 : 6= 12

    Solucion: Atendiendo a las expresiones (2.8) y (2.9) y para el caso particular

    de este ejemplo: n = 100, s = 45, pi0 =12y supongamos el caso desinformativo

    = = 1 tendremos que el odds a posteriori y el factor Bayes tienen el mismo

    valor(12

    )100 (102)(46)(56)

    4,9. Es decir, la hipotesis nula es casi 5 veces mas

  • 64 Inferencia bayesiana

    creble a posteriori que la alternativa. Observemos que en el caso de hipotesisnula simple frente alternativa simple (ejemplo 2.7) este valor era marcadamentemayor. Es decir, si tenemos que decidir entre dos posibles valores los datos aportanevidencia muy clara hacia la hipotesis nula. Ahora bien, cuando solo se trata deuna hipotesis nula simple, los datos ofrecen evidencia en favor de H0 pero no enla magnitud en la que lo haca en el otro caso.

    Para el caso de hipotesis nula y alternativa compuesta el procedimiento es

    analogo, como ya hemos comentado. En los siguientes ejemplos veremos comopodemos proceder en estos casos.

    Ejemplo 2.9 (Continuacion ejemplo 2.4) Volviendo al caso de la inspeccionde polizas sin pagar de una compana aseguradora del ejemplo 2.4, supongamosque el investigador esta interesado en contrastar la hipotesis de que la tasa demorosidad es menor del 4% frente a la hipotesis de que es mayor.

    Solucion: Debemos realizar el contraste:

    H0 : 0 0,04 vs H1 : > 0,04

    El procedimiento bayesiano para estos contrastes de hipotesis es analogo a todoel proceso realizado hasta el momento. Es decir, el experto posee informacion inicialsobre las hipotesis y dichos juicios iniciales son actualizados con la observacionmuestral. Obtenidos estos juicios a posteriori, el decisor debera tomar una decisionsobre el contraste. Utilizaremos FirstBayes para realizar los calculos.

    En efecto, cada una de las hipotesis tendra unas probabilidades iniciales de sercierta:

    pi0 = Pr{H0 cierta } = Pr{0 0,04} = 0,76 (ver figura 2.10).

    En consecuencia la probabilidad a priori de que la tasa de morosidad sea mayordel 4% sera de pi1 = 0,24. El odds a priori valdra

    pi0pi1

    =0,760,24

    3,17.

    Este cociente nos dice que a priori la hipotesis nula (la tasa de morosidad esmenor del 4%) es 3,17 veces mas creible que la alternativa (es mayor del 4%).Esta relacion es una cantidad perfectamente entendible por el investigador quien apriori tiene una opinion sobre cada una de las hipotesis (en este caso, aproximada-mente tres veces mas creible la primera hipotesis que la segunda). Ahora debemoscalcular las probabilidades a posteriori de cada una de las hipotesis. Para ello,volviendo a la ventana correspondiente a la densidad a posteriori indicamos lasmismas probabilidades que anteriormente y se obtiene:

  • 2.1. Analisis bayesiano para datos binarios 65

    Figura 2.10: Probabilidad a priori de H0 en el ejemplo 2.9

    p0 = Pr{H0 cierta | datos } = Pr{0 0,04} = 0,788 (ver figura 2.11).La probabilidad a posteriori de H1 sera por tanto de p1 = 0,21. Observemos

    ahora el odds a posteriori:

    p0p1

    =0,790,21

    3,76.

    Es decir, una vez incorporada la informacion muestral, una tasa de morosidadmenor del 4% es casi 4 veces mas creible que una tasa mayor. En consecuencia, ladecision del experto puede ser del siguiente tipo: A la luz de los datos, aceptamosque la tasa de morosidad es menor del 4% con una probabilidad de ser cierta de0,79 (o equivalentemente, del 79%). Frente a la hipotesis de ser mayor, la hipotesisinicial de morosidad menor del 4% es aproximadamente 4 veces mas creble. Elfactor Bayes de H0 frente a H1 vale

    B01 =p0/p1pi0/pi1

    =0,79/0,210,76/0,24

    1,19,

  • 66 Inferencia bayesiana

    Figura 2.11: Probabilidad a posteriori de H0 en el ejemplo 2.9

    dicho valor se interpreta diciendo que los datos (por s solos) dan aproximadamente1,19 veces mas credibilidad a la hipotesis nula que a la alternativa. Realmente, eneste caso los datos dan practicamente la misma credibilidad a una u otra hipotesis.De manera analoga, sin mas que intercambiarse los ndices, puede definirse el factorBayes de H1 frente a H0, en notacion B10.

    En resumen, los test de hipotesis se realizan de una manera realmente natural

    y de forma intuitiva. Las hipotesis tendran unas probabilidades de ser ciertas quese actualizan a la luz de los datos (mediante el teorema de Bayes). El factor Bayesademas nos proporciona la evidencia que aportan los datos a nuestra decision.Finalmente otras de las cantidades de interes en el analisis bayesiano es la distri-bucion predicitiva de futuros datos. Distribucion que conocemos por el teorema2.1 que es Beta-Binomial. En efecto, en muchas ocasiones el experto esta tambieninteresado en conocer que puede ocurrir en futuras observaciones una vez que tienesu nuevo conocimiento con los datos anteriores. Desde el punto de vista clasico, lounico que se hace es considerar la misma verosimilitud pero no se incorpora nadade lo observado anteriormente. El analisis secuencial por tanto es crucial para estedesarrollo y el metodo bayesiano es especialmente bien comportado para esta si-

  • 2.1. Analisis bayesiano para datos binarios 67

    tuacion. Matematicamente el problema se resuelve facilmente mediante el calculode la denominada distribucion predictiva de una nueva observacion z:

    p(z|x) = 10

    L(|z)pi(|x)d.

    Ejemplo 2.10 (Continuacion ejemplo 2.4) Supongamos que nuestro investi-gador esta interesado en conocer que puede esperar de la observacion de 4 nuevoscontratos en cuanto a su morosidad

    Figura 2.12: Introduccion de la distribucion predictiva en el ejemplo 2.10

    Solucion: Mediante FirstBayes el calculo se puede hacer a traves de la pestanaque aparece como Predictive analysis en la opcion Show predictive (figura2.12), indicando el numero de nuevas observaciones que deseamos predecir (cuan-do son mas de una observacion se obtiene la predictiva del total de las nuevasobservaciones). Pues bien, bastara con que en la opcion de Predict sum of seindiquen 4 observaciones y pulsemos en Show predictive

    La distribucion predictiva obtenida es BetaBinomial con unos determinadosparametros, en este caso puede verse que es BB(4; 2,99, 98,12). Mas alla de loscalculos necesarios para la obtencion de esta distribucion es interesante ver que la

  • 68 Inferencia bayesiana

    Figura 2.13: Obtencion de la distribucion predictiva e intervalo bayesiano de cre-dibilidad al 95% para dicha predictiva en el ejemplo 2.10

    prediccion para futuras observaciones es una nueva distribucion y por tanto ten-dra todas las caractersticas que las distribuciones tienen (media, moda, etc.). Enconcreto podemos observar que esta distribucion tiene una moda de 0 (es decir,que lo mas frecuente es que en las futuras 4 observaciones no haya ningun contratomoroso). Del mismo modo, podemos calcular el intervalo bayesiano de credibilidadpara la predictiva. En este caso, con una probabilidad de 0,95 dicho intervalo es[0, 1]. Es decir, con una probabilidad del 95% las futuras 4 observaciones presen-taran 0 o 1 contratos morosos (figura 2.13). De nuevo, la interpretacion se hace demanera natural en terminos de probabilidad.

    Ejemplo 2.11 (Continuacion ejemplo 2.10) Realizar el mismo analisis ante-rior pero considerando que en la muestra de n = 5 contratos aparecio un moroso,y = 1.

  • 2.1. Analisis bayesiano para datos binarios 69

    2.1.3. Comparacion de dos proporciones

    Como ya hemos visto, el analisis bayesiano nos permite realizar un estudiodetallado sobre proporciones sin mas que incorporar nuestros juicios sobre la tasaobjeto de interes y la informacion muestral recogida en forma de exitos o fracasos.Hay algunas situaciones relativas a proporciones o tasas en las que tambien elanalisis bayesiano puede aportar una buena forma de realizar el aprendizaje sobredicha tasa. Pensemos, por ejemplo, en el caso en que una compana que posee dosfiliales desea comprobar si la tasa de exitos en una u otra filiar puede considerarseesencialmente la misma o si hay evidencia de que en una u otra es mayor.

    Formalmente podemos enunciar el problema de la siguiente forma. Supongamosque observamos dos muestras binomiales de dos poblaciones: x B(nx, x), y B(ny, y). Y estamos interesados en la relacion entre x y y. Bajo el supuesto deque ambos parametros son independientes con densidades a priori de tipo Beta,Be(x, x) y Be(y, y)

    Conocemos ya que la densidad a posterior de cada parametro sera respectiva-mente Be(x+x, x+nxx) y Be(y+y, y+nyy). Ahora estamos interesadosen comparar las proporciones en cada una de las poblaciones. Habitualmente, esta

    comparacion puede hacer a traves de la diferencia x y o bien el cociente xy

    .

    Existen varias alternativas bayesianas para resolver este problema. Un primerprocedimiento consiste en considerar la reparametrizacion

    x =x

    1 x , y =y

    1 y ,x = log x y y = log y.

    Como puede verse en Lee (2003, p. 152) las siguientes cantidades

    12x +

    12log(x + nx xx + x

    ),

    12y +

    12log(y + ny yy + y

    ),

    se distribuyen a posteriori aproximadamente como una distribucion Normal con

    parametros log(

    x + x 1/2x + nx x 1/2

    )y

    1x + x

    +1

    x + nx x, para x (analoga-mente para y sin mas que cambiar x por y).

    Ahora teniendo en cuenta que x y = log(xy

    ), tendremos que

    x = y xy

    = 1 x = y. (2.12)

    De esta ultima identidad podremos obtener las relaciones entre las proporciones sinmas que considerar que las diferencias entre normales independientes es tambienuna distribucion Normal, esto es N ((x, y), 2(x, y)) con

  • 70 Inferencia bayesiana

    (x, y) = log((x + x)(y + ny y)(x + nx x)(y + y)

    ), (2.13)

    2(x, y) =1

    x + x+

    1x + nx x +

    1y + y

    +1

    y + ny y . (2.14)

    Un segundo procedimiento mas simple, y con resultados analogos al anteriorpara tamanos muestrales adecuados consiste en lo siguiente. Bastara con aproximarlas distribuciones a posteriori de los parametros de interes por aquellas distribu-ciones normales que tienen la misma media y varianza que la original distribucionBeta a posteriori. A continuacion y puesto que son independientes, la diferenciaentre estos dos parametros volvera a ser tambien Normal. Es decir, aproximamoslas densidades a posteriori de x y y mediante las distribuciones N (x, 2x) yN (y, 2y), respectivamente, siendo

    x =x + x

    x + x + nx, 2x =

    (x + x)(x + nx x)(x + x + nx)2(x + x + nx + 1)

    , (2.15)

    y =y + y

    y + y + ny, 2y =

    (y + y)(y + ny y)(y + y + ny)2(y + y + ny + 1)

    , (2.16)

    y por tanto, x y N (x y, 2x + 2y).

    Ejemplo 2.12 El servicio de investigacion de una entidad aseguradora desea co-nocer si existe o no evidencia sobre el efecto de una campana publicitaria parala captacion de nuevos clientes en determinadas zonas de la ciudad. Existen dosgrupos de potenciales clientes a los que se dirige. Para el grupo A, se analizaron720 individuos de forma aleatoria; de los que 380 aceptaron, y el resto no. Enla zona B, fueron analizados 290, de los que 120 eran positivos. Desarrollar unprocedimiento que permita comparar las proporciones de positivos, bajo el supuestode inexistencia de informacion a priori.

    Solucion: La modelizacion de esta situacion podemos hacerla de la siguiente for-ma. Consideremos A la tasa de positivos o exitos de la zona A y B su analogopara la zona B. Para cada una de estas zonas debemos utilizar de acuerdo alenunciado, una a priori desinformativa que conocemos que se corresponde con unadensidad Beta, Be(1, 1), lo que equivale a:

    pi(A) 1, pi(B) 1.

    La informacion muestral en cada zona sera:

    Zona A: Verosimilitud 380A (1 A)340.Zona B: Verosimilitud 120B (1 B)170.

  • 2.1. Analisis bayesiano para datos binarios 71

    Luego la actualizacion de cada una de los juicios sobre las tasas de exito encada zona seran:

    pi(A| datos ) pi(A)L(A| datos ) 380A (1 A)340,

    que como sabemos se corresponde con una densidad Beta, Be(381; 341). Esta den-sidad puede conocerse mejor con FirstBayes.

    Figura 2.14: Tasa de exito en la zona A

    Como vemos (figura 2.14), la tasa de exito en la zona A podemos estimarlaen torno al 52,77%, estando toda la tasa de exito de la zona A concentrada entreel 46% y 59% con un intervalo bayesiano al 95% de entre 49,1% y 56,4%, esdecir, existe una probabilidad del 05% de que la tasa de exito de la campana enla zona A este comprendida entre el 49,1% y el 56,4%. Observemos que ahorahemos utilzado FirstBayes directamente desde la opcion de Distributions sinpasar por el analisis binomial. Obviamente lo podramos haber realizado perohubiesemos tenido que crear un fichero de 720 registros con 380 unos y 340 cerosy dado que los calculos para la a posteriori son inmediatos se ha preferido estaopcion. Es tambien interesante observar que la varianza para el parametro en lazona A puede estimarse por 0,000345.

  • 72 Inferencia bayesiana

    Para la zona B se procede de forma analoga obteniendose una densidad aposteriori Beta, Be(121, 171).

    Figura 2.15: Tasa de exito en la zona B

    Como vemos (figura 2.15), la tasa de exito en la zona B podemos estimarlaen torno al 41,4%, estando toda la tasa de exito de la zona B concentrada entreel 32% y 51% con un intervalo bayesiano al 95% de entre 35,8% y 47,1%, esdecir, existe una probabilidad del 5% de que la tasa de exito de la campana enla zona B este comprendida entre el 35,8% y el 47,1%. Del mismo modo queanteriormente, observemos que hemos utilizado FirstBayes directamente desdela opcion de Distributions sin pasar por el analisis binomial. La varianza parael parametro en la zona B es 0,000828.

    Ya tenemos el comportamiento de la tasa de exito en cada zona, el problemaque debemos ahora resolver es ver si hay evidencia de que la tasa de exito en lazona A es mayor que en la zona B, es decir, en terminos de probabilidad estamoshablando de saber cuanto vale:

    Pr{A > B} = Pr{A B > 0}.Se trata por tanto de saber como se distribuye la diferencia entre ambos parame-tros, sabiendo que cada uno de ellos es una Beta. Debemos decir que en principio

  • 2.2. Analisis bayesiano para datos de Poisson 73

    este no es un problema sencillo de resolver pues la diferencia de Betas no es, engeneral, otra distribucion Beta. Sin embargo, existe una manera adecuada de sos-layar este impedimento. En efecto, si observamos las densidades a posteriori decada una de las zonas podemos ver que cada una de ellas se parece o aproximade manera muy buena a una campana de Gauss, es decir, a una densidad Normal;de hecho aunque no es objeto de este modulo, puede calcularse el grado de simi-litud entre ambas densidades y ver que sus distancias son realmente pequenasy por tanto, podemos concluir que la aproximacion mediante una curva normalde las densidades Betas no supone ninguna perdida de exactitud en los calculosnecesarios. Ahora bien, si deseamos aproximar estos juicios a posteriori mediantedensidades de tipo Normal, por cual debemos hacerlo?

    Parece claro que si queremos aproximar estas densidades, lo logico es apro-ximar la densidad Beta para la zona A por aquella densidad Normal que tengala misma media y varianza (parametros que determinan una densidad Normal)que la densidad Beta obtenida anteriormente. En este caso, aproximaremos ladensidad a posteriori de A por una densidad Normal, N (0,5277; 0,000345). Elmismo razonamiento es valido para la zona B y por tanto, proponemos aproximarlos juicios sobre la tasa de exito para la zona B mediante una densidad Normal,N (0,414; 0,000828).

    Ya estamos en condiciones de obtener como se distribuye la diferencia entreambos parametros, puesto que usamos la propiedad de que la suma (o diferencia)de densidades Normales independientes es tambien una densidad Normal con me-dia la suma (o diferencia, segun proceda) de las medias y la suma de las varianzascorrespondientes. Para el caso que nos ocupa tendremos que A B se compor-ta como una densidad Normal, N (0,1137; 0,001173). Y de esta densidad podemosobtener todas las cantidades de interes que procedan, para ello basta con que intro-duzcamos desde la opcion Distributions la familia Normal, con los parametrosanteriores. Para el caso que nos ocupa se tiene que: Pr{A > B} = 0,999. Luegopodemos asegurar con una probabilidad del 99,9% (ver figura 2.16) que la tasa deexitos en la zona A es mayor que en la zona B.

    2.2. Analisis bayesiano para datos de Poisson

    Como ya hemos comentado en el captulo 6, seccion 6.5, la distribucion dePoisson aparece de manera natural en el estudio de datos que provienen de proce-sos de conteo, como es el caso del numero de siniestros, numero de llegadas a unsistema, llegadas a una ventanilla de una oficina bancaria, llegadas a una caja desupermercado, llegadas a un semaforo que regula el trafico, numero de reclamacio-nes que presentan unos usuarios, numero de partes de accidentes que recibe unacompana de seguros, etc. Estudiaremos en esta seccion el procedimiento bayesianode inferencia para este modelo muestral.