dialnet-elresurgirdethomasbayes-2652087

34
El resurgir de Thomas Bayes Agustín ALONSO RODRÍGUEZ Real Centro Universitario «Escorial-María Cristina» San Lorenzo del Escorial Resumen: En este trabajo presentamos el punto de vista de Thomas Bayes en la Teoría de la Probabilidad, y sus consecuencias en la probabili- dad y estadística contemporáneas. Los nuevos métodos de cálculo numéri- co y la potencia de cálculo de los ordenadores han hecho posible la aplica- ción del famoso Teorema que lleva su nombre. Abstract: In this paper we present the point of view of Bayes in the Theory of Probability, and its consequences in modern probability and sta- tistics. The new numerical methods and the computing power of computers have made a reality the application of his famous Theorem. Palabras clave: Teorema de Bayes, probabilidad a priori, probabilidad a posteriori, función de verosimilitud, métodos MCMC, programa R, pro- yecto BUGS. Key words: Bayes theorem, probability a priori, probability a posterio- ri, likelihood function, MCMC numerical methods, R program, BUGS pro- ject. Sumario: I. Introducción. II. Apuntes biográficos. Anuario Jurídico y Económico Escurialense, XLI (2008) 327-360 / ISSN: 1133-3677

Upload: alberto-troisi

Post on 05-Nov-2015

6 views

Category:

Documents


0 download

DESCRIPTION

El resurgir de Bayes

TRANSCRIPT

  • El resurgir de Thomas Bayes

    Agustn ALONSO RODRGUEZReal Centro UniversitarioEscorial-Mara CristinaSan Lorenzo del Escorial

    Resumen: En este trabajo presentamos el punto de vista de ThomasBayes en la Teora de la Probabilidad, y sus consecuencias en la probabili-dad y estadstica contemporneas. Los nuevos mtodos de clculo numri-co y la potencia de clculo de los ordenadores han hecho posible la aplica-cin del famoso Teorema que lleva su nombre.

    Abstract: In this paper we present the point of view of Bayes in theTheory of Probability, and its consequences in modern probability and sta-tistics. The new numerical methods and the computing power of computershave made a reality the application of his famous Theorem.

    Palabras clave: Teorema de Bayes, probabilidad a priori, probabilidada posteriori, funcin de verosimilitud, mtodos MCMC, programa R, pro-yecto BUGS.

    Key words: Bayes theorem, probability a priori, probability a posterio-ri, likelihood function, MCMC numerical methods, R program, BUGS pro-ject.

    Sumario:

    I. Introduccin.II. Apuntes biogrficos.

    Anuario Jurdico y Econmico Escurialense, XLI (2008) 327-360 / ISSN: 1133-3677

  • III. El teorema de Bayes.

    IV. El paso de eventos a teoras cientficas.V. Otra formulacin del teorema de Bayes.VI. Tras la herencia de Bayes.

    VII. Inferencia bayesiana.

    VIII. Cadenas de Markov.IX. El enfoque bayesiano en el entorno R:

    9.1. El proyecto BUGS.9.2. Los paquetes BRugs y MCMCpack.

    X. Ilustracin numrica.10.1. Los datos y el modelo.10.2. Aplicacin del paquete MCMCpack.10.3. Aplicacin del paquete BRugs.

    XI. Resumen.

    XII. Bibliografa.

    328 AGUSTNALONSO RODRGUEZ

  • 1. No seguidores de la Church of England.

    I. INTRODUCCIN

    Nos acercamos a uno de los grandes pensadores en el campo de laprobabilidad, y buena prueba de su estatura intelectual est en elhecho de que sigue siendo objeto de estudio, tanto su persona comosu obra, ya que fue el primero en utilizar la probabilidad de formainductiva.

    Y, sin embargo, es sorprendente los pocos detalles sobre su vidaque se conocen. Siguiendo a Barnard (1958), he aqu algunos datos.En el The Dictionary of National Biography, de finales del XIX, sehace mencin de su padre, Joshua Bayes, uno de los seis No-Confo-mistas 1 ordenado ministro en Inglaterra, pero nada se dice de su hijoThomas Bayes. Tampoco se hace referencia a Thomas Bayes en elImperial Dictionary of Universal Biography, publicado en Glasgow,en 1865, siendo la Encyclopedia Britannica la primera referencia asu persona en una obra de consulta general.

    Y en lo que se refiere a Espaa, la EnciclopediaUniversal Ilustra-da Espasa no menciona a Bayes hasta la edicin de 2005. Con ante-rioridad a esa fecha, s lo hacen la Gran Enciclopedia Rialp y laNueva Enciclopedia del Mundo, de Durvan Ediciones (Club Interna-cional del Libro).

    II. APUNTES BIOGRFICOS

    Siguiendo a Barnard (1958), podemos destacar los siguientesdetalles biogrficos.

    Naci en Londres en 1702. Fue el mayor de los hijos de Ana yJoshua Bayes. Fue educado privadamente, como era costumbre entrelos No-Conformistas de entonces.

  • Cuando tena unos doce aos, Bernoulli escriba a Leibniz dicien-do que el pobre De Moivre viva en Londres teniendo que dar cla-ses de matemticas, lo que permite especular que quizs ThomasBayes aprendi matemticas de uno de los fundadores de la teora dela probabilidad.

    Tras ser ordenado ministro, Thomas comenz su actividad pasto-ral ayudando a su padre, que por entonces recibi el cargo de minis-tro presbiteriano en la casa de encuentros, en Leather Lane, cerca deHolborn. Ms tarde, pas a ministrar en la capilla presbiteriana deLittle Mount Sion, en Tunbridge Wells, abierta el primero de agostodel ao 1720, si bien no parece que l fuera la persona que inaugura-ra la capilla. All se encontraba, en 1731, cuando public el tratadocon ttulo Divine Benevolence or an attempt to prove that the Princi-ple End of the Divine Providence and Government is the happinessof His Creatures, o un intento de probar que la principal finalidad dela Divina Providencia y Gobierno era la felicidad de sus criaturas.

    La obra fue publicada por el editor John Noon, quien, en 1736,public An Introduction to the Doctrine of Fluxions and a Defence ofthe Mathematicians against the objections of the Author of theAnalyst. La obra apareci sin autor, si bien sus contemporneos laatribuyeron a Thomas Bayes, y a l aparece atribuida en el Ctalogodel British Museum. Esta obra es una refutacin del analista, el obis-po anglicano George Berkeley, en sus ataques a los matemticos, queen sus controversias y anlisis no buscaban ms que deduccioneslgicas y no el hacer mejores a los hombres. Bayes argumenta que lalabor de los matemticos es hacer inteligibles y razonadas las nocio-nes y conceptos que tratan. Es posible que este tratado tuviera algoque ver con su eleccin como Fellow de la Royal Society, en 1742.

    William Whiston, sucesor de Newton en la ctedra Lucasian,en la Universidad de Cambridge, refiere su admiracin y respeto porBayes al calificarlo como a very good mathematician.

    En opinin de Strange (1949), parece ser que Bayes quiso dejarsu ministerio hacia 1749. No lo logr hasta 1752, cuando, tras diver-sos avatares, fue sucedido por el reverendo William Johnston, la per-sona que hered la valiosa biblioteca de Bayes.

    Bayes continu viviendo en Tunbridge Wells hasta su muerte, el17 de abril de 1761. Fue enterrado junto a sus padres y hermanos enel cementerio de los No-Conformistas de Bunhill Fields. En estecementerio reposan tambin los restos de su amigo el reverendo

    330 AGUSTNALONSO RODRGUEZ

  • 2. En palabras de Price:The purpose I mean is to shew what reason we have for believing that there are

    in the constitution of things fixt laws according to which events happen, and that,therefore, the frame of the world must be the effect of the wisdom and power of anintelligent cause; and thus to confirm the argument taken from final causes for theexistence of the Deity. It will be easy to see that the converse problem solved in thisessay is more directly applicable to this purpose; for it shews us, with distinctnessand precision, in every case of any particular order or recurrency of events, whatreason there is to think that such recurrency or order is derived from stable causes orregulations in nature, and not from any of the irregularities of chance.

    Richard Price, quien un ao despus de la muerte de Bayes, 1763,public su famoso tratado: An essay towards solving a problem inthe Doctrine of Chances.

    En la reimpresin de este estudio publicada por Biometrika, volu-men 45, diciembre de 1958, encontrar el lector la Introduccin deG. A. Barnard, base de los rasgos biogrficos aqu sealados, ascomo la presentacin y comentarios de Richard Price en su escritode solicitud al presidente de la Royal Society, John Canton para lapublicacin del ensayo de Bayes en The Philosophical Transactionsof the Royal Society.

    Hay que destacar que el escrito de solicitud de Price no es unamera carta de solicitud: es un comentario laborioso y documentadodel pensamiento de Bayes para facilitar la decisin de John Canton,que pudiera no tener tiempo para una revisin a fondo del ensayo,antes de la publicacin. Tanto es as que Price se considera el nicoresponsable de los posibles errores que pudieran aparecer. Estoparece delatar las muchas horas de discusin y anlisis entre ambosamigos. La peticin de Price lleva la fecha del 10 de noviembre de1763.

    Price pone de relieve que el tratado de De Moivre sobre las leyesde la probabilidad (Laws of Chance) en su obra Doctrine of Chan-ces, no eran suficientes para resolver la denominada probabilidadinversa, el converse problem, enfatizando Price que el problemaresuelto por Bayes no haba sido antes resuelto por nadie.

    Price se permite afirmar que el propsito de Bayes era el poderpasar de las causas causadas a la existencia de la Causa Incausada, esdecir, a la existencia de la Deidad 2.

    331EL RESURGIR DE THOMAS BAYES

  • Por ltimo, destacar que el ensayo de Bayes arranca directamentecon el planteamiento del problema que desea tratar. En sus propiostrminos escribe:

    PROBLEMGiven the number of times in which an unknown event hashappened and failed: Required the chance that the probabi-lity of its happening in a single trial lies somewhere betwe-en any two degrees of probability that can be named.

    Siguen luego una serie de definiciones y el resto de la argumenta-cin.

    Aqu comenzaremos deduciendo el teorema de Bayes, en trmi-nos de la teora elemental de la probabilidad, para luego exponer ladireccin que ha dado al teorema su vigente actualidad.

    III. EL TEOREMA DE BAYES

    A fin de mostrar la simplicidad e inmediatez de este famoso teo-rema, es necesario recordar los fundamentos, comenzando por unpar de conceptos.

    En primer lugar, por experimento aleatorio se entiende aquelexperimento cuyo resultado no es predecible con exactitud, aun repi-tindolo en igualdad de condiciones. El conjunto de todos los posi-bles resultados de un experimento aleatorio se conoce como el espa-cio muestral, simbolizado aqu por U, y por evento, se entiende unocualquiera de los posibles resultados de un experimento aleatorio,simbolizados por las letras maysculas: A, B, etc.

    El razonamiento lgico plausible requiere, como punto de parti-da, la compatibilidad con los axiomas establecidos por Kolmogorov(1933), que son los siguientes:

    Axioma 1. Para todo evento , es decir, la probabi-lidad es una magnitud no negativa.

    Axioma 2. , la probabilidad del espacio muestral, el con-junto de todos los posibles resultados de un experimento alea-torio, es la unidad.

    Axioma 3. Si son dos eventos mutuamente exclu-yentes o disjuntos, entonces .

    332 AGUSTNALONSO RODRGUEZ

  • Apartir de estos axiomas, tenemos las siguientes reglas de opera-cin con probabilidades.

    1. , la probabilidad del evento vaco es cero. El eventovaco es el evento resultante de la interseccin de dos eventos exclu-yentes o disjuntos.

    2. , siendo el complemento del evento A.3. , es decir la probabilidad de la

    unin de dos eventos cualesquiera es la suma de las probabilidadessingulares menos la probabilidad de la interseccin.

    4. Si ambos eventos fueran independientes, entonces

    5. Para dos eventos A y B, la probabilidad marginal de A, porejemplo, viene dada por , es decir, su proba-bilidad es la suma de las probabilidades de los dos eventos disjuntosposibles.

    6. Para dos eventos A y B, la probabilidad de B condicionada aA,se expresa como.

    En palabras, la probabilidad condicionada de B, una vez sabidoque se ha dado el evento A, es proporcional a la probabilidad con-junta de ambos eventos, ponderada por la probabilidad del eventocondicionante. La situacin viene representada en la figura 1.

    FIGURA 1

    333EL RESURGIR DE THOMAS BAYES

  • Conviene sealar que el evento B no es observable, mientras queA es el evento observable, que pasa a ser el espacio muestral reduci-do de este experimento. Cabra escribir la probabilidad condicionadacomo P(A | B), pero los eventos A y B no son simtricos, y por eso,la probabilidad condicionada se indicar como P(B | A).

    Como corolario de esta regla, est el hecho de que de ser A y Beventos independientes, entonces la P(B | A)= P(B), que pone derelieve como el conocimiento del eventoA en nada afecta a la proba-bilidad del evento B.

    7. Si reordenamos, al menos formalmente, los roles del los even-tos A y B, en la regla anterior, tenemos:

    (1)

    Si bien es necesario repetir que A y B no son eventos equivalen-tes. Es decir, la ocurrencia o no ocurrencia de B no es observable,mientras queA es un evento observable, que puede ocurrir tanto si seda B como su complemento . No obstante, las posibilidades dedarse A dependen de que sea B o el que ocurra. En otras palabras,la ocurrencia de A est condicionada por la ocurrencia o no de B.

    Si en (1) despejamos el numerador, llegamos a:(2)

    relacin que se conoce como la regla de la multiplicacin, quereescribe la relacin de la probabilidad condicional de un eventoobservable, dado el evento no observable, en una manera til paraobtener la probabilidad conjuntaDe igual forma, podemos escribir:

    8.- La ltima regla para operar con probabilidades es la regla dela probabilidad total.

    Dados los eventos que particionan el espacio mues-tral U, y dado el evento A, entonces

    334 AGUSTNALONSO RODRGUEZ

  • En palabras: la probabilidad del eventoA es la suma de las proba-bilidades de sus elementos disjuntos.

    Si fueran tres los eventos no observables B, que particionan elespacio muestral U, podramos representar grficamente lo dicho,como en la figura 2.

    FIGURA 2

    En este caso, el espacio muestral es , y la pro-babilidad de A es:

    Si para cada uno de los eventos disjuntos utilizamos la regla de lamultiplicacin, llegamos a

    (3)Y recordando que la probabilidad condicionada i=1,2,,n

    se obtiene dividiendo cada probabilidad conjunta por la probabilidaddel evento A, es decir:

    (4)

    Al utilizar la regla de la multiplicacin para evaluar el numeradorde (4) y la regla de la probabilidad total para evaluar el denominadorde (4), llegamos a

    (5)

    que representa la formulacin del Teorema de Bayes para eventospublicada en 1763, (Bolstad 2004, p. 65).

    335EL RESURGIR DE THOMAS BAYES

  • Hay que repetir que en esta formulacin los ,,n son even-tos no observables, A es el evento observado, y las son las proba-bilidades establecidas a priori, o si se prefiere, las opiniones inicia-les de los expertos. La presencia de estas probabilidades a priori hasido la fuente de las discordias en la aplicacin del teorema.

    IV. EL PASO DE EVENTOS A TEORAS CIENTFICAS

    Las hiptesis cientficas se expresan mediante distribuciones deprobabilidad formuladas a partir de la observacin de los datos.Estas distribuciones de probabilidad dependen de magnitudes desco-nocidas llamadas parmetros, en smbolos: Desde el punto devista bayesiano, el conocimiento sobre los parmetros es manifesta-do asignando una distribucin de probabilidad a los mismos, es ladistribucin a priori, que en smbolos se escribe:

    Cuando nuevos datos, y, estn disponibles, la informacin quecontienen en relacin a los parmetros es expresada en la funcin deverosimilitud, que es proporcional a la distribucin de los datosobservados, dados los parmetros, y que se representa como .Esta informacin es combinada con la opinin o probabilidad a prio-ri para actualizar la distribucin a priori .

    El teorema de Bayes establece como esta actualizacin es mate-mticamente realizada: la distribucin a posteriori es proporcional ala distribucin a priori multiplicada por la funcin de verosimilitud,o ms precisamente:

    (6)

    expresin que se corresponde con (5). En teora esta distribucina posteriori es evaluable, si bien puede ser muy complicada de obte-ner, y slo modernamente se ha logrado mediante la obtencin demuestras tomadas de con ayuda de los ordenadores.

    336 AGUSTNALONSO RODRGUEZ

  • V. OTRA FORMULACIN DEL TEOREMA DE BAYES

    En el numerador del teorema aparece la probabilidad a priorimultiplicada por la funcin de verosimilitud, y en el denominador, lasuma de probabilidades a priori multiplicada por la funcin de vero-similitud. Esta divisin hace que las probabilidades a posteriorisumen la unidad.

    Ahora bien, si en el numerador multiplicamos cada funcin deverosimilitud por una constante, el denominador quedar multiplica-do por la misma constante, y al efectuar la divisin se eliminar laconstante, quedando la distribucin de probabilidad a posteriori.Debido a esto, slo necesitamos conocer la funcin de verosimilitudy la constante de proporcionalidad. Las ponderaciones relativasdadas por la funcin de verosimilitud a las distintas probabilidades eslo verdaderamente necesario.

    Lo mismo cabe decir respecto a las probabilidades a priori, quepueden ser multiplicadas por una constante con lo que el denomina-dor tambin quedara multiplicado por la constante, y al dividir que-daran slo las probabilidades a posteriori.

    En definitiva, lo verdaderamente necesario es conocer las ponde-raciones asignadas por la funcin de verosimilitud a las probabilida-des.

    Por esta razn, el Teorema de Bayes se suele expresar tambincomo

    (7)

    que se lee diciendo que la funcin de distribucin de probabilidada posteriori es proporcional a la funcin de probabilidad a priorimultiplicada por la funcin de verosimilitud.

    VI. TRAS LA HERENCIA DE BAYES

    Aunque la metodologa de Bayes fue seguida con entusiasmo porLaplace y otros notables matemticos, sin embargo, cay en desusopor los problemas inherentes al establecimiento de las probabilida-des a priori. As, en la primera mitad del siglo XX surgi el enfoquefrecuentista, aunque la filosofa bayesiana no muri del todo. Pensa-

    337EL RESURGIR DE THOMAS BAYES

  • dores como Bruno de Finetti, en Italia, y Harold Jeffreys en Inglate-rra mantuvieron viva la llama.

    El moderno movimiento bayesiano arranca en la segunda mitaddel siglo XX, con nombres como Jimmy Savage en USA y DennisLindley en Inglaterra, si bien la realizacin prctica de la inferenciabayesiana tendr que esperar hasta las ltimas dcadas del siglo, conel advenimiento de los ordenadores y los nuevos mtodos de clculoque los ordenadores han hecho posibles.

    Estos nuevos mtodos numricos se engloban bajo las siglasMCMC (Marcov Chain Monte Carlo), y son mtodos de integracinque utilizan cadenas de Markov.

    La integracin Monte Carlo genera muestras de la distribucin deprobabilidad de inters y a partir de ellas evala los momentos de ladistribucin de probabilidad a posteriori. MCMC genera estasmuestras por largo tiempo, y por ende las muestras son de gran tama-o.

    Existen varias formas de construir estas cadenas, pero todas,incluido el mtodo de Gibbs (Geman y Geman, 1984) son casosespeciales del procedimiento desarrollado por Metropolis et al.(1953) y Hastings (1970). Llegados aqu, es necesario decir que hansido necesarios casi cuarenta aos para que los mtodos MCMCentraran en el mbito de la estadstica, desde el campo de la fsica,donde se originaron, y slo en los ltimos aos es cuando se ha deja-do notar su influjo en la estadstica bayesiana e incluso en la estads-tica clsica (Gilks et al., 1996, p. 2).

    VII. INFERENCIA BAYESIANA

    La mayora de las aplicaciones de los mtodos MCMC estnorientados a la estadstica bayesiana. Desde esta perspectiva, noexiste diferencia entre observables y no observables o parmetros.En un modelo estadstico bayesiano todas las magnitudes son aleato-rias.

    Si indicamos los datos observados mediante D, y los parmetrosde un modelo, y las observaciones perdidas, por , es necesario for-mar la distribucin de probabilidad conjunta Esta distribu-cin de probabilidad tiene dos componentes: la distribucin deprobabilidad a priori, fruto de los conocimientos del investigador, y

    338 AGUSTNALONSO RODRGUEZ

  • la funcin de verosimilitud . La especificacin de ambas cons-tituye el modelo probabilstico completo:

    Una vez observados los datos D, el Teorema de Bayes permiteestablecer la distribucin de probabilidad de condicionada por D:

    que, como sabemos, es la distribucin de probabilidad a posterio-ri de .

    Cualquier caracterstica de esta distribucin a posteriori puedeser analizada, a saber: los momentos, los cuantiles, las regiones demayor probabilidad, etc. As, por ejemplo:

    La evaluacin analtica de esta expresin puede ser prcticamen-te imposible, y slo gracias a los procedimientos MCMC se lograhacerlo.

    En un marco de referencia ms general, sea X un vector de kvariables aleatorias, con distribucin de probabilidad , y se tratade evaluar el valor esperado:

    para una funcin de inters. Con la integracin Monte Carlo,la evaluacin de se obtiene a partir de las muestras

    obtenidas de y promedindolas

    339EL RESURGIR DE THOMAS BAYES

  • Es decir aproximamos la media poblacional mediante la mediamuestral.

    Si las muestras {Xt} son independientes, entonces la ley de losgrandes nmeros asegura que la aproximacin puede ser tan precisacomo se quiera, aumentando el tamao de la muestra: n.

    En general, la obtencin de muestras de independientes noes factible dado que puede que no sea una distribucin estndar. Sinembargo, las muestras {Xt} no tienen que ser necesariamente inde-pendientes. Lo que s se requiere es que provengan de de unamanera apropiada, y una manera de lograrlo es a partir de cadenas deMarkov que tengan a como distribucin estacionaria de base, loque se logra mediante los procedimientos de MCMC.

    VIII. CADENAS DE MARKOV

    Sea la secuencia de variables aleatorias {X0,X1,X2,...} tal que entodo momento t0, el siguiente estado Xt+1 es muestreado (tomado)de la distribucin que depende slo del estado actual dela cadena: Xt y no de la historia de la cadena {X0,X1,...Xt-1}. Este tipode secuencia recibe el nombre de cadena de Markov, y se cono-ce como el kernel de transicin de la cadena. Se supone quees independiente de t.

    Ahora bien, cmo afecta X0 a Xt? Todo depende de la distribu-cin de Xt dado X0, que podemos indicar mediante sintener en cuenta las dems variables de la cadena. En otras palabras,Xt depende directamente de X0. En condiciones generales de regulari-dad, la cadena ir olvidando su estado inicial, y terminarconvergiendo a una distribucin estacionaria o invariante, indepen-diente de t o de X0. Sea esta distribucin .

    Por tanto, al aumentar t, los valores muestrales {Xt} irn aseme-jndose a los valores muestrales de . As, a partir de un largoperiodo de adaptacin (burn-in), por ejemplo de m repeticiones, losvalores de {Xt;t=m+1,m+2,...,n} sern valores que se aproximarn alos de la distribucin .

    Volviendo a la evaluacin del valor esperado tenien-do X la distribucin estacionaria , y tras eliminar los valores ini-ciales de burn-in, tenemos el estimador

    340 AGUSTNALONSO RODRGUEZ

  • (8)

    que se conoce como el promedio ergdico, media ergdica, sien-do el teorema ergdico el requisito que asegura la convergencia alvalor esperado. Gilks et al. (1996), Roberts (1995), Tierney (1995).

    La expresin en (8) muestra como una cadena de Markov puedeser utilizada para estimar , tomando como base la distribu-cin estacionaria .

    Ahora bien, la cuestin es cmo construir una cadena de Mar-kov tal que su distribucin estacionaria se corresponda con nues-tra distribucin de inters ?

    Para lograrlo existe el procedimiento debido a Hastings (1970),que es una generalizacin del procedimiento propuesto por Metropo-lis et al. (1953). Un caso especial del procedimiento Metropolis-Has-tings lleva el nombre de Gibbs sampler, nombre dado por Geman yGeman (1984).

    No es este el lugar para entrar en detalles sobre estos procedi-mientos. El lector interesado encontrar un resumen en Gilks et al.(1996), pp. 5-15. Vase tambin Albert (2007), Congdon (2003,2005, 2006), Gamerman et al. (2006), Gelman et al. (2004), Gelmanet al. (2007), Gill (2002), Geweke (2005), Lancaster (2004), Lynch(2007), Rizzo (2008), Rossi et al. (2005).

    En estadstica bayesiana, los resultados se presentan como res-menes de la distribucin a posteriori , en trminos de medias,desviaciones estndar, correlaciones, regiones de mayor probabili-dad, etc., utilizando los estadsticos muestrales resultantes de losprocedimientos MCMC.

    IX. EL ENFOQUE BAYESIANO EN EL ENTORNO R

    Pasemos al lado aplicado de lo aqu expuesto.R es un lenguaje y programa de software libre. O ms en concre-

    to, R es un entorno numrico, estadstico y grfico para el anlisis dedatos. R se est convirtiendo en un fenmeno de alcance mundial.Por esta razn, son numerosas las aportaciones que extienden la ope-

    341EL RESURGIR DE THOMAS BAYES

  • ratividad de R a campos inicialmente no considerados, como puedenser, el anlisis del ADN, la minera de datos, etc., y el anlisis baye-siano no poda ser menos. Tanto es as, que el nmero de marzo de2006 de R-News est dedicado a la inferencia bayesiana y a la simu-lacin Monte Carlo en el entorno R.

    Para aqul entonces ya se contaba con 33 paquetes o bibliotecasde programas dedicados al tema, que a finales de septiembre de 2007ya se aumentaba hasta 45. Estos paquetes, una vez instalados en Rson totalmente operativos, tanto en lo que es especfico del paquetecomo en lo que es propio de R. Adems, todos los paquetes son revi-sados y actualizados continuamente.

    9.1. El proyecto BUGS

    Para comenzar, es obligatorio hacer referencia al ProyectoBUGS: Bayesian inference Using Gibbs Sampling. El proyectocomenz en 1989, en la Unidad de Bioestadstica del Medical Rese-arch Council, Cambridge. Posteriormente, en colaboracin con laEscuela de Medicina de St. Marys, Imperial College, Londres, pasaa denominarse WinBUGS. Ms tarde, la Universidad de Helsinki, seune al Proyecto para el desarrollo de la nueva adaptacin llamadaOpenBUGS.

    BUGS describe los modelos estadsticos mediante distribucionesconjuntas de probabilidad. Esta descripcin es a la vez muy generaly muy explcita. Por ser lo primero, es posible combinar modelospara lograr un modelo de mayor dimensin. Por ser muy explcita,impide la confusin entre modelos. En cuanto lenguaje de programa-cin BUGS facilita a especialistas y profanos la prctica del anlisisbayesiano.

    La adaptacin a R de BUGS tiene varias denominaciones, depen-diendo de las distintas colaboraciones. As, OpenBUGS en R sedenomina BRugs, y para WinBUGS, tenemos R2WinBUGS

    Independientemente del proyecto BUGS, est JAGS (Just Anot-her Gibbs Sampler) desarrollado por Martyn Plummer y colaborado-res, en el Science and Technology Facilities Council, Reino Unido.JAGS es otra implementacin de los mtodos MCMC, utilizando ladescripcin de modelos dada por BUGS.

    342 AGUSTNALONSO RODRGUEZ

  • Podemos clasificar las distintas adaptaciones de BUGS en dosgrandes apartados, a saber, adaptaciones ordenadas a instrucciones yadaptaciones orientadas a modelos. Las primeras siguen de cerca ellenguaje BUGS, las segundas ponen la atencin en los modelos, evi-tando al usuario el tener que conocer las instrucciones de BUGS.

    9.2. Los paquetes BRugs y MCMCpack

    Como ejemplo de las aplicaciones orientadas a instruccionestenemos OpenBUGS, con sus dos adaptaciones en R: BRugs yR2WinBugs, y como ejemplo de aplicaciones orientadas a modelostenemos MCMCpack (Andrew D. Martin, Kevin M. Quinn, JongHee Park) y Zelig (Kosuke Imai, Gary King, Olivia Lau), si bien esteltimo es un completo entorno de clculos estadsticos, bayesianos yno bayesianos, que permite la estimacin de los modelos bayesianosutilizando MCMCpack.

    Dadas las facilidades que los modernos ordenadores permiten, yaexisten dos aplicaciones en un entorno totalmente bayesiano: elpaquete rv (simulacin basada en variables aleatorias) y Umacs: theUniversal Markov Chain Sampler, frutos del esfuerzo de Jouni Ker-man y Andrew Gelman.

    Por ltimo, hay que mencionar la existencia de CODA: Conver-gence Diagnosis and Output Analysis (Martyn Plummer, Nick Best,Kate Cowles, Karen Vines) y BOA: Bayesian Output Analysis pro-gram (Brian J. Smith). Estos dos paquetes estn diseados para com-pletar y validar los resultados generados por los procedimientosMCMC. Ambos permiten anlisis estadsticos, representaciones gr-ficas, aplicacin de los criterios de convergencia existentes (gelman,geweke, heidel, raftery, etc.), establecimiento de las regiones demayor probabilidad para los parmetros, etc.

    Los programas citados son ejemplo de entornos completos deanlisis bayesiano. Al margen de ellos, existen otros programas paraaspectos especficos del enfoque bayesiano, como por ejemplo:BMA: Bayesian Model Averaging (Adrian Raftery, Jennifer Hoe-ting, Chris Volinsky, Ian Painter, Ka Yee Yeung) Cf. Alonso Rodr-guez, 2006.

    Todos los ejemplos citados son operativos en R, y descargablesdesde CRAN: The Comprehensive R Archive Network, en Viena. La

    343EL RESURGIR DE THOMAS BAYES

  • excepcin es JAGS, versin 1.0, todava en fase de pruebas, almomento de escribir este artculo.

    X. ILUSTRACIN NUMRICA

    En lo que sigue, vamos a ilustrar el uso de MCMCpack y deBRugs, utilizando los datos del ejemplo propuesto por Wonnacott-Wonnacott en su texto Econometrics, segunda edicin, p. 72, 1979.

    10.1. Los datos y el modelo

    El ejemplo propuesto por Wonnacott-Wonnacott hace referenciaa la cosecha y, en kilos por ha., observada en una explotacin agr-cola en funcin del abono x2, en kilos por ha. y de la lluvia, x3, enlitros por ha. (Las unidades de referencia estn adaptadas al campoespaol: kilos, hectreas y litros.)

    Las observaciones para estas variables son:

    El modelo a estimar con estas variables es:

    Y se supone que se satisfacen los supuestos del modelo linealgeneral.

    Utilizando R con sus posibilidades estadsticas bsicas, tenemosel siguiente resultado:

    344 AGUSTNALONSO RODRGUEZ

  • Es decir, las estimaciones puntuales de los parmetros son:

    10.2. Aplicacin del paquete MCMCpack

    Para utilizar el paqueteMCMCpack, es necesario, una vez instalado,hacerlo activo en R, mediante la instruccin: library(MCMCpack),que nos indica los paquetes incorporados para el correcto funciona-miento de MCMCpack, as como los crditos. Por tanto en pantallaaparece.

    Una vez activado el paquete, pedimos que nos estime la distribu-cin a posteriori de los parmetros:

    345EL RESURGIR DE THOMAS BAYES

  • Y al teclear summary(posterior), obtenemos:

    Este resultado nos muestra ahora, no el valor nico de los par-metros estimados, como anteriormente, sino toda la distribucin aposteriori de los mismos, con sus momentos: media, desviacinestndar, y los cuantiles, con diversos porcentajes, estimacionesobtenidas sobre una cadena, que por defecto tiene una longitud iguala 10.000 muestras o valores.

    El paquete MCMC est orientado a modelos, por esta razn, la ins-truccin para obtener los resultados es simplemente MCMCregress,seguida de las variables integrantes del modelo y del lugar donde seencuentran.

    Con ayuda del paquete CODA, podemos obtener otra serie deresultados, por ejemplo la representacin grfica de las distribucio-nes a posteriori de los parmetros. Las tareas que CODA realiza seven facilitadas por el uso de un men.

    Dado que CODA ha sido incorporado en memoria al activarMCMCpack, para activar el men, basta con teclear codamenu()y en pantalla aparece:

    346 AGUSTNALONSO RODRGUEZ

  • Por razones de espacio no podemos seguir mostrando el resto deopciones del men. Nos limitaremos al siguiente ejemplo generadocon su ayuda.

    Al seleccionar Plots, obtenemos, figura 3:FIGURA 3

    347EL RESURGIR DE THOMAS BAYES

  • que nos da el grfico de las distribuciones de probabilidad a pos-teriori de los parmetros, as como las trazas mezcladas de los valo-res simulados por y los tericos de la distribucin de inters .CODA permite examinar los criterios de convergencia desarrollados(Geweke, etc) para juzgar el grfico de las trazas.

    El programa nos brinda la posibilidad de guardar el grfico comopostscript.

    10.2. Aplicacin del paquete BRugs

    La obtencin de la distribucin de probabilidad a posteriori delos parmetros es ahora un poco ms laboriosa. Hay que comenzarescribiendo el modelo con la sintaxis de BUGS, almacenarlo en elworking directory y dar las instrucciones segn BUGS.

    El modelo para nuestro caso comporta el siguiente conjunto deinstrucciones, comenzando con la palabra model:

    Una vez escrito se guarda en el working directory como ficheroASCII y nombre cosechamodelo.txt.

    El bucle iniciado por for establece que para cada i, la variabledependiente de nuestro caso, y, se distribuye normalmente, conmedia mu y precisin tau, y que mu vara a lo largo de todas lasobservaciones como una funcin lineal de x2 y x3. Es decir, mu es lafuncin: El bucle constituye la funcin de verosimi-litud. Fuera del bucle, pero dentro del modelo, se indican las proba-bilidades a priori de los parmetros, que en nuestro caso se distribu-yen (~) normalmente, salvo la precisin que lo hace como una varia-

    348 AGUSTNALONSO RODRGUEZ

  • ble con distribucin gamma. Estas son las caractersticas estndarpara el modelo lineal con errores homoscedsticos incorrelaciona-dos. Cf. Lancaster, T. (2004), p. 375.

    Los datos se guardan tambin como un fichero ASCII, y nombrecosecha.txt

    Por ltimo, hay que crear otro fichero con los valores iniciales delos parmetros, y guardarlo como fichero ASCII, y nombre cose-chainits.txt. En este fichero se ha grabado:

    Una vez hecho lo anterior, entramos en R, y tecleamos lassiguientes instrucciones. Para distinguir las instrucciones de loscomentarios, escribiremos las primeras en courier new, negrita,y los comentarios en Times New Roman. Los mensajes de algunasde las instrucciones aparecen en pantalla en courier new.

    349EL RESURGIR DE THOMAS BAYES

  • 350 AGUSTNALONSO RODRGUEZ

  • y para conservar a nuestra disposicin estos resultados, hay quemonitorizarlos tecleando:

    351EL RESURGIR DE THOMAS BAYES

  • Para otros estadisticos de inters, como el DIC (Deviance Infor-mation Criterion), primero se monitoriza mediante

    En esta ocasin hemos procedido instruccin por instruccin.Ms correcto hubiera sido reunir todas las instrucciones en un fiche-ro de instrucciones, tcnicamente denominado script, y ejecutarlasde un golpe, solicitando los resultados segn convenga.

    Para utilizar el programa CODA necesitamos adaptar los resulta-dos anteriores al formato apropiado. Para ello

    352 AGUSTNALONSO RODRGUEZ

  • apareciendo en pantalla:

    De nuevo, razones de espacio nos impide mostrar el men y susposibilidades. No obstante, veamos un par de resultados.

    El grfico de la distribucin de probabilidad del parmetro beta1,y la mezcla de las trazas correspondientes, aparece en la figura 4

    FIGURA 4

    353EL RESURGIR DE THOMAS BAYES

  • Si elegimos:

    El otro paquete para analizar los resultados generados por elmtodo MCMC es BOA. Si queremos utilizar el paquete BOA parael anlisis del output generado por BRugs, tecleemos:

    354 AGUSTNALONSO RODRGUEZ

  • Y se brinda la posibilidad de seleccionar una de las tareas:Seleccin: 1Un nuevo men parece en pantalla, brindando la oportunidad de

    seleccionar otra tarea.

    355EL RESURGIR DE THOMAS BAYES

  • Seleccin: 3

    Apareciendo el mensaje de que el objeto ha sido importadocorrectamente.

    Y seleccionando Back dos veces se vuelve al men principal pararealizar el anlisis, los grficos, etc. As, el grfico de la distribucinde probabilidad a posteriori de beta1, es el siguiente, figura 5:

    356 AGUSTNALONSO RODRGUEZ

  • FIGURA 5

    El men sigue ofreciendo otras posibilidades, pero aqu lo deja-mos.

    XI. RESUMEN

    Dentro de las limitaciones de espacio inherentes a todo artculo,esperamos haber mostrado al lector cmo los ordenadores han per-mitido hacer viable el enfoque bayesiano, presenciando, por tanto,el momento presente un verdadero resurgir de Thomas Bayes.

    XII. BIBLIOGRAFA

    (Nota. La indicacin al final de una referencia indica la utilizacin delPrograma R, o una adaptacin operativa en R, dentro de la misma.)

    ALBERT, J., Bayesian computation with R, Springer, New York 2007 .ALONSO RODRGUEZ, A., Un procedimento bayesiano para la seleccin de

    modelos, Anuario Jurdico y Econmico Escurialense, XXXIX (2006)427-442 .

    BAYES, Th., An Essay towards solving a problem in the Doctrine of Chan-ces, 1763; reimpreso en Biometrika, 45 (1958) 296-315.

    357EL RESURGIR DE THOMAS BAYES

  • BARNARD, G. A., Thomas Bayes, a biographical note, Biometrika (1958)293-295.

    BERNARDO, J. M., y SMITH, A. F. M., Bayesian Theory, John Wiley, NewYork 1994.

    BMA, contributed package, en CRAN: The Comprehensive RArchive Net-work, Viena.

    BOA, contributed package, en CRAN: The Comprehensive RArchive Net-work, Viena.

    BOLSTAD, W. M., Introduction to Bayesian Statistics, John Wiley, Haboken,New Jersey 2004 .

    BOX, G. E. P., y TIAO, G. C., Bayesian Inference in Statistical Analysis,Addison-Wesley Pub. Co., Reading. Massachusetts 1973.

    BRugs, contributed package, en CRAN: The Comprehensive R ArchiveNetwork, Viena.

    BUGS, ver Lunn et al.CHAMBERS, J. M., Programming with Data, A Guide to the S Language,

    Springer, New York 1998.CODA, contributed package, en CRAN: The Comprehensive R Archive

    Network, Viena.CONGDON, P., Applied Bayesian Modelling, John Wiley, Chichester, West

    Sussex 2003 .Bayesian Models for Categorical Data, John Wiley, Chichester, West Sus-

    sex 2005 .Bayesian Statistical Modelling, segunda ed., John Wiley, Chichester, West

    Sussex 2006 .CRAN: The Comprehensive R Archive Network, http://cran.r-project.org/GAMERMAN, D., y LOPES, H. F., Markov Chain Monte Carlo, Stochastic Simu-

    lation for Bayesian Inference, 2. ed., Chapman & Hall/CRC, Boca Raton,Florida 2006 .

    GELMAN, A.; CARLIN, J. B.; STERN, H. S., y RUBIN, D. B., Bayesian DataAnalysis, 2. ed., Chapman & Hall/CRC, Boca Raton, Florida 2004 .

    GELMAN, A., y HILL, J., Data Analysis using Regression and Multile-vel/Hierarchical Models, Cambridge University Press, New York 2007.

    GEMAN, S., y GEMAN, D., Stochastic relaxation, Gibbs distributions andthe Bayesian restoration of images, en IEEE Transactions in PatternAnalysis and Machine Intellegence, 6 (1984) 721-741.

    GEWEKE, J., Contemporary Bayesian Econometrics and Statistics, JohnWiley, Haboken, New Jersey 2005.

    GILKS, W. R.; RICHARDSON, S., y SPIEGELHALTER, D. J., Markov ChainMonte Carlo in Practice, Chapman & Hall/CRC, Boca Ratn, Florida1996 .

    GILL, J., Bayesian Methods: A Social and Behavioral Sciences Approach,Chapman & Hall/CRC, Boca Raton, Florida 2002 .

    358 AGUSTNALONSO RODRGUEZ

  • HASTINGS, W. K., Monte Carlo sampling methods using Markov chainsand their applications, Biometrika, 57 (1970) 97-109.

    JEFFREYS, M., Theory of Probability, 3. ed., Oxford University Press,Oxford 1961.

    KOLMOGOROV, A. N., Grundbegriffe der Wahrscheinlichkeitsrechnung,Springer-Verlag, Berln 1933.

    LANCASTER, T., An Introduction to Modern Bayesian Econometrics, Black-well Publishing, Oxford 2004 .

    LUNN, D. J.; THOMAS, A.; BEST, N.,y SPIEGELHALTER, D., WinBUGS aBayesian modelling framework: concepts, structure, and extensibility,en Statistics and Computing, 10 (2000) 325-337.

    LYNCH, S. M., Introduction to Applied Bayesian Statistics and Estimationfor Social Scientists, Springer, New York 2007

    MCMCpack, contributed package, en CRAN: The Comprehensive RArchive Network, Viena.

    METROPOLIS, N.; ROSENBLUTH, T. H.; ROSENBLUTH, M. N.; TELLER, A. H., yTELLER, E., Equations of state calculations by fast computing machi-nes, Journal of Chemical Physics, 21 (1953) 1087-1091.

    R Development Core Team (2007). R: A language and environment for sta-tistical computing. R Foundation for Statistical Computing, Vienna,Austria 1953. ISBN 3-900051-07-0, URL http://www.R-project.org.

    RIZZO, M. L., Statistical Computing with R, Chapman & Hall/CRC, BocaRaton, Florida 2008 .

    R-News, en CRAN: The Comprehensive R Archive Network, Viena .ROBERTS, G. O., Markov chain concepts related to sampling algorithms, en

    GILKS et al, Markov Chain Monte Carlo in Practice, Chapman&Hall/CRC,Boca Ratn, Florida 1996 .

    ROSSI, P. E.; ALLENBY, G. M., y MCCULLOCH, R., Bayesian Statistics andMarketing, John Wiley, Chichester, West Sussex 2005 .

    R2WinBugs, contributed package, en CRAN: The Comprehensive RArchive Network, Viena.

    rv, contributed package, en CRAN: The Comprehensive R Archive Net-work, Viena.

    S, ver CHAMBERS, J. M.SAVAGE, L. J., The Foundations of Statistics, Dover Publications, New York

    1972.STRANGE, C. H., Nonconformity in Tunbridge Wells, Tunbridge Wells 1949,

    citado por BARNARD, o.c.TIERNEY, L., Introduction to general state-space Markov chain theory, en

    GILKS et al, Markov Chain Monte Carlo in Practice, Chapman &Hall/CRC, Boca Ratn, Florida 1996 .

    Umacs, contributed package, en CRAN: The Comprehensive R ArchiveNetwork, Viena.

    359EL RESURGIR DE THOMAS BAYES

  • WONNACOTT, R. J., y WONNACOTT, Th. H., Econometrics, 2. ed., JohnWiley, New York 1979.

    Zelig, contributed package, en CRAN: The Comprehensive RArchive Net-work, Viena.

    ZELLNER, A., An Introduction to Bayesian Inference in Econometrics, JohnWiley, New York 1971.

    360 AGUSTNALONSO RODRGUEZ