apostila inferência bayesiana - ricardo ehlers

Upload: jojamiel

Post on 22-Jul-2015

134 views

Category:

Documents


0 download

TRANSCRIPT

INFERENCIA BAYESIANARICARDO S. EHLERS

Primeira publica ao em 2002 c Segunda ediao publicada em 2004 c Terceira ediao publicada em 2005 c Quarta ediao publicada em 2006 c Quinta ediao publicada em 2007 c RICARDO SANDES EHLERS 2003-2011

Sumrio a1 Introduo ca 1.1 Teorema de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2 Princ pio da Verossimilhana . . . . . . . . . . . . . . . . . . . . . c 1.3 Exerc cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 Distribuies a Priori co 2.1 Prioris Conjugadas . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2 Conjugaao na Fam Exponencial . . . . . . . . . . . . . . . . . c lia 2.3 Principais Fam lias Conjugadas . . . . . . . . . . . . . . . . . . . 2.3.1 Distribuiao normal com varincia conhecida . . . . . . . . c a 2.3.2 Distribuiao de Poisson . . . . . . . . . . . . . . . . . . . . c 2.3.3 Distribuiao multinomial . . . . . . . . . . . . . . . . . . . c 2.3.4 Distribuiao normal com mdia conhecida e varincia dec e a sconhecida . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3.5 Distribuiao normal com mdia e varincia desconhecidos . c e a 2.4 Priori no Informativa . . . . . . . . . . . . . . . . . . . . . . . . a 2.5 Prioris Hierrquicas . . . . . . . . . . . . . . . . . . . . . . . . . . a 2.6 Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 Estimao ca 3.1 Introduao ` Teoria da Deciso . . . . . c a a 3.2 Estimadores de Bayes . . . . . . . . . . . 3.3 Estimaao por Intervalos . . . . . . . . . c 3.4 Estimaao no Modelo Normal . . . . . . c 3.4.1 Varincia Conhecida . . . . . . . a 3.4.2 Mdia e Varincia desconhecidas e a 3.4.3 O Caso de duas Amostras . . . . 3.4.4 Varincias desiguais . . . . . . . . a 3.5 Exerc cios . . . . . . . . . . . . . . . . . i 1 1 11 12 14 14 15 19 19 20 21 22 23 25 28 30 35 35 36 38 39 40 41 42 45 47

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

ii 4 Mtodos Aproximados e 4.1 Computaao Bayesiana . . . . . . . . . . . . . . . . c 4.2 Uma Palavra de Cautela . . . . . . . . . . . . . . . 4.3 O Problema Geral da Inferncia Bayesiana . . . . . e 4.4 Mtodo de Monte Carlo Simples . . . . . . . . . . . e 4.4.1 Monte Carlo via Funao de Importncia . . c a 4.5 Mtodos de Reamostragem . . . . . . . . . . . . . . e 4.5.1 Mtodo de Rejeiao . . . . . . . . . . . . . . e c 4.5.2 Reamostragem Ponderada . . . . . . . . . . 4.6 Monte Carlo via cadeias de Markov . . . . . . . . . 4.6.1 Cadeias de Markov . . . . . . . . . . . . . . 4.6.2 Acurcia Numrica . . . . . . . . . . . . . . a e 4.6.3 Algoritmo de Metropolis-Hastings . . . . . . 4.6.4 Casos Especiais . . . . . . . . . . . . . . . . 4.6.5 Amostrador de Gibbs . . . . . . . . . . . . . 4.7 Problemas de Dimenso Varivel . . . . . . . . . . a a 4.7.1 MCMC com Saltos Reversiveis (RJMCMC) 4.8 Tpicos Relacionados . . . . . . . . . . . . . . . . . o 4.8.1 Autocorrelaao Amostral . . . . . . . . . . . c 4.8.2 Monitorando a Convergncia . . . . . . . . . e

SUMARIO 48 48 48 49 50 54 57 57 60 63 63 64 65 71 72 78 81 86 86 86 88 91 93 93 94 94 94 95 95 95 96 96 96 97 97 97 97 98 98

. . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . .

5 Modelos Lineares 5.1 Anlise de Varincia com 1 Fator de Classicaao . . . . . . . . . a a c A Lista de Distribuies co A.1 Distribuiao Normal . . . . . . c A.2 Distribuiao Log-Normal . . . . c A.3 A Funao Gama . . . . . . . . . c A.4 Distribuiao Gama . . . . . . . c A.5 Distribuiao Wishart . . . . . . c A.6 Distribuiao Gama Inversa . . . c A.7 Distribuiao Wishart Invertida . c A.8 Distribuiao Beta . . . . . . . . c A.9 Distribuiao de Dirichlet . . . . c A.10 Distribuiao t de Student . . . . c A.11 Distribuiao F de Fisher . . . . c A.12 Distribuiao de Pareto . . . . . c A.13 Distribuiao Binomial . . . . . . c A.14 Distribuiao Multinomial . . . . c A.15 Distribuiao de Poisson . . . . . c A.16 Distribuiao Binomial Negativa c

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

SUMARIO B Alguns Endereos Interessantes c References

iii 99 101

Cap tulo 1 Introduo caA informao que se tem sobre uma quantidade de interesse fundamental na ca e Estat stica. O verdadeiro valor de desconhecido e a idia tentar reduzir e e e este desconhecimento. Alm disso, a intensidade da incerteza a respeito de e pode assumir diferentes graus. Do ponto de vista Bayesiano, estes diferentes graus de incerteza so representados atravs de modelos probabil a e sticos para . Neste contexto, natural que diferentes pesquisadores possam ter diferentes graus e de incerteza sobre (especicando modelos distintos). Sendo assim, no existe a nenhuma distinao entre quantidades observveis e os parmetros de um modelo c a a estat stico, todos so considerados quantidades aleatrias. a o

1.1

Teorema de Bayes

Considere uma quantidade de interesse desconhecida (tipicamente no oba servvel). A informaao de que dispomos sobre , resumida probabilisticamente a c atravs de p(), pode ser aumentada observando-se uma quantidade aleatria X e o relacionada com . A distribuiao amostral p(x|) dene esta relaao. A idia de c c e que aps observar X = x a quantidade de informaao sobre aumenta bastante o c e intuitiva e o teorema de Bayes a regra de atualizaao utilizada para quanticar e c este aumento de informaao, c p(|x) = p(x|)p() p(x|)p() p(x, ) . = = p(x) p(x) p(, x)d (1.1)

Note que 1/p(x), que no depende de , funciona como uma constante normaa lizadora de p(|x). Para um valor xo de x, a funao l(; x) = p(x|) fornece a plausibilidade ou c verossimilhana de cada um dos poss c veis valores de enquanto p() chamada e distribuiao a priori de . Estas duas fontes de informaao, priori e verossimic c 1

2

CAP ITULO 1. INTRODUCAO

lhana, so combinadas levando ` distribuiao a posteriori de , p(|x). Assim, c a a c a forma usual do teorema de Bayes e p(|x) l(; x)p(), (l-se p(|x) proporcional a l(; x)p()). Em palavras temos que e e distribuiao a posteriori verossimilhana distribuiao a priori. c c c Note que, ao omitir o termo p(x), a igualdade em (1.1) foi substituida por uma proporcionalidade. Esta forma simplicada do teorema de Bayes ser util em a problemas que envolvam estimaao de parmetros j que o denominador apenas c a a e uma constante normalizadora. Em outras situaoes, como seleao e comparaao c c c de modelos, este termo tem um papel crucial. E intuitivo tambm que a probabilidade a posteriori de um particular conjunto e de valores de ser pequena se p() ou l(; x) for pequena para este conjunto. Em a particular, se atribuirmos probabilidade a priori igual a zero para um conjunto de valores de ento a probabilidade a posteriori ser zero qualquer que seja a a a amostra observada. A partir da forma (1.2) a constante normalizadora da posteriori em (1.1) e recuperada como p(x) = p(x, )d = p(x|)p()d = E [p(X|)] (1.2)

que chamada distribuiao preditiva. Esta a distribuiao esperada para a e c e c observaao x dado . Assim, c Antes de observar X podemos checar a adequaao da priori fazendo c predioes via p(x). c Se X observado recebia pouca probabilidade preditiva ento o modelo deve a ser questionado. Em muitas aplicaoes (e.g. sries temporais e geoestatistica) o maior interc e esse na previso do processo em pontos no observados do tempo ou espao. e a a c Suponha ento que, aps observar X = x, estamos interessados na previso de a o a uma quantidade Y , tambm relacionada com , e descrita probabilisticamente e por p(y|x, ). A distribuiao preditiva de Y dado x obtida por integraao como c e c p(y|x) = p(y, |x)d = p(y|, x)p(|x)d. (1.3)

Em muitos problemas estatisticos a hiptese de independncia condicional entre o e

1.1. TEOREMA DE BAYES X e Y dado est presente e a distribuiao preditiva ca a c p(y|x) = p(y|)p(|x)d.

3

Note no entanto que esta no uma hiptese razovel para dados espacialmente a e o a distribuidos aonde estamos admitindo que exista alguma estrutura de correlaao c no espao. De qualquer modo, em muitas aplicaoes prticas a integral em (1.3) c c a no tem soluao analitica e precisa ser obtida por algum mtodo de aproximaao. a c a e c Note tambm que as previses so sempre vericveis uma vez que Y uma e o a a e quantidade observvel. Finalmente, segue da ultima equaao que a c p(y|x) = E|x [p(Y |)]. Fica claro tambm que os conceitos de priori e posteriori so relativos `quela e a a observaao que est sendo considerada no momento. Assim, p(|x) a posteriori c a e de em relaao a X (que j foi observado) mas a priori de em relaao a Y (que c a e c no foi observado ainda). Aps observar Y = y uma nova posteriori (relativa a a o X = x e Y = y) obtida aplicando-se novamente o teorema de Bayes. Mas ser e a que esta posteriori nal depende da ordem em que as observaoes x e y foram c processadas? Observando-se as quantidades x1 , x2 , , xn , independentes dado e relacionadas a atravs de pi (xi |) segue que e p(|x2 , x1 ) l2 (; x2 )p(|x1 ) . . . p(|x1 ) l1 (; x1 )p()

l2 (; x2 )l1 (; x1 )p() . . .n

p(|xn , xn1 , , x1 )

li (; xi ) p()i=1

ln (; xn ) p(|xn1 , , x1 ). Ou seja, a ordem em que as observaoes so processadas pelo teorema de Bayes c a irrelevante. Na verdade, elas podem at ser processadas em subgrupos. e e

Exemplo 1.1 : (Gamerman e Migon, 1993) Um mdico, ao examinar uma pese soa, descona que ela possa ter uma certa doena. Baseado na sua experincia, c e no seu conhecimento sobre esta doena e nas informaoes dadas pelo paciente ele c c assume que a probabilidade do paciente ter a doena 0,7. Aqui a quantidade c e

4

CAP ITULO 1. INTRODUCAO

de interesse desconhecida o indicador de doena e c = 1, 0, se o paciente tem a doena c se o paciente no tem a doena. a c

Para aumentar sua quantidade de informaao sobre a doena o mdico aplica um c c e teste X relacionado com atravs da distribuiao e c P (X = 1 | = 0) = 0, 40 e P (X = 1 | = 1) = 0, 95

e o resultado do teste foi positivo (X = 1). E bem intuitivo que a probabilidade de doena deve ter aumentado aps este c o resultado e a questo aqui quanticar este aumento. Usando o teorema de Bayes a e segue que P ( = 1 | X = 1) l( = 1; X = 1) p( = 1) = (0, 95)(0, 7) = 0, 665 P ( = 0 | X = 1) l( = 0; X = 1) p( = 0) = (0, 40)(0, 3) = 0, 120. Uma vez que as probabilidades a posteriori somam 1, i.e. P ( = 0 | X = 1) + P ( = 1 | X = 1) = 1, a constante normalizadora obtida fazendo-se 0, 665k + 0, 120k = 1 e ento e a k = 1/0, 785. Portanto, a distribuiao a posteriori de c e P ( = 1 | X = 1) = 0, 665/0, 785 = 0, 847 P ( = 0 | X = 1) = 0, 120/0, 785 = 0, 153. O aumento na probabilidade de doena no foi muito grande porque a verossimilc a hana l( = 0; X = 1) tambm era grande (o modelo atribuia uma plausibilidade c e grande para = 0 mesmo quando X = 1). Agora o mdico aplica outro teste Y cujo resultado est relacionado a atravs e a e da seguinte distribuiao c P (Y = 1 | = 0) = 0, 04 e P (Y = 1 | = 1) = 0, 99.

Mas antes de observar o resultado deste teste interessante obter sua distribuiao e c preditiva. Como uma quantidade discreta segue que e1

p(y|x) ==0

p(y|)p(|x)

1.1. TEOREMA DE BAYES e note que p(|x) a priori em relaao a Y . Assim, e c P (Y = 1 | X = 1) = P (Y = 1 | = 0)P ( = 0 | X = 1)

5

= (0, 04)(0, 153) + (0, 99)(0, 847) = 0, 845 P (Y = 0 | X = 1) = 1 P (Y = 1 | X = 1) = 0, 155. O resultado deste teste foi negativo (Y = 0). Neste caso, tambm intuitivo e e que a probabilidade de doena deve ter diminuido e esta reduao ser quanticada c c a por uma nova aplicaao do teorema de Bayes, c P ( = 1 | X = 1, Y = 0) l( = 1; Y = 0)P ( = 1 | X = 1) (0, 01)(0, 847) = 0, 0085

+ P (Y = 1 | = 1)P ( = 1 | X = 1)

P ( = 0 | X = 1, Y = 0) l( = 0; Y = 0)P ( = 0 | X = 1) (0, 96)(0, 153) = 0, 1469. A constante normalizadora 1/(0,0085+0,1469)=1/0,1554 e assim a distribuiao e c a posteriori de e P ( = 1 | X = 1, Y = 0) = 0, 0085/0, 1554 = 0, 055 P ( = 0 | X = 1, Y = 0) = 0, 1469/0, 1554 = 0, 945. Verique como a probabilidade de doena se alterou ao longo do experimento c antes dos testes 0, 7, P ( = 1) = 0, 847, aps o teste X o 0, 055, aps X e Y . o

Note tambm que o valor observado de Y recebia pouca probabilidade preditiva. e Isto pode levar o mdico a repensar o modelo, i.e., e (i) Ser que P ( = 1) = 0, 7 uma priori adequada? a e (ii) Ser que as distribuioes amostrais de X e Y esto corretas ? O teste X a c a e to inexpressivo e Y realmente to poderoso? a e a

6

CAP ITULO 1. INTRODUCAO

Exemplo 1.2 : Seja Y Binomial(12, ) e em um experimento observou-se Y = 9. A funao de verossimilhana de dada por c c e l() = 12 9 (1 )3 , (0, 1). 9

Que distribuiao poderia ser usada para resumir probabilisticamente nosso c conhecimento sobre o parmetro ? Note que, como 0 < < 1 queremos que, a p() = 0 p(|y) = 0, (0, 1). Podemos por exemplo assumir que N (, 2 ) truncada no intervalo (0,1). Neste caso, denotando por fN (|, 2 ) a funao de densidade da distribuiao c c 2 N (, ) segue que a funao de densidade a priori de dada por c e p() =0

fN (|, 2 )1

.

fN (|, )d Na Figura 1.1 esta funao de densidade est representada para alguns valores de c a 2 e . Os comandos do R abaixo podem ser utilizados para gerar as curvas. Note como informaoes a priori bastante diferentes podem ser representadas. c > dnorm.t 2. > dlogist = function(x, mean, sd) { + z = log(x/(1 - x)) + dnorm(z, mean, sd)/(x - x^2) + } Finalmente, podemos atribuir uma distribuiao a priori Beta(a, b) (ver c Apndice A), e p() = (a + b) a1 (1 )b1 , a > 0, b > 0, (0, 1). (a)(b)

Esta distribuiao simtrica em torno de 0,5 quando a = b e assimtrica quando c e e e a = b. Variando os valores de a e b podemos denir uma rica familia de distribuioes a priori para , incluindo a distribuiao Uniforme no intervalo (0,1) se c c a = b = 1. Algumas possibilidades esto representadas na Figura 1.3. a Um outro resultado importante ocorre quando se tem uma unica observaao c da distribuiao normal com mdia desconhecida. Se a mdia tiver priori normal c e e

8

CAP ITULO 1. INTRODUCAO

4

N(1,0.25) N(1,1) N(0,4) 3 p() 0 0.0 1 2

0.2

0.4

0.6

0.8

1.0

Figura 1.2: Densidades a priori tipo logisticas para o parmetro no Exemplo 1.2. a ento os parmetros da posteriori so obtidos de uma forma bastante intuitiva a a a como visto no teorema a seguir.2 Teorema 1.1 Se X| N (, 2 ) sendo 2 conhecido e N (0 , 0 ) ento a 2 |x N (1 , 1 ) sendo

1 = Prova. Temos que

2 0 0 + 2 x 2 0 + 2

2 2 e 1 = 0 + 2 .

2 p(x|) exp{ 2 (x )2 /2} e p() exp{0 ( 0 )/2}

e portanto 1 2 p(|x) exp [ 2 (2 2x) + 0 (2 20 )] 2 1 2 2 exp [2 ( 2 + 0 ) 2( 2 x + 0 0 )] . 2 sendo que os termos que no dependem de foram incorporados ` constante de a a 2 2 2 2 2 2 proporcionalidade. Denindo 1 = + 0 e 1 1 = x 0 0 segue que p(|x) exp 2 1 (2 21 ) 2

exp

2 1 ( 1 )2 2

pois 1 no depende de . Portanto, a funao de densidade a posteriori (a menos a c

1.1. TEOREMA DE BAYES

9

4

5

Beta(1.5,4) Beta(2,0.5) Beta(7,1.5) Beta(3,3)

p() 0 0.0 1 2

3

0.2

0.4

0.6

0.8

1.0

Figura 1.3: Densidades a priori Beta para o parmetro no Exemplo 1.2. a

de uma constante) tem a mesma forma de uma normal com mdia 1 e varincia e a 2 1 . Note que, denindo preciso como o inverso da varincia, segue do teorema a a que a preciso a posteriori a soma das precises a priori e da verossimilhana a e o c e no depende de x. Interpretando preciso como uma medida de informaao a a c 2 2 2 e denindo w = 0 /(0 + ) (0, 1) ento w mede a informaao relativa a c contida na priori com respeito ` informaao total. Podemos escrever ento que a c a 1 = w0 + (1 w)x ou seja, 1 uma combinao linear convexa de 0 e x e portanto e ca min{0 , x} 1 max{0 , x}. A distribuiao preditiva de X tambm facilmente obtida notando que podec e e mos reescrever as informaoes na forma de equaoes com erros no correlacionac c a dos. Assim, X = + , N (0, 2 )

2 = 0 + w, w N (0, 0 )

tal que Cov(, ) = Cov(0 , w) = 0. Portanto a distribuiao (incondicional) de c X normal pois ele resulta de uma soma de variveis aleatrias com distribuiao e a o c

10 normal. Alm disso, e

CAP ITULO 1. INTRODUCAO

E(X) = E() + E() = 02 V ar(X) = V ar() + V ar() = 0 + 2 2 Concluso, X N (0 , 0 + 2 ). a

Exemplo 1.3 : (Box & Tiao, 1992) Os f sicos A e B desejam determinar uma constante f sica . O f sico A tem mais experincia nesta rea e especica sua e a 2 priori como N (900, 20 ). O f sico B tem pouca experincia e especica uma e priori muito mais incerta em relaao ` posiao de , N (800, 802 ). Assim, no c a c a dicil vericar que e para o sico A: P (860 < < 940) 0, 95 para o sico B: P (640 < < 960) 0, 95. Faz-se ento uma mediao X de em laboratrio com um aparelho calibrado a c o 2 com distribuiao amostral X| N (, 40 ) e observou-se X = 850. Aplicando o c teorema 1.1 segue que (|X = 850) N (890, 17, 92 ) para o f sico A (|X = 850) N (840, 35, 72 ) para o f sico B. Note tambm que os aumentos nas precises a posteriori em relaao `s precises e o c a o a priori foram,2 2 para o f sico A: preciso() passou de 0 = 0, 0025 para 1 = 0, 00312 a (aumento de 25%). 2 2 para o f sico B: preciso() passou de 0 = 0, 000156 para 1 = 0, 000781 a (aumento de 400%).

A situaao est representada gracamente na Figura 1.4 a seguir. Note como a c a distribuiao a posteriori representa um compromisso entre a distribuiao a priori c c e a verossimilhana. Alm disso, como as incertezas iniciais so bem diferentes c e a o mesmo experimento fornece muito pouca informaao adicional para o sico A c enquanto que a incerteza do sico B foi bastante reduzida. Os comandos do R abaixo podem ser usados nos clculos. a

1.2. PRINC IPIO DA VEROSSIMILHANCA > norm.norm beta.binomial = function(n, a, b) { + m = matrix(0, n + 1, 2) + m[, 1] = 0:n + for (x in 0:n) m[x, 2] = round(choose(n, x) * beta(a + x, + b + n - x)/beta(a, b), 4) + return(list(m = m)) + }

Tabela 2.1: Probabilidades preditivas da Beta-Binomial para o Exemplo 2.2 k 0 1 2 3 4 5 6 7 8 9 10 11 12 Beta(1,1) 0.0769 0.0769 0.0769 0.0769 0.0769 0.0769 0.0769 0.0769 0.0769 0.0769 0.0769 0.0769 0.0000 Beta(2,2) 0.0527 0.0725 0.0879 0.0989 0.1055 0.1077 0.1055 0.0989 0.0879 0.0725 0.0527 0.0286 0.0000 Beta(1,3) 0.1714 0.1451 0.1209 0.0989 0.0791 0.0615 0.0462 0.0330 0.0220 0.0132 0.0066 0.0022 0.0000

No caso geral em que se tem uma amostra X1 , . . . , Xn da fam exponencial lia a natureza sequencial do teorema de Bayes permite que a anlise seja feita por a replicaoes sucessivas. Assim a cada observaao xi os parmetros da distribuiao c c a c a posteriori so atualizados via a i = i1 + u(xi ) i = i1 + 1

2.3. PRINCIPAIS FAM ILIAS CONJUGADAS com 0 = e 0 = . Aps n observaoes temos que o cn

19

n = +i=1

u(xi )

n = + n e a distribuiao preditiva dada por c en

p(x) =i=1

a(xi )

k(, ) . k( + u(xi ), + n)

Finalmente, a deniao de fam exponencial pode ser extendida ao caso c lia multiparamtrico, i.e. en r n

p(x|) =i=1

a(xi ) expj=1 i=1

uj (xi ) j () + nb()

com = (1 , . . . , r ). Neste caso, pelo critrio de fatoraao, temos que e c U1 (xi ), . . . , Ur (xi ) uma estat e stica conjuntamente suciente para o vetor de parmetros . a

2.3

Principais Fam lias Conjugadas

J vimos que a fam de distribuioes Beta conjugada ao modelo Bernoulli e a lia c e binomial. No dif mostrar que o mesmo vale para as distribuioes amostrais a e cil c geomtrica e binomial-negativa (ver Exerc 1). A seguir veremos resultados e cio para outros membros importantes da fam exponencial. lia

2.3.1

Distribuio normal com varincia conhecida ca a

Para uma unica observaao vimos pelo Teorema 1.1 que a fam de distribuioes c lia c normais conjugada ao modelo normal. Para uma amostra de tamanho n, a e funao de verossimilhana pode ser escrita como c c l(; x) = (2 )2 n/2

1 exp 2 2

n

n exp 2 (x )2 2

i=1

(xi )2

onde os termos que no dependem de foram incorporados ` constante de proa a porcionalidade. Portanto, a verossimilhana tem a mesma forma daquela baseada c em uma unica observaao bastando substituir x por x e 2 por 2 /n. Logo vale c

20

CAP ITULO 2. DISTRIBUICOES A PRIORI

o Teorema 1.1 com as devidas substituioes, i.e. a distribuiao a posteriori de c c 2 dado x N (1 , 1 ) sendo e 1 =2 0 0 + n 2 x 2 0 + n 2 2 2 e 1 = 0 + n 2 .

Note que a mdia a posteriori pode ser reescrita como w0 + (1 w)x sendo e 2 2 w = 0 /(0 + n 2 ). Uma funao geral pode ser escrita no R para calcular estes parmetros e opc a cionalmente fazer os grcos das densidades. a > norm.norm 0,

t=i=1

xi .

O ncleo da verossimilhana da forma a eb que caracteriza a fam de u c e lia distribuioes Gama a qual fechada por amostragem (verique!). Assim, disc e tribuiao a priori conjugada natural de Gama com parmetros positivos e c e a , i.e. 1 e , > 0, > 0, > 0. p() = ()

2.3. PRINCIPAIS FAM ILIAS CONJUGADAS A densidade a posteriori ca p(|x) +t1 exp {( + n)}

21

que corresponde ` densidade Gama( + t, + n). Note que a mdia a posteriori a e pode ser reescrita como uma combinaao linear da mdia a priori e da mdia c e e amostral (ver exerc 6). A distribuiao preditiva tambm facilmente obtida cio c e e pois n 1 p(x|) = exp {t log n} x! i=1 i e portanton

p(x) =i=1

( + t) 1 . xi ! () ( + n)+t

Para uma unica observaao x segue ento que c a 1 1 ( + x) = p(x) = +x x! () ( + 1) x! = +x1 x +1

+1x

1 +1

x

( + x 1)! ( 1)!

1 +1

.

Esta distribuiao chamada de Binomial-Negativa com parmetros e e sua c e a mdia e varincia so facilmente obtidos como e a a E(X) = E[E(X|)] = E() = / V ar(X) = E[V ar(X|)] + V ar[E(X|)] = E() + V ar() = ( + 1) . 2

2.3.3

Distribuio multinomial ca

Denotando por X = (X1 , . . . , Xp ) o nmero de ocorrncias em cada uma de p u e categorias em n ensaios independentes e por = (1 , . . . , p ) as probabilidades associadas, deseja-se fazer inferncia sobre estes p parmetros. No entanto, note e a que existem efetivamente p 1 parmetros j que temos a seguinte restriao a a c p p e c e i=1 i = 1. Alm disso, a restriao i=1 Xi = n obviamente tambm se aplica. Dizemos que X tem distribuiao multinomial com parmetros n e e funao de c a c probabilidade conjunta das p contagens X dada por e p(x|) = n!p i=1 p x i i . i=1

xi !

22

CAP ITULO 2. DISTRIBUICOES A PRIORI

Note que esta uma generalizaao da distribuiao binomial que tem apenas duas e c c categorias. No dif mostrar que esta distribuiao tambm pertence ` fam a e cil c e a lia exponencial. A funao de verossimilhana para c c ep

l(; x)

x i i i=1

que tem o mesmo ncleo da funao de densidade de uma distribuiao de Dirichlet. u c c A fam Dirichlet com parmetros inteiros a1 , . . . , ap a conjugada natural do lia a e modelo multinomial, porm na prtica a conjugaao extendida para parmetros e a c e a no inteiros. A distribuiao a posteriori dada por a c ep p x i i i=1 i=1 a i i 1 p

p(|x)

=i=1

x i i +ai 1 .

Note que estamos generalizando a anlise conjugada para amostras binomiais com a priori beta.

2.3.4

Distribuio normal com mdia conhecida e varinca e a cia desconhecida

Seja X1 , . . . , Xn uma amostra aleatria da distribuiao N (, 2 ), com conhecido o c 2 e = desconhecido. Neste caso a funao de densidade conjunta dada por c e p(x|, ) n/2

exp{ 2

n

i=1

(xi )2 }.

Note que o ncleo desta verossimilhana tem a mesma forma daquele de uma u c distribuiao Gama. Como sabemos que a fam Gama fechada por amostragem c lia e podemos considerar uma distribuiao a priori Gama com parmetros n0 /2 e c a 2 n0 0 /2, i.e. 2 n0 n0 0 . Gama , 2 2 Equivalentemente, podemos atribuir uma distribuiao a priori qui-quadrado com c 2 n0 graus de liberdade para n0 0 . A forma funcional dos parmetros da disa tribuiao a priori apenas uma convenincia matemtica como veremos a seguir. c e e a Denindo ns2 = 0n i=1 (xi

)2 e aplicando o teorema de Bayes obtemos a

2.3. PRINCIPAIS FAM ILIAS CONJUGADAS distribuiao a posteriori de , c 2 p(|x) n/2 exp ns2 n0 /21 exp n0 0 0 2 2 2 = (n0 +n)/21 exp (n0 0 + ns2 ) . 0 2

23

Note que esta expresso corresponde ao ncleo da distribuiao Gama, como a u c era esperado devido ` conjugaao. Portanto, a c |x Gama2 n0 + n n0 0 + ns2 0 , 2 2

.

2 Equivalentemente podemos dizer que (n0 0 + ns2 ) | x 2 0 +n . 0 n

2.3.5

Distribuio normal com mdia e varincia desconca e a hecidos

Seja X1 , . . . , Xn uma amostra aleatria da distribuiao N (, 2 ), com ambos o c 2 e = desconhecidos. Precisamos ento especicar uma distribuiao a priori a c conjunta para e . Uma possibilidade fazer a especicaao em dois estgios e c a j que podemos sempre escrever p(, ) = p(|)p(). No primeiro estgio, a a | N (0 , (c0 )1 ), = 2

e a distribuiao a priori marginal de a mesma do caso anterior, i.e. c e Gama2 n0 n0 0 , 2 2

.

A distribuiao conjunta de (, ) geralmente chamada de Normal-Gama com c e 2 parmetros (0 , c0 , n0 , 0 ) e sua funao de densidade conjunta dada por, a c e p(, ) = p(|)p() 1/2 exp 2 n0 0 c0 ( 0 )2 n0 /21 exp 2 2 2 (n0 +1)/21 exp (n0 0 + c0 ( 0 )2 ) . 2

A partir desta densidade conjunta podemos obter a distribuiao marginal de c

24 por integraao c p() =

CAP ITULO 2. DISTRIBUICOES A PRIORI

p(|)p()d 0

2 (n0 +1)/21 exp [n0 0 + c0 ( 0 )2 ] d 2n0 +1 2

2 n0 0 + c0 ( 0 )2 2

( 0 )2 1+ 2 n0 (0 /c0 )

n0 +1 2

,

que o ncleo da distribuiao t de Student com n0 graus de liberdade, parmetro e u c a 2 de locaao 0 e parmetro de escala 0 /c0 (ver Apndice A). Denotamos c a e 2 tn0 (0 , 0 /c0 ). A distribuiao condicional de dado tambm facilmente obtida c e e como p(|) p(|)p()

2 (n0 +1)/21 exp [n0 0 + c0 ( 0 )2 ] , 22 n0 + 1 n0 0 + c0 ( 0 )2 , 2 2

e portanto, | Gama

.

A posteriori conjunta de (, ) tambm obtida em 2 etapas como segue. e e Primeiro, para xo podemos usar o resultado da Seao 2.3.1 de modo que a c distribuiao a posteriori de dado ca c |, x N (1 , (c1 )1 ) sendo 1 = c0 0 + nx c0 0 + nx = c0 + n c0 + n e c1 = c0 + n.

Na segunda etapa, combinando a verossimilhana com a priori de obtemos que c |x Gama sendo2 2 n1 = n0 + n e n1 1 = n0 0 + 2 n1 n1 1 , 2 2

(xi x)2 + c0 n(0 x)2 /(c0 + n).

2 Equivalentemente, podemos escrever a posteriori de como n1 1 2 1 . Asn 2 sim, a posteriori conjunta (, |x) Normal-Gama(1 , c1 , n1 , 1 ) e portanto a e

2.4. PRIORI NAO INFORMATIVA posteriori marginal de ca2 | x tn1 (1 , 1 /c1 ).

25

Em muitas situaoes mais fcil pensar em termos de algumas caracter c e a sticas da distribuiao a priori do que em termos de seus hiperparmetros. Por exemplo, c a se E() = 2, V ar() = 5, E() = 3 e V ar() = 3 ento a (i) 0 = 2 pois E() = 0 .2 2 (ii) 0 = 1/3 pois E() = 1/0 . 4 (iii) n0 = 6 pois V ar() = 2/(n0 0 ) = 18/n0 .

(iv) c0 = 1/10 pois V ar() =

n0 n0 2

2 0 1 = c0 2c0

2.4

Priori no Informativa a

Esta seao refere-se a especicaao de distribuioes a priori quando se espera que c c c a informaao dos dados seja dominante, no sentido de que a nossa informaao c c a priori vaga. Os conceitos de conhecimento vago, no informaao, ou ige a c norncia a priori claramente no so unicos e o problema de caracterizar prioris a a a com tais caracter sticas pode se tornar bastante complexo. Por outro lado, reconhece-se a necessidade de alguma forma de anlise que, a em algum sentido, consiga captar esta noao de uma priori que tenha um efeito c m nimo, relativamente aos dados, na inferncia nal. Tal anlise pode ser pene a sada como um ponto de partida quando no se consegue fazer uma elicitaao a c detalhada do verdadeiro conhecimento a priori. Neste sentido, sero apresena tadas aqui algumas formas de como fazer enquanto discusses mais detalhadas o so encontradas em Berger (1985), Box & Tiao (1992), Bernardo & Smith (1994) a e OHagan (1994). A primeira idia de no informaao a priori que se pode ter pensar em e a c e todos os poss veis valores de como igualmente provveis, i.e. com uma disa tribuiao a priori uniforme. Neste caso, fazendo p() k para variando em um c subconjunto da reta signica que nenhum valor particular tem preferncia (Bayes, e 1763). Porm esta escolha de priori pode trazer algumas diculdades tcnicas, e e (i) Se o intervalo de variaao de for ilimitado ento a distribuiao a priori c a c e imprpria, i.e. o p()d = .

26

CAP ITULO 2. DISTRIBUICOES A PRIORI

(ii) Se = g() uma reparametrizaao no linear montona de ento p() e c a o a e no uniforme j que pelo teorema de transformaao de variveis a a c a p() = p(()) d d . d d

Na prtica, como estaremos interessados na distribuiao a posteriori no darea c a mos muita importncia ` impropriedade da distribuiao a priori. No entanto dea a c vemos sempre nos certicar de que a posterior prpria antes de fazer qualquer e o inferncia. e A classe de prioris no informativas proposta por Jereys (1961) invariante a e a transformaoes 1 a 1, embora em geral seja imprpria e ser denida a seguir. c o a Antes porm precisamos da deniao da medida de informaao de Fisher. e c c Denio 2.3 Considere uma unica observao X com funo de (densidade) ca ca ca de probabilidade p(x|). A medida de informao esperada de Fisher de atravs ca e de X denida como e 2 log p(x|) I() = E . 2 Se for um vetor paramtrico dene-se ento a matriz de informao esperada e a ca de Fisher de atravs de X como e I() = E 2 log p(x|) .

Note que o conceito de informaao aqui est sendo associado a uma espcie de c a e curvatura mdia da funao de verossimilhana no sentido de que quanto maior a e c c curvatura mais precisa a informaao contida na verossimilhana, ou equivalene c c temente maior o valor de I(). Em geral espera-se que a curvatura seja negativa e por isso seu valor tomado com sinal trocado. Note tambm que a esperana e e c matemtica tomada em relaao ` distribuiao amostral p(x|). a e c a c Podemos considerar ento I() uma medida de informaao global enquanto a c que uma medida de informaao local obtida quando no se toma o valor esperado c e a na deniao acima. A medida de informaao observada de Fisher J() ca ento c c a denida como 2 log p(x|) J() = 2 e que ser utilizada mais adiante quando falarmos sobre estimaao. a c Denio 2.4 Seja uma observao X com funo de (densidade) de probabilica ca ca dade p(x|). A priori no informativa de Jereys tem funo de densidade dada a ca por p() [I()]1/2 .

2.4. PRIORI NAO INFORMATIVA Se for um vetor paramtrico ento p() | det I()|1/2 . e a

27

Exemplo 2.3 : Seja X1 , . . . , Xn Poisson(). Ento o logaritmo da funao de a c probabilidade conjunta dado por en n

log p(x|) = n +

i=1

xi log log

xi !i=1

e tomando-se a segunda derivada segue que 2 log p(x|) n + = 2 e assim, 1 I() = 2 E n i=1 n i=1

xi

=

n i=1 2

xi

xi = n/ 1 .

Portanto, a priori no informativa de Jereys para no modelo Poisson p() a e 1/2 . Note que esta priori obtida tomando-se a conjugada natural Gama(, ) e e fazendo-se = 1/2 e 0. Em geral a priori no informativa obtida fazendo-se o parmetro de escala a e a da distribuiao conjugada tender a zero e xando-se os demais parmetros convec a nientemente. Alm disso, a priori de Jereys assume formas espec e cas em alguns modelos que so frequentemente utilizados como veremos a seguir. a Denio 2.5 X tem um modelo de locao se existem uma funo f e uma ca ca ca quantidade tais que p(x|) = f (x ). Neste caso chamado de parmetro e a de locao. ca A deniao vale tambm quando um vetor de parmetros. Alguns exemc e e a plos importantes so a distribuiao normal com varincia conhecida, e a disa c a tribuiao normal multivariada com matriz de varincia-covarincia conhecida. c a a Pode-se mostrar que para o modelo de locaao a priori de Jereys dada por c e p() constante. Denio 2.6 X tem um modelo de escala se existem uma funo f e uma ca ca quantidade tais que p(x|) = (1/)f (x/). Neste caso chamado de e parmetro de escala. a Alguns exemplos so a distribuiao exponencial com parmetro , com parmetro a c a a 2 de escala = 1/, e a distribuiao N (, ) com mdia conhecida e escala . c e Pode-se mostrar que para o modelo de escala a priori de Jereys dada por e 1 p() .

28

CAP ITULO 2. DISTRIBUICOES A PRIORI

Denio 2.7 X tem um modelo de locao e escala se existem uma funo f ca ca ca e as quantidades e tais que p(x|, ) = 1 f x .

Neste caso chamado de parmetro de locao e de parmetro de escala. e a ca a Alguns exemplos so a distribuiao normal (uni e multivariada) e a distribuiao a c c de Cauchy. Em modelos de locaao e escala, a priori no informativa pode ser c a obtida assumindo-se independncia a priori entre e de modo que p(, ) = e 1 p()p() . Exemplo 2.4 : Seja X1 , . . . , Xn N (, 2 ) com e 2 desconhecidos. Neste caso, 2 1 1 x p(x|, 2 ) exp , 2 portanto (, ) parmetro de locaao-escala e p(, ) 1 a priori no e a c e a informativa. Ento, pela propriedade da invarincia, a priori no informativa a a a 2 2 2 para (, ) no modelo normal p(, ) . e Vale notar entretanto que a priori no informativa de Jereys viola o princ a pio da verossimilhana, j que a informaao de Fisher depende da distribuiao c a c c amostral.

2.5

Prioris Hierrquicas a

A idia aqui dividir a especicaao da distribuiao a priori em estgios. Alm e e c c a e de facilitar a especicaao esta abordagem natural em determinadas situaoes c e c experimentais. A distribuiao a priori de depende dos valores dos hiperparmetros e podec a mos escrever p(|) ao invs de p(). Alm disso, ao invs de xar valores para os e e e hiperparmetros podemos especicar uma distribuiao a priori p() completando a c assim o segundo estgio na hierarquia. Assim, a distribuiao a priori conjunta a c e simplesmente p(, ) = p(|)p() e a distribuiao a priori marginal de pode c ser ento obtida por integraao como a c p() = p(, )d = p(|)p()d.

2.5. PRIORIS HIERARQUICAS A distribuiao a posteriori conjunta ca c p(, |x) p(x|, )p(|)p() p(x|)p(|)p()

29

pois a distribuiao dos dados depende somente de . Em outras palavras, dado c , x e so independentes. a Exemplo 2.5 : Sejam X1 , . . . , Xn tais que Xi N (i , 2 ) com 2 conhecido e queremos especicar uma distribuiao a priori para o vetor de parmetros = c a (1 , . . . , n ). Suponha que no primeiro estgio assumimos que i N (, 2 ), a 2 i = 1, . . . , n. Neste caso, se xarmos o valor de 2 = 0 e assumirmos que tem distribuiao normal ento ter distribuiao normal multivariada. Por outro c a a c lado, xando um valor para = 0 e assumindo que 2 tem distribuiao Gama c implicar em uma distribuiao t de Student multivariada para . a c Teoricamente, no h limitaao quanto ao nmero de estgios, mas devido `s a a c u a a complexidades resultantes as prioris hierrquicas so especicadas em geral em 2 a a ou 3 estgios. Alm disso, devido a diculdade de interpretaao dos hiperparmeta e ` c a ros em estgios mais altos prtica comum especicar prioris no informativas a e a a para este n veis. Uma aplicaao interessante do conceito de hierarquia quando a informaao a c e c priori dispon s pode ser convenientemente resumida atravs de uma mistura vel o e de distribuioes. Isto implica em considerar uma distribuiao discreta para de c c modo que, se assume os poss veis valores 1 , . . . , k ento ak

p() =i=1

p(|i )p(i ).

No dif vericar que a distribuiao a posteriori de tambm uma mistura a e cil c e e com veremos a seguir. Aplicando o teorema de Bayes temos que,k

p(|x) =

p()p(x|) p()p(x|)d

p(x|)p(|i )p(i ) =i=1 k

. p(x|)p(|i )d

p(i )i=1

Mas note que a distribuiao a posteriori condicional de dado i obtida via c e teorema de Bayes como p(|x, i ) = p(x|)p(|i ) p(x|)p(|i )d = p(x|)p(|i ) m(x|i )

30

CAP ITULO 2. DISTRIBUICOES A PRIORI

e a distribuiao a posteriori de i obtida como c e p(i ) = m(x|i )p() . p(x)

Portanto p(x|)p(|i )=p(|x, i )m(x|i ). Assim, podemos escrever a posteriori de comok

p(|x, i )m(x|i )p(i ) p( |x) =i=1 k

k

= m(x|i )p(i )i=1

p(|x, i )p(i |x)

i=1

Note tambm que p(x) = e m(x|i )p(i ), isto a distribuiao preditiva, uma e c e mistura de preditivas condicionais. Exemplo 2.6 : Se (0, 1), a fam de distribuioes a priori Beta(a, b) conlia c e veniente. Mas estas so sempre unimodais e (se a = b) assimtricas ` esquerda ou a e a a ` direita. Outras formas interessantes, e mais de acordo com a nossa informaao c a priori, podem ser obtidas misturando-se 2 ou 3 elementos desta fam lia. Por exemplo, 0, 25Beta(3, 8) + 0, 75Beta(8, 3) representa a informaao a priori de que (0, 5; 0, 95) com alta probabilidade c (0,71) mas tambm que (0, 1; 0, 4) com probabilidade moderada (0,20). As e modas desta distribuiao so 0,23 e 0,78. Por outro lado c a 0, 33Beta(4, 10) + 0, 33Beta(15, 28) + 0, 33Beta(50, 70) representa a informaao a priori de que > 0, 6 com probabilidade desprez c vel. Estas densidades esto representadas gracamente na Figura 2.2 a seguir. Note a que a primeira mistura deu origem a uma distribuiao a priori bimodal enquanto c a segunda originou uma priori assimtrica ` esquerda com mdia igual a 0,35. e a e Para outros exemplos de misturas de prioris ver OHagan (1994). Para um excelente material sobre modelos hierrquicos ver (Gelman et al. 2004). a

2.6

Problemas

1. Mostre que a fam de distribuioes Beta conjugada em relaao `s dislia c e c a tribuioes amostrais binomial, geomtrica e binomial negativa. c e

2.6. PROBLEMAS

31

4

.33B(4,10)+.33B(15,28)+.33B(50,70) .25 B(3,8)+.75 B(8,3)

0 0.0

1

2

3

0.2

0.4

0.6

0.8

1.0

Figura 2.2: Misturas de funes de densidade Beta(3,8) e Beta(8,3) com pesos 0,25 e co0,75 e Beta(4,10), Beta(15,28) e Beta(50,70) com pesos iguais a 0,33.

2. Para uma amostra aleatria de 100 observaoes da distribuiao normal com o c c mdia e desvio-padro 2 foi especicada uma priori normal para . e a (a) Mostre que o desvio-padro a posteriori ser sempre menor do que 1/5. a a Interprete este resultado. (b) Se o desvio-padro a priori for igual a 1 qual deve ser o menor nmero a u de observaoes para que o desvio-padro a posteriori seja 0,1? c a 3. Seja X1 , . . . , Xn uma amostra aleatria da distribuiao N (, 2 ), com cono c hecido. Utilizando uma distribuiao a priori Gama para 2 com coeciente c de variaao 0,5, qual deve ser o tamanho amostral para que o coeciente de c variaao a posteriori diminua para 0,1? c 4. Seja X1 , . . . , Xn uma amostra aleatria da distribuiao N (, 2 ), com e o c 2 desconhecidos, e considere a priori conjugada de (, ).2 (a) Determine os parmetros (0 , c0 , n0 , 0 ) utilizando as seguintes infora maoes a priori: E() = 0, P (|| < 1, 412) = 0, 5, E() = 2 e c E(2 ) = 5.

32

CAP ITULO 2. DISTRIBUICOES A PRIORI (b) Em uma amostra de tamanho n = 10 foi observado X = 1 e n 2 c i=1 (Xi X) = 8. Obtenha a distribuiao a posteriori de e esboce os grcos das distribuioes a priori, a posteriori e da funao de a c c verossimilhana, com xo. c (c) Calcule P (|Y | > 1|x) onde Y uma observaao tomada da mesma e c populaao. c 5. Suponha que o tempo, em minutos, para atendimento a clientes segue uma distribuiao exponencial com parmetro desconhecido. Com base na exc a perincia anterior assume-se uma distribuiao a priori Gama com mdia 0,2 e c e e desvio-padro 1 para . a (a) Se o tempo mdio para atender uma amostra aleatria de 20 clientes e o foi de 3,8 minutos, qual a distribuiao a posteriori de . c (b) Qual o menor nmero de clientes que precisam ser observados para u que o coeciente de variaao a posteriori se reduza para 0,1? c 6. Seja X1 , . . . , Xn uma amostra aleatria da distribuiao de Poisson com o c parmetro . a (a) Determine os parmetros da priori conjugada de sabendo que E() = a 4 e o coeciente de variaao a priori 0,5. c e (b) Quantas observaoes devem ser tomadas at que a varincia a postec e a riori se reduza para 0,01 ou menos? (c) Mostre que a mdia a posteriori da forma n x + (1 n )0 , onde e e 0 = E() e n 1 quando n . Interprete este resultado. 7. O nmero mdio de defeitos por 100 metros de uma ta magntica desconu e e e hecido e denotado por . Atribui-se uma distribuiao a priori Gama(2,10) c para . Se um rolo de 1200 metros desta ta foi inspecionado e encontrou-se 4 defeitos qual a distribuiao a posteriori de ? c 8. Seja X1 , . . . , Xn uma amostra aleatria da distribuiao Bernoulli com o c parmetro e usamos a priori conjugada Beta(a, b). Mostre que a ma e dia a posteriori da forma n x + (1 n )0 , onde 0 = E() e n 1 e quando n . Interprete este resultado. 9. Para uma amostra aleatria X1 , . . . , Xn tomada da distribuiao U (0, ), o c mostre que a fam de distribuioes de Pareto com parmetros a e b, cuja lia c a funao de densidade p() = aba /a+1 , conjugada ` uniforme. c e e a

2.6. PROBLEMAS

33

10. Para uma varivel aleatria > 0 a fam de distribuioes Gama-invertida a o lia c tem funao de densidade de probabilidade dada por c p() = (+1) / e , () , > 0.

Mostre que esta fam conjugada ao modelo normal com mdia conlia e e hecida e varincia desconhecida. a 11. Suponha que X = (X1 , X2 , X3 ) tenha distribuiao trinomial com parmetc a ros n (conhecido) e = (1 , 2 , 3 ) com 1 + 2 + 3 = 1. Mostre que a priori no informativa de Jereys para p() [1 2 (1 1 2 )]1/2 . a e 12. Para cada uma das distribuioes abaixo verique se o modelo de locaao, c e c escala ou locaao-escala e obtenha a priori no informativa para os parmetc a a ros desconhecidos. (a) Cauchy(0,). (b) t (, 2 ), conhecido. (c) Pareto(a, b), b conhecido. (d) Uniforme ( 1, + 1). (e) Uniforme (, ). 13. Seja uma coleao de variveis aleatrias independentes Xi com distribuioes c a o c p(xi |i ) e seja pi (i ) a priori no informativa de i , i = 1, . . . , k. Mostre que a a priori no informativa de Jereys para o vetor paramtrico = (1 , . . . , k ) a e k dada por i=1 pi (i ). e 14. Se tem priori no informativa p() k, > 0 mostre que a priori de a = a + b, a = 0 tambm p() k. e e 15. Se tem priori no informativa p() 1 mostre que a priori de = a , a a = 0 tambm p() 1 e que a priori de = log p() k. e e e 16. No Exemplo 1.3, sejam i = (i , i2 ), i = 1, 2, as mdias e varincias a e a priori dos f sicos A e B respectivamente. As prioris condicionais foram ento combinadas como a p() = p(1 )p(|1 ) + p(2 )p(|2 ) com p(1 ) = 0, 25 e p(2 ) = 0, 75. Usando as posterioris condicionais obtidas naquele exemplo obtenha a distribuiao a posteriori de (incondicional). c Esboce e comente os grcos das densidades a priori e posteriori. a

34

CAP ITULO 2. DISTRIBUICOES A PRIORI

17. Se X Binomial Negativa(v, ) obtenha a priori de Jereys para . 18. Se X Geometrica() obtenha a priori de Jereys para .

Cap tulo 3 Estimao caA distribuiao a posteriori de um parmetro contm toda a informaao probc a e c abil stica a respeito deste parmetro e um grco da sua funao de densidade a a a c posteriori a melhor descriao do processo de inferncia. No entanto, algumas e c e vezes necessrio resumir a informaao contida na posteriori atravs de alguns e a c e poucos valores numricos. O caso mais simples a estimaao pontual de onde se e e c resume a distribuiao a posteriori atravs de um unico nmero, . Como veremos c e u a seguir, ser mais fcil entender a escolha de no contexto de teoria da deciso. a a a

3.1

Introduo ` Teoria da Deciso ca a a

Um problema de deciso ca completamente especicado pela descriao dos a c seguintes espaos: c (i) Espao do parmetro ou estados da natureza, . c a (ii) Espao dos resultados poss c veis de um experimento, . (iii) Espao de poss c veis aoes, A. c Uma regra de deciso uma funao denida em que assume valores em A, a e c i.e. : A. A cada deciso e a cada poss valor do parmetro podemos a vel a associar uma perda L(, ) assumindo valores positivos. Denimos assim uma funao de perda. c Denio 3.1 O risco de uma regra de deciso, denotado por R(), a perda ca a e esperada a posteriori, i.e. R() = E|x [L(, )]. Denio 3.2 Uma regra de deciso tima se tem risco m ca a e o nimo, i.e. R( ) < R(), . Esta regra ser denominada regra de Bayes e seu risco, a risco de Bayes. 35

36

CAP ITULO 3. ESTIMACAO

Exemplo 3.1 : Um laboratrio farmaceutico deve decidir pelo lanamento ou o c no de uma nova droga no mercado. E claro que o laboratrio s lanar a droga a o o c a se achar que ela eciente mas isto exatamente o que desconhecido. Podemos e e e associar um parmetro aos estados da natureza: droga eciente ( = 1), droga a e no eciente ( = 0) e as poss a e veis aoes como lana a droga ( = 1), no lana c c a c a droga ( = 0). Suponha que foi poss construir a seguinte tabela de perdas vel levando em conta a ecincia da droga, e eciente no eciente a lana c -500 600 no lana a c 1500 100

Vale notar que estas perdas traduzem uma avaliaao subjetiva em relaao ` c c a gravidade dos erros cometidos. Suponha agora que a incerteza sobre os estados da natureza descrita por P ( = 1) = , 0 < < 1 avaliada na distribuiao e c atualizada de (seja a priori ou a posteriori). Note que, para xo, L(, ) uma e varivel aleatria discreta assumindo apenas dois valores com probabilidades e a o 1 . Assim, usando a deniao de risco obtemos que c R( = 0) = E(L(0, )) = 1500 + (1 )100 = 1400 + 100 R( = 1) = E(L(1, )) = (500) + (1 )600 = 1100 + 600

Uma questo que se coloca aqui , para que valores de a regra de Bayes ser de a e a lanar a droga. No dif vericar que as duas aoes levaro ao mesmo risco, c a e cil c a i.e. R( = 0) = R( = 1) se somente se = 0, 20. Alm disso, para < 0, 20 e temos que R( = 0) < R( = 1) e a regra de Bayes consiste em no lanar a a c droga enquanto que > 0, 20 implica em R( = 1) < R( = 0) e a regra de Bayes deve ser de lanar a droga. c

3.2

Estimadores de Bayes

Seja agora uma amostra aleatria X1 , . . . , Xn tomada de uma distribuiao com o c funao de (densidade) de probabilidade p(x|) aonde o valor do parmetro c a e desconhecido. Em um problema de inferncia como este o valor de deve ser e estimado a partir dos valores observados na amostra. Se ento razovel que os poss a e a veis valores de um estimador (X) tambm devam pertencer ao espao . Alm disso, um bom estimador aquele e c e e para o qual, com alta probabilidade, o erro (X) estar prximo de zero. a o Para cada possivel valor de e cada possivel estimativa a vamos associar uma perda L(a, ) de modo que quanto maior a distncia entre a e maior o a

3.2. ESTIMADORES DE BAYES valor da perda. Neste caso, a perda esperada a posteriori dada por e E[L(a, )|x] = L(a, )p(|x)d

37

e a regra de Bayes consiste em escolher a estimativa que minimiza esta perda esperada. Aqui vamos discutir apenas funoes de perda simtricas, j que estas so mais c e a a comumente utilizadas (para outras funoes de perda ver por exemplo (Bernardo c & Smith 1994) e OHagan 1994). Dentre estas a mais utilizada em problemas de estimaao certamente a funao de perda quadrtica, denida como L(a, ) = c e c a 2 (a ) . Neste caso, pode-se mostrar que o estimador de Bayes para o parmetro a ser a mdia de sua distribuiao atualizada. a e c Exemplo 3.2 : Suponha que queremos estimar a proporao de itens defeituosos c em um grande lote. Para isto ser tomada uma amostra aleatria X1 , . . . , Xn de a o uma distribuiao de Bernoulli com parmetro . Usando uma priori conjugada c a Beta(, ) sabemos que aps observar a amostra a distribuiao a posteriori o c e n Beta( + t, + n t) onde t = i=1 xi . A mdia desta distribuiao Beta dada e c e por ( + t)/( + + n) e portanto o estimador de Bayes de usando perda quadrtica a e + n Xi i=1 . (X) = ++n

A perda quadrtica as vezes criticada por penalizar demais o erro de estia e maao. A funao de perda absoluta, denida como L(a, ) = |a |, introduz c c punioes que crescem linearmente com o erro de estimaao e pode-se mostrar que c c o estimador de Bayes associado a mediana da distribuiao atualizada de . e c Para reduzir ainda mais o efeito de erros de estimaao grandes podemos conc siderar funoes que associam uma perda xa a um erro cometido, no importando c a sua magnitude. Uma tal funao de perda, denominada perda 0-1, denida como c e L(a, ) = 1 se |a | > 0 se |a | <

para todo > 0. Neste caso pode-se mostrar que o estimador de Bayes a moda e da distribuiao atualizada de . A moda da posteriori de tambm chamado c e e de estimador de mxima verossimilhana generalizado (EMVG) e o mais fcil a c e a de ser obtido dentre os estimadores vistos at agora. No caso cont e nuo devemos obter a soluao da equaao c c p(|x) = 0.

38 Note que isto equivale a obter a soluao de c p(x|)p() =0

CAP ITULO 3. ESTIMACAO

e no necessrio conhecer a expresso exata de p(|x). a e a a Exemplo 3.3 : Se X1 , . . . , Xn uma amostra aleatria da N (, 2 ) com 2 e o 2 conhecido e usarmos a priori conjugada, i.e. N (0 , 0 ) ento a posteriori a tambm ser normal e neste caso mdia, mediana e moda coincidem. Portanto, e a e o estimador de Bayes de dado por e (X) =2 0 0 + n 2 X . 2 0 + n 2

Exemplo 3.4 : No exemplo 3.2 suponha que foram observados 100 itens dos quais 10 eram defeituosos. Usando perda quadrtica a estimativa de Bayes de a e + 10 (x) = + + 100 Assim, se a priori for Beta(1,1), ou equivalentemente U (0, 1), ento (x) = 0, 108. a Por outro lado se especicarmos uma priori Beta(1,2), que bem diferente da ane terior, ento (x) = 0, 107. Ou seja, as estimativas de Bayes so bastante prxia a o mas, e isto uma consequncia do tamanho amostral ser grande. Note tambm e e e que ambas as estimativas so prximas da proporao amostral de defeituosos 0,1, a o c que a estimativa de mxima verossimilhana. Se usarmos perda 0-1 e priori e a c Beta(1,1) ento (x) = 0, 1. a

3.3

Estimao por Intervalos ca

Voltamos a enfatizar que a forma mais adequada de expressar a informaao que c se tem sobre um parmetro atravs de sua distribuiao a posteriori. A principal a e e c restriao da estimaao pontual que quando estimamos um parmetro atravs de c c e a e um unico valor numrico toda a informaao presente na distribuiao a posteriori e c c resumida atravs deste nmero. E importante tambm associar alguma infore e u e maao sobre o quo precisa a especicaao deste nmero. Para os estimadores c a e c u vistos aqui as medidas de incerteza mais usuais so a varincia ou o coeciente de a a variaao para a mdia a posteriori, a medida de informaao observada de Fisher c e c para a moda a posteriori, e a distncia entre quartis para a mediana a posteriori. a Nesta seao vamos introduzir um compromisso entre o uso da prpria disc o tribuiao a posteriori e uma estimativa pontual. Ser discutido o conceito de c a

3.4. ESTIMACAO NO MODELO NORMAL

39

intervalo de credibilidade (ou intervalo de conana Bayesiano) baseado no disc tribuiao a posteriori. c Denio 3.3 C um intervalo de credibilidade de 100(1-)%, ou n de credca e vel ibilidade (ou conana) 1 , para se P ( C) 1 . c Note que a deniao expressa de forma probabil c stica a pertinncia ou no de e a ao intervalo. Assim, quanto menor for o tamanho do intervalo mais concentrada a distribuiao do parmetro, ou seja o tamanho do intervalo informa sobre a e c a disperso de . Alm disso, a exigncia de que a probabilidade acima possa ser a e e maior do que o n de conana essencialmente tcnica pois queremos que o vel c e e intervalo seja o menor poss vel, o que em geral implica em usar uma igualdade. No entanto, a desigualdade ser util se tiver uma distribuiao discreta onde a c nem sempre poss satisfazer a igualdade. e vel Outro fato importante que os intervalos de credibilidade so invariantes a e a transformaoes 1 a 1, (). Ou seja, se C = [a, b] um intervalo de credibilidade c e 100(1-)% para ento [(a), (b)] um intervalo de credibilidade 100(1-)% a e para (). Note que esta propriedade tambm vale para intervalos de conana e c na inferncia clssica. e a poss construir uma innidade de intervalos usando a deniao acima mas E vel c estamos interessados apenas naquele com o menor comprimento poss vel. Pode-se mostrar que intervalos de comprimento m nimo so obtidos tomando-se os valores a de com maior densidade a posteriori, e esta idia expressa matematicamente e e na deniao abaixo. c Denio 3.4 Um intervalo de credibilidade C de 100(1-)% para de mxca e a ima densidade a posteriori (MDP) se C = { : p(|x) k()} onde k() e a maior constante tal que P ( C) 1 . Usando esta deniao, todos os pontos dentro do intervalo MDP tero denc a sidade maior do que qualquer ponto fora do intervalo. Alm disso, no caso de e distribuioes com duas caudas, e.g. normal, t de Student, o intervalo MDP c e obtido de modo que as caudas tenham a mesma probabilidade. Um problema com os intervalos MDP que eles no so invariantes a transformaoes 1 a 1, a e a a c no ser para transformaoes lineares. O mesmo problema ocorre com intervalos a c de comprimento m nimo na inferncia clssica. e a

3.4

Estimao no Modelo Normal ca

Os resultados desenvolvidos nos cap tulos anteriores sero aplicados ao modelo a normal para estimaao da mdia e varincia em problemas de uma ou mais c e a

40

CAP ITULO 3. ESTIMACAO

amostras e em modelos de regresso linear. A anlise ser feita com priori cona a a jugada e priori no informativa quando sero apontadas as semelhanas com a a a c anlise clssica. Assim como nos cap a a tulos anteriores a abordagem aqui ine trodutria. Um tratamento mais completo do enfoque Bayesiano em modelos o lineares pode ser encontrado em Broemeling (1985) e Box & Tiao (1992). Nesta seao considere uma amostra aleatria X1 , , Xn tomada da disc o 2 tribuiao N (, ). c

3.4.1

Varincia Conhecida a

2 Se 2 conhecido e a priori de N (0 , 0 ) ento, pelo Teorema 1.1, a posteriori e e a 2 de N (1 , 1 ). Intervalos de conana Bayesianos para podem ento ser e c a constru dos usando o fato de que

1 |x N (0, 1). 1 Assim, usando uma tabela da distribuiao normal padronizada podemos obter o c valor do percentil z/2 tal que P z/2 1 z/2 1 =1

e aps isolar , obtemos que o P 1 z/2 1 1 + z/2 1 = 1 . Portanto 1 z/2 1 ; 1 + z/2 1 o intervalo de conana 100(1-)% MDP e c para , devido ` simetria da normal. a A priori no informativa pode ser obtida fazendo-se a varincia da priori a a 2 2 tender a innito, i.e. 0 . Neste caso, fcil vericar que 1 n 2 e a e a e e 1 x, i.e. a mdia e a preciso da posteriori convergem para a mdia e a preciso amostrais. Mdia, moda e mediana a posteriori coincidem ento com a e a a estimativa clssica de mxima verossimilhana, x. O intervalo de conana a a c c Bayesiano 100(1-)% dado por e x z/2 / n; x + z/2 / n e tambm coincide numericamente com o intervalo de conana clssico. Aqui e c a entretanto a interpretaao do intervalo como uma armaao probabil c e c stica sobre .

3.4. ESTIMACAO NO MODELO NORMAL

41

3.4.2

Mdia e Varincia desconhecidas e a

Neste caso, usando a priori conjugada Normal-Gama vista no Cap tulo 2 temos que a distribuiao a posteriori marginal de dada por c e2 |x tn1 (1 , 1 /c1 ).

Portanto, mdia, moda e mediana a posteriori coincidem e so dadas por 1 . e a Denotando por t/2,n1 o percentil 100(1-/2)% da distribuiao tn1 (0, 1) podemos c obter este percentil tal que P t/2,n1 1 c1 t/2,n1 1 =1

e aps isolar , usando a simetria da distribuiao t-Student obtemos que o c 1 1 1 t/2,n1 1 + t/2,n1 c1 c1 o intervalo de conana Bayesiano 100(1-)% de MDP para . e c No caso da varincia populacional 2 intervalos de conana podem ser obtia c dos usando os percentis da distribuiao qui-quadrado uma vez que a distribuiao c c 2 2 a posteriori de tal que n1 1 |x n1 . Denotando por e 2 /2,n1

e 2 1 /2,n

os percentis /2 e 1/2 da distribuiao qui-quadrado com n1 graus de liberdade c respectivamente, podemos obter estes percentis tais que P 2 /2,n2 n1 11

2 1 /2,n2 n1 1

= 1 .

Note que este intervalo no de MDP j que a distribuiao qui-quadrado no a e a c a e 2 simtrica. Como = 1/ uma funao 1 a 1 podemos usar a propriedade de e e c invarincia e portanto a 2 n1 1 n1 2 ; 2 1 2 1 /2,n /2,n1

o intervalo de conana Bayesiano 100(1-)% para 2 . e c Um caso particular quanto utilizamos uma priori no informativa. Vimos e a na Seao 2.4 que a priori no informativa de locaao e escala p(, ) 1/, c a c e portanto pela propriedade de invarincia segue que a priori no informativa de a a (, ) obtida fazendo-se p(, ) 1 pois p(, 2 ) 2 . Note que este um e e 2 caso particular (degenerado) da priori conjugada natural com c0 = 0, 0 = 0 e

42

CAP ITULO 3. ESTIMACAO

n0 = 1. Neste caso a distribuiao a posteriori marginal de ca c |x tn1 (x, s2 /n) sendo s2 = 1/(n 1) n (xi x)2 a varincia amostral. Mais uma vez mdia, a e i=1 e moda e mediana a posteriori de coincidem com a mdia amostral x que a e estimativa de mxima verossimilhana. Como n( x)/s tn1 (0, 1) segue a c que o intervalo de conana 100(1-)% para de MDP c e s s x t/2,n1 ; x + t/2,n1 n n que coincide numericamente com o intervalo de conana clssico. c a 2 Para fazer inferncias sobre temos que e |x Gama n 1 (n 1)s2 , 2 2 ou (n 1)s2 |x 2 . n1

A estimativa pontual de 2 utilizada [E(|x)]1 = s2 que coincide com e a estimativa clssica uma vez que o estimador de mxima verossimilhana a a c 2 2 (n 1)S /n viciado e normalmente substituido por S (que no viciado). e e a Os intervalos de conana 100(1-)% Bayesiano e clssico tambm coincidem e c a e so dados por a (n 1)s2 (n 1)s2 . ; 2 /2,n1 2 /2,n1 Mais uma vez vale enfatizar que esta coincidncia com as estimativas clse a sicas apenas numrica uma vez que as interpretaoes dos intervalos diferem e e c radicalmente.

3.4.3

O Caso de duas Amostras

a Nesta seao vamos assumir que X11 , . . . , X1n1 e X21 , . . . , X2n2 so amostras c 2 2 aleatrias das distribuioes N (1 , 1 ) e N (2 , 2 ) respectivamente e que as o c amostras so independentes. a 2 2 Para comear vamos assumir que as varincias 1 e 2 so conhecidas. Neste c a a caso, a funao de verossimilhana dada por c c e p(x1 , x2 |1 , 2 ) = p(x1 |1 )p(x2 |2 ) n2 n1 exp 2 (1 x1 )2 exp 2 (2 x2 )2 21 22 isto , o produto de verossimilhanas relativas a 1 e 2 . Assim, se assumirmos e c que 1 e 2 so independentes a priori ento eles tambm sero independentes a a a e a

3.4. ESTIMACAO NO MODELO NORMAL posteriori j que a p(1 , 2 |x1 , x2 ) = p(x1 |1 )p(1 ) p(x2 |2 )p(2 ) . p(x1 ) p(x2 )

43

Se usarmos a classe de prioris conjugadas i N (i , i2 ) ento as posterioris a 2 independentes sero i |xi N (i , i ) onde a = i2 i2 i + ni i xi 2 i2 + ni i 2 e i = 1/(i2 + ni i ),2

i = 1, 2.

Em geral estaremos interessados em comparar as mdias populacionais, i.e e queremos estimar = 1 2 (por exemplo, testar se 1 = 2 ). Neste caso, a posteriori de facilmente obtida, devido ` independncia, como e a e |x1 , x2 N ( , 1 + 2 ) 1 22 2

e podemos usar como estimativa pontual para a diferena e tambm c e 1 2 construir um intervalo de credibilidade MDP para esta diferena. c ( ) z/2 1 2 1 + 2 .2 2

Note que se usarmos priori no informativa, i.e. fazendo i2 , i = 1, 2 ento a a a posteriori ca 2 2 1 2 + |x1 , x2 N x1 x2 , n1 n2 e o intervalo obtido coincidir mais uma vez com o intervalo de conana clssico. a c a

No caso de varincias populacionais desconhecidas porm iguais, temos que a e 2 2 2 = 1 = 2 = . A priori conjugada pode ser constru em duas etapas. da No primeiro estgio, assumimos que, dado , 1 e 2 so a priori condicionalmente a a independentes, e especicamos i | N (i , (ci )1 ), i = 1, 2. e no segundo estgio, especicamos a priori conjugada natural para , i.e. a Gama2 n0 n0 0 , 2 2

.

Combinando as prioris acima no dif vericar que a priori conjunta de a e cil

44 (1 , 2 , ) e

CAP ITULO 3. ESTIMACAO

p(1 , 2 , ) = p(1 |)p(2 |)p() 2 n0 /2 exp n0 0 + c1 (1 1 )2 + c2 (2 2 )2 2

.

Alm disso, tambm no dif obter a priori condicional de = 1 2 , dado e e a e cil , como | N (1 2 , 1 (c1 + c1 )) 1 2 e portanto, usando os resultados da Seao 2.3.5 segue que a distribuiao a priori c c marginal da diferena c e2 tn0 (1 2 , 0 (c1 + c1 )). 1 2

Podemos mais uma vez obter a posteriori conjunta em duas etapas j que 1 e a 2 tambm sero condicionalmente independentes a posteriori, dado . Assim, no e a primeiro estgio usando os resultados obtidos anteriormente para uma amostra a segue que i |, x N ( , (c )1 ), i = 1, 2 i i onde = i c i i + ni x i c i + ni e c = c i + ni . i

Na segunda etapa temos que combinar a verossimilhana com a priori de c (1 , 2 , ). Denindo a varincia amostral combinada a s2 = p2 2 (n1 1)S1 + (n2 1)S2 n1 + n2 2

e denotando = n1 + n2 2, a funao de verossimilhana pode ser escrita como c c p(x1 , x2 |1 , 2 , ) = (n1 +n2 )/2 exp s2 + n1 (1 x1 )2 + n2 (2 x2 )2 2

e aps algum algebrismo obtemos que a posteriori proporcional a o e (n0 +n1 +n2 )/2

2 exp n0 0 + s2 + 2

2

i=1

c i ni (i xi )2 + c (i )2 i i ci

.

Como esta posteriori tem o mesmo formato da priori segue por analogia que |x Gama n n 0 0 , 0 2 22

3.4. ESTIMACAO NO MODELO NORMAL 2

45

2 onde n = n0 + n1 + n2 e n 0 = n0 0 + s2 + 2 ci ni (i xi )2 /c . Ainda por 0 0 i i=1 analogia com o caso de uma amostra, a posteriori marginal da diferena dada c e por 1 1 2 |x tn ( , 0 (c + c )). 1 2 1 2 0

Assim, mdia, moda e mediana a posteriori de coincidem e a estimativa e pontual . Tambm intervalos de credibilidade de MDP podem ser obtidos e 1 e 2 usando os percentis da distribuiao t de Student. Para a varincia populacional c a 2 dos usando os a estimativa pontual usual 0 e intervalos podem ser constru e 2 2 percentis da distribuiao qui-quadrado j que n0 0 | x n c a 0 Vejamos agora como ca a anlise usando priori no informativa. Neste caso, a a p(1 , 2 , ) 1 e isto equivale a um caso particular (degenerado) da priori 2 conjugada com ci = 0, 0 = 0 e n0 = 2. Assim, temos que c = ni , = xi , i i 2 2 n0 = e n0 0 = s e a estimativa pontual concide com a estimativa de mxima a = x1 x2 . O intervalo de 100(1 )% de MDP para tem verossimilhana c limites 1 1 + x1 x2 t , sp 2 n1 n2 que coincide numericamente com o intervalo de conana clssico. c a O intervalo de 100(1 )% para 2 obtido de maneira anloga ao caso de e a uma amostra usando a distribuiao qui-quadrado, agora com graus de liberdade, c i.e. s2 s2 p p . 2 , 2 , ,2 2

3.4.4

Varincias desiguais a

At agora assumimos que as varincias populacionais desconhecidas eram iguais e a (ou pelo menos aproximadamente iguais). Na inferncia clssica a violaao desta e a c suposiao leva a problemas tericos e prticos uma vez que no trivial encontrar c o a a e uma quantidade pivotal para com distribuiao conhecida ou tabelada. Na c verdade, se existem grandes diferenas de variabilidade entre as duas populaoes c c pode ser mais apropriado analisar conjuntamente as consequncias das diferenas e c entre as mdias e as varincias. Assim, caso o pesquisador tenha interesse no e a parmetro deve levar em conta os problemas de ordem terica introduzidos por a o 2 2 uma diferena substancial entre 1 e 2 . c Do ponto de vista Bayesiano o que precisamos fazer combinar informaao a e c priori com a verossimilhana e basear a estimaao na distribuiao a posteriori. A c c c funao de verossimilhana agora pode ser fatorada como c c2 2 2 2 p(x1 , x2 |1 , 2 , 1 , 2 ) = p(x1 |1 , 1 )p(x2 |2 , 2 )

46

CAP ITULO 3. ESTIMACAO

e vamos adotar prioris conjugadas normal-gama independentes com parmetros a 2 (i , ci , i , 0i ) para cada uma das amostras. Fazendo as operaoes usuais para c cada amostra, e usando a conjugaao da normal-gama, obtemos as seguintes c distribuioes a posteriori independentes c i |x t2 ( , 0i /c ) i i

n 0i

e i |x Gama

n n 0i 0i , 0i 2 2

2

,

i = 1, 2.

Pode-se mostrar que tem uma distribuiao a posteriori chamada Behrensc Fisher, que semelhante ` t de Student e tabelada. Assim, intervalos de e a e credibilidade podem ser constru dos usando-se estes valores tabelados. Outra situaao de interesse a comparaao das duas varincias populacionais. c e c a Neste caso, faz mais sentido utilizar a razo de varincias ao invs da diferena a a e c j que elas medem a escala de uma distribuiao e so sempre positivas. Neste a c a 2 2 caso temos que obter a distribuiao a posteriori de 2 /1 = 1 /2 . Usando a c independncia a posteriori de 1 e 2 e aps algum algebrismo pode-se mostrar e o que 2 01 1 F (n , n ). 01 02 2 02 2 Embora sua funao de distribuiao no possa ser obtida analiticamente os valc c a ores esto tabelados em muitos livros de estat a stica e tambm podem ser obtidos e na maioria dos pacotes computacionais. Os percentis podem ento ser utilizados a na construao de intervalos de credibilidade para a razo de varincias. c a a Uma propriedade bastante util para calcular probabilidade com a distribuiao c 1 F vem do fato de que se X F (2 , 1 ) ento X F (1 , 2 ) por simples invera so na razo de distribuioes qui-quadrado independentes. Assim, denotando os a a c quantis e 1 da distribuiao F (1 , 2 ) por F (1 , 2 ) e F (1 , 2 ) respectivac mente segue que 1 F (1 , 2 ) = . F (2 , 1 ) Note que usual que os livros forneam tabelas com os percentis superiores da e c distribuiao F para vrias combinaoes de valores de 1 e 2 devido ` propriedade c a c a acima. Por exemplo, se temos os valores tabelados dos quantis 0,95 podemos obter tambm um quantil 0,05. Basta procurar o quantil 0,95 inverterndo os graus de e liberdade. Finalmente, a anlise usando priori no informativa pode ser feita para a a 2 2 2 2 p(1 , 2 , 1 , 2 ) 1 2 e ser deixada como exerc a cio.

3.5. EXERC ICIOS

47

3.5

Exerc cios

1. Gere 2 amostras de tamanho 50 da distribuiao N (0, 1). Agora construa um c intervalo MDP de 95% para a diferena entre as mdias (assuma varincia c e a conhecida igual a 1). Qual a sua concluso? a 2. Repita a anlise da Seao 3.4.4 usando priori no informativa para a c a 2 2 2 2 p(1 , 2 , 1 , 2 ) 1 2 .

Cap tulo 4 Mtodos Aproximados e4.1 Computao Bayesiana ca

Existem vrias formas de resumir a informaao descrita na distribuiao a postea c c riori. Esta etapa frequentemente envolve a avaliaao de probabilidades ou esperc anas. c Neste cap tulo sero descritos mtodos baseados em simulaao, incluindo a e c Monte Carlo simples, Monte Carlo com funao de importncia, mtodos de c a e reamostragem e Monte Carlo via cadeias de Markov (MCMC). O material apresentado introdutrio e mais detalhes sobre os estes mtodos podem ser obtidos e o e por exemplo em Gamerman (1997), Robert & Casella (1999) e Gamerman & Lopes (2006). Outros mtodos computacionalmente intensivos como tcnicas de e e otimizaao e integraao numrica, bem como aproximaoes anal c c e c ticas no sero a a tratados aqui e uma referncia introdutria Migon & Gamerman (1999). e o e Todos os algoritmos que sero vistos aqui so no determin a a a sticos, i.e. todos requerem a simulaao de nmeros (pseudo) aleatrios de alguma distribuiao de c u o c probabilidades. Em geral, a unica limitaao para o nmero de simulaoes so o c u c a tempo de computaao e a capacidade de armazenamento dos valores simulados. c Assim, se houver qualquer suspeita de que o nmero de simulaoes insuciente, u c e a abordagem mais simples consiste em simular mais valores.

4.2

Uma Palavra de Cautela

Apesar da sua grande utilidade, os mtodos que sero apresentados aqui devem ser e a aplicados com cautela. Devido ` facilidade com que os recursos computacionais a podem ser utilizados hoje em dia, corremos o risco de apresentar uma soluao para c o problema errado (o erro tipo 3) ou uma soluao ruim para o problema certo. c Assim, os mtodos computacionalmente intensivos no devem ser vistos como e a substitutos do pensamento cr tico sobre o problema por parte do pesquisador. 48

4.3. O PROBLEMA GERAL DA INFERENCIA BAYESIANA

49

Alm disso, sempre que poss e vel deve-se utilizar soluoes exatas, i.e. no c a aproximadas, se elas existirem. Por exemplo, em muitas situaoes em que prec cisamos calcular uma integral mltipla existe soluao exata em algumas dimenu c ses, enquanto nas outras dimenses temos que usar mtodos de aproximaao. o o e c

4.3

O Problema Geral da Inferncia Bayesiana e

A distribuiao a posteriori pode ser convenientemente resumida em termos de c esperanas de funoes particulares do parmetro , i.e. c c a E[g()|x] = g()p(|x)d

ou distribuioes a posteriori marginais quando for multidimensional, por exemc plo se = ( 1 , 2 ) ento a p( 1 |x) = p(|x)d 2 .

Assim, o problema geral da inferncia Bayesiana consiste em calcular tais e valores esperados segundo a distribuiao a posteriori de . Alguns exemplos so, c a 1. Constante normalizadora. g() = 1 e p(|x) = kq(), segue que1

k=

q()d

.

2. Se g() = , ento tm-se = E(|x), mdia a posteriori. a e e 3. Quando g() = ( )2 , ento 2 = E(( )2 |x), a varincia a posteriori. a a 4. Se g() = IA (), onde IA (x) = 1 se x A e zero caso contrrio, ento a a P (A | x) = p(|x)dA

5. Seja g() = p(y|), onde y x|. Nestas condioes obtemos E[p(y|x)], a c distribuiao preditiva de y, uma observaao futura. c c Portanto, a habilidade de integrar funoes, muitas vezes complexas e multic dimensionais, extremamente importante em inferncia Bayesiana. Inferncia e e e exata somente ser poss se estas integrais puderem ser calculadas analiticaa vel mente, caso contrrio devemos usar aproximaoes. Nas prximas seoes iremos a c o c apresentar mtodos aproximados baseados em simulaao para obtenao dessas e c c integrais.

50

CAP ITULO 4. METODOS APROXIMADOS

4.4

Mtodo de Monte Carlo Simples e

A idia do mtodo justamente escrever a integral que se deseja calcular como e e e um valor esperado. Para introduzir o mtodo considere o problema de calcular a e integral de uma funao g() no intervalo (a, b), i.e. cb

I=a

g()d.

Esta integral pode ser reescrita comob

I=a

(b a)g()

1 d = (b a)E[g()] ba

identicando como uma varivel aleatria com distribuiao U (a, b). Assim, a o c transformamos o problema de avaliar a integral no problema estat stico de estimar uma mdia, E[g()]. Se dispomos de uma amostra aleatria de tamanho e o n, 1 , . . . , n da distribuiao uniforme no intervalo (a, b) teremos tambm uma c e amostra de valores g(1 ), . . . , g(n ) da funao g() e a integral acima pode ser c estimada pela mdia amostral, i.e. e 1 I = (b a) nn

g(i ).i=1

No dif vericar que esta estimativa no viesada j que a e cil e a a (b a) E(I) = nn b

i=1

E[g(i )] = (b a)E[g()] =

g()d.a

Podemos ento usar o seguinte algoritmo a 1. gere 1 , . . . , n da distribuiao U (a, b); c 2. calcule g(1 ), . . . , g(n ); 3. calcule a mdia amostral g = e 4. calcule I = (b a)g Exemplo 4.1 : Suponha que queremos calcular ser reescrita como3 3 1 n i=1

g(i )/n

exp(x)dx. A integral pode

(3 1)

1

exp(x)/(3 1)dx

e ser aproximada usando 100 valores simulados da distribuiao Uniforme no a c xi intervalo (1,3) e calculando yi = e , i = 1, . . . , 100. O valor aproximado da

4.4. METODO DE MONTE CARLO SIMPLES

51

integral 2 100 yi /100. Por outro lado, sabemos que exp(x) a funao de e e c i=1 densidade de uma v.a. X Exp(1) e portanto a integral pode ser calculada de forma exata,3 1

exp(x)dx = P r(X < 3) P r(X < 1) = 0.3181.

Podemos escrever uma funao mais geral no R cujos argumentos so o nmero c a u de simulaoes e os limites de integraao. c c > int.exp = function(n, a, b) { + x = runif(n, a, b) + y = exp(-x) + int.exp = (b - a) * mean(y) + return(int.exp) + } Executando a funao int.exp digamos 50 vezes com n = 10, a = 1 e b = 3 c existir uma variaao considervel na estimativa da integral. Veja a Figura 4.1. a c a Isto se chama erro de Monte Carlo e decresce conforme aumentamos o nmero u de simulaoes. Repetindo o experimento com n = 1000 a variaao car bem c c a menor. Na Figura 4.2 a evoluao deste erro conforme se aumenta o nmero de c u simulaoes ca bem evidente. Os comandos do R a seguir foram utilizados. c > > > + + + + > n = c(20, 50, 100, 200, 500) y = matrix(0, ncol = length(n), nrow = 50) for (j in 1:length(n)) { m = NULL for (i in 1:50) m = c(m, int.exp(n[j], 1, 3)) y[, j] = m } boxplot(data.frame(y), names = n)

A generalizaao bem simples para o caso em que a integral a esperana c e e c matemtica de uma funao g() onde tem funao de densidade p(), i.e. a c cb

I=a

g()p()d = E[g()].

(4.1)

Neste caso, podemos usar o mesmo algoritmo descrito acima modicando o passo 1 para gerar 1 , . . . , n da distribuiao p() e calculando c 1 I=g= nn

g(i ).i=1

52

CAP ITULO 4. METODOS APROXIMADOS

0 0.20

2

4

6

8

0.25

0.30

0.35

0.40

Figura 4.1: Histograma de 50 estimativas de Monte Carlo da integral no Exemplo 4.1 com n = 10. Uma vez que as geraoes so independentes, pela Lei Forte dos Grandes c a converge quase certamente para I, Nmeros segue que I u 1 nn

i=1

g(i ) E[g(], n .

Alm disso, temos uma amostra g(1 ), . . . , g(n ) tal que e E[g(i )] = E[g()] = I e V ar[g(i )] = 2 = 1 n (g(i ) g )2

e portanto a varincia do estimador pode tambm ser estimada como a e 1 v= 2 nn

i=1

(g(i ) g)2 ,

i.e. a aproximaao pode ser to acurada quanto se deseje bastando aumentar o c a valor de n. E importante notar que n est sob nosso controle aqui, e no se trata a a do tamanho da amostra de dados. O Teorema Central do Limite tambm se aplica aqui de modo que para n e

4.4. METODO DE MONTE CARLO SIMPLES

53

0.20

0.25

0.30

0.35

0.40

20

50

100

200

500

Figura 4.2: Boxplots para 50 estimativas da integral no Exemplo 4.1 com n=20, 50,100, 200, e 500 simulaes. co

grande segue que g E[g()] v tem distribuiao aproximadamente N (0, 1). Podemos usar este resultado para c testar convergncia e construir intervalos de conana. e c No caso multivariado a extenso tambm direta. Seja = (1 , . . . , k ) a e e um vetor aleatrio de dimenso k com funao de densidade p(). Neste caso os o a c valores gerados sero tambm vetores 1 , . . . , n e o estimador de Monte Carlo a e ca n 1 g( i ) I= n i=1 Exemplo 4.2 : Suponha que queremos calcular P r(X < 1, Y < 1) onde o vetor aleatrio (X, Y ) tem distribuiao Normal padro bivariada com correlaao o c a c igual a 0,5. Note que esta probabilidade a integral de p(x, y) denida no intere valo acima, portanto simulando valores desta distribuio poderemos estimar esta ca probabilidade como a proporao de pontos que caem neste intervalo. A Figura 4.3 c apresenta um diagrama de disperso dos valores simulados e foi obtida usando os a camandos do R abaixo.

54 > > > > > > >

CAP ITULO 4. METODOS APROXIMADOS Sigma = matrix(c(1, 0.5, 0.5, 1), 2, 2) m = c(0, 0) require(MASS) y = mvrnorm(n = 1000, mu = m, Sigma = Sigma) plot(y[, 1], y[, 2], xlab = "x", ylab = "y") abline(1, 0) abline(v = 1)

y

3

2

1

0

1

2

3

3

2

1 x

0

1

2

3

Figura 4.3: Diagrama de disperso de 1000 valores simulados da distribuio N(0,1) a cabivariada.

Uma grande vantagem dos mtodos de simulaao que aps uma amostra e c e o de vetores aleatrios ser gerada podemos facilmente calcular caracter o sticas das distribuioes marginais e condicionais. No Exemplo 4.2, para calcular P r(X < 1) c basta calcular a frequncia relativa de pontos (xi , yi ) tais que xi < 1. Para e calcular a probabilidade condicional P r(X < 1|Y < 1) basta selecionar somente aqueles pontos cuja segunda coordenada menor do que 1. Depois calcula-se a e frequncia relativa dos pontos restantes cuja primeira coordenada menor do que e e 1.

4.4.1

Monte Carlo via Funo de Importncia ca a

Em muitas situaoes pode ser muito custoso ou mesmo imposs simular valores c vel da distribuiao a posteriori. Neste caso, pode-se recorrer ` uma funao q() que c a c seja de fcil amostragem, usualmente chamada de funo de importncia. O a ca a procedimento comumente chamado de amostragem por importncia. e a

4.4. METODO DE MONTE CARLO SIMPLES

55

0.4

p(x)

0.3

p(y) 4 2 0 x 2 4

0.2

0.0

0.1

0.0 4

0.1

0.2

0.3

0.4

2

0 y

2

4

0.0 0.1 0.2 0.3 0.4

p(x | y m = rej(x, m = 1000) Taxa de aceitacao 0.0215

59

O problema ilustrado na Figura 4.5 (gerada com os comandos abaixo) onde e se pode notar que a maioria dos valores de foi gerada em regies de baixa o verossimilhana. c > > > + > > > x.bar = mean(x) x.sd = sd(x) curve(dnorm(x, x.bar, x.sd), xlab = expression(theta), from = -4, to = 6, ylab = "", col = 1, lty = 1) curve(dcauchy(x, 0, 1), from = -4, to = 6, add = T, lty = 2) legend(-3, 0.4, legend = c("priori", "veross."), lty = c(2, 1)) rug(m$theta)

Mudando a priori para Cauchy(2,1) obtm-se uma taxa de aceitaao em torno e c de 10% o que ainda constitui uma amostra pequena. Na verdade o nmero de u simulaoes deveria ser no m c nimo 10000 neste caso.

60

CAP ITULO 4. METODOS APROXIMADOS

0.4

0.0

0.1

0.2

0.3

priori veross.

4

2

0

2

4

6

Figura 4.5: Verossimilhana normalizada e densidade a priori juntamente com valores csimulados.

Portanto, um problema tcnico associado ao mtodo a necessidade de se e e e maximizar a funao de verossimilhana o que pode no ser uma tarefa simples c c a em modelos mais complexos. Se este for o caso ento o mtodo de rejeiao a e c perde o seu principal atrativo que a simplicidade. Neste caso, o mtodo da e e prxima seao passa a ser recomendado. Outro problema que a taxa de aceitaao o c e c pode ser muito baixa. Teremos que gerar muitos valores da distribuiao auxiliar c at conseguir um nmero suciente de valores da distribuiao a posteriori. Isto e u c ocorrer se as informaoes da distribuiao a priori e da verossimilhana forem a c c c conitantes j que neste caso os valores gerados tero baixa probabilidade de a a serem aceitos.

4.5.2

Reamostragem Ponderada

Estes mtodos usam a mesma idia de gerar valores de uma distribuiao auxiliar e e c porm sem a necessidade de maximizaao da verossimilhana. A desvantagem e c c que os valores obtidos so apenas aproximadamente distribuidos segundo a e a posteriori. Suponha que temos uma amostra 1 , . . . , n gerada da distribuiao auxiliar q c

4.5. METODOS DE REAMOSTRAGEM e a partir dela construimos os pesos wi =n j=1

61

p(i |x)/q(i ) , p(j |x)/q(j )

i = 1, . . . , n

O mtodo consiste em tomar uma segunda amostra (ou reamostra) de tamanho e m da distribuiao discreta em 1 , . . . , n com probabilidades w1 , . . . , wn . Aqui c tambm no necessrio que se conhea completamente a posteriori mas apenas e a e a c o produto priori vezes verossimilhana j que neste caso os pesos no se alteram. c a a Tomando novamente a priori como densidade auxiliar, i.e. q() = p() os pesos se simplicam para wi =n j=1

p(x|i ) , p(x|j )

i = 1, . . . , n

e o algoritmo para geraao de valores (aproximadamente) da posteriori ento ca c a 1. gerar valores 1 , . . . , n da distribuiao a priori; c 2. calcular os pesos wi , i = 1, . . . , n; 3. reamostrar valores com probabilidades w1 , . . . , wn . Este mtodo essencialmente um bootstrap ponderado. O mesmo problema de e e informaoes conitantes da priori e da verossimilhana pode ocorrer aqui. Neste c c caso, apenas poucos valores gerados da priori tero alta probabilidade de aparea cerem na reamostra. Exemplo 4.5 : No Exemplo 4.4, utilizando reamostragem ponderada obtm-se e os grcos da Figura 4.6. a > reamostra 0 k ento V ar() > s /n. Uma forma muito utilizada para o clculo a g a da varincia do estimador o mtodo dos lotes aonde os valores da cadeia so a e e a divididos em k lotes de tamanho m e cada lote tem mdia Bi . O erro padro de e a

4.6. MONTE CARLO VIA CADEIAS DE MARKOV g ento estimado como e a 1 k(k 1)k

65

i=1

(Bi B)2

sendo m escolhido de modo que a correlaao serial de ordem 1 entre as mdias c e dos lotes seja menor do que 0,05. Nas prximas seoes sero apresentados e discutidos os algoritmos MCMC o c a mais comumente utilizados.

4.6.3

Algoritmo de Metropolis-Hastings

Os algoritmos de Metropolis-Hastings usam a mesma idia dos mtodos de ree e jeiao vistos no cap c tulo anterior, i.e. um valor gerado de uma distribuiao auxe c iliar e aceito com uma dada probabilidade. Este mecanismo de correao garante c a convergncia da cadeia para a distribuiao de equilibrio, que neste caso a e c e distribuiao a posteriori. c Suponha que a cadeia esteja no estado e um valor gerado de uma e distribuio proposta q(|). Note que a distribuiao proposta pode depender do ca c estado atual da cadeia, por exemplo q(|) poderia ser uma distribuiao normal c centrada em . O novo valor aceito com probabilidade e (, ) = min 1, ( ) q(| ) () q( |) . (4.2)

onde a distribuiao de interesse. e c Uma caracter stica importante que s precisamos conhecer parcialmente, e o i.e. a menos de uma constante j que neste caso a probabilidade (4.2) no se a a altera. Isto fundamental em aplicaoes Bayesianas aonde no conhecemos come c a pletamente a posteriori. Note tambm que a cadeia pode permanecer no mesmo e estado por muitas iteraoes e na prtica costuma-se monitorar isto calculando a c a porcentagem mdia de iteraoes para as quais novos valores so aceitos. e c a Em termos prticos, o algoritmo de Metropolis-Hastings pode ser especicado a pelos seguintes passos, 1. Inicialize o contador de iteraoes t = 0 e especique um valor inicial (0) . c 2. Gere um novo valor da distribuiao q(|). c 3. Calcule a probabilidade de aceitaao (, ) e gere u U (0, 1). c 4. Se u ento aceite o novo valor e faa (t+1) = , caso contrrio rejeite a c a (t+1) e faa c = .

66

CAP ITULO 4. METODOS APROXIMADOS 5. Incremente o contador de t para t + 1 e volte ao passo 2.

Embora a distribuiao proposta possa ser escolhida arbitrariamente na prtica c a deve-se tomar alguns cuidados para garantir a ecincia do algoritmo. Em aplie caoes Bayesianas a distribuiao de interesse a prpria posteriori, i.e. = p(|x) c c e o e a probabilidade de aceitaao assume uma forma particular, c (, ) = min 1, p(x| ) p( ) q(| ) p(x|) p() q( |) . (4.3)

O algoritmo ser ilustrado nos exemplos a seguir. a Exemplo 4.6 : Em uma certa populaao de animais sabe-se que cada animal c pode pertencer a uma dentre 4 linhagens genticas com probabilidades e p1 = 1 1 1 + , p2 = , p3 = , p4 = . 2 4 4 4 4

sendo 0 < < 1 um parmetro desconhecido. Para qualquer (0, 1) fcil a e a vericar que pi > 0, i = 1, 2, 3, 4 e p1 + p2 + p3 + p4 = 1. Observando-se n animais dentre os quais yi pertencem ` linhagem i ento o vetor aleatrio a a o Y = (y1 , y2 , y3 , y4 ) tem distribuiao multinomial com parmetros n, p1 , p2 , p3 , p4 c a e portanto, p(y|) = n! p y 1 p y2 p y 3 p y4 y1 !y2 !y3 !y4 ! 1 2 3 4

(2 + )y1 (1 )y2 +y3 y4 . Atribuindo a distribuiao a priori U (0, 1) segue que a densidade a posteriori c proporcional ` expresso acima. Ento, e a a a p(|y) (2 + )y1 (1 )y2 +y3 y4 . Tomando a distribuiao U (0, 1) como proposta ento q() = 1, e a probabilc a idade (4.3) se simplica para p(x| ) (, ) = min 1, p(x|)

= min 1,

2 + 2+

y1

1 1

y2 +y3

y4

.

Podemos programar este algoritmo com os comandos do R a seguir. > p metr0 > > > y = c(125, 18, 20, 34) n = 2000 m = metr0(n, y, fun = p, start = 0.5) m$taxa

[1] 0.17 Dada uma amostra com valores de temos tambm amostras de valores de e (p1 , p2 , p3 , p4 ) que podem ser resumidas da seguinte forma, > > > > > > > > p1 = m$theta/4 + 0.5 p2 = (1 - m$theta)/4 p3 = p2 p4 = m$theta/4 z = as.mcmc(cbind(p1, p2, p3, p4)) colnames(z) = c("p1", "p2", "p3", "p4") b = summary(window(z, start = 501)) print(b, digits = 3)

68

CAP ITULO 4. METODOS APROXIMADOS

(a)1.0

(b)

0.70

Autocorrelation 0 500 1000 Iterations 1500 2000

0.50

0.60

1.0 0

0.0

0.5

5

10

15 Lag

20

25

30

(c)8 0 0.50 2 4 6

0.60

0.70

N = 1500 Bandwidth = 0.0106

Figura 4.7: (a) 2000 valores simulados de , (b) 30 primeiras autocorrelaes amostrais coaps aquecimento, (c) Densidade a posteriori estimada. o

Iterations = 501:2000 Thinning interval = 1 Number of chains = 1 Sample size per chain = 1500 1. Empirical mean and standard deviation for each variable, plus standard error of the mean: Mean 0.6584 0.0916 0.0916 0.1584 SD 0.0114 0.0114 0.0114 0.0114 Naive SE Time-series SE 0.000294 0.000954 0.000294 0.000954 0.000294 0.000954 0.000294 0.000954

p1 p2 p3 p4

4.6. MONTE CARLO VIA CADEIAS DE MARKOV 2. Quantiles for each variable: 2.5% 0.6340 0.0721 0.0721 0.1340 25% 0.6512 0.0844 0.0844 0.1512 50% 0.6592 0.0908 0.0908 0.1592 75% 0.6656 0.0988 0.0988 0.1656 97.5% 0.678 0.116 0.116 0.178

69

p1 p2 p3 p4

Exemplo 4.7 : Suponha que queremos simular valores X N (0, 1) propondo valores Y N (x, 2 ). Neste caso as densidades propostas no numerador e denominador de (4.2) se cancelam e a probabilidade de aceitaao ca c 1 (x, y) = min 1, exp (y 2 x2 ) 2 .

Fixando os valores = 0.5 e = 10 foram simuladas as cadeias que aparecem na Figura 4.8. Note que o valor de teve um grande impacto na taxa de aceitaao c do algoritmo. Isto ocorre porque com = 0.5 a distribuiao proposta est muito c a mais prxima da distribuiao de interesse do que com = 10. o c

70

CAP ITULO 4. METODOS APROXIMADOS

> metrop Gibbs y = c(rpois(n = 22, lambda = 2), rpois(n = 18, lambda = 5)) > x = Gibbs(a = 0.1, b = 0.1, c = 0.1, d = 0.1, y = y, niter = 2000) Podemos usar o pacote coda para analisar os valores simulados. As 1000 primeiras simulaoes so descartadas como amostra de aquecimento. c a > library(coda) > amostra = cbind(x$lambda, x$phi, x$m)[1001:2000, ]

4.6. MONTE CARLO VIA CADEIAS DE MARKOV > theta = mcmc(amostra) > colnames(theta) = names(x) > summary(theta) Iterations = 1:1000 Thinning interval = 1 Number of chains = 1 Sample size per chain = 1000 1. Empirical mean and standard deviation for each variable, plus standard error of the mean: Mean SD Naive SE Time-series SE lambda 2.273 0.3247 0.01027 0.00865 phi 5.246 0.5569 0.01761 0.02049 m 21.612 1.6125 0.05099 0.06403 2. Quantiles for each variable: 2.5% 25% 50% 75% 97.5% lambda 1.668 2.054 2.258 2.479 2.979 phi 4.213 4.843 5.230 5.610 6.398 m 18.975 21.000 22.000 22.000 24.025

77

A partir dos valores simulados de m podemos estimar suas probabilidades, > tm = table(theta[, 3])/1000 > print(tm) 7 8 9 10 11 14 15 16 17 18 19 20 21 0.001 0.002 0.001 0.001 0.001 0.005 0.002 0.004 0.001 0.007 0.012 0.059 0.196 22 23 24 25 26 27 0.648 0.010 0.025 0.010 0.013 0.002 Finalmente, pode-se estimar as contagens mdias condicionando nos valor de e m com maior probabilidade. > lambda.22 = theta[, 1][theta[, 3] == 22] > phi.22 = theta[, 2][theta[, 3] == 22] > theta.22 = as.mcmc(cbind(lambda.22, phi.22))

78 > plot(theta)Trace of lambda

CAP ITULO 4. METODOS APROXIMADOS

Density of lambda1.2

2.5

1.5

0

200

400

600

80