inferÊncia bayesiana como um procedimento de …laurarifo/alunos/monografiamayara.pdf · teoria da...

47
Instituto de Matemática, Estatística e Computação Matemática – IMECC Universidade Estadual de Campinas – UNICAMP Monografia PIBIC/CNPq INFERÊNCIA BAYESIANA COMO UM PROCEDIMENTO DE DECISÃO Mayara Caroline Maioli RA 118152 Orientadora: Prof.ª Dr.ª Laura Leticia Ramos Rifo Campinas, Agosto de 2014

Upload: phungngoc

Post on 24-Dec-2018

224 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: INFERÊNCIA BAYESIANA COMO UM PROCEDIMENTO DE …laurarifo/alunos/monografiaMayara.pdf · Teoria da decisão ... Comparação das probabilidades de acerto dos artigos definidos e

Instituto de Matemática, Estatística e Computação Matemática – IMECC

Universidade Estadual de Campinas – UNICAMP

Monografia PIBIC/CNPq

INFERÊNCIA BAYESIANA COMO UM PROCEDIMENTO

DE DECISÃO

Mayara Caroline Maioli RA 118152

Orientadora: Prof.ª Dr.ª Laura Leticia Ramos Rifo

Campinas, Agosto de 2014

Page 2: INFERÊNCIA BAYESIANA COMO UM PROCEDIMENTO DE …laurarifo/alunos/monografiaMayara.pdf · Teoria da decisão ... Comparação das probabilidades de acerto dos artigos definidos e

Sumário 1. Introdução ............................................................................................................................................................. 1

2. Probabilidade ....................................................................................................................................................... 1

2.1. Axiomas da probabilidade .................................................................................................................... 1

2.2. Interpretação subjetivista de probabilidade ................................................................................. 2

2.3. Interpretação clássica ............................................................................................................................. 2

2.4. Interpretação frequentista ................................................................................................................... 3

3. Conceitos de teoria da informação.............................................................................................................. 3

3.1. Entropia ........................................................................................................................................................ 3

3.2. Entropia Relativa ...................................................................................................................................... 4

3.3. Informação Mútua .................................................................................................................................... 4

4. Teoria da decisão ............................................................................................................................................... 5

4.1. Função de perda ........................................................................................................................................ 6

4.2. Procedimento de decisão ...................................................................................................................... 6

4.3. Função de risco .......................................................................................................................................... 7

4.4. Utilidade ....................................................................................................................................................... 9

5. Inferência bayesiana ...................................................................................................................................... 10

5.1. Teoria da decisão sob a ótica bayesiana ...................................................................................... 13

5.2. Distribuições a priori ........................................................................................................................... 14

5.3. Inferência preditiva .............................................................................................................................. 22

6. Comparação de modelos .............................................................................................................................. 24

6.1. BIC ................................................................................................................................................................ 24

6.2. DIC ............................................................................................................................................................... 24

7. Aplicação ............................................................................................................................................................. 25

7.1. Objetivo ..................................................................................................................................................... 25

7.2. Descrição dos dados ............................................................................................................................. 25

7.3. Análises iniciais ...................................................................................................................................... 27

7.4. Definindo a distribuição a priori. .................................................................................................... 31

7.5. Comparação das probabilidades de acerto dos artigos definidos e indefinidos ......... 37

7.6. Comparação da probabilidade de acerto do artigo definido em cada grupo ................ 40

7.7. Comparação entre os grupos DA, DEL e SD com relação ao artigo definido ................. 41

7.8. Conclusão .................................................................................................................................................. 43

8. Referências bibliográficas ........................................................................................................................... 44

Page 3: INFERÊNCIA BAYESIANA COMO UM PROCEDIMENTO DE …laurarifo/alunos/monografiaMayara.pdf · Teoria da decisão ... Comparação das probabilidades de acerto dos artigos definidos e

1

1. Introdução

A inferência bayesiana é uma metodologia estatística baseada na definição de

probabilidade como um grau de informação. Apresenta como principal característica a

capacidade de poder combinar novas evidências com conhecimentos anteriores

através do uso da regra de Bayes.

No presente trabalho, analisamos os aspectos teóricos da teoria de decisão sob o

ponto de vista bayesiano. Primeiramente revisamos os conceitos de perda, risco e

utilidade, além de conceitos relacionados à probabilidade e entropia. Sequencialmente,

introduzimos os conceitos básicos da inferência bayesiana e discutimos os possíveis

métodos de escolha da distribuição a priori. Estudamos uma classe de prioris definidas

por misturas de distribuições e discutimos a escolha de modelos através do critério BIC

(Bayesian Information Criterion) e DIC (Deviance Information Criterion).

Para aplicação dos conhecimentos adquiridos, utilizamos um estudo feito na área

linguística que trata da análise de compreensão e uso de artigos, uma das dez classes

gramaticais. Através de um experimento aplicado em crianças do Estado de São Paulo,

utilizamos a inferência bayesiana, sob o ponto de vista de escolha de modelo e teste de

hipóteses, para analisar se crianças com patologias de linguagem apresentam

dificuldade na compreensão e uso de artigos.

2. Probabilidade

O conceito de probabilidade não é único no universo científico. Existem variadas

interpretações deste conceito que ainda hoje é motivo de muita controvérsia. No

entanto, cada uma destas definições podem ser úteis na resolução de problemas

práticos que envolvam a teoria de probabilidade. Adiante, será explicada as teorias

frequentista, subjetiva e clássica.

2.1. Axiomas da probabilidade

Seja A um evento no espaço amostral 𝑆, definimos 𝑃(𝐴) um valor denominado

probabilidade de 𝐴. Tal valor deve satisfazer os seguintes axiomas:

1) Uma probabilidade deve estar entre os valores 0 e 1

0 ≤ 𝑃(𝐴) ≤ 1

2) A probabilidade do espaço amostral é 1

Page 4: INFERÊNCIA BAYESIANA COMO UM PROCEDIMENTO DE …laurarifo/alunos/monografiaMayara.pdf · Teoria da decisão ... Comparação das probabilidades de acerto dos artigos definidos e

2

𝑃(𝑆) = 1

3) Para cada sequência de eventos mutuamente disjuntos 𝐴1, 𝐴2, … (isto é, 𝐴𝑖 ∩

𝐴𝑗 = ∅ para 𝑖 ≠ 𝑗)

𝑃 (⋃𝐴𝑖

𝑖=1

) = ∑𝑃(𝐴𝑖)

𝑖=1

2.2. Interpretação subjetivista de probabilidade

A teoria subjetiva apresenta a probabilidade como o grau de crença em uma

proposição baseada em todas as informações disponíveis. Berger (1985) explica que

uma probabilidade subjetiva é uma medida sobre o grau de crença que um indivíduo

possui. Assim, uma outra pessoa pode ter um grau de crença diferente sobre a mesma

proposição e portanto terá uma probabilidade distinta.

Mesmo podendo gerar diferentes probabilidades de acordo com cada indivíduo,

uma probabilidade subjetiva assim como as outras, deve obedecer os axiomas de

probabilidade. Paulino, Turkman and Murteira (2003) destacam que uma das

características da probabilidade subjetiva é poder ser aplicada a situações não

repetitivas. Só em termos subjetivos podemos, por exemplo, avaliar a probabilidade da

taxa de crescimento do PIB estar entre 2 e 3%.

2.3. Interpretação clássica

A teoria clássica está baseada no conceito de resultados igualmente prováveis.

DeGroot and Schervish (2012) exemplificam tal interpretação quando pensamos na

probabilidade das faces “cara” e “coroa” de uma moeda. Dado que uma moeda possui

apenas dois possíveis resultados e usando o fato de que a soma das probabilidades

deve ser 1, então de acordo com o conceito da probabilidade clássica, as probabilidades

de cara e coroa são igualmente prováveis, ou seja, ambas devem ser 1/2.

A mesma lógica se estende para o caso em que um processo tem n diferentes

saídas. Então, de acordo com a interpretação clássica, a probabilidade de uma destas

saídas ocorrer é 1/n.

Observemos que esta interpretação é um caso particular da anterior quando

subjetivamente assumimos condições de simetria no experimento realizado.

Page 5: INFERÊNCIA BAYESIANA COMO UM PROCEDIMENTO DE …laurarifo/alunos/monografiaMayara.pdf · Teoria da decisão ... Comparação das probabilidades de acerto dos artigos definidos e

3

2.4. Interpretação frequentista

A interpretação frequentista é a definição de probabilidade no qual estão

baseados os conceitos da inferência clássica. Por esse motivo, os estatísticos que a

usam também são chamados de “frequentistas”. Esta teoria baseia-se na regularidade

das frequências relativas. Ross (2009) explica tal conceito apresentado abaixo.

Suponhamos que um experimento seja realizado repetidamente mantidas as

mesmas condições. Para cada evento 𝐴, contido no espaço amostral 𝑆 (𝐴 ⊆ 𝑆),

definimos 𝑛(𝐴) o número de vezes que o evento 𝐴 ocorre nas 𝑛 repetições. Assim,

definimos a probabilidade do evento A ocorrer como

𝑃(𝐴) = lim𝑛→∞

𝑛(𝐴)

𝑛

Isto é, 𝑃(𝐴) é a frequência limite do evento A. Observemos que este caso é

também um caso particular da interpretação subjetivista quando assumimos condições

de permutabilidade nas diversas repetições do experimento. Este resultado foi

provado originalmente nos anos 30 por DeFinetti, e estendido posteriormente nos

trabalhos de Diaconis e Freedman, entre outros.

3. Conceitos de teoria da informação

3.1. Entropia

Para qualquer distribuição de probabilidade, definimos uma quantidade

chamada entropia que pode ser entendida como uma medida de incerteza de uma

variável aleatória (ver por exemplo Cover and Thomas (2006)). No caso discreto, se 𝑋

é uma variável aleatória discreta definida em 𝒳 com distribuição de probabilidade

definida em 𝑝(𝑥) = 𝑃{𝑋 = 𝑥} 𝑝𝑎𝑟𝑎 𝑥 𝜖 𝒳. A entropia 𝐻(𝑋) de uma variável 𝑋 é definida

por

𝐻(𝑋) = − ∑ 𝑝(𝑥) log 𝑝(𝑥)

𝑥 𝜖 𝜒

sendo o log na base 2.

No caso contínuo, se 𝑋 é uma variável aleatória contínua definida em 𝒳 com

densidade 𝑓. A entropia 𝐻(𝑋) de uma variável 𝑋 é definida por

𝐻(𝑋) = −∫ 𝑓(𝑥) log 𝑓(𝑥)

𝑥 𝜖 𝜒

𝑑𝑥

Page 6: INFERÊNCIA BAYESIANA COMO UM PROCEDIMENTO DE …laurarifo/alunos/monografiaMayara.pdf · Teoria da decisão ... Comparação das probabilidades de acerto dos artigos definidos e

4

Exemplo 1: Seja X uma variável aleatória discreta com distribuição de probabilidade

𝑋 𝑃(𝑋 = 𝑥)

𝑥1

𝑥2

𝑝1

𝑝2

A entropia 𝐻(𝑋) é

𝐻(𝑋) = 𝑝1 𝑙𝑜𝑔 1/𝑝1 + 𝑝2 𝑙𝑜𝑔 1/ 𝑝2

Se 𝑝1 = 𝑝2 = 1/2 então

𝐻(𝑋) =1

2𝑙𝑜𝑔 2 +

1

2𝑙𝑜𝑔 2 = 1

3.2. Entropia Relativa

A entropia relativa ou distância de Kullback-Leibler pode ser entendida como a

medida de distância entre duas distribuições de probabilidades 𝑝(𝑥) e 𝑞(𝑥). Pode

também ser entendida como uma medida de ineficiência ao assumir que a distribuição

é 𝑞 quando na verdade é 𝑝. Sendo assim, seja 𝑋 uma variável aleatória discreta definida

em 𝒳. A entropia relativa entre duas distribuições 𝑝(𝑥) e 𝑞(𝑥) é definida como

𝐷(𝑝||𝑞) = ∑ 𝑝(𝑥) log𝑝(𝑥)

𝑞(𝑥)𝑥 𝜖 𝜒

No caso contínuo,

𝐷(𝑝||𝑞) = ∫ 𝑝(𝑥) log𝑝(𝑥)

𝑞(𝑥) 𝑑𝑥

𝑥 𝜖 𝜒

3.3. Informação Mútua

A informação mútua é uma medida de quantidade de informação que uma

variável aleatória contém sobre outra variável aleatória. Assim, seja X e Y variáveis

aleatórias discretas com função de distribuição conjunta 𝑝(𝑥, 𝑦) e distribuições

marginais 𝑝(𝑥) e 𝑞(𝑦). A informação mútua é a entropia relativa entre a distribuição

conjunta e o produto das marginais, ou seja

𝐼(𝑋, 𝑌) = 𝐷(𝑝(𝑥, 𝑦)||𝑝(𝑥)𝑞(𝑦)) = ∑ ∑ 𝑝(𝑥, 𝑦) log𝑝(𝑥, 𝑦)

𝑝(𝑥)𝑞(𝑦)𝑦 𝜖 Υ𝑥 𝜖 𝜒

Quando X e Y são variáveis aleatórias contínuas,

𝐼(𝑋, 𝑌) = ∫ ∫ 𝑝(𝑥, 𝑦) log𝑝(𝑥, 𝑦)

𝑝(𝑥)𝑞(𝑦) 𝑑𝑦𝑑𝑥

𝑦 𝜖 Υ

𝑥 𝜖 𝜒

Page 7: INFERÊNCIA BAYESIANA COMO UM PROCEDIMENTO DE …laurarifo/alunos/monografiaMayara.pdf · Teoria da decisão ... Comparação das probabilidades de acerto dos artigos definidos e

5

4. Teoria da decisão

Constantemente somos forçados a situações em que devemos tomar decisões,

sem saber precisamente o custo ou consequência que isto refletirá no futuro. A

incerteza aparece como um fator predominante em muitos problemas que exigem a

tomada de ações. Para lidar com esses problemas de um modo racional foi

desenvolvida a teoria da decisão. Tal teoria é um conjunto de procedimentos que nos

levam a tomar uma certa decisão com o objetivo de minimizar uma perda ou maximizar

um ganho. Os problemas de estimação pontual e intervalar e teste de hipóteses podem

ser vistos como problemas de decisão.

Um problema de decisão é formado por:

ℱ: Família de distribuições: em geral, assumimos que a família é composta por

distribuições parametrizáveis, ou seja, indexamos os elementos da família por

ℱ = {𝐹𝜃: 𝜃 𝜖 Θ}

Θ: Espaço paramétrico ou espaço de estados da natureza: espaço em que o

parâmetro ou estado da natureza que indexa os elementos da família de distribuições

está definido.

𝒜: Espaço de ações: conjunto de todas as ações, decisões ou afirmações que

podemos fazer sobre a família de distribuições (modelo probabilístico). Denotaremos

uma ação por 𝑎.

Exemplo 2: No caso de um teste de hipótese em que testamos

𝐻: 𝜃 𝜖 𝛩0

o espaço de ações é constituído de dois elementos, 𝒜 = {0,1}, em que 0 representa aceitar

a hipótese. Então, podemos aceitar a hipótese ou rejeitá-la de acordo com um

procedimento.

Exemplo 3: Em um problema de estimação pontual da proporção de itens defeituosos de

uma fábrica, temos que o espaço paramétrico pode ser 𝛩 = [0,1]. Assim, como queremos

estimar esta proporção, nossa ação será um estimador que estará dentro do intervalo

[0,1], ou seja, 𝒜 ≡ 𝛩 = [0,1].

Page 8: INFERÊNCIA BAYESIANA COMO UM PROCEDIMENTO DE …laurarifo/alunos/monografiaMayara.pdf · Teoria da decisão ... Comparação das probabilidades de acerto dos artigos definidos e

6

4.1. Função de perda

Função que assume valores positivos para cada par de modelos e ações

possíveis. É definida como

𝑙: ℱ 𝑥 𝒜 → ℝ+

Se ℱ for parametrizável, então

𝑙: Θ 𝑥 𝒜 → ℝ+

Podemos interpretar a função 𝑙(𝜃, 𝑎) como a perda sofrida ao tomar a decisão 𝑎

dado que o valor do parâmetro é 𝜃.

Podemos usar muitas funções de perdas. Bickel and Doksum (2001) indicam

algumas mais utilizadas:

Perda quadrática: função de perda mais comum em problemas de estimação

𝑙(𝜃, 𝑎) = (𝜃 − 𝑎)²

Perda absoluta:

𝑙(𝜃, 𝑎) = |𝜃 − 𝑎|

Perda quadrática truncada:

𝑙(𝜃, 𝑎) = min {(𝜃 − 𝑎)2, 𝑑²}

Perda 0-1:

𝑙(𝜃, 𝑎) = {0 𝑠𝑒 |𝜃 − 𝑎| ≤ 𝑑1 𝑠𝑒 |𝜃 − 𝑎| > 𝑑

𝑑 ≥ 0

As perdas apresentadas aqui levam em consideração a distância entre o valor

da ação 𝑎 com o valor do parâmetro 𝜃. Em particular, a perda quadrática penaliza mais

desvios grandes, considerando que quanto maior esta distância pior é a decisão.

Em algumas situações, é útil utilizar funções de perda assimétrica. Por exemplo,

pode-se utilizar a função 𝑙(𝜃, 𝑎) = 𝐼(𝜃 > 𝑎) que penaliza apenas a superestimação.

Outras funções podem ser encontradas em Bickel and Doksum (2001).

Quando o estatístico usa dados para tomar decisões utilizamos na teoria de

decisão o que chamamos de procedimento de decisão.

4.2. Procedimento de decisão

O procedimento ou regra de decisão é uma função

𝛿: 𝒳 → 𝒜

em que 𝒳 denota o espaço amostral. Adotar o procedimento 𝛿 significa que se

observarmos a amostra 𝑿 = 𝒙 então tomaremos a decisão 𝛿(𝒙) ∈ 𝒜.

Page 9: INFERÊNCIA BAYESIANA COMO UM PROCEDIMENTO DE …laurarifo/alunos/monografiaMayara.pdf · Teoria da decisão ... Comparação das probabilidades de acerto dos artigos definidos e

7

Exemplo 4: O estimador 𝜃 =∑ 𝑋𝑖

𝑛𝑖=1

𝑛= �̅� da proporção de itens defeituosos é um

procedimento de decisão, visto que a partir de uma amostra retorna um valor entre (0,1),

sendo este o espaço de ações.

4.3. Função de risco

Quando usamos o procedimento 𝛿, 𝜃 é o verdadeiro valor do parâmetro e

utilizando a amostra (𝑋1, 𝑋2, … , 𝑋𝑛) = 𝑿 = 𝒙 = (𝑥1, 𝑥2, … , 𝑥𝑛) obtemos a função de

perda 𝑙(𝜃, 𝛿(𝒙)). No entanto, uma vez que o valor do parâmetro é desconhecido, a

função de perda também é. Além disso, Bickel and Doksum (2001) também explicam

que queremos procedimentos que possuam boas propriedades não apenas para uma

amostra específica mas para todos as amostras possíveis. Portanto, calculamos a média

da função perda sobre todo o espaço amostral. Ou seja, consideramos 𝑙(𝜃, 𝛿(𝒙)) como

uma variável aleatória e calculamos a esperança desta variável, denominada função de

risco. Logo

𝑅(𝜃, 𝛿(𝒙)) = 𝐸𝜃[ 𝑙(𝜃, 𝛿(𝑿))]

é considerada uma medida de desempenho da regra de decisão 𝛿.

Em problemas de estimação intervalar o procedimento de decisão 𝛿 é o

estimador 𝜃 = 𝑇(𝑿). Utilizando a perda quadrática, temos que

𝑅(𝜃, 𝜃) = 𝐸𝜃[ 𝑙(𝜃, 𝑇(𝑿))]

𝐸𝜃[ (𝜃 − 𝑇(𝑿))²] = 𝐸𝜃(𝜃²) − 2𝐸𝜃(𝜃 ∗ 𝑇(𝑿)) + 𝐸𝜃(𝑇(𝑿)²)

= 𝜃2 − 2𝜃𝐸𝜃(𝑇(𝑿)) + 𝐸𝜃(𝑇(𝑿))2+ 𝐸𝜃(𝑇(𝑿)2) − 𝐸𝜃(𝑇(𝑿))

2

= 𝑉𝑖é𝑠(𝑇(𝑿))2+ 𝑉𝑎𝑟(𝑇(𝑿))

onde 𝑉𝑖é𝑠(𝑇(𝑿)) = 𝐸𝜃(𝑇(𝑿)) − 𝜃

Quando utilizamos a perda quadrática, denominamos a função risco como o erro

quadrático médio (EQM), sendo o EQM calculado como o viés do estimador ao

quadrado somado com a variância do estimador. Tal medida é usada para comparação

de estimadores. Quanto maior o risco que o estimador gera, pior ele é. Portanto, um

método de escolha de estimadores é o EQM. Dentre um conjunto de estimadores de

um mesmo parâmetro, se compararmos em termos de EQM, o melhor estimador é

aquele que possui o menor erro quadrático médio.

Page 10: INFERÊNCIA BAYESIANA COMO UM PROCEDIMENTO DE …laurarifo/alunos/monografiaMayara.pdf · Teoria da decisão ... Comparação das probabilidades de acerto dos artigos definidos e

8

Exemplo 5: Seja 𝑋 uma variável aleatória com distribuição 𝑁(𝜇, 𝜎2). Assumindo uma

amostra aleatória independente 𝑋1, 𝑋2, … , 𝑋𝑛, considere os estimadores da variância 𝜎²,

�̂�12 = 𝑆2 =

1

𝑛−1∑ (𝑋𝑖 − �̅�)²𝑛

𝑖=1 e �̂�22 =

1

𝑛∑ (𝑋𝑖 − �̅�)²𝑛

𝑖=1 =𝑛−1

𝑛𝑆2. Usando o fato de que

𝑛−1

𝜎²𝑆2~ 𝒳𝑛−1

2 temos que

𝐸 (𝑛−1

𝜎²𝑆²) = 𝑛 − 1 e 𝑉𝑎𝑟 (

𝑛−1

𝜎2 𝑆2) = 2(𝑛 − 1)

Calculando o EQM de cada estimador temos

𝐸𝑄𝑀(�̂�12) = 𝑉𝑖é𝑠(�̂�1

2)2 + 𝑉𝑎𝑟(�̂�12)

mas 𝑉𝑖é𝑠(�̂�12) = 𝐸(𝑆²) − 𝜎2 = 𝐸 (

𝜎2

𝑛−1×

𝑛−1

𝜎2𝑆2) − 𝜎2 =

𝜎2

𝑛−1× 𝑛 − 1 − 𝜎2 = 0 e

𝑉𝑎𝑟(�̂�12) = 𝑉𝑎𝑟 (

𝜎2

𝑛−1×

𝑛−1

𝜎2 𝑆2) =(𝜎2)²

(𝑛−1)²× 2(𝑛 − 1) =

2𝜎4

𝑛−1, então

𝐸𝑄𝑀(�̂�12) =

2𝜎4

𝑛 − 1

E

𝐸𝑄𝑀(�̂�22) = 𝑉𝑖é𝑠(�̂�2

2)2 + 𝑉𝑎𝑟(�̂�22)

mas 𝑉𝑖é𝑠(�̂�22) = 𝐸 (

𝑛−1

𝑛𝑆2) − 𝜎2 = 𝐸 (

𝜎2

𝑛−1

𝑛−1

𝑛×

𝑛−1

𝜎2 𝑆2) − 𝜎2 =(𝑛−1)𝜎2

𝑛− 𝜎²

e 𝑉𝑎𝑟(�̂�22) = 𝑉𝑎𝑟 (

𝑛−1

𝑛𝑆2) = 𝑉𝑎𝑟 (

𝜎2

𝑛−1

𝑛−1

𝑛×

𝑛−1

𝜎2 𝑆2) = 2𝜎4(𝑛−1)

𝑛²

então

𝐸𝑄𝑀(�̂�22) =

2𝜎4(𝑛 − 1)

𝑛²+ (

(𝑛 − 1)𝜎2

𝑛− 𝜎²)

2

= (2𝑛 − 1

𝑛2) 𝜎4

Page 11: INFERÊNCIA BAYESIANA COMO UM PROCEDIMENTO DE …laurarifo/alunos/monografiaMayara.pdf · Teoria da decisão ... Comparação das probabilidades de acerto dos artigos definidos e

9

Comparando graficamente os EQM temos,

Em vermelho é apresentado o EQM do estimador �̂�12 e em azul o EQM do estimador

�̂�22. É possível perceber que tanto para amostras pequenas (n=10) quanto para amostras

maiores o estimador �̂�22 possui risco menor, embora seja possível observar que com o

aumento do tamanho amostral os dois estimadores possuem praticamente o mesmo valor

de EQM. Fizemos esta comparação para apenas alguns valores de 𝜎² para ilustrar como

escolhemos um estimador utilizando como critério o erro quadrático médio.

4.4. Utilidade

A função utilidade é definida como

𝑈: ℱ 𝑥 𝒜 → ℝ+

Se ℱ for parametrizável, então

𝑈: Θ 𝑥 𝒜 → ℝ+

Assim, 𝑈(𝜃, 𝑎) mede o ganho ao optar pela ação 𝑎 quando o valor do parâmetro

é 𝜃. Ao contrário da escolha de uma ação utilizando o conceito de perda, quanto maior

o ganho, ou seja, quanto maior 𝑈(𝜃, 𝑎), melhor é a ação 𝑎.

Neste texto, foi dado apenas uma introdução sobre a teoria da decisão. Mais

informações e exemplos podem ser encontrados em Bickel and Doksum (2001).

Figura 1 - Comparação dos EQM com n=10 Figura 2 - Comparação dos EQM com n=100

Page 12: INFERÊNCIA BAYESIANA COMO UM PROCEDIMENTO DE …laurarifo/alunos/monografiaMayara.pdf · Teoria da decisão ... Comparação das probabilidades de acerto dos artigos definidos e

10

5. Inferência bayesiana

O entendimento dos fundamentos da inferência bayesiana pode ser melhor

compreendido quando confrontados com os preceitos de sua principal “concorrente”,

a inferência clássica. Assim, primeiramente, será introduzido o conceito da inferência

clássica.

A teoria clássica é baseada no conceito da possibilidade de infinitas repetições

de um experimento mantendo as mesmas condições (ver Paulino et al (2003)). Nesta

interpretação, definimos uma amostra como resultados de experimentos ou inquéritos

repetidos em condições constantes ou aproximadamente constantes, enquanto que a

população é entendida como o conjunto de todas as observações possíveis feitas em

condições constantes.

Um aspecto importante na inferência clássica é que os dados observados

formam apenas um dos muitos resultados possíveis considerando as mesmas

circunstâncias. Portanto, na inferência, devemos levar em consideração a variabilidade

que está presente de amostra em amostra. O modo como é feito isso é através da

determinação de que os dados são provenientes de uma variável aleatória 𝑋 com

função de distribuição 𝐹0. Tal função representa a variabilidade na observação de 𝑋 e

é desconhecida, mas com base em experimentos passados ou conhecimentos teóricos

sobre o natureza do fenômeno podemos propor uma família ℱ de funções em que 𝐹0

esteja contida que melhor se ajusta ao problema.

A família ℱ muitas vezes pode ser parametrizável, ou seja, podemos indexar

seus elementos por um parâmetro. Consideremos então uma família de distribuições

ℱ indexadas pelo parâmetro 𝜃 definido no espaço paramétrico Θ. Sendo assim,

definimos a família

ℱ = {𝐹𝜃: 𝜃 𝜖 Θ}

Do ponto de vista da inferência clássica, o parâmetro 𝜃 é desconhecido, mas é

considerado fixo. Uma amostra aleatória de X é retirada a partir de uma população cuja

característica de interesse é modelada por 𝐹𝜃 e, com base nos valores observados são

feitas inferências sobre o parâmetro 𝜃. No entanto, em muitas situações, tal suposição

não é conveniente. Sendo assim, é útil fazer inferências sobre 𝜃 sob o ponto de vista

bayesiano.

Page 13: INFERÊNCIA BAYESIANA COMO UM PROCEDIMENTO DE …laurarifo/alunos/monografiaMayara.pdf · Teoria da decisão ... Comparação das probabilidades de acerto dos artigos definidos e

11

Na inferência bayesiana 𝜃 pode ser pensado como a realização de uma variável

aleatória 𝜃 cuja variabilidade pode ser descrita pela distribuição de probabilidade

𝜋(𝜃). Assim 𝜋(𝜃) representa a crença ou informação disponível a respeito do

parâmetro antes de realizar o experimento. Ou seja, conseguimos incorporar todas as

informações sobre o parâmetro vindas de um especialista ou de experimentos

passados para resolver o problema atual.

A função 𝜋(𝜃) é denominada distribuição a priori. Em alguns casos, como será

visto adiante, 𝜋(𝜃) não é uma distribuição de probabilidade. Deste modo, quando não

atribuímos uma distribuição de probabilidade à 𝜋(𝜃), tal função é denominada

simplesmente priori.

A partir de uma amostra retirada de uma população indexada por 𝜃 a

informação sobre o parâmetro é atualizada com os dados desta amostra utilizando o

teorema de Bayes. Assim seja 𝑓(𝒙|𝜃) a função de verossimilhança da variável

aleatória 𝑋 condicionada a 𝜃.

Definimos:

𝜋(𝜃|𝒙) =𝑓(𝒙|𝜃)𝜋(𝜃)

𝑓(𝒙)

onde 𝑓(𝒙) = ∑ 𝑓(𝒙|𝜃)𝜋(𝜃)Θ se o espaço paramétrico de 𝜃 é discreto e

𝑓(𝒙) = ∫ 𝑓(𝒙|𝜃)𝜋(𝜃) 𝑑𝜃

Θ se 𝜃 está definido no espaço paramétrico contínuo.

Denotamos 𝜋(𝜃|𝒙) por distribuição a posteriori. Tal distribuição incorpora a

informação inicial sobre o parâmetro e a informação vinda dos dados

(verossimilhança).

Assim, antes do experimento ser realizado, toda a informação disponível sobre

o parâmetro é extraída da priori. Após a coleta de dados, atualiza-se esta informação

utilizando a amostra resultando na distribuição a posteriori.

Exemplo 6: Em problemas de estimação de parâmetros, podemos omitir a constante de

normalização 𝑓(𝒙) no cálculo da posteriori, gerando a fórmula

𝜋(𝜃|𝒙) ∝ 𝑓(𝒙|𝜃)𝜋(𝜃)

Assim, basta a identificarmos como o núcleo de uma distribuição catalogada para

sabermos que distribuição a posteriori possui. Daremos agora um exemplo que ilustra o

que foi citado acima.

Page 14: INFERÊNCIA BAYESIANA COMO UM PROCEDIMENTO DE …laurarifo/alunos/monografiaMayara.pdf · Teoria da decisão ... Comparação das probabilidades de acerto dos artigos definidos e

12

Sejam 𝑋1|𝜃, 𝑋2|𝜃, … , 𝑋𝑛|𝜃 variáveis aleatórias independentes dado 𝜃 com

distribuição 𝐸𝑥𝑝(𝜃) com média 𝐸(𝑋𝑖/𝜃) = 𝜃, ou seja,

𝑓(𝑥𝑖|𝜃) =1

𝜃exp {−

𝑥𝑖

𝜃} 𝐼ℝ+(𝑥𝑖)

Então a verossimilhança será

𝑓(𝒙|𝜃) = ∏𝑓(𝑥𝑖|𝜃)

𝑛

𝑖=1

pois 𝑋1|𝜃, 𝑋2|𝜃, … , 𝑋𝑛|𝜃 são condicionalmente independentes dado 𝜃. Logo,

𝑓(𝒙|𝜃) = 𝜃−𝑛 exp {−𝑛�̅�

𝜃}

Utilizando a priori

𝜋(𝜃) ∝ 𝜃−𝑎−1 𝑒𝑥𝑝 {−𝑏

𝜃} 𝐼ℝ+(𝜃)

que corresponde ao núcleo de uma distribuição Inversa-Gama(𝑎, 𝑏) (𝐼𝐺(𝑎, 𝑏)), obtemos

a posteriori através da fórmula

𝜋(𝜃|𝒙) ∝ 𝑓(𝒙|𝜃)𝜋(𝜃)

Assim,

𝜋(𝜃|𝒙) ∝ 𝜃−𝑛 𝑒𝑥𝑝 {−𝑛�̅�

𝜃} × 𝜃−𝑎−1 𝑒𝑥𝑝 {−

𝑏

𝜃} 𝐼ℝ+(𝜃)

𝜋(𝜃|𝒙) ∝ 𝜃−(𝑛+𝑎)−1 𝑒𝑥𝑝 {−𝑛�̅� + 𝑏

𝜃} 𝐼ℝ+(𝜃)

que pode ser identificado como o núcleo de uma distribuição 𝐼𝐺(𝑛 + 𝑎, 𝑛�̅� + 𝑏). Ou seja,

𝜃|𝒙 ~ 𝐼𝐺(𝑛 + 𝑎, 𝑛�̅� + 𝑏)

A partir da distribuição a posteriori retiramos toda a informação necessária

para fazer inferências a respeito do parâmetro. No entanto, a distribuição a posteriori

é apenas uma fórmula matemática. Assim, de modo a expressar as informações

contidas na posteriori de forma clara e facilmente compreendida, podemos usar

medidas resumos, tais como média, mediana, moda, medidas de dispersão e assimetria.

As inferências feitas com estas medidas são vistas em O’Hagan (1994). Assim como na

inferência clássica, conseguimos realizar testes de hipóteses e selecionar os modelos

mais adequados ao problema.

Page 15: INFERÊNCIA BAYESIANA COMO UM PROCEDIMENTO DE …laurarifo/alunos/monografiaMayara.pdf · Teoria da decisão ... Comparação das probabilidades de acerto dos artigos definidos e

13

5.1. Teoria da decisão sob a ótica bayesiana

O problema de escolha de estimadores pontuais de acordo com a teoria da

decisão também é visto com a abordagem bayesiana. Como já foi visto em 3.3, o melhor

estimador, de acordo com o risco, é aquele que o minimiza. Na teoria bayesiana temos

uma informação a priori sobre o parâmetro desconhecido que é contemplado pela

distribuição 𝜋 ≡ 𝜋(𝜃). (Casella and Berger, 2002) Assim, definimos o Risco de Bayes

como

𝑟(𝜋, 𝛿) = ∫𝑅(𝜃, 𝛿)𝜋(𝜃)𝑑𝜃

Θ

sendo definido como a perda média do risco frequentista, a priori, com relação a 𝜃.

No entanto, dado que temos o resultado da observação 𝑿 = 𝒙 a única incerteza

que temos é a respeito do estado da natureza 𝜃. Como anteriormente só tínhamos como

única informação a priori 𝜋(𝜃), conseguimos atualizar nossa crença a respeito do

parâmetro utilizando a amostra através da posteriori 𝜋(𝜃|𝒙). Logo, é mais interessante

considerar o risco a posteriori de Bayes

𝑅𝐵(𝜋, 𝛿) = ∫ 𝑙(𝜃, 𝛿)𝜋(𝜃|𝒙)𝑑𝜃

Θ

= 𝐸𝜃|𝒙[𝑙(𝜃, 𝛿)]

Denominamos por estimador de Bayes o estimador bayesiano que minimiza

𝑅𝐵(𝜋, 𝛿).

Exemplo 7: Considerando a perda quadrática, o estimador de Bayes é aquele que

minimiza

𝑔(𝛿) = ∫(𝜃 − 𝛿)2𝜋(𝜃|𝒙)𝑑𝜃

Θ

= ∫𝜃2𝜋(𝜃|𝒙)𝑑𝜃

Θ

− 2𝛿 ∫𝜃2𝜋(𝜃|𝒙)𝑑𝜃

Θ

+ 𝛿²∫𝜋(𝜃|𝒙)𝑑𝜃

Θ

= 𝐸(𝜃²|𝒙) − 2𝛿 𝐸(𝜃|𝒙) + 𝛿²

Derivando 𝑔(𝛿) em relação a 𝛿, igualando à zero e resolvendo-a em relação a 𝛿, temos

que

𝑑𝑔(𝛿)

𝑑𝛿= 0 ⇔ −2𝐸(𝜃|𝒙) + 2𝛿 = 0

⇔ 𝛿 = 𝜃𝐵𝑎𝑦𝑒𝑠 = 𝐸(𝜃|𝒙)

Ou seja, o estimador de Bayes considerando a perda quadrática é a média a posteriori.

Page 16: INFERÊNCIA BAYESIANA COMO UM PROCEDIMENTO DE …laurarifo/alunos/monografiaMayara.pdf · Teoria da decisão ... Comparação das probabilidades de acerto dos artigos definidos e

14

5.2. Distribuições a priori

A distribuição a priori é parte fundamental da inferência bayesiana (ver

DeGroot and Schervish (2012)). Se não determinamos alguma priori específica, não

conseguimos calcular a distribuição a posteriori e portanto a análise bayesiana fica

comprometida. Em geral, para uma mesma verossimilhança, diferentes escolhas de

prioris podem nos levar à resultados ligeiramente diferentes. Isso é verdade

especialmente quando temos uma grande quantidade de dados ou quando as prioris

que estão sendo comparadas são muito dispersas. O’Hagan (1994) exemplifica que na

estatística clássica se uma variável aleatória X tem distribuição binomial, o melhor

estimador para 𝜃, de acordo com algum critério, é X/n. Isto vale para todos os

problemas em que podemos modelar a variável aleatória por uma distribuição

binomial. No entanto, para a estatística bayesiana cada problema é único. De acordo

com as informações disponíveis pelo especialista a distribuição a priori é formulada e,

por incorporar o conhecimento do investigador, ela pode diferir em cada problema.

Mesmo que a verossimilhança seja a mesma, ao se utilizar diferentes distribuições a

priori, as distribuições a posteriores serão diferentes conduzindo assim a análises

bayesianas distintas.

Para a escolha da priori deve ser levado em consideração alguns aspectos

importantes, tais como:

Estar definida no espaço paramétrico;

Conduzir à uma posteriori integrável;

Refletir, de modo adequado, o conhecimento sobre o parâmetro obtido pelo

especialista;

5.2.1. Prioris subjetivas

Existem situações em que temos informações sobre os parâmetros do modelo

que nos permitem propor uma forma específica para a priori. No entanto, Paulino,

Turkman and Murteira (2003) exploram um problema comumente encontrado no

universo científico que abrange a dificuldade em obter e quantificar tais informações

de modo que possa ser usada na inferência bayesiana. As principais ferramentas que

auxiliam para determinar a priori são as medidas resumos. Muitas vezes, perguntar ao

especialista sobre o quanto ele acredita que possa ser a média da distribuição a priori,

Page 17: INFERÊNCIA BAYESIANA COMO UM PROCEDIMENTO DE …laurarifo/alunos/monografiaMayara.pdf · Teoria da decisão ... Comparação das probabilidades de acerto dos artigos definidos e

15

entre outras medidas, é essencial para conseguirmos determinar uma distribuição

específica. O’Hagan (1994) exemplifica uma situação em que temos como informação

a média e desvio-padrão do parâmetro 𝜃. Uma escolha natural seria uma distribuição

normal com média e desvio-padrão já especificados ou, se soubermos que o parâmetro

assume apenas valores positivos, podemos propor uma distribuição Gama.

5.2.1.1. Método do histograma

Esse método consiste em particionar Θ em k intervalos Θ = ⋃ Θ𝑗𝑘𝑗=1 e perguntar

ao especialista a probabilidade que este considera razoável de que 𝜃 pertença a cada

um dos intervalos. A partir disto é possível construir um histograma e com ele estimar

uma densidade de probabilidade adequada. Tal histograma fornece uma distribuição

aproximada que pode ser usada como um indicador de uma possível distribuição

(Paulino, Turkman and Murteira, 2003).

5.2.1.2. Método preditivo de eliciação

Em geral o especialista tem informações precisas a respeito do processo em

análise. Não necessariamente ele é capaz de informar ao estatístico características

importantes a respeito do parâmetro. Assim, naturalmente é mais simples o

especialista pensar em resultados do processo ou medidas resumos destas

observações do que no parâmetro do modelo. Tal método é conhecido por método

preditivo de eliciação.

O estatístico deve formular um modelo probabilístico (𝑓(𝑥|𝜃)) para o processo.

O especialista então é questionado sobre observações do processo ou sobre estatísticas

resumo. A distribuição sob a qual são feitas as questões é a marginal com respeito ao

parâmetro de interesse, ou seja,

𝑓(𝑥) = ∫𝑓(𝑥|𝜃)𝜋(𝜃)𝑑𝜃

Θ

Como 𝜋(𝜃) é o que tentamos descobrir, devemos encontrar métodos para

encontrar a priori de modo que o resultado da integral reflita adequadamente o

conhecimento do especialista sobre 𝑓(𝑥). Paulino, Turkman and Murteira (2003)

indicam vários métodos para resolver o problema e em particular exemplifica que

Page 18: INFERÊNCIA BAYESIANA COMO UM PROCEDIMENTO DE …laurarifo/alunos/monografiaMayara.pdf · Teoria da decisão ... Comparação das probabilidades de acerto dos artigos definidos e

16

podemos determinar uma priori pertencente à família conjugada natural e então o

problema se resume a encontrar os hiperparâmetros da priori (parâmetros da

distribuição a priori).

5.2.1.3. Família conjugada

Muitas vezes o cálculo da distribuição a posteriori quando utilizamos algumas

prioris pode ser exaustivo ou resultam em distribuições não catalogadas. Nesses casos

podemos recorrer a métodos computacionais para resolver tais problemas. Podemos

também fazer uso das prioris conjugadas cuja ideia é de que a priori e a posteriori

pertençam a mesma classe de distribuições. Deste modo, a atualização do

conhecimento se dá apenas com a mudança dos hiperparâmetros. (O’Hagan, 1994)

Definimos que uma classe de distribuições Π é conjugada à família de

distribuições amostrais ℱ = {𝑓(𝑥|𝜃) : 𝜃 𝜖 Θ} se

𝜋(𝜃) ∈ Π ⇒ 𝜋(𝜃|𝑥) ∝ 𝜋(𝜃)𝑓(𝑥|𝜃) ∈ Π

Exemplo 8: Seja 𝑋1|𝜎², 𝑋2|𝜎²,… , 𝑋𝑛|𝜎² uma amostra aleatória condicionalmente

independente com distribuição 𝑁(𝜇, 𝜎2) com 𝜇 conhecido. A função de verossimilhança

será

𝑓(𝒙|𝜎2) = ∏2𝜋−12(𝜎2)−

12 𝑒𝑥𝑝 {−

1

2𝜎2(𝑥𝑖 − 𝜇)²}

𝑛

𝑖=1

𝑓(𝒙|𝜎2) ∝ (𝜎2)−𝑛2 𝑒𝑥𝑝 {−

1

2𝜎2∑(𝑥𝑖 − 𝜇)²

𝑛

𝑖=1

}

Podemos notar que o núcleo da verossimilhança corresponde ao núcleo de uma

distribuição Inversa-Gama(a,b) quando a olhamos em função do parâmetro 𝜎². De fato,

se 𝜎² tem distribuição 𝐼𝐺(𝑎, 𝑏) então

𝜋(𝜎2) ∝ 𝑒𝑥𝑝 {−𝑏

𝜎2} (𝜎2)−𝑎−1𝐼(0,∞)(𝜎²)

Portanto, a família conjugada de prioris é a família 𝐼𝐺(𝑎, 𝑏). Podemos verificar

que a posteriori também terá distribuição Inversa-Gama. Assim,

𝜋(𝜎2|𝒙) ∝ 𝑓(𝒙|𝜎2) × 𝜋(𝜎2)

𝜋(𝜎2|𝒙) ∝ (𝜎2)−𝑛2(𝜎2)−𝑎−1 𝑒𝑥𝑝 {−

1

2𝜎2∑(𝑥𝑖 − 𝜇)²

𝑛

𝑖=1

} 𝑒𝑥𝑝 {−𝑏

𝜎2} 𝐼(0,∞)(𝜎²)

Page 19: INFERÊNCIA BAYESIANA COMO UM PROCEDIMENTO DE …laurarifo/alunos/monografiaMayara.pdf · Teoria da decisão ... Comparação das probabilidades de acerto dos artigos definidos e

17

𝜋(𝜎2|𝒙) ∝ (𝜎2)−(𝑛2+𝑎)−1 𝑒𝑥𝑝 {−

(12

∑ (𝑥𝑖 − 𝜇)2𝑛𝑖=1 + 𝑏)

𝜎2} 𝐼(0,∞)(𝜎²)

Logo, 𝜎2|𝒙 tem distribuição 𝐼𝐺 (𝑛

2+ 𝑎,

1

2∑ (𝑥𝑖 − 𝜇)2𝑛

𝑖=1 + 𝑏).

5.2.2. Prioris objetivas (não informativas)

Quando não existe ou é muito vaga a informação sobre a distribuição a priori

vários estatísticos propuseram teorias que lidam com essa situação incorporando o

que chamamos de priori não informativas. Tais distribuições dão a mínima informação

possível sobre o parâmetro. Berger (1985) define uma priori não informativa como

uma distribuição que não favorece nenhum valor específico de 𝜃 com relação a outros.

Estes tipos de distribuições, como Paulino, Turkman and Murteira (2003)

advertem, podem desempenhar um papel de referência, no sentido de que podem ser

úteis quando queremos encontrar uma distribuição a posteriori em situações em que

o conhecimento disponível não é suficiente para propor uma distribuição subjetiva; ou

se quisermos comparar os resultados com a teoria clássica; e por último, averiguar a

influência de prioris subjetivas nas inferências quando confrontadas com as prioris de

referência.

5.2.2.1. Priori de Jeffreys

A priori de Jeffreys se baseia no uso da medida de Informação de Fisher sobre 𝜃

definida como

𝐼(𝜃) = 𝐸 [(𝜕 ln 𝑓(𝑋|𝜃)

𝜕𝜃)

2

|𝜃] = −𝐸 [𝜕² ln 𝑓(𝑋|𝜃)

𝜕𝜃²|𝜃]

No caso de um vetor paramétrico 𝜽 = (𝜃0, 𝜃1, … , 𝜃𝑘),

𝐼(𝜽)𝑖𝑗 = 𝐸 [(𝜕 ln 𝑓(𝑋|𝜽)

𝜕𝜃𝑖)

(𝜕 ln 𝑓(𝑋|𝜽)

𝜕𝜃𝑗) |𝜽]

𝐼(𝜽)𝑖𝑗 = −𝐸 [𝜕² ln 𝑓(𝑋|𝜃)

𝜕𝜃𝑖𝜕𝜃𝑗|𝜽]

A priori de Jeffreys é definida como

𝜋(𝜃) ∝ |𝐼(𝜃)|1/2

Page 20: INFERÊNCIA BAYESIANA COMO UM PROCEDIMENTO DE …laurarifo/alunos/monografiaMayara.pdf · Teoria da decisão ... Comparação das probabilidades de acerto dos artigos definidos e

18

Exemplo 9: Considere uma única observação da distribuição Binomial-Poisson

𝑓(𝑥, 𝑦|𝛾, 𝜙) = (𝑦𝑥) 𝛾𝑥(1 − 𝛾)𝑦−𝑥𝑒−𝜙

𝜙𝑦

𝑦!𝐼{0,1,2,… }(𝑦)𝐼{0,1,… ,𝑦}(𝑥), 𝛾 ∈ (0,1), 𝜙 ∈ ℝ+

É possível perceber que 𝑋|𝑦, 𝛾, 𝜙 ~ 𝐵𝑖𝑛(𝑦, 𝛾) e 𝑌|𝛾, 𝑥, 𝑦 ~ 𝑃𝑜𝑖𝑠𝑠𝑜𝑛(𝜙).

Calculando o logaritmo natural da verossimilhança temos

𝑙(𝛾, 𝜙) ∝ 𝑥 𝑙𝑛 𝛾 + (𝑦 − 𝑥) 𝑙𝑛(1 − 𝛾) − 𝜙 + 𝑦 𝑙𝑛 𝜙

Derivando 𝑙(𝛾, 𝜙) temos

𝜕𝑙(𝛾, 𝜙)

𝜕𝛾=

𝑥

𝛾−

𝑦 − 𝑥

1 − 𝛾

𝜕²𝑙(𝛾, 𝜙)

𝜕𝛾²= −

𝑥

𝛾²−

𝑦 − 𝑥

(1 − 𝛾)²

𝜕²𝑙(𝛾, 𝜙)

𝜕𝛾𝜕𝜙= 0

𝜕𝑙(𝛾, 𝜙)

𝜕𝜙= −1 +

𝑦

𝜙

𝜕2𝑙(𝛾, 𝜙)

𝜕𝜙2= −

𝑦

𝜙2

𝜕²𝑙(𝛾, 𝜙)

𝜕𝜙𝜕𝛾= 0

Como 𝐸(𝑌|𝛾, 𝜙) = 𝜙 e 𝐸(𝑋|𝛾, 𝜙) = 𝐸[𝐸[𝑋|𝑌, 𝛾, 𝜙]] = 𝐸[𝑌𝛾|𝛾, 𝜙] = 𝛾𝜙, então

𝐼𝐹(𝛾, 𝜙) =

[ 𝜙 (

1

𝛾(1 − 𝛾)) 0

01

𝜙]

Logo,

𝜋(𝛾, 𝜙) ∝ |𝐼𝐹(𝛾, 𝜙)|1

2

𝜋(𝛾, 𝜙) ∝ 𝛾−12(1 − 𝛾)−

12 𝐼(0,1)(𝛾)𝐼(0,∞)(𝜙)

a qual não é integrável, isto é, não é própria.

5.2.2.2. Priori de máxima entropia

Na classe das prioris não informativas destacamos em particular as prioris de

máxima entropia cujo conceito foi extraído de Berger (1985). Frequentemente temos

disponível uma informação atual sobre a priori, e ao mesmo tempo desejamos que a

priori escolhida seja o mais não informativa possível. Para resolver esse problema

fazemos uso do conceito de entropia.

Por exemplo, assuma que saibamos que Θ = {𝜃1, 𝜃2, 𝜃3, … , 𝜃𝑛}, ou seja, dispomos

de uma informação inicial sobre a priori, que neste caso corresponde a informação

Page 21: INFERÊNCIA BAYESIANA COMO UM PROCEDIMENTO DE …laurarifo/alunos/monografiaMayara.pdf · Teoria da decisão ... Comparação das probabilidades de acerto dos artigos definidos e

19

sobre o espaço paramétrico discreto e finito. Suponha que 𝜋𝑖 = 𝜋(𝜃 = 𝜃𝑖) = 1 e 𝜋𝑘 =

𝑝(𝜃 = 𝜃𝑘) = 0 para 𝑘 ≠ 𝑖. Assim, a entropia de 𝜃 é

𝐻(𝜃) = −∑𝜋𝑗 log 𝜋𝑗

𝑛

𝑗=1

= 0

Ou seja, não temos incerteza alguma sobre o parâmetro 𝜃, uma vez que sabemos

que 𝜃 assume o valor 𝜃𝑖 com probabilidade 1.

Suponha agora que desejamos uma priori que seja o mais não informativa

possível, ou seja, queremos encontrar uma distribuição a priori que maximize a

entropia respeitando a restrição ∑ 𝜋(𝜃𝑗) = 1𝑛𝑗=1 .

Tem-se que

𝐻(𝜃) = −∑𝜋𝑗 log 𝜋𝑗

𝑛

𝑗=1

≤ log 𝑛

Prova: seja 𝑢(𝜃) =1

|Θ| a função de distribuição de probabilidade uniforme sobre o

conjunto Θ. Calculando a entropia relativa entre 𝑢(𝜃) e 𝜋(𝜃), temos

𝐷(𝜋||𝑢) = ∑𝜋(𝜃) log𝜋(𝜃)

𝑢(𝜃)= ∑𝜋(𝜃) (log𝜋(𝜃) + log(|Θ|)) = −𝐻(𝜃) + log (|Θ|)

e como 0 ≤ 𝐷(𝜋||𝑢) então

0 ≤ −𝐻(𝜃) + log (|Θ|)

Como log(|Θ|) = log 𝑛,

𝐻(𝜃) ≤ log 𝑛

Assim 𝑙𝑜𝑔 𝑛 é a máxima entropia que podemos encontrar para 𝜃. Ou seja,

definindo a distribuição 𝜋(𝜃𝑖) = 1/𝑛 para 𝑖 = 1,… , 𝑛 obtemos uma priori que contém

a máxima incerteza sobre o parâmetro. Podemos notar que tal priori é não informativa.

Além disso, é importante notar que para este exemplo, partindo de uma

informação inicial sobre o parâmetro, encontramos uma priori que seja o mais não

informativa possível através da maximização da entropia.

5.2.2.3. Priori de Berger e Bernardo

A priori de Berger e Bernardo, ou priori de referência é baseada no conceito que

na inferência bayesiana, assim como em outras áreas científicas, a escolha da priori

deve ser escolhida por convenção, sendo um padrão de referência para os estatísticos.

Page 22: INFERÊNCIA BAYESIANA COMO UM PROCEDIMENTO DE …laurarifo/alunos/monografiaMayara.pdf · Teoria da decisão ... Comparação das probabilidades de acerto dos artigos definidos e

20

De acordo com Paulino, Turkman and Murteira (2003), a priori de referência foi uma

ideia de Bernardo que pensou em construir uma distribuição de referência, de modo

que um investigador que utilizou-se de uma priori subjetiva, possa comparar a

posteriori obtida com a posteriori de referência.

Berger, Bernardo and Sun (2009) nos mostram uma fórmula simples de como

obter uma priori de referência. Seja um modelo com densidade 𝑓(𝒙|𝜃), onde 𝒙 =

(𝑥1, 𝑥2, … , 𝑥𝑛) e 𝜃 um parâmetro contínuo desconhecido, a fórmula para a priori 𝜋(𝜃)

é tal que

𝜋(𝜃) = lim𝑘→∞

𝑓𝑘(𝜃)

𝑓𝑘(𝜃0)

e

𝑓𝑘(𝜃) = exp {∫𝑓(𝑥(𝑘)|𝜃) 𝑙𝑜𝑔[𝜋∗(𝜃|𝑥(𝑘))] 𝑑𝑥(𝑘)}

Onde 𝜃0 é um ponto interior do espaço paramétrico Θ, 𝑥(𝑘) = {𝑥1, 𝑥2, … , 𝑥𝑘} são k

replicações condicionalmente independentes de x, e 𝜋∗(𝜃|𝑥(𝑘)) é a distribuição a

posteriori correspondente a uma priori 𝜋∗(𝜃) fixa e arbitrária.

Walker and Peña (2011) tratam a escolha da priori de referência como um

problema de decisão estatística que é mostrado abaixo.

Consideraremos o espaço de decisão como a classe 𝒞 de prioris paramétricas

definidas em Θ e Π∗ é uma medida de probabilidade representando a crença a respeito

de 𝑓.

Seja a função de utilidade

𝑈𝑛(𝜋, 𝜃) = 𝐷𝐾𝐿(𝑚(. ; 𝜋)||𝑓𝑛(. ))

onde 𝑓𝑛(𝒙) = 𝑓(𝑥1, 𝑥2, … , 𝑥𝑛) e 𝑚(. ; 𝜋) = ∫𝑓(𝒙|𝜃)𝜋(𝜃)𝑑𝜃. Lembrando da teoria da

informação 𝐷𝐾𝐿 é a entropia relativa entre 𝑚(. ; 𝜋) e 𝑓𝑛(. ). A função de utilidade mede

a discrepância entre a distribuição conjunta de 𝒙 e a distribuição preditiva conjunta de

𝒙 sob o modelo paramétrico dado pela priori 𝜋(𝜃). Pode ser interpretada também

como uma medida de compatibilidade entre os dados e a priori. Assim, um valor baixo

de 𝑈𝑛(𝜋, 𝜃) representa pouca compatibilidade. Por se tratar de uma priori não

informativa, é desejável que esta compatibilidade seja a menor possível. Logo, a

solução do problema de decisão é dada pela maximização da utilidade esperada

�̅�𝑛(𝑓) = ∫𝑈𝑛(𝜋, 𝜃)Π∗(𝑑𝑓)

Page 23: INFERÊNCIA BAYESIANA COMO UM PROCEDIMENTO DE …laurarifo/alunos/monografiaMayara.pdf · Teoria da decisão ... Comparação das probabilidades de acerto dos artigos definidos e

21

Quando assumimos que Π∗(. ) ≡ 𝜋(. ) então a utilidade esperada é

�̅�𝑛(𝑓) = ∫𝑈𝑛(𝜋, 𝜃)𝜋(𝜃)𝑑𝜃

�̅�𝑛(𝑓) = ∫∫ log (𝑓(𝒙|𝜃)

𝑚(𝒙; 𝜋)) 𝑓(𝒙|𝜃)𝑑𝒙 𝜋(𝜃)𝑑𝜃

�̅�𝑛(𝑓) = ∫∫ log (𝑓(𝒙|𝜃)

𝑚(𝒙; 𝜋)×

𝜋(𝜃)

𝜋(𝜃))𝑓(𝒙|𝜃)𝜋(𝜃) ×

𝑚(𝒙; 𝜋)

𝑚(𝒙; 𝜋)𝑑𝒙 𝑑𝜃

�̅�𝑛(𝑓) = ∫∫ log (𝜋(𝜃|𝒙)

𝜋(𝜃)) 𝜋(𝜃|𝒙)𝑚(𝒙; 𝜋)𝑑𝜃𝑑𝒙 = 𝐼(𝒙; 𝜃)

sendo 𝐼(𝒙, 𝜃) a informação mútua entre 𝒙 e 𝜃.

Lembrando que 𝒙 = (𝑥1, 𝑥2, … , 𝑥𝑛) definimos a priori de referência como a

priori que maximiza

lim𝑛→∞

𝐼(𝒙; 𝜃)

Walker and Peña (2011) mostram que a priori de Berger e Bernardo é a solução

da minimização de 𝑚(𝒙; 𝜋) e também é equivalente à maximização de

𝐷𝐾𝐿(𝑚(. ; 𝜋)||𝑚(. ; Π∗))

Então, a priori ótima é aquela que maximiza a entropia relativa entre a atual

distribuição preditiva conjunta dos dados e a distribuição preditiva conjunta dos dados

correspondente a priori 𝜋(∙).

Bernardo (2005) mostra que no caso uniparamétrico, a priori de referência

coincide com a priori de Jeffreys. Portanto, a priori de Jeffreys é um caso particular da

priori de referência, sob espaços unidimensionais.

5.2.3. Misturas de prioris

Em alguns problemas os dados são constituídos por grupos que apresentam

comportamento distintos. Nestes, as distribuições a priori definidas anteriormente não

são as mais adequadas, uma vez que não consideram que em cada grupo pode existir

tal diferença de comportamento. Sendo assim é útil definir distribuições a prioris

compostas por misturas de distribuições. Assim, seja um conjunto de dados composto

por k grupos, definimos a priori

𝜋(𝜃) = ∑ 𝑤𝑖

𝑘

𝑖=1𝜋𝑖(𝜃)

Page 24: INFERÊNCIA BAYESIANA COMO UM PROCEDIMENTO DE …laurarifo/alunos/monografiaMayara.pdf · Teoria da decisão ... Comparação das probabilidades de acerto dos artigos definidos e

22

Com 𝑘 ≥ 1, 𝑤𝑖 > 0 com 𝑤1 + 𝑤2 + ⋯+ 𝑤𝑘 = 1 para 𝑗 = 1,2, … , 𝑘 e cada

𝜋𝑖(𝜃) > 0 𝑒 ∫ 𝜋𝑖(𝜃)𝑑𝜃

𝜃= 1 para 𝑗 = 1,2, … , 𝑘. Dados que os pesos 𝑤𝑖 são

desconhecidos, definimos uma distribuição a priori para o vetor de pesos

𝒘 = (𝑤1, 𝑤2, … , 𝑤𝑘) como 𝒘 ~ 𝐷𝑖𝑟𝑖𝑐ℎ𝑙𝑒𝑡(𝛼1, 𝛼2, … , 𝛼𝑘).

5.3. Inferência preditiva

Na inferência frequentemente estamos interessados em fazer predições de

observações após termos observados os dados. Este problema chamamos de inferência

preditiva.

A inferência preditiva consiste em fazer inferências de uma observação futura

𝑌 por meio da distribuição a posteriori 𝜋(𝜃|𝒙) calculado com base na amostra 𝑿 = 𝒙.

Tal predição é feita através da distribuição preditiva 𝑓(𝑦|𝒙), cujo cálculo é explicado

abaixo.

Observamos que queremos a distribuição de 𝑌|𝒙 não interessando o parâmetro

𝜃, ou seja, devemos integrar no espaço paramétrico de 𝜃 para obter a distribuição de

𝑌|𝒙. Podemos utilizar a distribuição a priori ou a posteriori do parâmetro para obter a

distribuição preditiva. Quando usamos a distribuição a priori,

𝑓(𝑦|𝒙) = ∫𝑓(𝑦|𝒙, 𝜃)𝜋(𝜃)𝑑𝜃

Θ

a denominamos por distribuição preditiva a priori.

No entanto, se temos a distribuição a posteriori é mais vantajoso usá-la ao invés

da priori dado que a posteriori incorpora mais informações sobre o parâmetro. Assim,

𝑓(𝑦|𝒙) = ∫𝑓(𝑦|𝒙, 𝜃)𝜋(𝜃|𝒙)𝑑𝜃

Θ

sendo denominada distribuição preditiva a posteriori.

Nota-se ainda que se as observações forem condicionalmente independentes

dado 𝜃 então 𝑝(𝑦|𝒙, 𝜃) = 𝑝(𝑦|𝜃). Logo, as distribuições preditivas serão

𝑓(𝑦|𝒙) = ∫𝑓(𝑦|𝜃)𝜋(𝜃)𝑑𝜃

Θ

𝑓(𝑦|𝒙) = ∫𝑓(𝑦|𝜃)𝜋(𝜃/𝒙)𝑑𝜃

Θ

Page 25: INFERÊNCIA BAYESIANA COMO UM PROCEDIMENTO DE …laurarifo/alunos/monografiaMayara.pdf · Teoria da decisão ... Comparação das probabilidades de acerto dos artigos definidos e

23

Exemplo 10: Suponha que um investigador está interessado no estudo de fumantes em

uma população. Ele não sabe exatamente qual é a proporção de fumantes, mas acredita

que possa ser modelada por uma distribuição Beta. Para conduzir o estudo, foi coletada

uma amostra aleatória 𝑌1, 𝑌2, … , 𝑌𝑛 de tamanho 𝑛 e a variável 𝑋 = ∑ 𝑌𝑖𝑛𝑖=1 designa o

número de fumantes nesta amostra. Logo, 𝑋 pode ser modelada por uma distribuição

Binomial. Então, a verossimilhança será

𝑓(𝑥|𝜃) = (𝑛𝑥) 𝜃𝑥(1 − 𝜃)𝑛−𝑥 𝐼[0,1](𝜃) 𝐼{0,1,2,…,𝑛}(𝑥)

e a priori

𝜋(𝜃) =1

𝐵(𝑎, 𝑏) 𝜃𝑎−1(1 − 𝜃)𝑏−1 𝐼[0,1](𝜃)

Então a posteriori será

𝜋(𝜃|𝑥) =(𝑛𝑥) 𝜃𝑥(1 − 𝜃)𝑛−𝑥 ×

1𝐵(𝑎, 𝑏)

𝜃𝑎−1(1 − 𝜃)𝑏−1 𝐼[0,1](𝜃)

∫ (𝑛𝑥) 𝜃𝑥(1 − 𝜃)𝑛−𝑥 ×

1𝐵(𝑎, 𝑏)

𝜃𝑎−1(1 − 𝜃)𝑏−1𝑑𝜃1

0

𝜋(𝜃|𝑥) =(𝑛𝑥)

1𝐵(𝑎, 𝑏)

𝜃𝑥+𝑎−1(1 − 𝜃)𝑛−𝑥+𝑏−1 𝐼[0,1](𝜃)

(𝑛𝑥)

1𝐵(𝑎, 𝑏) ∫ 𝜃𝑥+𝑎−1(1 − 𝜃)𝑛−𝑥+𝑏−1𝑑𝜃

1

0

𝜋(𝜃|𝑥) = 𝜃𝑥+𝑎−1(1 − 𝜃)𝑛−𝑥+𝑏−1 𝐼[0,1](𝜃)

𝐵(𝑥 + 𝑎, 𝑛 − 𝑥 + 𝑏)

Ou seja, 𝜃|𝑥 tem distribuição 𝐵𝑒𝑡𝑎(𝑥 + 𝑎, 𝑛 − 𝑥 + 𝑏).

Suponha agora que queremos predizer o resultado de um novo indivíduo,

independente dos 𝑛 indivíduos selecionados na amostra. Assim,

𝜋(𝑦|𝜃) = 𝜃𝑦(1 − 𝜃)1−𝑦 𝐼[0,1](𝜃) 𝐼{0,1}(𝑦)

A distribuição preditiva é

𝑓(𝑦|𝑥) = ∫ 𝜃𝑦(1 − 𝜃)1−𝑦 𝜃𝑥+𝑎−1(1 − 𝜃)𝑛−𝑥+𝑏−1

𝐵(𝑥 + 𝑎, 𝑛 − 𝑥 + 𝑏)

1

0

𝑑𝜃 𝐼{0,1}(𝑦)

𝑓(𝑦|𝑥) = 1

𝐵(𝑥 + 𝑎, 𝑛 − 𝑥 + 𝑏)∫ 𝜃𝑦+𝑥+𝑎−1(1 − 𝜃)𝑛−𝑥+𝑏−𝑦

1

0

𝑑𝜃 𝐼{0,1}(𝑦)

𝑓(𝑦|𝑥) = 𝐵(𝑦 + 𝑥 + 𝑎, 𝑛 − 𝑥 + 𝑏 + 1 − 𝑦)

𝐵(𝑥 + 𝑎, 𝑛 − 𝑥 + 𝑏) 𝐼{0,1}(𝑦)

De acordo com Paulino, Turkman and Murteira (2003), se a inferência preditiva

sobre Y é tratada como um problema de decisão utilizando a função perda 𝑙(𝑦, 𝑎), então

Page 26: INFERÊNCIA BAYESIANA COMO UM PROCEDIMENTO DE …laurarifo/alunos/monografiaMayara.pdf · Teoria da decisão ... Comparação das probabilidades de acerto dos artigos definidos e

24

a ação 𝑎 a ser tomada, ou seja, a predição ótima deve minimizar a perda preditiva

esperada

𝐸[𝑙(𝑌, 𝑎)|𝑥] = ∫ 𝑙(𝑦, 𝑎)𝑓(𝑦|𝑥)𝑑𝑦

6. Comparação de modelos

A diversidade de crenças a priori gera um conjunto de modelos candidatos ao

problema em estudo, representados por

ℬ = {𝑓𝑖(𝑦|𝜃), 𝜋𝑖(𝜃), 𝑖 ∈ 𝐼}

Dado que são vários os modelos possíveis, alguns métodos bayesianos são

capazes de escolher o melhor modelo de acordo com determinados critérios. Dentre

eles podemos citar os critérios BIC (Bayesian Information Criterion) e DIC (Deviance

Information Criterion).

6.1. BIC

A estatística BIC (Schwarz, 1978) é um critério para seleção de modelos definido

como

𝐵𝐼𝐶 = −2 ln (𝑓(𝒙|𝜃)) + 𝑘𝑙𝑛 𝑛

em que 𝜃 é o estimador de máxima verossimilhança, k o número de parâmetros do

modelo e n a quantidade de dados (Kadane and Lazar, 2004). Para comparação de

modelos escolhemos aquele cuja estatística BIC seja menor.

6.2. DIC

Na inferência bayesiana, o método mais comum para escolha de modelos é

critério Deviance Information Criterion (DIC), sendo uma generalização dos critérios

frequentistas BIC e AIC. De acordo com Spiegelhalter et al. (2002), para um conjunto

de dados 𝒙 e parâmetro do modelo 𝜃, a estatística Deviance é definida como

𝐷(𝒙, 𝜃) = −2ln (𝑓(𝒙|𝜃))

Sejam também

𝐷�̅�(𝑥) = 𝐷(𝒙, �̅�)

�̅�(𝒙, 𝜃) = 𝐸(𝐷(𝒙, 𝜃)|𝒙)

𝑝𝐷 = �̅�(𝒙, 𝜃) − 𝐷�̅�(𝑥)

Page 27: INFERÊNCIA BAYESIANA COMO UM PROCEDIMENTO DE …laurarifo/alunos/monografiaMayara.pdf · Teoria da decisão ... Comparação das probabilidades de acerto dos artigos definidos e

25

o deviance calculado na média a posteriori (�̅�), deviance médio a posteriori e o número

efetivo de parâmetros, respectivamente, calculamos o DIC como

𝐷𝐼𝐶 = 2�̅�(𝒙, 𝜃) − 𝐷�̅�(𝑥)

ou equivalentemente,

𝐷𝐼𝐶 = 𝐷�̅�(𝑥) + 2𝑝𝐷

Spiegelhalter et al. (2002) ainda definiram a estatística DIC em função da distância

de Kullback-Leibler ao demonstrar que pD pode ser definido como

𝑝𝐷 = E𝜃|𝒙[𝐷𝐾𝐿(𝑓(𝒙|𝜃)||𝑓(𝒙|�̅�))]

Assim como o critério BIC, o melhor modelo, dentro de um conjunto de modelos

possíveis em estudo, é aquele que possuir o menor valor de BIC.

7. Aplicação

7.1. Objetivo

A fim de aplicar os conhecimentos adquiridos nos itens anteriores e mostrar

como a inferência bayesiana é utilizada para resolver os problemas em diversas áreas,

utilizamos métodos bayesianos em um banco de dados referente a um estudo na área

linguística. O presente estudo, cedido por Arvigo (2014) avalia crianças com patologias

de linguagem: Dificuldade de Aprendizagem (DA), Déficit Específico de Linguagem

(DEL) e Síndrome de Down (SD). O objetivo é analisar se tais grupos de crianças

apresentam dificuldades na compreensão e uso de determinantes (artigos),

principalmente com relação à definitude (artigo definido). Deseja-se também

determinar se há diferenças entre os grupos com patologias de linguagem entre si e

com relação ao grupo de controle.

7.2. Descrição dos dados

A pesquisa é composta por quatro grupos de crianças com dificuldades na

aquisição da linguagem e um grupo controle composto por crianças típicas do estado

de São Paulo que são apresentados abaixo:

Page 28: INFERÊNCIA BAYESIANA COMO UM PROCEDIMENTO DE …laurarifo/alunos/monografiaMayara.pdf · Teoria da decisão ... Comparação das probabilidades de acerto dos artigos definidos e

26

Tabela 1 - Grupos avaliados na pesquisa

Grupo Descrição Tamanho da amostra

DEL Déficit Específico de Linguagem 9

DA Dificuldade de Aprendizagem 32

GC Controle – Desenvolvimento Típico 11

SD Síndrome de Down 10

As crianças selecionadas na amostra que compõem os grupos de patologias

passaram por avaliação multidisciplinar específica para obtenção dos respectivos

diagnósticos em clínicas e centros voltados para o diagnóstico e tratamento de cada

patologia. Para a participação na pesquisa as crianças foram selecionadas via

prontuário, sendo os critérios de inclusão/exclusão especificados a seguir:

Ser diagnosticada com alguma das patologias envolvidas no estudo;

Crianças com Espectro Autístico ou Síndrome de Down devem apresentar

oralidade, ou seja, devem ter adquirido linguagem oral com produção

mínima de duas palavras ou sentenças simples.

Para as crianças típicas que compõem o grupo controle os critérios eram não

apresentar qualquer dificuldade ou queixa referente à linguagem e não estar

ou ter passado em algum momento da vida por atendimento fonoaudiológico.

A pesquisa consiste de três experimentos que avaliam a compreensão e uso de

artigos aplicados aos grupos descritos na Tabela 1. Os dados foram coletados por

Arvigo (2014) nas cidades de Bauru-SP (crianças com DEL) e Jundiaí-SP (demais

grupos).

7.2.1. Experimento I

O primeiro experimento têm como principal objetivo observar se as crianças

conseguem compreender os determinantes. O experimento possui duas condições:

determinante definido no plural e determinante definido no singular, além de duas

situações controle compostas pelo determinante indefinido ‘um’ e por ‘todos os’. No

total são 16 situações, sendo que em cada uma anota-se se a criança conseguiu ou não

identificar corretamente o que é proposto pela sentença.

Page 29: INFERÊNCIA BAYESIANA COMO UM PROCEDIMENTO DE …laurarifo/alunos/monografiaMayara.pdf · Teoria da decisão ... Comparação das probabilidades de acerto dos artigos definidos e

27

7.2.2. Experimento II

Esse experimento avalia se as crianças conseguem produzir corretamente os

determinantes definidos e indefinidos dentro de uma situação. A criança deverá se

referir a um objeto simples, fazendo uso de “o X”; e a um objeto dentro de um conjunto

de objetos semelhantes, fazendo uso de “um X”. O experimento é composto por 12

inquisições, sendo que 6 empregam o determinante definido e 6 o indefinido. Assim

como no experimento I, anota-se se a criança respondeu corretamente ou se ela errou.

7.2.3. Experimento III

O presente experimento avalia como as crianças produzem o determinante em

narrativas. Nesse experimento são contadas histórias à criança que ao final é indagada

sobre o desfecho em que ela deve selecionar o determinante definido ou indefinido,

conforme o sugerido na narrativa. O experimento é composto por 10 histórias em que

se alternam as condições para determinante definido e indefinido.

7.3. Análises iniciais

Primeiramente verificamos se os grupos eram homogêneos. Para tal verificação

definimos a variável 𝑋𝑖𝑗𝑘 como

𝑋𝑖𝑗𝑘 = {1 se criança i acertou sentença j do experimento k

−1 se errou

Para cada experimento 𝑘 = 1,2,3 avaliamos o comportamento da soma dos

acertos (∑ 𝑋𝑖𝑗𝑘𝑖 ) de cada indivíduo envolvido no experimento através de um gráfico da

soma acumulada pela ordem das sentenças separados por grupo. Os gráficos obtidos

são apresentados abaixo:

Page 30: INFERÊNCIA BAYESIANA COMO UM PROCEDIMENTO DE …laurarifo/alunos/monografiaMayara.pdf · Teoria da decisão ... Comparação das probabilidades de acerto dos artigos definidos e

28

Através dos gráficos é possível perceber que os grupos possuem

heterogeneidade. Tal característica é claramente perceptível no grupo DA no qual

percebemos a presença de crianças com desempenhos ótimo, médio e ruim. Os outros

grupos também aparentam ser heterogêneos nos três experimentos.

Sendo assim, para fazer a comparação dos grupos, optamos por dividi-los em

subgrupos de modo que dentro de cada subgrupo os indivíduos apresentem

desempenho semelhante. Propusemos, então, uma subdivisão baseada em quartis.

Temos que 𝑋𝑗𝑘 = ∑ 𝑋𝑖𝑗𝑘𝑖 pode ser escrito como

𝑋𝑗𝑘 = 𝑆𝑗𝑘 − 𝐹𝑗𝑘

em que 𝑆𝑗𝑘 = ∑ 𝑆𝑖𝑗𝑘𝑖 onde

𝑆𝑖𝑗𝑘 = {1 𝑠𝑒 𝑐𝑟𝑖𝑎𝑛ç𝑎 𝑗 𝑎𝑐𝑒𝑟𝑡𝑎 𝑠𝑒𝑛𝑡𝑒𝑛ç𝑎 𝑖 𝑑𝑜 𝑒𝑥𝑝𝑒𝑟𝑖𝑚𝑒𝑛𝑡𝑜 𝑘

0 𝑐𝑎𝑠𝑜 𝑐𝑜𝑛𝑡𝑟á𝑟𝑖𝑜

2 4 6 8 10

-10

05

10

DA

Sentenças

Som

a d

as r

esposta

s

2 4 6 8 10

-10

05

10

DEL

Sentenças

Som

a d

as r

esposta

s

2 4 6 8 10

-10

05

10

SD

Sentenças

Som

a d

as r

esposta

s

2 4 6 8 10

-10

05

10

Controle

Sentenças

Som

a d

as r

esposta

s

Experimento III

2 4 6 8 10 12

-10

05

DA

Sentenças

Som

a d

as r

esposta

s

2 4 6 8 10 12

-10

05

DEL

Sentenças

Som

a d

as r

esposta

s

2 4 6 8 10 12

-10

05

SD

Sentenças

Som

a d

as r

esposta

s

2 4 6 8 10 12

-10

05

Controle

Sentenças

Som

a d

as r

esposta

s

Experimento II

Figura 4 - Soma acumulada das sentenças no experimento II

5 10 15

-15

-55

15

DA

Sentenças

Som

a d

as r

esposta

s

5 10 15

-15

-55

15

DEL

Sentenças

Som

a d

as r

esposta

s

5 10 15

-15

-55

15

SD

Sentenças

Som

a d

as r

esposta

s

5 10 15

-15

-55

15

Controle

Sentenças

Som

a d

as r

esposta

s

Experimento I

Figura 3 - Soma acumulada das sentenças no experimento I

Figura 5 - Soma acumulada das sentenças no experimento III

Page 31: INFERÊNCIA BAYESIANA COMO UM PROCEDIMENTO DE …laurarifo/alunos/monografiaMayara.pdf · Teoria da decisão ... Comparação das probabilidades de acerto dos artigos definidos e

29

e 𝐹𝑗𝑘 = 𝑛𝑘 − 𝑆𝑗𝑘 em que 𝑛𝑘 é a quantidade total de sentenças no experimento 𝑘. Assim,

𝑆𝑗𝑘 é o total de sentenças acertadas pela criança 𝑗 no experimento 𝑘 e 𝐹𝑗𝑘 é a quantidade

de sentenças que a criança 𝑗 errou no experimento 𝑘.

Além disso, consideraremos que 𝑆𝑗𝑘| 𝜃 tem distribuição 𝐵𝑖𝑛𝑜𝑚𝑖𝑎𝑙(𝑛𝑘, 𝜃), sendo

𝜃 a probabilidade de acertar uma questão. Considerando que um indivíduo tem a

mesma probabilidade de errar ou acertar, ou seja 𝜃 = 1/2, determinamos os

subgrupos de acordo com os quartis da distribuição 𝑆𝑗𝑘. Deste modo, o primeiro

subgrupo é composto por indivíduos cuja soma acumulada esteja abaixo do 1° quartil

de 𝑆𝑗𝑘| 𝜃; o segundo é composto por indivíduos que tenham a soma entre os 1° e 3°

quartis; e por fim, o terceiro subgrupo é composto pelas crianças cuja soma esteja

acima do 3° quartil.

No experimento I, 𝑛1 = 16, então 𝑆𝑗1|𝜃~𝐵𝑖𝑛𝑜𝑚𝑖𝑎𝑙(16,1/2). O primeiro quartil

da distribuição é 7 e o terceiro quartil é 8. No experimento II, 𝑛2 = 12 e os primeiro e

terceiro quartis de 𝑆𝑗2 são 5 e 7, respectivamente. E por fim, no experimento III, 𝑛3 =

10 e portanto os primeiro e terceiro quartis são 4 e 6, respectivamente. Usando que

𝑋𝑗𝑘 = 𝑆𝑗𝑘 − (𝑛𝑘 − 𝑆𝑗𝑘) = 2 ∗ 𝑆𝑗𝑘 − 𝑛𝑘,

os subgrupos para todos os experimentos são

𝐺1: { 𝑗 | 𝑋𝑗𝑘 < −2 }

𝐺2: { 𝑗 | − 2 ≤ 𝑋𝑗𝑘 < 2 }

𝐺3: { 𝑗 |𝑋𝑗𝑘 > 2 }

Os gráficos das somas acumuladas feitos considerando a subdivisão dos

subgrupos por quartis são apresentados abaixo:

Page 32: INFERÊNCIA BAYESIANA COMO UM PROCEDIMENTO DE …laurarifo/alunos/monografiaMayara.pdf · Teoria da decisão ... Comparação das probabilidades de acerto dos artigos definidos e

30

Figura 7 - Soma acumulada das sentenças no experimento II

Figura 6 - Soma acumulada das sentenças no experimento I

Page 33: INFERÊNCIA BAYESIANA COMO UM PROCEDIMENTO DE …laurarifo/alunos/monografiaMayara.pdf · Teoria da decisão ... Comparação das probabilidades de acerto dos artigos definidos e

31

Alguns subgrupos não foram mostrados nas figuras acima pois nessa amostra

não havia indivíduos com desempenho característico destes subgrupos. Analisando as

Figuras 6,7 e 8 é possível notar que nos três experimentos os indivíduos com

desempenho semelhante estão no mesmo subgrupo. Portanto, temos indício de que a

classificação baseada em quartis é adequada.

7.4. Definindo a distribuição a priori.

Definimos a variável

𝑋𝑖𝑗𝑘𝑙 = {1 se criança i do grupo j acertou a sentença k do experimento l

0 se errou

em que 𝑋𝑖𝑗𝑘𝑙~𝐵𝑒𝑟𝑛𝑜𝑢𝑙𝑙𝑖(𝜃𝐴). Seja ainda 𝑋𝑖𝑘𝑙 = ∑ 𝑋𝑖𝑗𝑘𝑙𝑗 a quantidade de acertos da

criança 𝑖 do grupo 𝑙 no experimento 𝑘 e 𝑋𝑘𝑙 = ∑ 𝑋𝑖𝑘𝑙𝑖 , a soma total de acertos de todas

as crianças do grupo 𝑙 no experimento 𝑘. Considerando que as respostas das crianças

são independentes do resultado das outras, então 𝑋𝑖𝑘𝑙 , 𝑖 = 1,… , 𝑛𝑙 formam uma

amostra independente e identicamente distribuída com distribuição 𝐵𝑖𝑛𝑜𝑚𝑖𝑎𝑙(𝑛𝑙 , 𝜃𝐴).

Inicialmente, propusemos distribuições a priori que não levam em consideração

a divisão em subgrupos. Utilizamos a priori conjugada e a priori de Jeffreys. Para cada

grupo temos que a verossimilhança será

Figura 8 - Soma acumulada das sentenças no experimento III

Page 34: INFERÊNCIA BAYESIANA COMO UM PROCEDIMENTO DE …laurarifo/alunos/monografiaMayara.pdf · Teoria da decisão ... Comparação das probabilidades de acerto dos artigos definidos e

32

𝑓(𝒙|𝜃𝐴) ∝ 𝜃𝐴𝑦𝑘(1 − 𝜃𝐴)𝑛𝑘−𝑦𝑘

em que 𝑦𝑘 é a soma dos acertos das sentenças de todos os membros do grupo no

experimento k=I,II,III e 𝑛𝑘 e o total de sentenças do grupo no experimento k. Podemos

reconhecer o núcleo da verossimilhança, em função de 𝜃𝐴, como o núcleo de uma

distribuição 𝐵𝑒𝑡𝑎(𝛼 , 𝛽). Portanto, a família conjugada é a família 𝐵𝑒𝑡𝑎(𝛼 , 𝛽). Assim, a

priori conjugada é

𝜋(𝜃𝐴) = Γ(𝛼 + 𝛽)

Γ(𝛼)Γ(𝛽)𝜃𝐴

𝛼−1(1 − 𝜃𝐴)𝛽−1Ι(0,1)(𝜃𝐴)

Se considerarmos uma priori não informativa, isto é, com 𝛼 = 1 e 𝛽 = 1, então

𝜃𝐴~𝐵𝑒𝑡𝑎(1,1). Neste caso, a distribuição a posteriori será uma 𝐵𝑒𝑡𝑎(1 + 𝑥𝑘𝑙 , 𝑛𝑘 + 1 −

𝑥𝑘𝑙), em que 𝑛𝑘 é o número total de sentenças do experimento 𝑘, ou seja, 𝑛𝑘 = 𝑘𝑝 ∗ 𝑛𝑙 ,

onde 𝑘1 = 16, 𝑘2 = 12 𝑒 𝑘3 = 10 são os totais de sentenças nos experimentos I, II e III,

respectivamente.

Para calcular a priori de Jeffreys, calculamos primeiramente a informação de

Fisher

𝑙(𝜃𝐴) = ln 𝑓(𝒙|𝜃𝐴)

∝ 𝑦𝑘 ln 𝜃𝐴 + (𝑛𝑘 − 𝑦𝑘)ln (1 − 𝜃𝐴)

𝜕𝑙(𝜃𝐴)

𝜕𝜃𝐴=

𝑦𝑘

𝜃𝐴−

𝑛𝑘 − 𝑦𝑘

1 − 𝜃𝐴

Assim,

𝜕²𝑙(𝜃𝐴)

𝜕𝜃𝐴²= −

𝑦𝑘

𝜃𝐴²−

𝑛𝑘 − 𝑦𝑘

(1 − 𝜃𝐴)²

𝐼(𝜃𝐴) = −𝐸 [−𝑌𝑘

𝜃𝐴²−

𝑛𝑘 − 𝑌𝑘

(1 − 𝜃𝐴)²|𝜃𝐴]

= 𝐸 [𝑌𝑘

𝜃𝐴²|𝜃𝐴] + 𝐸 [

𝑛𝑘 − 𝑌𝑘

(1 − 𝜃𝐴)²|𝜃𝐴]

Como 𝑌𝑘~𝐵𝑖𝑛𝑜𝑚𝑖𝑎𝑙(𝑛𝑘, 𝜃𝐴), então

𝐼(𝜃𝐴) = 𝑛𝑘𝜃𝐴

𝜃𝐴²+

𝑛𝑘 − 𝑛𝑘𝜃𝐴

(1 − 𝜃𝐴)²

= 𝑛𝑘 (1

𝜃𝐴(1 − 𝜃𝐴))

Logo,

𝜋𝐽(𝜃) ∝ 𝜃𝐴

12(1 − 𝜃𝐴)

12Ι(0,1)(𝜃𝐴)

Ou seja, a priori de Jeffreys tem distribuição 𝐵𝑒𝑡𝑎(1/2, 1/2).

Page 35: INFERÊNCIA BAYESIANA COMO UM PROCEDIMENTO DE …laurarifo/alunos/monografiaMayara.pdf · Teoria da decisão ... Comparação das probabilidades de acerto dos artigos definidos e

33

Para analisar o impacto da distribuição a priori na distribuição a posteriori,

propusemos diferentes valores para os hiperparâmetros da priori conjugada e os

gráficos das posterioris obtidas são apresentados abaixo

Figura 9 – Distribuições a posterioris Beta(𝑎 + 𝑥𝑘𝑙 , 𝑛𝑘 + 𝑏 − 𝑥𝑘𝑙) para diferentes valores de a e b

Analisando a figura 9, vemos que valores de hiperparâmetros entre 0 e 1, como

é o caso da priori de Jeffreys, não modificam a posteriori. Isto porque em todos os

experimentos a quantidade de dados é grande dado que para cada indivíduo temos 16

sentenças. Nota-se também que a medida que os valores dos hiperparâmetros

Page 36: INFERÊNCIA BAYESIANA COMO UM PROCEDIMENTO DE …laurarifo/alunos/monografiaMayara.pdf · Teoria da decisão ... Comparação das probabilidades de acerto dos artigos definidos e

34

aumentam as distribuições a posteriori são mais influenciadas pela distribuição a

priori considerada. Portanto, é importante escolher cuidadosamente tal distribuição

para que se consiga um resultado mais preciso.

Dado que não temos informações adicionais sobre o estudo, consideramos a

priori conjugada com hiperparâmetros a=1 e b=1 adequada para o problema em

estudo, uma vez que a distribuição a posteriori não é afetada com tal distribuição.

Utilizando a subdivisão dos grupos baseadas em quartis calculamos a

distribuição a posteriori da probabilidade de acerto nos experimentos. Considerando

que cada grupo é dividido em três subgrupos propusemos a distribuição a priori

𝜃𝐴~ 𝑤1𝐵𝑒𝑡𝑎(𝑎1, 𝑏1) + 𝑤2𝐵𝑒𝑡𝑎(𝑎2, 𝑏2) + 𝑤3𝐵𝑒𝑡𝑎(𝑎3, 𝑏3)

Para cada componente da mistura, usaremos a priori não informativa, isto é,

𝑎𝑖 = 1, 𝑏𝑖 = 1 para 𝑖 = 1,2,3. Dado ainda que as proporções populacionais de cada

subgrupo 𝒘 = (𝑤1, 𝑤2, 𝑤3) são desconhecidas, definimos (𝑤1, 𝑤2, 𝑤3) ~ 𝐷𝑖𝑟(1,1,1) e

utilizamos a quantidade de indivíduos em cada subgrupo, cuja distribuição é 𝒏 =

(𝑛1, 𝑛2, 𝑛3) ~ 𝑀𝑢𝑙𝑡𝑖𝑛𝑜𝑚𝑖𝑎𝑙(𝑤1, 𝑤2, 𝑤3), para determinar a distribuição de

𝒘 | 𝑛1, 𝑛2, 𝑛3, sendo esta uma 𝐷𝑖𝑟(𝑛1 + 1, 𝑛2 + 1, 𝑛3 + 1).

Deste modo,

𝜃𝐴|𝒙 = 𝑤1|𝒏 𝐵𝑒𝑡𝑎(𝑐1, 𝑑1) + 𝑤2|𝒏 𝐵𝑒𝑡𝑎(𝑐2, 𝑑2) + 𝑤3|𝒏 𝐵𝑒𝑡𝑎(𝑐3, 𝑑3)

em que 𝑐𝑖 = 1 + ∑ 𝑥𝑖𝑗𝑗 𝑒 𝑑𝑖 = 𝑛𝑖 + 1 − ∑ 𝑥𝑖𝑗𝑗 𝑖 = 1,2,3.

Para obter tais distribuições a posteriori, simulamos 1000 valores de 𝒘 e para

cada vetor simulado, calculamos 𝑓(𝜃𝐴|𝒙). Para decidir qual distribuição a priori era

mais adequada para o problema, utilizamos o critério DIC. Assim, em cada grupo

obtivemos as distribuições a posteriori utilizando as duas distribuições a priori

definidas acima e, para cada uma, calculamos os valores da estatística DIC. Utilizamos

a estatística DIC definida a partir da discrepância de Kullbak-Leibler (Spiegelhalter et

al (2002)).

Page 37: INFERÊNCIA BAYESIANA COMO UM PROCEDIMENTO DE …laurarifo/alunos/monografiaMayara.pdf · Teoria da decisão ... Comparação das probabilidades de acerto dos artigos definidos e

35

Figura 10 – Valores DIC no experimento I para a distribuição

a posteriori considerando subgrupos e, em vermelho, o valor

DIC para o modelo sem considerar subgrupos.

Figura 11 - Valores DIC no experimento II para a

distribuição a posteriori considerando subgrupos e, em

vermelho, o valor DIC para o modelo sem considerar

subgrupos.

Os resultados obtidos são mostrados a seguir:

A partir da análise das Figuras 10, 11 e 12 notamos que o modelo que considera

a subdivisão dentro dos grupos é mais adequada, uma vez que o valor da estatística DIC

para o modelo sem subgrupos (em vermelho) é sempre superior aos valores da

estatística DIC calculados para as 1000 simulações das distribuições a posteriori do

modelo com subgrupos. Portanto, a distribuição a priori a ser utilizada será

𝜃𝐴~ 𝑤1𝐵𝑒𝑡𝑎(1,1) + 𝑤2𝐵𝑒𝑡𝑎(1,1) + 𝑤3𝐵𝑒𝑡𝑎(1,1)

Figura 12 - Valores DIC no experimento I para a distribuição

a posteriori considerando subgrupos e, em vermelho, o valor

DIC para o modelo sem considerar subgrupos.

Page 38: INFERÊNCIA BAYESIANA COMO UM PROCEDIMENTO DE …laurarifo/alunos/monografiaMayara.pdf · Teoria da decisão ... Comparação das probabilidades de acerto dos artigos definidos e

36

As distribuições a posteriori obtidas utilizando a distribuição a priori definida

acima são mostradas abaixo:

Figura 13 - Distribuições a posteriori de 𝜃𝐴 para o experimento I

Figura 14 - Distribuições a posteriori de 𝜃𝐴 para o experimento II

Page 39: INFERÊNCIA BAYESIANA COMO UM PROCEDIMENTO DE …laurarifo/alunos/monografiaMayara.pdf · Teoria da decisão ... Comparação das probabilidades de acerto dos artigos definidos e

37

Analisando as Figuras 13, 14 e 15 percebemos que o comportamento das

distribuições a posteriori nos dois primeiros experimentos são semelhantes, o que não

ocorre com o terceiro experimento. Isto indica que, aparentemente, há problemas no

delineamento das questões neste experimento, dado que a variabilidade nas respostas

das crianças não segue o mesmo padrão que nos experimentos anteriores. Sendo assim,

utilizaremos os experimentos I e II para as análises posteriores.

7.5. Comparação das probabilidades de acerto dos artigos definidos e

indefinidos

Considerando 𝜃𝑂 e 𝜃𝑈𝑀 como as probabilidades de acertar uma sentença com

artigo definido e indefinido, respetivamente, calculamos a distribuição a posteriori

conjunta, considerando que acertar uma questão com artigo indefinido independe da

questão com artigo definido. Portanto a distribuição a posteriori de 𝜽 = (𝜃𝑂 , 𝜃𝑈𝑀) é o

produto das distribuições marginais 𝜃𝑂| 𝒙 e 𝜃𝑈𝑀| 𝒙. Para obtê-las, fizemos o mesmo

que foi feito em 7.4 e obtivemos os seguintes gráficos das distribuições:

Figura 15 - Distribuições a posteriori de 𝜃𝐴 para o experimento III

Page 40: INFERÊNCIA BAYESIANA COMO UM PROCEDIMENTO DE …laurarifo/alunos/monografiaMayara.pdf · Teoria da decisão ... Comparação das probabilidades de acerto dos artigos definidos e

38

Figura 17 - Distribuição a posteriori de (𝜃𝑂 , 𝜃𝑈𝑀) do grupo DEL nos três experimentos

Figura 18 - Distribuição a posteriori de (𝜃𝑂 , 𝜃𝑈𝑀) do grupo SD nos três experimentos

Figura 19 - Distribuição a posteriori de (𝜃𝑂 , 𝜃𝑈𝑀) do grupo Controle nos três experimentos

Figura 16 - Distribuição a posteriori de (𝜃𝑂 , 𝜃𝑈𝑀) do grupo DA nos três experimentos

Page 41: INFERÊNCIA BAYESIANA COMO UM PROCEDIMENTO DE …laurarifo/alunos/monografiaMayara.pdf · Teoria da decisão ... Comparação das probabilidades de acerto dos artigos definidos e

39

Nos gráficos acima, a linha diagonal indica quando 𝜃𝑂 = 𝜃𝑈𝑀 . Analisando-os,

novamente chegamos à conclusão de que o experimento III possui uma variabilidade

maior nas respostas quando comparado aos experimentos I e II.

Para avaliar se a probabilidade de acerto de artigos definidos é maior que a de

acertos de artigos indefinidos, a partir das distribuições marginais 𝜃𝑂| 𝒙 e 𝜃𝑈𝑀| 𝒙,

simulamos 1000 valores de 𝜃𝑂 e 𝜃𝑈𝑀 e depois calculamos a proporção de vezes que

𝜃𝑂 > 𝜃𝑈𝑀 . Dado que não sabemos os valores de 𝑝1, 𝑝2, 𝑝3, fizemos o procedimento

acima 1000 vezes, utilizando valores simulados das proporções de indivíduos em cada

subgrupo. Obtidas essas probabilidades simuladas, calculamos a média, sendo

apresentada abaixo:

Tabela 2- Probabilidade de 𝜃𝑂 > 𝜃𝑈𝑀 , calculadas a partir das distribuições marginais

Analisando a Tabela 2 percebemos que para o grupo DA, no experimento I, a

probabilidade de compreensão do determinante definido ser maior que a compreensão

do indefinido é de 0,3626, indicando que crianças com dificuldade de aprendizagem

compreendem melhor o artigo indefinido. Já, no experimento II, a probabilidade de

utilizar melhor o artigo definido é de 0,5223, indicando um aparente equilíbrio na

utilização dos dois tipos.

Os resultados para o grupo DEL indicam que as crianças deste grupo

compreendem melhor o determinante indefinido com respeito ao determinante

definido, mas possuem melhor desempenho ao usar o artigo definido em relação ao

indefinido.

Já para o grupo SD, em ambos os experimentos, a probabilidade de compreensão

e uso do artigo definido é maior do que a do artigo indefinido.

Por fim, em relação às crianças pertencentes ao grupo C, notamos que a

probabilidade de compreender o artigo definido é menor comparada à probabilidade

Grupo Experimento I Experimento II DA 0,3626 0,5223 DEL 0,0234 0,9773 SD 0,7625 0,8893

C 0,3383 0,8729

Page 42: INFERÊNCIA BAYESIANA COMO UM PROCEDIMENTO DE …laurarifo/alunos/monografiaMayara.pdf · Teoria da decisão ... Comparação das probabilidades de acerto dos artigos definidos e

40

de compreensão do artigo indefinido, mas a probabilidade do uso correto do

determinante definido é maior do que a do indefinido.

7.6. Comparação da probabilidade de acerto do artigo definido em cada grupo

Comparamos também a probabilidade de acertar sentenças com artigo definido

entre os grupos DA, SD e DEL com o grupo Controle. Assim, seja 𝜃𝐶 a probabilidade de

acertar o artigo definido do grupo Controle e 𝜃𝐺𝑖 a probabilidade de acertar o artigo

definido dos grupos 𝐺1 = 𝐷𝐴, 𝐺2 = 𝐷𝐸𝐿 e 𝐺3 = 𝑆𝐷. Queremos testar:

{𝐻0: 𝜃𝐶 ≥ 𝜃𝐺𝑖

𝐻1: 𝜃𝐶 < 𝜃𝐺𝑖

Avaliando as distribuições a posteriori, calculadas do mesmo modo que fizemos

no item 7.5, obtivemos os gráficos:

Figura 20 - Distribuição a posteriori de (𝜃𝐷𝐴, 𝜃𝐶) nos experimentos I e II

Figura 21 - Distribuição a posteriori de (𝜃𝐷𝐸𝐿, 𝜃𝐶) nos experimentos I e II

Page 43: INFERÊNCIA BAYESIANA COMO UM PROCEDIMENTO DE …laurarifo/alunos/monografiaMayara.pdf · Teoria da decisão ... Comparação das probabilidades de acerto dos artigos definidos e

41

Com base nas distribuições a posteriori conjunta mostradas nas Figuras 20, 21

e 22 calculamos a probabilidade dos grupos com patologias de linguagem possuírem

desempenho melhor do que o grupo controle em relação ao artigo definido. Tais

probabilidades são apresentadas na tabela abaixo:

Tabela 3- Probabilidade de 𝜃𝐺𝑖> 𝜃𝑐 , calculadas a partir das distribuições marginais nos experimentos I e II

Grupo Experimento I Experimento II DA 0,5030 0,0901 DEL 0,0334 0,2979 SD 0,0083 0,0193

A partir dos resultados apresentados na Tabela 3, vemos que não existem

diferenças significativas de compreensão de artigos definidos entre os grupos DA e C,

visto que a probabilidade do grupo DA ter um desempenho melhor que o grupo C é de

0,5030. No entanto, no experimento II é possível notar que o grupo DA tem

desempenho inferior ao grupo Controle quanto ao uso do artigo.

Para o grupo DEL vemos que no experimento I, a probabilidade 𝑃(θDEL > θc) é

muito baixa, indicando que tal grupo tem desempenho inferior ao grupo Controle em

relação à compreensão do artigo definido. Já no experimento II, a probabilidade não é

tão baixa, mas também indica que o grupo Controle é capaz de utilizar melhor o

determinante definido do que o grupo DEL.

Por fim o grupo SD, tanto no experimento I quanto no II, apresenta

probabilidades muito baixas, indicando que este grupo tem desempenho muito inferior

quanto ao uso e compreensão de artigos definidos quando comparados com o grupo C.

7.7. Comparação entre os grupos DA, DEL e SD com relação ao artigo definido

Para comparar os desempenhos dos grupos com patologias de linguagem com

relação ao artigo definido, fizemos a mesma simulação feita nos itens 7.4 e 7.5 obtendo

os gráficos abaixo

Figura 22 - Distribuição a posteriori de (𝜃𝑆𝐷 , 𝜃𝐶) nos três experimentos

Page 44: INFERÊNCIA BAYESIANA COMO UM PROCEDIMENTO DE …laurarifo/alunos/monografiaMayara.pdf · Teoria da decisão ... Comparação das probabilidades de acerto dos artigos definidos e

42

Figura 23 - Distribuição a posteriori de (𝜃𝐷𝐸𝐿, 𝜃𝐷𝐴) nos experimentos I e II

Abaixo mostramos a tabela com as probabilidades que comparam os

desempenhos nos experimentos entre os grupos com patologias de linguagem

Tabela 4- Comparação entre os grupos com patologias de linguagem quanto ao artigo definido nos experimentos I e II

Probabilidade Experimento I Experimento II 𝑃(𝜃DA > 𝜃𝐷𝐸𝐿) 0,9936 0,2303 𝑃(𝜃DA > 𝜃𝑆𝐷) 0,9996 0,8840 𝑃(𝜃DEL > 𝜃𝑆𝐷) 0,7725 0,9395

Analisando as Figuras 23, 24 e 25 e a Tabela 4 percebemos que no experimento

I, o grupo DA possui melhor desempenho que os grupos DEL e SD. Entretanto, no

experimento II, ele só é superior ao grupo SD. Vemos também que o grupo DEL tem

desempenho superior de compreensão e uso do artigo definido comparado ao grupo

Figura 24 - Distribuição a posteriori de (𝜃𝐷𝐸𝐿, 𝜃𝑆𝐷) nos experimentos I e II

Figura 25 - Distribuição a posteriori de (𝜃𝑆𝐷 , 𝜃𝐷𝐴) nos experimentos I e II

Page 45: INFERÊNCIA BAYESIANA COMO UM PROCEDIMENTO DE …laurarifo/alunos/monografiaMayara.pdf · Teoria da decisão ... Comparação das probabilidades de acerto dos artigos definidos e

43

SD, dado que as probabilidades obtidas nos experimentos I e II foram, respectivamente,

0,7725 e 0,9395.

7.8. Conclusão

De acordo com as análises feitas, utilizando a distribuição a posteriori composta

por misturas de distribuições Betas, chegamos à conclusão de que os grupos DA, DEL e

Controle tem um desempenho melhor nas questões em relação ao uso do determinante

indefinido em comparação com o determinante definido. Apenas o grupo SD possui

desempenho melhor na compreensão do determinante definido. Já com relação ao uso

correto dos determinantes, concluímos que os grupos DEL, SD e Controle apresentam

uma performance superior ao usar o determinante definido. Para o grupo DA notamos

um equilíbrio entre o uso correto dos determinantes definido e indefinido.

Ao fazermos a comparação da performance dos grupos com patologias de

linguagem com o grupo controle em relação ao artigo definido, notamos que os grupos

DEL e SD têm desempenhos inferiores ao grupo C quanto à compreensão do artigo. Já

o grupo DA e C são semelhante em relação à compreensão do determinante definido.

Em relação ao uso, concluímos que todos os grupos com patologia de linguagem

possuem desempenho inferior ao grupo Controle.

Fazendo a comparação entre os grupos com patologias de linguagem, chegamos

à conclusão de que o grupo DA é o que possui melhor compreensão de artigos definidos

quando comparado aos grupos DEL e SD. Entretanto, em relação ao uso correto do

artigo, o grupo DEL é superior aos outros dois. Por fim, tanto com relação à

compreensão e ao uso, dentre os três grupos com patologia, SD é o que possui o pior

desempenho.

Page 46: INFERÊNCIA BAYESIANA COMO UM PROCEDIMENTO DE …laurarifo/alunos/monografiaMayara.pdf · Teoria da decisão ... Comparação das probabilidades de acerto dos artigos definidos e

44

8. Referências bibliográficas

[1] Arvigo, M.C. (2014). “Deficiência da Linguagem vs Deficiência na Linguagem –

aquisição deficitária de determinantes como possível marcador clínico”. Tese de

Doutorado em Linguística, Instituto de Estudos da Linguagem, Universidade

Estadual de Campinas.

[2] Berger, J. O. (1985). “Statistical Decision Theory and Bayesian Analysis”. Second

Edition, New York: Springer-Verlag.

[3] Berger, J. O., Bernardo, J. M. and Sun, D. (2009). “The formal definition of reference

priors”. Annals of Statistics 37 , 905-938

[4] Bernardo, J. (2005). “Reference analysis”. Handbook of Statistics, 25:17–60,

Elsevier.

[5] Bickel, P., and Doksum, K. A. (2001), “Mathematical Statistics: Basic Ideas and

Selected Topics”, Volume I, 2nd edition, Prentice Hall.

[6] Casella, G., and Berger, R. L. (2002). “Statistical inference”. Duxbury Press.

[7] Cover, T. M. and Thomas, J. A. (2006). “Elements of Information Theory”, 2nd

edition, John Wiley & Sons, Inc

[8] DeGroot, M.H. and Schervish, M.J., (2012). “Probability and Statistics”, 4th ed.,

Addison Wesley.

[9] De Finetti B (1937). "La Prevision: ses lois logigues, ses sources subjectives." Annales

de l'Institut Henri Poincare. English translation in H.E. Kyburg and H.E. Smokler

(eds), (1964), "Foresight: Its Logical Laws, Its Subjective Sources", Studies in

Subjective Probability, New York: Wiley.

[10] Diaconis P and Freedman D (1980a). "Finite exchangeable sequences." Annals of

Probability 8(4), p. 745-764.

[11] Diaconis P and Freedman D (1980b). "De Finetti's theorem for Markov chains."

Annals of Probability, 8(1), p. 115-130.

[12] Kadane, J. and Lazar, N. (2004). “Methods and criteria for model selection”.

Journal of the American Statistical Association 99, 279-290.

Page 47: INFERÊNCIA BAYESIANA COMO UM PROCEDIMENTO DE …laurarifo/alunos/monografiaMayara.pdf · Teoria da decisão ... Comparação das probabilidades de acerto dos artigos definidos e

45

[13] O'Hagan, A. (1994). “Kendall's Advanced Theory of Statistics: Volume 2B,

Bayesian Inference”. London: Arnold.

[14] Paulino, C.D., Turkman, M.A.A. and Murteira, B. (2003). “Estatística Bayesiana”,

Fundação Calouste Gulbenkian, Lisboa.

[15] Ross, S. (2009). “A First Course in Probability”, 8th edition, Pearson Prentice Hall.

[16] Spiegelhalter D. J., Best, N.G., Carlin, B.P. and van der Linde, A. (2002). “Bayesian

measures of model complexity and fit”. Journal of the Royal Statistical Society: Series

B 64, 583–639.

[17] Walker, S.G. and Gutiérrez-Peña, E. (2011). “A Decision-theoretical View of

Default Priors”. Theory and Decision 70, 1-11.