modelos bayesianos sem mcmc com aplicações na epidemiologia · – morbidade por doenças...

Modelos bayesianos sem MCMC com aplicações na epidemiologia

Leo Bastos, PROCC/Fiocruz

[email protected]

Outline

● Introdução à inferência bayesiana

– Estimando uma proporção

– Ajustando uma regressão● Métodos computacionais

– MCMC

– INLA● Aplicações em Epidemiologia

– Uso de álcool ilícito

– Morbidade por doenças respiratórias no Rio de Janeiro

– Modelos idade-período-coorte para câncer de pulmão

Interpretações de probabilidade

● Suponha que estamos interessados na probabilidade de cara em um lançamento honesto de uma moeda honesta.

● Interpretação frequentista: Essa probabilidade é 50%, pois se realizássemos o experimento “lançar a moeda” um número muito alto de vezes, esperíamos que metade dos experimentos resultassem cara.

● Interpretação subjetiva: Essa probabilidade é 50%, pois em um lançamento honesto de uma moeda honesta creio que os dois possíveis resultados sejam equiprováveis.

Crença x probabilidade

● Tudo que é desconhecido pode ser representado por uma função de “crença”.

● A “crença” a respeito de algo está associada a nossa incerteza.

● Podemos quantificar “crenças” ou incertezas usando probabilidades.

Exemplo: Obesidade infantil

● Qual a proporção de crianças com sobrepeso ou obesidade em Presidente Prudente?

● O que sabemos sobre essa quantidade?

● Qual a nossa incerteza a respeito?

● Podemos representar o nosso conhecimento usando uma função de densidade e probabilidade?

● Será que podemos atualizar esse conhecimento usando um experimento?

Representando a minha incerteza

Realizando um experimento

● Foi observado que 24 dessas crianças estavam com sobrepeso.

● Como podemos combinar nosso conhecimento a priori com os dados do experimento?

● Suponha que vamos selecionar uma amostra aleatória de 100 adultos e medir IMC.

● Seja Y uma variável binária representando o total de pessoas dessa amostra com sobrepeso.

● Um modelo para esse tipo de experimento seria:

Atualizando a minha incerteza

● A minha incerteza a priori é atualizada após definirmos um modelo experimental e coletarmos os dados.

● Essa atualização é feita via teorema de Bayes

● A distribuição a priori usada no exemplo é uma Beta(3,9).

● Pode-se mostrar que a distribuição a posteriori também é uma Beta com parâmetros 26 e 84.

Priori e posteriori para

Algumas conclusões a posteriori

● O valor esperado a posteriori para a proporção de crianças com sobrepeso foi de 23.6%.

● Com probabilidade 0.95, a proporção de crianças com sobrepeso está no intervalo (16,2%; 32,0%)

● O intervalo acima é chamado de intervalo de credibilidade.

Exemplo: Regressão Gama

● Estamos interessados em avaliar o efeito do trabalho noturno no aumento do IMC em enfermeiras no Rio de Janeiro.

● Um questionário foi aplicado a 2100 enfermeiras no município do Rio de Janeiro, e entre outras perguntas tinha a informação de peso atual, peso aos 20 anos, altura e tempo de trabalho noturno.

● O modelo proposto para verificar essa relação foi:

Exemplo: Regressão Gama

● Devemos explicitar prioris para

● Nesse trabalho utilizamos prioris não informativas.

● A distribuição a posteriori dos parâmetros é dada por

● A integral do denominador é analicamente intratável, e métodos numéricos são necessários.

Efeitos do trabalho noturno

Modelo Valor esperado a posteriori Intervalo de credibilidade

M1: BMI ~ NightWork 0.107 (0.075; 0.138)

M2: M1 + Age 0.064 (0.028; 0.099)

M3: M2 + BMI at 20 y.o. 0.045 (0.017; 0.072)

M4: M3 + confounding 0.035 (0.008; 0.062)

● Em particular estamos interessados na distribuição

● - Efeito no IMC por ano de trabalho noturno.● Esses valores só podem ser obtidos usando métodos de numéricos,

como o MCMC ou o INLA.

Método de Monte Carlo

● O método de Monte Carlo é um método usado para resolver integrais do tipo:

● é uma função de densidade.

● A integral de Monte Carlo é dada por:

onde são amostras geradas de

Monte Carlo

● Se soubéssemos como gerar amostras da distribuição a posteriori, então poderíamos obter várias quantidades via Monte Carlo

Exemplo: Média, variância, quantis.

● Geralmente, as distribuições a posteriori não tem forma analítica fechada, e portanto não é possível gerar diretamente delas.

● Se faz necessário o uso de métodos para gerar amostras de distribuições onde somente o núcleo é conhecido.

● Aqui entram os métodos de Monte Carlo via Cadeias de Markov.

MCMC

● Os métodos de Monte Carlo via Cadeias de Markov (MCMC) cumprem esse papel.

● Em um MCMC precisamos gerar de forma iterativa amostras das condicionais completas.

● Seja:

● As condicionais completas são dadas por:

MCMC: Algotitmo

● O algoritmo para gerar amostras de

● Inicialize

● Para k de 1 até M (grande)

– Gere de:

– Gere de:

...

– Gere de:● Verifique a convergência das cadeias, após o ponto de

convergência, as amostras geradas são amostras da posteriori de interesse.

MCMC

● Algoritmo de Metropolis-Hasting, e amostrador de Gibbs

● Os métodos de MCMC foram inicialmente desenvolvidos no final da década de 1940.

● Somente no início da década de 1990 que esses métodos entraram na literatura estatística (Gelfand & Smith, 1990)

● São métodos computacionalmente intensivos.

INLA

● O método INLA (Integrated nested Laplace approximations) fornece uma alternativa ao método de MCMC para uma classe de modelos.

● Seja um modelo pertencente a família exponencial, com

● Se pudermos atribuir prioris Gaussianas às quantidades

chamados modelos Gaussianos latentes. A essa classe de modelos podemos usar o método INLA para obter aproximações das marginais da posteriori.

INLA

● As marginais da posteriori de são

● Rue, Martino & Chopin (2009) proporam que as marginais a posteriori podem ser aproximadas por

INLA

● A condicional completa de é aproximada numericamente por uma Normal

● E a distribuição a posteriori dos hiperparâmetros é

a dimensão dos hiperpaametros não pode ser grande (máximo 15 a 20 hiperparâmetros)

INLA

● Exemplos de modelos:

– Modelos de lineares generalizados

– Modelos dinâmicos

– Modelos espaciais e espaço-temporais● Essa aproximação é computacionalmente barata, e não

há necessidade de checar convergência de cadeias.

● Essa metodologia está implementada no R

● www.r-inla.org

Exemplos

● Modelo de regressão logística com efeitos aleatórios para estudar o perfil do usuário de álcool ilícito.

● Modelo de regressão de Poisson com efeitos aleatórios espaciais na mortalidade por doenças respiratórias no Rio de Janeiro.

● Modelo idade-periodo-cohorte para casos de cancer de pulmão no Brasil.

Usuário de álcool ilícito: Descrição

● Um estudo seccional guiado pelo participante (RDS) foi realizado no Rio de Janeiro entre junho e setembro de 2010 em usuários adultos de álcool.

● O objetivo foi estudar o perfil de usuários de álcool ilícito:

– Bebidas “caseiras”, sem o devido registro das autoridades brasileiras.

– Uso de perfumes ou loções como bebida

– Produtos “medicinais” derivados de cachaça.● 305 participantes foram considerados elegíveis.

Usuário de álcool ilícito: o modelo

● A amostragem guiada pelo participante (RDS) não é uma amostra aleatória, então incluímos ao modelo um efeito aleatório iid, ou seja,

● inla(y ~ x1+x2 + f(“ind”, model=”iid”), family=binomial)

Uso de álcool ilícito

Unadjusted OR

(CI 95%)

Adjusted OR

(CI 95%)

Male 1.33 (0.66-2.58) 0.75 (0.31-1.74)

Age bracket

18 -31 years old

1 1

32- 45 years old

1.61 (0.87-3.00) 2.21 (1.05-4.80)

>45 years old 1.54 (0.82-2.91) 2.67 (1.23-5.94)

Occupation

Employee/civil servant

1 1

Self-employed/employer

0.37 (0.05-1.41) 0.41 (0.05-1.90)

Unemployed 0.31 (0.04-1.17) 0.22 (0.03-1.04)

AUDIT score > 20

13.06 (5.61-34.55) 11.21 (4.56-30.96)

Uso de álcool ilícitoUnadjusted OR

(CI 95%)

Adjusted OR

(CI 95%)

Use of crack cocaine in the last 12 months

Never 1 1

Cocaine powder OR crack

1.33 (0.69-2.55) 1.06 (0.49-2.27)

Cocaine powder AND crack

2.55 (1.30-5.03) 2.29 (1.02-5.21)

Use of ecstasy in the last 12 months

Never 1 1

Ecstasy OR medicines

3.48 (1.70-7.92)4.05 (1.74-10.47)

Ecstasy AND medicines

10.06 (2.05-242.87) 16.65 (2.31-390.21)

Have been treated for alcohol dependence in the last 12 months

3.42 (1.41-10.37) 3.64 (1.25-13.49)

Morbidade por doenças respiratórias no Rio de Janeiro em 2003

● Com o objetivo de verificar algum padrão espacial no total internações por doenças respiratórias nos municípios do Rio de Janeiro (Y_i), o seguinte modelo foi ajustado:

Morbidade doenças respiratórias

● Foram utilizadas como variáveis de controle: Densidade populacional, SO2, PM10, frota veicular, taxa de urbanização, e IDH.

● Nenhuma das covariáveis foi significativa, quando a estrututra espacial foi incluída no modelo.

● No R o comando é:

inla(Morb ~ 1+f(MUN, model=“besag”), family="poisson", data=data, E=E_dem_morb)

Morbidade doenças respiratórias

Modelos idade-período-coorte

● São modelos cujo o objetivo é avaliar o efeito temporal da ocorrência de um evento.

● Principalmente estimar separadamente o efeito de idade, período e coorte (geralmente de nascimento) na evolução de taxas.

● Efeito de idade: descreve variações associadas com a idade cronologica dos grupos.

● Efeito de período: são variações associadas a períodos de tempo que influenciam todas as idades simultaneamente.

● Efeito de coorte: mudanças associadas a diferentes gerações nas coortes (de nascimento)

Modelos APC

● Seja o seguinte exemplo hipotético:

● Em cada “célula” observa-se por exemplo o número de casos, e a população sob risco.

● O principal problema é o confundimento:

– Período fixo (estudo seccional): idade e coorte se confundem

– Coorte fixa (estudo longitudinal), idade e período se confundem

p1980 p1990 p2000 p2010a60 c1920 c1930 c1940 c1950a70 c1910 c1920 c1930 c1940a80 c1900 c1910 c1920 c1930a90 c1890 c1900 c1910 c1920

Modelos APC

● Yang & Land (2013) escreveram um livro sobre APC analysis, com várias propostas para estimação desse efeitos.

● Uma possível forma de resolver o problema foi proposta por Knorr-Held & Rainer (2001) usando modelos com efeitos aleatórios. Fazendo projeções para cancer de pulmão na Alemanha.

● Os autores apresentaram o modelo e o resolveram usando um MCMC, vamos implementar o mesmo modelo usando o INLA.

O modelo APC proposto

● Seja o número de óbitos por cancer de pulmão da faixa etária i e período j.

● Seja a população sob risco da faixa etária i e período j.

● O modelo de interesse é

O modelo APC proposto

● Se os efeitos aleatórios a priori seguirem um passeio aleatório de ordem 1, então o modelo é totalmente identificavél. (Knorr-Held & Rainer, 2001)

● Ou seja,

Modelos APC: Cancer de Pulmão

● Considere o total de casos de câncer de pulmão no Brasil por

– Faixas etárias: {35-39, 40-44, 45-49,...,75-79,80+}

– Períodos {1980-1984, 1985-1989,...,2000-2004}

– Estratificado por sexo {masculino e feminino}● Um modelo APC com efeitos aleatórios sgeundo Knorr-

Held & Rainer (2001) será aplicado para estimar os efeitos de idade, período e coorte.

Hiperparâmetros dos efeitos

20.1 (7.5,40.5) 29.1 (10.9, 58.9)

27660 (5171, 79065) 580 (142, 1474)

674 (282, 1325) 8800 (1762, 26254)

Homens MulheresPrecisão Média IC de 95% Média IC de 95%

Idade

Período

Coorte

Efeito de Idade

Efeito de período

Efeito de coorte

Resumo

● Para uma classe de modelos é possível fazer inferência bayesiana sem a necessidade o uso do MCMC

● A alternativa computacional é o método INLA, que apresenta aproximações para as marginais da distribuição a posteriori conjunta.

● O pacote INLA está disponível no site:

– http://www.r-inla.org● Os exemplos apresentados aqui são trabalhos em

parceiria com pesquisadores da Fiocruz, se alguem tiver interesse fique a vontade para conversar.

Obrigado!

Leo Bastos: [email protected]

http://www.procc.fiocruz.br

mailto:[email protected]

modelos bayesianos sem mcmc com aplicações na epidemiologia · – morbidade por doenças...

Documents