modelos bayesianos sem mcmc com aplicações na epidemiologia · – morbidade por doenças...
TRANSCRIPT
Modelos bayesianos sem MCMC com aplicações na epidemiologia
Leo Bastos, PROCC/Fiocruz
Outline
● Introdução à inferência bayesiana
– Estimando uma proporção
– Ajustando uma regressão● Métodos computacionais
– MCMC
– INLA● Aplicações em Epidemiologia
– Uso de álcool ilícito
– Morbidade por doenças respiratórias no Rio de Janeiro
– Modelos idade-período-coorte para câncer de pulmão
Interpretações de probabilidade
● Suponha que estamos interessados na probabilidade de cara em um lançamento honesto de uma moeda honesta.
● Interpretação frequentista: Essa probabilidade é 50%, pois se realizássemos o experimento “lançar a moeda” um número muito alto de vezes, esperíamos que metade dos experimentos resultassem cara.
● Interpretação subjetiva: Essa probabilidade é 50%, pois em um lançamento honesto de uma moeda honesta creio que os dois possíveis resultados sejam equiprováveis.
Crença x probabilidade
● Tudo que é desconhecido pode ser representado por uma função de “crença”.
● A “crença” a respeito de algo está associada a nossa incerteza.
● Podemos quantificar “crenças” ou incertezas usando probabilidades.
Exemplo: Obesidade infantil
● Qual a proporção de crianças com sobrepeso ou obesidade em Presidente Prudente?
● O que sabemos sobre essa quantidade?
● Qual a nossa incerteza a respeito?
● Podemos representar o nosso conhecimento usando uma função de densidade e probabilidade?
● Será que podemos atualizar esse conhecimento usando um experimento?
Representando a minha incerteza
Realizando um experimento
● Foi observado que 24 dessas crianças estavam com sobrepeso.
● Como podemos combinar nosso conhecimento a priori com os dados do experimento?
● Suponha que vamos selecionar uma amostra aleatória de 100 adultos e medir IMC.
● Seja Y uma variável binária representando o total de pessoas dessa amostra com sobrepeso.
● Um modelo para esse tipo de experimento seria:
Atualizando a minha incerteza
● A minha incerteza a priori é atualizada após definirmos um modelo experimental e coletarmos os dados.
● Essa atualização é feita via teorema de Bayes
● A distribuição a priori usada no exemplo é uma Beta(3,9).
● Pode-se mostrar que a distribuição a posteriori também é uma Beta com parâmetros 26 e 84.
Priori e posteriori para
Algumas conclusões a posteriori
● O valor esperado a posteriori para a proporção de crianças com sobrepeso foi de 23.6%.
● Com probabilidade 0.95, a proporção de crianças com sobrepeso está no intervalo (16,2%; 32,0%)
● O intervalo acima é chamado de intervalo de credibilidade.
Exemplo: Regressão Gama
● Estamos interessados em avaliar o efeito do trabalho noturno no aumento do IMC em enfermeiras no Rio de Janeiro.
● Um questionário foi aplicado a 2100 enfermeiras no município do Rio de Janeiro, e entre outras perguntas tinha a informação de peso atual, peso aos 20 anos, altura e tempo de trabalho noturno.
● O modelo proposto para verificar essa relação foi:
Exemplo: Regressão Gama
● Devemos explicitar prioris para
● Nesse trabalho utilizamos prioris não informativas.
● A distribuição a posteriori dos parâmetros é dada por
● A integral do denominador é analicamente intratável, e métodos numéricos são necessários.
Efeitos do trabalho noturno
Modelo Valor esperado a posteriori Intervalo de credibilidade
M1: BMI ~ NightWork 0.107 (0.075; 0.138)
M2: M1 + Age 0.064 (0.028; 0.099)
M3: M2 + BMI at 20 y.o. 0.045 (0.017; 0.072)
M4: M3 + confounding 0.035 (0.008; 0.062)
● Em particular estamos interessados na distribuição
● - Efeito no IMC por ano de trabalho noturno.● Esses valores só podem ser obtidos usando métodos de numéricos,
como o MCMC ou o INLA.
Método de Monte Carlo
● O método de Monte Carlo é um método usado para resolver integrais do tipo:
● é uma função de densidade.
● A integral de Monte Carlo é dada por:
onde são amostras geradas de
Monte Carlo
● Se soubéssemos como gerar amostras da distribuição a posteriori, então poderíamos obter várias quantidades via Monte Carlo
Exemplo: Média, variância, quantis.
● Geralmente, as distribuições a posteriori não tem forma analítica fechada, e portanto não é possível gerar diretamente delas.
● Se faz necessário o uso de métodos para gerar amostras de distribuições onde somente o núcleo é conhecido.
● Aqui entram os métodos de Monte Carlo via Cadeias de Markov.
MCMC
● Os métodos de Monte Carlo via Cadeias de Markov (MCMC) cumprem esse papel.
● Em um MCMC precisamos gerar de forma iterativa amostras das condicionais completas.
● Seja:
● As condicionais completas são dadas por:
MCMC: Algotitmo
● O algoritmo para gerar amostras de
● Inicialize
● Para k de 1 até M (grande)
– Gere de:
– Gere de:
...
– Gere de:● Verifique a convergência das cadeias, após o ponto de
convergência, as amostras geradas são amostras da posteriori de interesse.
MCMC
● Algoritmo de Metropolis-Hasting, e amostrador de Gibbs
● Os métodos de MCMC foram inicialmente desenvolvidos no final da década de 1940.
● Somente no início da década de 1990 que esses métodos entraram na literatura estatística (Gelfand & Smith, 1990)
● São métodos computacionalmente intensivos.
INLA
● O método INLA (Integrated nested Laplace approximations) fornece uma alternativa ao método de MCMC para uma classe de modelos.
● Seja um modelo pertencente a família exponencial, com
● Se pudermos atribuir prioris Gaussianas às quantidades
chamados modelos Gaussianos latentes. A essa classe de modelos podemos usar o método INLA para obter aproximações das marginais da posteriori.
INLA
● As marginais da posteriori de são
● Rue, Martino & Chopin (2009) proporam que as marginais a posteriori podem ser aproximadas por
INLA
● A condicional completa de é aproximada numericamente por uma Normal
● E a distribuição a posteriori dos hiperparâmetros é
a dimensão dos hiperpaametros não pode ser grande (máximo 15 a 20 hiperparâmetros)
INLA
● Exemplos de modelos:
– Modelos de lineares generalizados
– Modelos dinâmicos
– Modelos espaciais e espaço-temporais● Essa aproximação é computacionalmente barata, e não
há necessidade de checar convergência de cadeias.
● Essa metodologia está implementada no R
● www.r-inla.org
Exemplos
● Modelo de regressão logística com efeitos aleatórios para estudar o perfil do usuário de álcool ilícito.
● Modelo de regressão de Poisson com efeitos aleatórios espaciais na mortalidade por doenças respiratórias no Rio de Janeiro.
● Modelo idade-periodo-cohorte para casos de cancer de pulmão no Brasil.
Usuário de álcool ilícito: Descrição
● Um estudo seccional guiado pelo participante (RDS) foi realizado no Rio de Janeiro entre junho e setembro de 2010 em usuários adultos de álcool.
● O objetivo foi estudar o perfil de usuários de álcool ilícito:
– Bebidas “caseiras”, sem o devido registro das autoridades brasileiras.
– Uso de perfumes ou loções como bebida
– Produtos “medicinais” derivados de cachaça.● 305 participantes foram considerados elegíveis.
Usuário de álcool ilícito: o modelo
● A amostragem guiada pelo participante (RDS) não é uma amostra aleatória, então incluímos ao modelo um efeito aleatório iid, ou seja,
● inla(y ~ x1+x2 + f(“ind”, model=”iid”), family=binomial)
Uso de álcool ilícito
Unadjusted OR
(CI 95%)
Adjusted OR
(CI 95%)
Male 1.33 (0.66-2.58) 0.75 (0.31-1.74)
Age bracket
18 -31 years old
1 1
32- 45 years old
1.61 (0.87-3.00) 2.21 (1.05-4.80)
>45 years old 1.54 (0.82-2.91) 2.67 (1.23-5.94)
Occupation
Employee/civil servant
1 1
Self-employed/employer
0.37 (0.05-1.41) 0.41 (0.05-1.90)
Unemployed 0.31 (0.04-1.17) 0.22 (0.03-1.04)
AUDIT score > 20
13.06 (5.61-34.55) 11.21 (4.56-30.96)
Uso de álcool ilícitoUnadjusted OR
(CI 95%)
Adjusted OR
(CI 95%)
Use of crack cocaine in the last 12 months
Never 1 1
Cocaine powder OR crack
1.33 (0.69-2.55) 1.06 (0.49-2.27)
Cocaine powder AND crack
2.55 (1.30-5.03) 2.29 (1.02-5.21)
Use of ecstasy in the last 12 months
Never 1 1
Ecstasy OR medicines
3.48 (1.70-7.92)4.05 (1.74-10.47)
Ecstasy AND medicines
10.06 (2.05-242.87) 16.65 (2.31-390.21)
Have been treated for alcohol dependence in the last 12 months
3.42 (1.41-10.37) 3.64 (1.25-13.49)
Morbidade por doenças respiratórias no Rio de Janeiro em 2003
● Com o objetivo de verificar algum padrão espacial no total internações por doenças respiratórias nos municípios do Rio de Janeiro (Y_i), o seguinte modelo foi ajustado:
Morbidade doenças respiratórias
● Foram utilizadas como variáveis de controle: Densidade populacional, SO2, PM10, frota veicular, taxa de urbanização, e IDH.
● Nenhuma das covariáveis foi significativa, quando a estrututra espacial foi incluída no modelo.
● No R o comando é:
inla(Morb ~ 1+f(MUN, model=“besag”), family="poisson", data=data, E=E_dem_morb)
Morbidade doenças respiratórias
Modelos idade-período-coorte
● São modelos cujo o objetivo é avaliar o efeito temporal da ocorrência de um evento.
● Principalmente estimar separadamente o efeito de idade, período e coorte (geralmente de nascimento) na evolução de taxas.
● Efeito de idade: descreve variações associadas com a idade cronologica dos grupos.
● Efeito de período: são variações associadas a períodos de tempo que influenciam todas as idades simultaneamente.
● Efeito de coorte: mudanças associadas a diferentes gerações nas coortes (de nascimento)
Modelos APC
● Seja o seguinte exemplo hipotético:
● Em cada “célula” observa-se por exemplo o número de casos, e a população sob risco.
● O principal problema é o confundimento:
– Período fixo (estudo seccional): idade e coorte se confundem
– Coorte fixa (estudo longitudinal), idade e período se confundem
p1980 p1990 p2000 p2010a60 c1920 c1930 c1940 c1950a70 c1910 c1920 c1930 c1940a80 c1900 c1910 c1920 c1930a90 c1890 c1900 c1910 c1920
Modelos APC
● Yang & Land (2013) escreveram um livro sobre APC analysis, com várias propostas para estimação desse efeitos.
● Uma possível forma de resolver o problema foi proposta por Knorr-Held & Rainer (2001) usando modelos com efeitos aleatórios. Fazendo projeções para cancer de pulmão na Alemanha.
● Os autores apresentaram o modelo e o resolveram usando um MCMC, vamos implementar o mesmo modelo usando o INLA.
O modelo APC proposto
● Seja o número de óbitos por cancer de pulmão da faixa etária i e período j.
● Seja a população sob risco da faixa etária i e período j.
● O modelo de interesse é
O modelo APC proposto
● Se os efeitos aleatórios a priori seguirem um passeio aleatório de ordem 1, então o modelo é totalmente identificavél. (Knorr-Held & Rainer, 2001)
● Ou seja,
Modelos APC: Cancer de Pulmão
● Considere o total de casos de câncer de pulmão no Brasil por
– Faixas etárias: {35-39, 40-44, 45-49,...,75-79,80+}
– Períodos {1980-1984, 1985-1989,...,2000-2004}
– Estratificado por sexo {masculino e feminino}● Um modelo APC com efeitos aleatórios sgeundo Knorr-
Held & Rainer (2001) será aplicado para estimar os efeitos de idade, período e coorte.
Hiperparâmetros dos efeitos
20.1 (7.5,40.5) 29.1 (10.9, 58.9)
27660 (5171, 79065) 580 (142, 1474)
674 (282, 1325) 8800 (1762, 26254)
Homens MulheresPrecisão Média IC de 95% Média IC de 95%
Idade
Período
Coorte
Efeito de Idade
Efeito de período
Efeito de coorte
Resumo
● Para uma classe de modelos é possível fazer inferência bayesiana sem a necessidade o uso do MCMC
● A alternativa computacional é o método INLA, que apresenta aproximações para as marginais da distribuição a posteriori conjunta.
● O pacote INLA está disponível no site:
– http://www.r-inla.org● Os exemplos apresentados aqui são trabalhos em
parceiria com pesquisadores da Fiocruz, se alguem tiver interesse fique a vontade para conversar.