modelos bayesianos sem mcmc com aplicações na epidemiologia · – morbidade por doenças...

42
Modelos bayesianos sem MCMC com aplicações na epidemiologia Leo Bastos, PROCC/Fiocruz [email protected]

Upload: phamquynh

Post on 12-Nov-2018

215 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Modelos bayesianos sem MCMC com aplicações na epidemiologia · – Morbidade por doenças respiratórias no Rio de Janeiro ... Efeitos do trabalho noturno ... Se soubéssemos como

Modelos bayesianos sem MCMC com aplicações na epidemiologia

Leo Bastos, PROCC/Fiocruz

[email protected]

Page 2: Modelos bayesianos sem MCMC com aplicações na epidemiologia · – Morbidade por doenças respiratórias no Rio de Janeiro ... Efeitos do trabalho noturno ... Se soubéssemos como

Outline

● Introdução à inferência bayesiana

– Estimando uma proporção

– Ajustando uma regressão● Métodos computacionais

– MCMC

– INLA● Aplicações em Epidemiologia

– Uso de álcool ilícito

– Morbidade por doenças respiratórias no Rio de Janeiro

– Modelos idade-período-coorte para câncer de pulmão

Page 3: Modelos bayesianos sem MCMC com aplicações na epidemiologia · – Morbidade por doenças respiratórias no Rio de Janeiro ... Efeitos do trabalho noturno ... Se soubéssemos como

Interpretações de probabilidade

● Suponha que estamos interessados na probabilidade de cara em um lançamento honesto de uma moeda honesta.

● Interpretação frequentista: Essa probabilidade é 50%, pois se realizássemos o experimento “lançar a moeda” um número muito alto de vezes, esperíamos que metade dos experimentos resultassem cara.

● Interpretação subjetiva: Essa probabilidade é 50%, pois em um lançamento honesto de uma moeda honesta creio que os dois possíveis resultados sejam equiprováveis.

Page 4: Modelos bayesianos sem MCMC com aplicações na epidemiologia · – Morbidade por doenças respiratórias no Rio de Janeiro ... Efeitos do trabalho noturno ... Se soubéssemos como

Crença x probabilidade

● Tudo que é desconhecido pode ser representado por uma função de “crença”.

● A “crença” a respeito de algo está associada a nossa incerteza.

● Podemos quantificar “crenças” ou incertezas usando probabilidades.

Page 5: Modelos bayesianos sem MCMC com aplicações na epidemiologia · – Morbidade por doenças respiratórias no Rio de Janeiro ... Efeitos do trabalho noturno ... Se soubéssemos como

Exemplo: Obesidade infantil

● Qual a proporção de crianças com sobrepeso ou obesidade em Presidente Prudente?

● O que sabemos sobre essa quantidade?

● Qual a nossa incerteza a respeito?

● Podemos representar o nosso conhecimento usando uma função de densidade e probabilidade?

● Será que podemos atualizar esse conhecimento usando um experimento?

Page 6: Modelos bayesianos sem MCMC com aplicações na epidemiologia · – Morbidade por doenças respiratórias no Rio de Janeiro ... Efeitos do trabalho noturno ... Se soubéssemos como

Representando a minha incerteza

Page 7: Modelos bayesianos sem MCMC com aplicações na epidemiologia · – Morbidade por doenças respiratórias no Rio de Janeiro ... Efeitos do trabalho noturno ... Se soubéssemos como

Realizando um experimento

● Foi observado que 24 dessas crianças estavam com sobrepeso.

● Como podemos combinar nosso conhecimento a priori com os dados do experimento?

● Suponha que vamos selecionar uma amostra aleatória de 100 adultos e medir IMC.

● Seja Y uma variável binária representando o total de pessoas dessa amostra com sobrepeso.

● Um modelo para esse tipo de experimento seria:

Page 8: Modelos bayesianos sem MCMC com aplicações na epidemiologia · – Morbidade por doenças respiratórias no Rio de Janeiro ... Efeitos do trabalho noturno ... Se soubéssemos como

Atualizando a minha incerteza

● A minha incerteza a priori é atualizada após definirmos um modelo experimental e coletarmos os dados.

● Essa atualização é feita via teorema de Bayes

● A distribuição a priori usada no exemplo é uma Beta(3,9).

● Pode-se mostrar que a distribuição a posteriori também é uma Beta com parâmetros 26 e 84.

Page 9: Modelos bayesianos sem MCMC com aplicações na epidemiologia · – Morbidade por doenças respiratórias no Rio de Janeiro ... Efeitos do trabalho noturno ... Se soubéssemos como

Priori e posteriori para

Page 10: Modelos bayesianos sem MCMC com aplicações na epidemiologia · – Morbidade por doenças respiratórias no Rio de Janeiro ... Efeitos do trabalho noturno ... Se soubéssemos como

Algumas conclusões a posteriori

● O valor esperado a posteriori para a proporção de crianças com sobrepeso foi de 23.6%.

● Com probabilidade 0.95, a proporção de crianças com sobrepeso está no intervalo (16,2%; 32,0%)

● O intervalo acima é chamado de intervalo de credibilidade.

Page 11: Modelos bayesianos sem MCMC com aplicações na epidemiologia · – Morbidade por doenças respiratórias no Rio de Janeiro ... Efeitos do trabalho noturno ... Se soubéssemos como

Exemplo: Regressão Gama

● Estamos interessados em avaliar o efeito do trabalho noturno no aumento do IMC em enfermeiras no Rio de Janeiro.

● Um questionário foi aplicado a 2100 enfermeiras no município do Rio de Janeiro, e entre outras perguntas tinha a informação de peso atual, peso aos 20 anos, altura e tempo de trabalho noturno.

● O modelo proposto para verificar essa relação foi:

Page 12: Modelos bayesianos sem MCMC com aplicações na epidemiologia · – Morbidade por doenças respiratórias no Rio de Janeiro ... Efeitos do trabalho noturno ... Se soubéssemos como

Exemplo: Regressão Gama

● Devemos explicitar prioris para

● Nesse trabalho utilizamos prioris não informativas.

● A distribuição a posteriori dos parâmetros é dada por

● A integral do denominador é analicamente intratável, e métodos numéricos são necessários.

Page 13: Modelos bayesianos sem MCMC com aplicações na epidemiologia · – Morbidade por doenças respiratórias no Rio de Janeiro ... Efeitos do trabalho noturno ... Se soubéssemos como

Efeitos do trabalho noturno

Modelo Valor esperado a posteriori Intervalo de credibilidade

M1: BMI ~ NightWork 0.107 (0.075; 0.138)

M2: M1 + Age 0.064 (0.028; 0.099)

M3: M2 + BMI at 20 y.o. 0.045 (0.017; 0.072)

M4: M3 + confounding 0.035 (0.008; 0.062)

● Em particular estamos interessados na distribuição

● - Efeito no IMC por ano de trabalho noturno.● Esses valores só podem ser obtidos usando métodos de numéricos,

como o MCMC ou o INLA.

Page 14: Modelos bayesianos sem MCMC com aplicações na epidemiologia · – Morbidade por doenças respiratórias no Rio de Janeiro ... Efeitos do trabalho noturno ... Se soubéssemos como

Método de Monte Carlo

● O método de Monte Carlo é um método usado para resolver integrais do tipo:

● é uma função de densidade.

● A integral de Monte Carlo é dada por:

onde são amostras geradas de

Page 15: Modelos bayesianos sem MCMC com aplicações na epidemiologia · – Morbidade por doenças respiratórias no Rio de Janeiro ... Efeitos do trabalho noturno ... Se soubéssemos como

Monte Carlo

● Se soubéssemos como gerar amostras da distribuição a posteriori, então poderíamos obter várias quantidades via Monte Carlo

Exemplo: Média, variância, quantis.

● Geralmente, as distribuições a posteriori não tem forma analítica fechada, e portanto não é possível gerar diretamente delas.

● Se faz necessário o uso de métodos para gerar amostras de distribuições onde somente o núcleo é conhecido.

● Aqui entram os métodos de Monte Carlo via Cadeias de Markov.

Page 16: Modelos bayesianos sem MCMC com aplicações na epidemiologia · – Morbidade por doenças respiratórias no Rio de Janeiro ... Efeitos do trabalho noturno ... Se soubéssemos como

MCMC

● Os métodos de Monte Carlo via Cadeias de Markov (MCMC) cumprem esse papel.

● Em um MCMC precisamos gerar de forma iterativa amostras das condicionais completas.

● Seja:

● As condicionais completas são dadas por:

Page 17: Modelos bayesianos sem MCMC com aplicações na epidemiologia · – Morbidade por doenças respiratórias no Rio de Janeiro ... Efeitos do trabalho noturno ... Se soubéssemos como

MCMC: Algotitmo

● O algoritmo para gerar amostras de

● Inicialize

● Para k de 1 até M (grande)

– Gere de:

– Gere de:

...

– Gere de:● Verifique a convergência das cadeias, após o ponto de

convergência, as amostras geradas são amostras da posteriori de interesse.

Page 18: Modelos bayesianos sem MCMC com aplicações na epidemiologia · – Morbidade por doenças respiratórias no Rio de Janeiro ... Efeitos do trabalho noturno ... Se soubéssemos como

MCMC

● Algoritmo de Metropolis-Hasting, e amostrador de Gibbs

● Os métodos de MCMC foram inicialmente desenvolvidos no final da década de 1940.

● Somente no início da década de 1990 que esses métodos entraram na literatura estatística (Gelfand & Smith, 1990)

● São métodos computacionalmente intensivos.

Page 19: Modelos bayesianos sem MCMC com aplicações na epidemiologia · – Morbidade por doenças respiratórias no Rio de Janeiro ... Efeitos do trabalho noturno ... Se soubéssemos como

INLA

● O método INLA (Integrated nested Laplace approximations) fornece uma alternativa ao método de MCMC para uma classe de modelos.

● Seja um modelo pertencente a família exponencial, com

● Se pudermos atribuir prioris Gaussianas às quantidades

chamados modelos Gaussianos latentes. A essa classe de modelos podemos usar o método INLA para obter aproximações das marginais da posteriori.

Page 20: Modelos bayesianos sem MCMC com aplicações na epidemiologia · – Morbidade por doenças respiratórias no Rio de Janeiro ... Efeitos do trabalho noturno ... Se soubéssemos como

INLA

● As marginais da posteriori de são

● Rue, Martino & Chopin (2009) proporam que as marginais a posteriori podem ser aproximadas por

Page 21: Modelos bayesianos sem MCMC com aplicações na epidemiologia · – Morbidade por doenças respiratórias no Rio de Janeiro ... Efeitos do trabalho noturno ... Se soubéssemos como

INLA

● A condicional completa de é aproximada numericamente por uma Normal

● E a distribuição a posteriori dos hiperparâmetros é

a dimensão dos hiperpaametros não pode ser grande (máximo 15 a 20 hiperparâmetros)

Page 22: Modelos bayesianos sem MCMC com aplicações na epidemiologia · – Morbidade por doenças respiratórias no Rio de Janeiro ... Efeitos do trabalho noturno ... Se soubéssemos como

INLA

● Exemplos de modelos:

– Modelos de lineares generalizados

– Modelos dinâmicos

– Modelos espaciais e espaço-temporais● Essa aproximação é computacionalmente barata, e não

há necessidade de checar convergência de cadeias.

● Essa metodologia está implementada no R

● www.r-inla.org

Page 23: Modelos bayesianos sem MCMC com aplicações na epidemiologia · – Morbidade por doenças respiratórias no Rio de Janeiro ... Efeitos do trabalho noturno ... Se soubéssemos como

Exemplos

● Modelo de regressão logística com efeitos aleatórios para estudar o perfil do usuário de álcool ilícito.

● Modelo de regressão de Poisson com efeitos aleatórios espaciais na mortalidade por doenças respiratórias no Rio de Janeiro.

● Modelo idade-periodo-cohorte para casos de cancer de pulmão no Brasil.

Page 24: Modelos bayesianos sem MCMC com aplicações na epidemiologia · – Morbidade por doenças respiratórias no Rio de Janeiro ... Efeitos do trabalho noturno ... Se soubéssemos como

Usuário de álcool ilícito: Descrição

● Um estudo seccional guiado pelo participante (RDS) foi realizado no Rio de Janeiro entre junho e setembro de 2010 em usuários adultos de álcool.

● O objetivo foi estudar o perfil de usuários de álcool ilícito:

– Bebidas “caseiras”, sem o devido registro das autoridades brasileiras.

– Uso de perfumes ou loções como bebida

– Produtos “medicinais” derivados de cachaça.● 305 participantes foram considerados elegíveis.

Page 25: Modelos bayesianos sem MCMC com aplicações na epidemiologia · – Morbidade por doenças respiratórias no Rio de Janeiro ... Efeitos do trabalho noturno ... Se soubéssemos como

Usuário de álcool ilícito: o modelo

● A amostragem guiada pelo participante (RDS) não é uma amostra aleatória, então incluímos ao modelo um efeito aleatório iid, ou seja,

● inla(y ~ x1+x2 + f(“ind”, model=”iid”), family=binomial)

Page 26: Modelos bayesianos sem MCMC com aplicações na epidemiologia · – Morbidade por doenças respiratórias no Rio de Janeiro ... Efeitos do trabalho noturno ... Se soubéssemos como

Uso de álcool ilícito

Unadjusted OR

(CI 95%)

Adjusted OR

(CI 95%)

Male 1.33 (0.66-2.58) 0.75 (0.31-1.74)

Age bracket

18 -31 years old

1 1

32- 45 years old

1.61 (0.87-3.00) 2.21 (1.05-4.80)

>45 years old 1.54 (0.82-2.91) 2.67 (1.23-5.94)

Occupation

Employee/civil servant

1 1

Self-employed/employer

0.37 (0.05-1.41) 0.41 (0.05-1.90)

Unemployed 0.31 (0.04-1.17) 0.22 (0.03-1.04)

AUDIT score > 20

13.06 (5.61-34.55) 11.21 (4.56-30.96)

Page 27: Modelos bayesianos sem MCMC com aplicações na epidemiologia · – Morbidade por doenças respiratórias no Rio de Janeiro ... Efeitos do trabalho noturno ... Se soubéssemos como

Uso de álcool ilícitoUnadjusted OR

(CI 95%)

Adjusted OR

(CI 95%)

Use of crack cocaine in the last 12 months

Never 1 1

Cocaine powder OR crack

1.33 (0.69-2.55) 1.06 (0.49-2.27)

Cocaine powder AND crack

2.55 (1.30-5.03) 2.29 (1.02-5.21)

Use of ecstasy in the last 12 months

Never 1 1

Ecstasy OR medicines

3.48 (1.70-7.92)4.05 (1.74-10.47)

Ecstasy AND medicines

10.06 (2.05-242.87) 16.65 (2.31-390.21)

Have been treated for alcohol dependence in the last 12 months

3.42 (1.41-10.37) 3.64 (1.25-13.49)

Page 28: Modelos bayesianos sem MCMC com aplicações na epidemiologia · – Morbidade por doenças respiratórias no Rio de Janeiro ... Efeitos do trabalho noturno ... Se soubéssemos como

Morbidade por doenças respiratórias no Rio de Janeiro em 2003

● Com o objetivo de verificar algum padrão espacial no total internações por doenças respiratórias nos municípios do Rio de Janeiro (Y_i), o seguinte modelo foi ajustado:

Page 29: Modelos bayesianos sem MCMC com aplicações na epidemiologia · – Morbidade por doenças respiratórias no Rio de Janeiro ... Efeitos do trabalho noturno ... Se soubéssemos como

Morbidade doenças respiratórias

● Foram utilizadas como variáveis de controle: Densidade populacional, SO2, PM10, frota veicular, taxa de urbanização, e IDH.

● Nenhuma das covariáveis foi significativa, quando a estrututra espacial foi incluída no modelo.

● No R o comando é:

inla(Morb ~ 1+f(MUN, model=“besag”), family="poisson", data=data, E=E_dem_morb)

Page 30: Modelos bayesianos sem MCMC com aplicações na epidemiologia · – Morbidade por doenças respiratórias no Rio de Janeiro ... Efeitos do trabalho noturno ... Se soubéssemos como

Morbidade doenças respiratórias

Page 31: Modelos bayesianos sem MCMC com aplicações na epidemiologia · – Morbidade por doenças respiratórias no Rio de Janeiro ... Efeitos do trabalho noturno ... Se soubéssemos como

Modelos idade-período-coorte

● São modelos cujo o objetivo é avaliar o efeito temporal da ocorrência de um evento.

● Principalmente estimar separadamente o efeito de idade, período e coorte (geralmente de nascimento) na evolução de taxas.

● Efeito de idade: descreve variações associadas com a idade cronologica dos grupos.

● Efeito de período: são variações associadas a períodos de tempo que influenciam todas as idades simultaneamente.

● Efeito de coorte: mudanças associadas a diferentes gerações nas coortes (de nascimento)

Page 32: Modelos bayesianos sem MCMC com aplicações na epidemiologia · – Morbidade por doenças respiratórias no Rio de Janeiro ... Efeitos do trabalho noturno ... Se soubéssemos como

Modelos APC

● Seja o seguinte exemplo hipotético:

● Em cada “célula” observa-se por exemplo o número de casos, e a população sob risco.

● O principal problema é o confundimento:

– Período fixo (estudo seccional): idade e coorte se confundem

– Coorte fixa (estudo longitudinal), idade e período se confundem

p1980 p1990 p2000 p2010a60 c1920 c1930 c1940 c1950a70 c1910 c1920 c1930 c1940a80 c1900 c1910 c1920 c1930a90 c1890 c1900 c1910 c1920

Page 33: Modelos bayesianos sem MCMC com aplicações na epidemiologia · – Morbidade por doenças respiratórias no Rio de Janeiro ... Efeitos do trabalho noturno ... Se soubéssemos como

Modelos APC

● Yang & Land (2013) escreveram um livro sobre APC analysis, com várias propostas para estimação desse efeitos.

● Uma possível forma de resolver o problema foi proposta por Knorr-Held & Rainer (2001) usando modelos com efeitos aleatórios. Fazendo projeções para cancer de pulmão na Alemanha.

● Os autores apresentaram o modelo e o resolveram usando um MCMC, vamos implementar o mesmo modelo usando o INLA.

Page 34: Modelos bayesianos sem MCMC com aplicações na epidemiologia · – Morbidade por doenças respiratórias no Rio de Janeiro ... Efeitos do trabalho noturno ... Se soubéssemos como

O modelo APC proposto

● Seja o número de óbitos por cancer de pulmão da faixa etária i e período j.

● Seja a população sob risco da faixa etária i e período j.

● O modelo de interesse é

Page 35: Modelos bayesianos sem MCMC com aplicações na epidemiologia · – Morbidade por doenças respiratórias no Rio de Janeiro ... Efeitos do trabalho noturno ... Se soubéssemos como

O modelo APC proposto

● Se os efeitos aleatórios a priori seguirem um passeio aleatório de ordem 1, então o modelo é totalmente identificavél. (Knorr-Held & Rainer, 2001)

● Ou seja,

Page 36: Modelos bayesianos sem MCMC com aplicações na epidemiologia · – Morbidade por doenças respiratórias no Rio de Janeiro ... Efeitos do trabalho noturno ... Se soubéssemos como

Modelos APC: Cancer de Pulmão

● Considere o total de casos de câncer de pulmão no Brasil por

– Faixas etárias: {35-39, 40-44, 45-49,...,75-79,80+}

– Períodos {1980-1984, 1985-1989,...,2000-2004}

– Estratificado por sexo {masculino e feminino}● Um modelo APC com efeitos aleatórios sgeundo Knorr-

Held & Rainer (2001) será aplicado para estimar os efeitos de idade, período e coorte.

Page 37: Modelos bayesianos sem MCMC com aplicações na epidemiologia · – Morbidade por doenças respiratórias no Rio de Janeiro ... Efeitos do trabalho noturno ... Se soubéssemos como

Hiperparâmetros dos efeitos

20.1 (7.5,40.5) 29.1 (10.9, 58.9)

27660 (5171, 79065) 580 (142, 1474)

674 (282, 1325) 8800 (1762, 26254)

Homens MulheresPrecisão Média IC de 95% Média IC de 95%

Idade

Período

Coorte

Page 38: Modelos bayesianos sem MCMC com aplicações na epidemiologia · – Morbidade por doenças respiratórias no Rio de Janeiro ... Efeitos do trabalho noturno ... Se soubéssemos como

Efeito de Idade

Page 39: Modelos bayesianos sem MCMC com aplicações na epidemiologia · – Morbidade por doenças respiratórias no Rio de Janeiro ... Efeitos do trabalho noturno ... Se soubéssemos como

Efeito de período

Page 40: Modelos bayesianos sem MCMC com aplicações na epidemiologia · – Morbidade por doenças respiratórias no Rio de Janeiro ... Efeitos do trabalho noturno ... Se soubéssemos como

Efeito de coorte

Page 41: Modelos bayesianos sem MCMC com aplicações na epidemiologia · – Morbidade por doenças respiratórias no Rio de Janeiro ... Efeitos do trabalho noturno ... Se soubéssemos como

Resumo

● Para uma classe de modelos é possível fazer inferência bayesiana sem a necessidade o uso do MCMC

● A alternativa computacional é o método INLA, que apresenta aproximações para as marginais da distribuição a posteriori conjunta.

● O pacote INLA está disponível no site:

– http://www.r-inla.org● Os exemplos apresentados aqui são trabalhos em

parceiria com pesquisadores da Fiocruz, se alguem tiver interesse fique a vontade para conversar.

Page 42: Modelos bayesianos sem MCMC com aplicações na epidemiologia · – Morbidade por doenças respiratórias no Rio de Janeiro ... Efeitos do trabalho noturno ... Se soubéssemos como

Obrigado!

Leo Bastos: [email protected]

http://www.procc.fiocruz.br