trabajo de investigación: análisis bayesiano de tablas de contingencia bidimensionales
DESCRIPTION
TRANSCRIPT
CONGRESO NACIONAL DE ESTUDIANTES DE ESTADÍSTICA
Análisis Bayesiano de Tablas Análisis Bayesiano de Tablas de Contingencia de Contingencia BidimensionalesBidimensionales
Ing. Juan Manuel Casanova González
Trabajo de Investigación
09 de Septiembre del 2009
CONEEST 22 / 29 / 29Análisis Bayesiano de Tablas de Contingencia Bidimensionales
Introducción Introducción (1/5)(1/5)
Tablas de Contingencia
Analizan la relación o dependencia de dos o más variables cualitativas o “discretizadas”.Cuando describen la relación entre dos variables son llamadas tablas de contingencia IxJ o bidimensionales.Determinar si las variables están relacionadas de alguna manera (pruebas de independencia y homogeneidad)Técnicas que usualmente se aplican:
Prueba Chi – CuadradoMedidas de asociación (Coef. Contingencia, V de Cràmer)Análisis de Correspondencias (Simple, Múltiple)Modelos Log-lineales
CONEEST
Introducción Introducción (2/5)(2/5)
33 / 29 / 29Análisis Bayesiano de Tablas de Contingencia Bidimensionales
Estudio sobre Contaminación AmbientalCon el fin de estudiar la relación entre el grado de contaminación ambiental y la climatología se han recogido datos durante 200 días y se han clasificado según el grado de contaminación (1=alta, 2=media, 3=baja) y según la nubosidad (1=intensa, 2=débil, 3=inexistente).
Estructura probabilística de la tabla se ajusta a un modelo Producto de Multinomiales. La hipótesis adecuada es la de homogeneidad.
Grado de
Contaminación
Nivel de Nubosidad
TotalIntensa Débil Inexistente
Alta 28 16 12 56
Media 23 52 21 96
Baja 12 21 15 48
Total 63 89 48 200
CONEEST 44 / 29 / 29Análisis Bayesiano de Tablas de Contingencia Bidimensionales
Introducción Introducción (3/5)(3/5)Estadística Bayesiana
Enfoque alternativo para el análisis estadístico convencional de datos.Se basa en el Teorema de Bayes:
P(A/B): Probabilidad del evento A dado el evento B o probabilidad a posterioriP(A): Probabilidad a priori del evento AP(B/A)/P(B): Evidencia
P(B/A): Probabilidad del evento B dado el evento AP(B): Probabilidad a priori del evento A
BPABP
APBAP
CONEEST 55 / 29 / 29Análisis Bayesiano de Tablas de Contingencia Bidimensionales
Introducción Introducción (4/5)(4/5)Teorema de Bayes
Manejo subjetivo del concepto de probabilidad. Permite incorporar las evidencias aportadas por experiencias previas dentro del proceso analítico y las contempla, por ende, en las conclusiones.
)(
)|()()|(
datosP
datosPPdatosP
Probabilidad de , dado los datos
(Distribución a Posteriori)
Probabilidad de los datos, dado Verosimilitud
Probabilidad de los datos(Constante Normalizadora)
Probabilidad a priori de (Distribución a priori)
CONEEST
Introducción Introducción (5/5)(5/5)
Estadística Bayesiana
Es un proceso comparativo. Compara la probabilidad del suceso observado bajo la hipótesis nula y bajo diferentes hipótesis alternativas.
Factor de Bayes:
Los métodos Bayesianos han abierto nuevas expectativas en el análisis de tablas de contingencia.
66 / 29 / 29Análisis Bayesiano de Tablas de Contingencia Bidimensionales
1
0
10
00
HPHP
HdDPHdDP
B
Probabilidad de los datos, dado
Probabilidad de los datos, dado
Probabilidades a priori de ambas hipótesis
CONEEST 77 / 29 / 29Análisis Bayesiano de Tablas de Contingencia Bidimensionales
Identificación del Problema Identificación del Problema (1/3)(1/3)
Tablas de Contingencia: Análisis Clásico
Sea observa D = d0 medida usando el estadístico Chi-
cuadrado.
Se calcula la probabilidad de haber obtenido dicha diferencia u otra mayor, suponiendo válida la hipótesis nula H0.
Esta probabilidad se emplea como base para la decisión (valor de probabilidad o p-valor).
Es decir, lo que se calcula es:
00 HdDPp
CONEEST
Tablas de Contingencia: Análisis Bayesiano
La probabilidad a posteriori de que sea válida H0
suponiendo que se observaron los datos que dan lugar a la diferencia observada d0.
Es decir, lo que se calcula es:
La interpretación de los resultados es más sencilla. Expresa el grado de creencia.
Más adecuado a la realidad.
88 / 29 / 29Análisis Bayesiano de Tablas de Contingencia Bidimensionales
00 dDHP
Identificación del Problema Identificación del Problema (2/3)(2/3)
CONEEST
Identificación del Problema Identificación del Problema (3/3)(3/3)
Entonces….
Por lo general el p-valor puede llegar a ser sustantivamente menor que la probabilidad …..Paradoja de Lindley!
99 / 29 / 29Análisis Bayesiano de Tablas de Contingencia Bidimensionales
00¿ HdDP ó ?00 dDHP
00 dDHP
CONEEST 1010 / 29 / 29Análisis Bayesiano de Tablas de Contingencia Bidimensionales
Objetivos Objetivos (1/1)(1/1)
Objetivos EspecíficosEstimar las probabilidades posteriores en las celdas y sus intervalos de densidad posterior más grande. Determinar la probabilidad de que exista asociación entre dos variables categóricas usando el concepto del factor de Bayes.Aplicar modelos log-lineales Bayesianos a las tablas de contingencia IxJ, para determinar si las variables están relacionadas de alguna manera. Desarrollar algoritmos con el programa Winbugs como herramienta para hacer las estimaciones de los parámetros y las regiones de credibilidad en los modelos presentados.
Generales
Presentar la metodología del modelamiento
Bayesiano aplicado a las tablas de contingencia IxJ
Ilustrar la metodología Bayesiana aplicada a tablas
de contingencia IxJ con datos experimentales y
comparar sus resultados con el análisis Clásico.
CONEEST 1111 / 29 / 29Análisis Bayesiano de Tablas de Contingencia Bidimensionales
Metodología Metodología (1/10) (1/10)Una tabla de contingencia tiene la siguiente estructura:
Modelo multinomial
Modelo producto de multinomiales
Fila Columna Total
1 2
1 11 12 1.
2 21 22 2.
Total .1 .2 1.0
CONEEST 1212 / 29 / 29Análisis Bayesiano de Tablas de Contingencia Bidimensionales
Metodología Metodología (2/10) (2/10)Modelo 1: Multinomial-Dirichlet
Una tabla de contingencia tiene muestreo multinomial cuando el total de observaciones n es fijo.
Hipótesis planteada es la de independencia.
Distribución posterior: iiii DirnMyDir ,
Verosimilitud Distribución a PrioriDistribución Posterior
Modelo 2: Producto de Multinomiales - Dirichlet
Los totales marginales son fijos.
Se tienen I subpoblaciones, es de interés conocer el comportamiento de la variable columna en cada una de ellas – Homogeneidad.
Distribución posterior de la primera fila:
11111 , iiii DinMyDi
Verosimilitud Distribución a Priori
Distribución Posterior
CONEEST 1313 / 29 / 29Análisis Bayesiano de Tablas de Contingencia Bidimensionales
Metodología Metodología (3/10)(3/10)
¿Qué distribución a priori se les puede asignar?Dificultad de obtener información a priori sobre los valores de los parámetros de las tablas.
Generalmente se recurre a distribuciones a priori no informativas.
La manera más usual (pero no la única) es haciendo αi=1
para los parámetros Dirichlet, así se obtiene una distribución Uniforme (esta otorga igual densidad a todo vector π – La información previa que se tiene es la misma para todos los parámetros).
Es posible utilizar esta distribución a priori tanto en el caso de muestreo multinomial como en el caso de muestreo producto de multinomiales.
CONEEST 1414 / 29 / 29Análisis Bayesiano de Tablas de Contingencia Bidimensionales
Metodología Metodología (4/10)(4/10)
Pruebas y Modelos UtilizadosValoración Bayesiana de la prueba Chi-cuadrado (Matthews, 1999).
Prueba Bayesiana de Independencia – Homogeneidad (Albert 2007).
Modelos Log-Lineales Bayesianos
CONEEST 1515 / 29 / 29Análisis Bayesiano de Tablas de Contingencia Bidimensionales
Metodología Metodología (5/10)(5/10)
Valoración Bayesiana de la Prueba Chi-Cuadrado (Matthews, 1999)
En condiciones bastante generales, se puede hallar una cota inferior para el factor de Bayes, en función del valor observado Χ2:
Esto da lugar a la siguiente desigualdad:
00
1
22
0
0
21
exp
11 dDHP
HP
HP
Probabilidad mínima de que la hipótesis de independencia (u homogeneidad) sea cierta dado los datos.
Probabilidad a priori de H0
FB
2
1exp
22
CONEEST 1616 / 29 / 29Análisis Bayesiano de Tablas de Contingencia Bidimensionales
Metodología Metodología (6/10)(6/10)
Prueba Bayesiana de Independencia (Homogeneidad)
La función ctable de la biblioteca LearnBayes del paquete estadístico R, diseñada por Albert (2007), calcula esta prueba.
Reporta el factor de Bayes contra de la hipótesis de independencia.
Luego:
00
0
1 HPFBHP
FBHPDatosAsociaciónP
Probabilidad de que exista asociación dado los datos.
CONEEST 1717 / 29 / 29Análisis Bayesiano de Tablas de Contingencia Bidimensionales
Metodología Metodología (7/10)(7/10)
Análisis Bayesiano de los Modelos Log-lineales
En una tabla de contingencia IxJ, se tiene que
Modelo de Independencia:
Modelo Saturado o de asociación:
Para asegurar la identificabilidad del modelo (número de parámetros igual o menor al número de celdas en la tabla), se igualan a cero todos los efectos donde participen las primeras categorías de cada variable.
ijij Poy ~
jiij 210 log
ijjiij 12210 log
CONEEST 1818 / 29 / 29Análisis Bayesiano de Tablas de Contingencia Bidimensionales
Metodología Metodología (8/10)(8/10)Análisis Bayesiano de los Modelos Log-lineales
Congdon (2005) propone que los parámetros restantes sean tomados como efectos fijos independientemente distribuidos, con media cero y varianza muy grande:
Una alternativa (Agresti y Hitchcock (2005)), es usar un modelo jerárquico Bayesiano:
ui
1/σ2
δ
Ga(0.1,0.1)
N(δ, σ2)
U(0,1)
uiN(0,1000)
1er Nivel
1er Nivel
2do Nivel
Precisión =1/1000
CONEEST 1919 / 29 / 29Análisis Bayesiano de Tablas de Contingencia Bidimensionales
Metodología Metodología (9/10)(9/10)
Medidas de selección del mejor modeloCriterio más usado es el DIC (Deviance Information Criteria), Spiegelhalter (2006).
Análogo del AIC (Akaike Information Criteria) del análisis clásico.
Es muy útil en la comparación de modelos (ej. Modelo de Independencia con el Modelo Saturado).
Modelos con un menor valor del DIC ajustan mejor los datos.
Otros criterios:BIC (Bayesian Information Criteria)
Factor de Bayes
A partir del BIC es posible aproximar el valor del factor de Bayes de un modelo frente al otro.
CONEEST 2020 / 29 / 29Análisis Bayesiano de Tablas de Contingencia Bidimensionales
Metodología Metodología (10/10)(10/10)Cadenas de Markov vía Monte Carlo (MCMC)
Uno de los más grandes problemas con el uso de las aproximaciones Bayesianas es la obtención de la distribución posterior.Los métodos MCMC (Smith & Roberts (1993)) simulan la gráfica de una distribución compleja de interés, a través del muestreo de largas y posiblemente múltiples cadenas de valores de un determinado parámetro, también de interés.Muestrear un punto θ* de una distribución llamada “de salto”, el cual es comparado con el valor anterior de la cadena θt-1 a través de una razón de verosimilitudes denotada por α, se acepta el punto si con p=min(α,1), si no, se descarta y se muestrea otro.
WinBUGS 1.4.2Programa para el análisis Bayesiano de modelos estadísticos complejos utilizando técnicas MCMC (como el muestreo de Gibbs).
CONEEST 2121 / 29 / 29Análisis Bayesiano de Tablas de Contingencia Bidimensionales
Resultados y Discusión Resultados y Discusión (1/10)(1/10)
Estudio sobre Contaminación AmbientalCon el fin de estudiar la relación entre el grado de contaminación ambiental y la climatología se han recogido datos durante 200 días y se han clasificado según el grado de contaminación (1=alta, 2=media, 3=baja) y según la nubosidad (1=intensa, 2=débil, 3=inexistente).
Estructura probabilística de la tabla se ajusta a un modelo multinomial. La hipótesis adecuada es la de independencia.
Grado de
Contaminación
Nivel de Nubosidad
TotalIntensa Débil Inexistente
Alta 28 16 12 56
Media 23 52 21 96
Baja 12 21 15 48
Total 63 89 48 200
CONEEST 2222 / 29 / 29Análisis Bayesiano de Tablas de Contingencia Bidimensionales
Resultados y Discusión Resultados y Discusión (1/10)(1/10)
Programa en Winbugs
CONEEST 2323 / 29 / 29Análisis Bayesiano de Tablas de Contingencia Bidimensionales
Resultados y Discusión Resultados y Discusión (1/10)(1/10)
Modelo Multinomial - DirichletReporte obtenidos usando 30000 iteraciones (5000 descartadas).
CONEEST 2424 / 29 / 29Análisis Bayesiano de Tablas de Contingencia Bidimensionales
Resultados y Discusión Resultados y Discusión (2/10)(2/10)
Modelo Multinomial - Dirichlet
En azul, resultados del análisis Bayesiano.Los resultados son iguales a los obtenidos al análisis clásico.
Grado de
Contaminación
Nivel de Nubosidad
TotalIntensa Débil Inexistente
Alta0.140
(0.140)0.080
(0.080)0.059
(0.060)1.000
Media0.115
(0.115)0.260
(0.260)0.105
(0.105)1.000
Baja0.060
(0.060)0.105
(0.105)0.075
(0.075)1.000
CONEEST 2525 / 29 / 29Análisis Bayesiano de Tablas de Contingencia Bidimensionales
Resultados y Discusión Resultados y Discusión (8/10)(8/10)
Pruebas de Homogeneidad
Análisis Clásico: Chi-cuadrado chisq.test(contami)
Pearson's Chi-squared test
data: contami
X-squared = 15.0626, df = 4, p-value = 0.004573
Valoración Bayesiana de la Prueba de Independencia
Probabilidad a priori de H0 0.5
Valor mínimo del FB 0. 0034
Valor mínimo de P(H0/Datos) 0.0034
CONEEST 2626 / 29 / 29Análisis Bayesiano de Tablas de Contingencia Bidimensionales
Resultados y Discusión Resultados y Discusión (8/10)(8/10)
Pruebas de Homogeneidad
¿Qué pasa si cambia la probabilidad a priori P(Ho) de que sea cierta la hipótesis planteada que habla de la homogeneidad entre las respuestas de las poblaciones? > tabla
PHo PMinimaHo
1 0.1 0.000
2 0.2 0.001
3 0.3 0.001
4 0.4 0.002
5 0.5 0.003
6 0.6 0.005
7 0.7 0.008
8 0.8 0.014
9 0.9 0.030
CONEEST 2727 / 29 / 29Análisis Bayesiano de Tablas de Contingencia Bidimensionales
Resultados y Discusión Resultados y Discusión (8/10)(8/10)
Pruebas de Homogeneidad
Prueba Bayesiana de Independencia
La probabilidad de que exista asociación entre el grado de contaminación y el nivel de nubosidad es de 0.93.
DatosAsociaciónP
FB en contra de la homogeneidad 12.56
Probabilidad a priori de H0 0.50
0.93
CONEEST 2828 / 29 / 29Análisis Bayesiano de Tablas de Contingencia Bidimensionales
Resultados y Discusión Resultados y Discusión (8/10)(8/10)
Modelo Log-lineal
A través de los Modelos Log-lineales podemos investigar la existencia de asociación entre ambas variables.
Para ellos se obtienen los resultados del modelo saturado y el de independencia, y se evalúa cual se ajusta mejor a los datos.
Se comparan los resultados obtenidos del modelo clásico con el modelo bayesiano.
Se utilizan medidas de adecuación del mejor modelo: AIC por el lado clásico, y DIC por el lado bayesiano.
El modelo clásico y bayesiano pueden obtenerse de los paquetes de R glm() y zelig().
CONEEST 2929 / 29 / 29Análisis Bayesiano de Tablas de Contingencia Bidimensionales
Resultados y Discusión Resultados y Discusión (8/10)(8/10)
Modelo Log-lineal Clásico de Independencia
CONEEST 3030 / 29 / 29Análisis Bayesiano de Tablas de Contingencia Bidimensionales
Resultados y Discusión Resultados y Discusión (8/10)(8/10)
Modelo Log-lineal Clásico Saturado
CONEEST 3131 / 29 / 29Análisis Bayesiano de Tablas de Contingencia Bidimensionales
Resultados y Discusión Resultados y Discusión (8/10)(8/10)
Modelo Log-lineal Bayesiano de Independencia
CONEEST 3232 / 29 / 29Análisis Bayesiano de Tablas de Contingencia Bidimensionales
Resultados y Discusión Resultados y Discusión (8/10)(8/10)
Modelo Log-lineal Bayesiano de Independencia
CONEEST 3333 / 29 / 29Análisis Bayesiano de Tablas de Contingencia Bidimensionales
Resultados y Discusión Resultados y Discusión (8/10)(8/10)
Modelo Log-lineal Clásico Saturado
CONEEST 3434 / 29 / 29Análisis Bayesiano de Tablas de Contingencia Bidimensionales
Resultados y Discusión Resultados y Discusión (8/10)(8/10)
Modelo Log-lineal Clásico Saturado
CONEEST 3535 / 29 / 29Análisis Bayesiano de Tablas de Contingencia Bidimensionales
Resultados y Discusión Resultados y Discusión (9/10)(9/10)
Modelos Log-lineal de Independencia (30000 iteraciones – 5000 descartadas)
Coeficiente NotaciónEstimado (Clásico)
Media (Bayesiano)
Intercepto 2.8702 2.8550
Media 0.5390 0.5434
Baja -0.1542 -0.1554
Débil 0.3455 0.3477
Inexistente -0.2719 -0-2740
0
)2(1
)3(1
)2(2
)3(2
CONEEST 3636 / 29 / 29Análisis Bayesiano de Tablas de Contingencia Bidimensionales
Resultados y Discusión Resultados y Discusión (9/10)(9/10)
Modelos Log-lineal Saturado (30000 iteraciones – 5000 descartadas)
Coeficiente NotaciónEstimado (Clásico)
Media (Bayesiano)
Intercepto 3.3322 3.3150
Media -0.1967 -0.1996
Baja -0.8473 -0.8729
Débil -0.5596 -0.5703
Inexistente -0.8473 -0.8735
Media-Débil 1.3754 1.3960
Baja-Débil 1.1192 1.1470
Media-Inexistente 0.7563 0.7772
Baja-Inexistente 1.0704 1.1050
0
)2(1
)3(1
)2(2
)3(2
)22(12
)32(12
)23(12
)33(12
Si se hace , se puede decir que, comparado con el nivel de nubosidad intenso, es 3 veces más probable que en un día de nivel de nubosidad débil se obtenga una medición de grado de contaminación baja contra que la medición sea un grado de contaminación alto.
149.31.1470 e
CONEEST 3737 / 29 / 29Análisis Bayesiano de Tablas de Contingencia Bidimensionales
Resultados y Discusión Resultados y Discusión (10/10)(10/10)
Selección del mejor modeloAnálisis Clásico
AIC del modelo Saturado: 61.581
AIC del modelo de Independencia: 68.176
Análisis Bayesiano
DIC del modelo Saturado:
DIC del modelo de Independencia:
CONEEST 3838 / 29 / 29Análisis Bayesiano de Tablas de Contingencia Bidimensionales
Conclusiones Conclusiones (1/2)(1/2)Las inferencias generadas a partir de la metodología Bayesiana son más informativas y fáciles de interpretar desde el punto de vista probabilístico que las realizadas a partir de la metodología clásica.
El uso del WinBUGS en el presente estudio permitió realizar inferencia Bayesiana de manera más sencilla y rápida, además de demostrar la utilidad e importancia de los métodos de simulación de Cadenas de Markov vía Monte Carlo.
El análisis Bayesiano de la tabla Contaminación Ambiental permite concluir que es muy probable que exista asociación entre la nubosidad y el nivel de contaminación, pues la probabilidad calculada es 0.93.
CONEEST 3939 / 29 / 29Análisis Bayesiano de Tablas de Contingencia Bidimensionales
Conclusiones Conclusiones (2/2)(2/2)
Los valores de los parámetros log-lineales obtenidos en ambas tablas de contingencia desde el punto de vista Bayesiano, fueron muy similares a los obtenidos a través del punto de vista clásico, esto por el uso de distribuciones a priori no informativas.
La aplicación de criterios para la selección del mejor modelo, como el DIC, permitió tomar una decisión respecto a si el modelo saturado ajustaba mejor a los datos que el de independencia.
La simulación MCMC puede ser peligrosa, y de haber algún fallo en el modelo, WinBUGS podría obtener resultados erróneos. Por ello se recomienda analizar cuidadosamente los resultados, después de un número convincente de simulaciones.
CONEEST 4040 / 29 / 29Análisis Bayesiano de Tablas de Contingencia Bidimensionales
Bibliografía Bibliografía (1/1)(1/1)
MATTHEWS, Robert. Significance Levels for the assessment of anomalous phenomena. Journal of Scientific Exploration. USA, 1999. Vol. 13, Nº 1. Pág 1-7.
ALBERT, James H. Bayesian Computation with R. Ohio. Springer Ed. 2007. 280 p.
BERGER, J, SELLKE, T. Testing a point null hypothesis: the irreconcilability of P-values and evidence. Journal of American Statistical Association. USA, 1987. Número 82, página 112.
CONGDON, Peter. Bayesian Models for Categorical Data. Londres, John Wiley & Sons Ltd. 2005. 425 p.
Winbugs 1.4
Epidat 3.1
CONEEST 4141 / 29 / 29Análisis Bayesiano de Tablas de Contingencia Bidimensionales
FinFin
Muchas Gracias!Muchas Gracias!