cap1-5métodos bayesianos

21
Métodos Bayesianos Contenido Resumen 5.1. Incertidumbre 5.2. Sistemas de Razonamiento Probabilística 5.2.1. Introducción 5.2.2. Introducción a Inferencia Bayesiana 5.2.3. Teorema de Bayes 5.2.4. Teorema de Bayes Aplicado 5.3. Redes Bayesianas 5.3.1. Introducción 5.3.2. Definición 5.3.3. Ilustración con redes bayesianas Implicaciones algorítmicas de redes bayesianas Usos prácticos de las redes bayesianas Limitaciones de las redes bayesianas Resumen Las Redes Bayesianas son una área creciente e importante para la investigación y aplicación en todos los campos de la Inteligencia Artificial. Este trabajo explora la naturaleza e implicaciones para las Redes Bayesianas, comenzando con una perspectiva y comparación de la estadística inferencial y el Teorema de Bayes. La naturaleza, relevancia y aplicabilidad de la teoría de Redes Bayesianas para problemas de cómputo avanzados forma el núcleo de la discusión actual. Se examina un número de aplicaciones actuales usando redes Bayesianas. El trabajo concluye con una breve discusión de las limitaciones y propiedad de las Redes Bayesianas para la interacción humano-computadora y el aprendizaje automatizado. 5.2 Sistemas de Razonamiento Probabilística 1

Upload: irma-lisbeth-bautista-romero

Post on 04-Jul-2015

361 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Cap1-5Métodos Bayesianos

Métodos Bayesianos

ContenidoResumen5.1. Incertidumbre5.2. Sistemas de Razonamiento Probabilística

5.2.1. Introducción 5.2.2. Introducción a Inferencia Bayesiana5.2.3. Teorema de Bayes5.2.4. Teorema de Bayes Aplicado

5.3. Redes Bayesianas5.3.1. Introducción5.3.2. Definición5.3.3. Ilustración con redes bayesianas

5.4. Implicaciones algorítmicas de redes bayesianas5.5. Usos prácticos de las redes bayesianas 5.6. Limitaciones de las redes bayesianas

Resumen

Las Redes Bayesianas son una área creciente e importante para la investigación y aplicación en todos los campos de la Inteligencia Artificial. Este trabajo explora la naturaleza e implicaciones para las Redes Bayesianas, comenzando con una perspectiva y comparación de la estadística inferencial y el Teorema de Bayes. La naturaleza, relevancia y aplicabilidad de la teoría de Redes Bayesianas para problemas de cómputo avanzados forma el núcleo de la discusión actual. Se examina un número de aplicaciones actuales usando redes Bayesianas. El trabajo concluye con una breve discusión de las limitaciones y propiedad de las Redes Bayesianas para la interacción humano-computadora y el aprendizaje automatizado.

5.2 Sistemas de Razonamiento Probabilística

5.2.1 Introducción

La estadística inferencial es una rama de la estadística que intenta hacer predicciones válidas basadas solo en una muestra de todas las observaciones posibles [1]. Por ejemplo, imaginemos una bolsa de 10,000 canicas. Algunas son negras y otras son blancas, pero la proporción exacta de estos colores es desconocida. No es necesario contar todas las canicas para hacer algún comentario acerca de proporción. Una muestra de 1,000 canicas puede ser suficiente para hacer una inferencia acerca de la proporción de canicas negras y blancas en la población completa. Si el 40% de nuestra muestra son blancas, entonces podemos ser capaces de inferir que cerca del 40 % de la población también son blancas. A la persona floja, este proceso le parecería más bien directo. De

1

Page 2: Cap1-5Métodos Bayesianos

hecho, podría parecer que no hay necesidad aun de adquirir una muestra de 1,000 canicas. Una muestra de 100, ó aun de 10 canicas podría ser suficiente.

Esta suposición no es necesariamente correcta. Conforme el tamaño de la muestra se hace más pequeño, el potencial de error crece. Por esta razón, la estadística inferencial ha desarrollado numerosas técnicas para decir el nivel de confianza que puede ponerse en estas inferencias.

Si tomamos 10 muestras de 100 canicas cada una, podemos encontrar los siguientes resultados.

Tabla 1: Proporción relativa de 10 muestras de una población de 10,000

Número de muestra

Número de Canicas Blancas

Número de Canicas Negras

1 40 60

2 35 65

3 47 53

4 50 50

5 31 69

6 25 75

7 36 64

8 20 80

9 45 55

10 55 45

Entonces, estamos en la posición de calcular la “Desviación Estándar” de estas muestras:

(ec. 1)[2]

donde x2 es la suma de los cuadrados tal que la ecuación se expande a:

(ec. 2)

y n es el número de muestras. En nuestro ejemplo, el número medio de canicas Blancas es .

Se podría intentar decir que cerca del 40% de las canicas son blancas, pero seríamos incapaces de argumentar ese punto con algún grado de certidumbre. Usando la ecuación 2 de arriba, determinamos que la Desviación Estándar es 11.15. Entonces debemos determinar el “Error Medio de la Muestra” (donde s=[sigma]):

2

Page 3: Cap1-5Métodos Bayesianos

(ec. 4)

La confianza que podemos poner a nuestra hipótesis de que u=40 de las canicas son blancas se encuentra usando una prueba estadística estándar llamada “z-test”:

(ec. 5)

Usando una tabla z-test [3] y nuestro valor-z resultante de -.4532, encontramos que 32% del area de la curva normal caería debajo de este valor "z". En otras palabras, en 32% de muestras dadas, sería menor que 38.4. Puesto que la distribución es doble-lado o doble cola (i.e., la muestra promedio también podría ser mayor que la población promedio), podríamos esperar que sea mayor que ((u- )+u=) 41.6 en otro 32% de casos.

En resumen, si esperamos que 40% de todas las canicas sean blancas, entonces una serie de diez muestras con solo 38.4% de canicas blancas sería esperada el (100-64%=) 36% de las veces. Claramente, la confianza que podemos poner en nuestra conclusión no es tan buena como era a primera vista. Esta falta de confianza se debe a la gran variabilidad entre las muestras. Si tomamos mas muestras o muestras mayores, nuestra confianza en nuestra conclusión podría aumentar.

5.2.2 Una Introducción a Inferencia Bayesiana

Modelos clásicos inferenciales no permiten la introducción de conocimiento a priori en los cálculos. Para el rigor del método científico, esta es una respuesta apropiada para prevenir la introducción de datos extraños que podrían torcer los resultados experimentales. Sin embargo, hay ocasiones en que el uso de conocimiento a priori sería una contribución útil al proceso de evaluación.

Asumir una situación donde una inversionista está considerando comprar alguna clase de franquicia exclusiva en un territorio geográfico dado. Su plan de negocio sugiere que ella debe llevar a cabo 25% de saturación de mercado para que la empresa sea provechosa. Usando algunos de sus fondos de inversión, ella contrata una compañía encuestadora para que elabore un estudio aleatorio. Los resultados concluyen que de una muestra al azar de 20 consumidores, 25% de la población estaría preparada para comprar sus servicios. ¿Es suficiente esta evidencia para proceder con la inversión?

Si esto es todo, la inversionista tiene que continuar, ella podría encontrarse en su punto de equilibrio y solo podría tan fácilmente volver a perder en lugar de sacar provecho. Ella podría no tener suficiente confianza en ese estudio o su plan de proceder.

Afortunadamente, la compañía franquiciante tiene mucha experiencia en explotación de mercados nuevos. Sus resultados muestran que en 20% de los casos, las franquicias nuevas solo acaparan un 25% de saturación de mercado, mientras que en 40% de los casos, las franquicias nuevas acaparan un 30% de saturación de mercado. La tabla completa de sus hallazgos aparece en seguida:

3

Page 4: Cap1-5Métodos Bayesianos

Tabla 2: Porciento de Franquicias Nuevas que acaparan una Saturación de Mercado dada.

Saturación Mercado (Proporción) =pPorciento de Franquicias (Frecuencia Relativa)

0.10 0.05

0.15 0.05

0.20 0.20

0.25 0.20

0.30 0.40

0.35 0.10

  Total = 1.00

La cuestión de nuestro inversionista es simple “¿Cuál es la probabilidad de que mi población logre una saturación de mercado mayor del 25% dada la encuesta realizada y los resultados encontrados en otros lugares?” En efecto, ella necesita determinar la probabilidad de que su población sea una del 70% de casos donde la saturación de mercado es mayor que o igual a 25%. Ahora ella tiene la información que necesita para hacer una inferencia Bayesiana de su situación.

5.2.3 Teorema de Bayes.

El Teorema de Bayes, desarrollado por el Rev. Thomas Bayes, un matemático y teólogo del siglo 18, primero fue publicado en 1763.[4] Matemáticamente se expresa como:

(ec.6)

donde podemos actualizar nuestra creencia en la hipótesis H dada la evidencia adicional E y el contexto antecesor c. El término del lado-izquierdo P(H|E,c) es conocido como la “probabilidad a posterior,” o la probabiliad de H después de considerar el efecto de E sobre c. El término P(H|c) es llamado la “probabilidada a priori” de H dado solo c. El término P(E|H,c) es llamado la “verosimilitud” y da la probabilidad de la evidencia asumiendo que la hipótesis H y la información antecedente c son verdaderas. Finalmente el último término P(E|c) es independiente de H y puede ser tratado como el factor de normalización ó escalamiento.

En el caso de nuestro inversionista, ya se sabe que P(H|c) es 0.40, así que la ecuación Bayesiana se resuelve para:

(ec. 7)

Es importante notar que todas estas probabilidades son condicionales. Ellas especifican el grado de creencia en alguna proposición ó proposiciones basadas en la suposición de

4

Page 5: Cap1-5Métodos Bayesianos

que algunas otras proposiciones son verdaderas. Como tal, la teoría no tiene significado sin resolución a priori de la probabilidad de estas proposiciones antecedentes.

5.2.4 Teorema de Bayes Aplicado

Regresemos al ejemplo del inversionista. De la teoría de distribuciones binomiales, si la probabilidad de que ocurran algunos eventos en cualquier prueba es p, entonces la probabilidad x de que ocurran tales eventos fuera de las n pruebas se expresa como

(ec. 8)[5]

Por ejemplo, la probabilidad de que 5 de 20 personas sostendrán su empresa realmente debería caer en la categoría donde 20% de franquicias acapara realmente 25% de saturación es:

(ec. 9)

La probabilidad de las demás situaciones también se puede determinar:

Tabla 3: Probabilidad de Un Inversionista Encontrándose en cada situación dados x=5 y n=20

Evento(Saturación de Mercado)pi

Probabilidad a Priori P0(pi)

Probabilidadde la Situación P(x=5|pi)

ProbabilidadComún dela SituaciónP(x=5|pi)*P0(pi)

Probabilidad a Posteriori

0.10 0.05 0.03192 0.001596 0.00959

0.15 0.05 0.10285 0.005142 0.00309

0.20 0.20 0.17456 0.034912 0.20983

0.25 0.20 0.20233 0.040466 0.24321

0.30 0.40 0.17886 0.071544 0.43000

0.35 0.10 0.12720 0.012720 0.07645

Totales 1.00 0.817720.166381=P(x=5)

0.99997

La suma de todas las Probabilidades Comunes proporciona el factor de escalamiento encontrado en el denominador del Teorema de Bayes y está últimamente relacionado al tamaño de la muestra. La muestra había sido mayor de 20, el peso relativo entre conocimiento a priori y evidencia actual sería ponderado mas pesadamente a favor de este. La columna de Probabilidad a Posteriori de la Tabla 4 muestra los resultados del teorema Bayesiano para este caso.

Sumando las probabilidades relativas a posteriori para cuotas del mercado >=25% y aquellas <25%, nuestro inversionista verá que hay una 75% de probabilidad de que su

5

Page 6: Cap1-5Métodos Bayesianos

franquicia ganará dinero -- definitivamente una situación más atractiva en la cual basar una decisión de inversión.

5.3 Redes Bayesianas

5.3.1 Introducción

El concepto de probabilidad condicional es útil. Hay incontables ejemplos en el mundo real donde la probabilidad de un evento es condicional sobre la probabilidad de un evento previo. Mientras que las reglas de la suma y del producto de teoría de probabilidad pueden anticipar este factor de condicionalidad, en muchos casos tales cálculos son NP-difícil. El prospecto de manejar un escenario con 5 variables al azar discretas (25-1=31 parámetros discretos) podría ser manejable. Un sistema experto para monitorear pacientes con 37 variables que resulta en una distribución común de más de 237 parámetros no sería manejable[6].

5.3.2 Definición

Considere un dominio U de n variables, x1,...xn. Cada variable puede ser discreta o continuo, habiendo un número finito o contable de estados. Dado un subconjunto X de variables xi donde xi U, si uno puede observar el estado de cada variable en X, entonces esta observación es llamada una instancia de X y es denotada como

para las observaciones . El

“espacio conjunto” de U es el conjunto de todas las instancias de U.

denota la “densidad de probabilidad generalizada” de que dada para una persona con estado actual

de información ξ. entonces denota la "Función de Densidad de Probabilidad Generalizada " (gpdf) para X, dadas todas las observaciones posibles de Y. La gpdf común sobre U es la gpdf para U.

Una red Bayesiana de dominio U representa una gpdf común sobre U. Esta representación consiste de un conjunto de condicionales locales gpdfs combinado con un conjunto afirmaciones de independencia condicional que permiten la construcción de una gpdf global de las gpdfs locales. Como se demostró previamente la regla de la cadena de la probabilidad puede ser usada para afirmar estos valores:

(ec. 10)

Una suposición impuesta por la teoría de Redes Bayesianas (e indirectamente por la Regla del Producto de teoría de probabilidad) es que cada variable

debe ser un conjunto de variables que presta condicionalmente independiente. De esta manera:

6

Page 7: Cap1-5Métodos Bayesianos

(ec. 11)[7]

Entonces, una Estructura de Red Bayesiana codifica las afirmaciones de independencia condicional en la ecuación 10. Entonces esencialmente, una Estructura de Red Bayesiana Bs “es una gráfica acíclica dirigida tal que (1) cada variable en U corresponde a un nodo en Bs, y (2) los padres del nodo correspondiente a xi son los nodos correspondientes a las variables en [Pi]i.”[8]

“Una gpdf de red-Bayesiana Bp es la colección de gpdfs locales para cada

nodo en el dominio.” [9]

5.3.3 Redes Bayesianas Ilustradas

Dada una situación donde hoy podría llover, y mañana podría llover, ¿cuál es la probabilidad de que llueva en ambos días? Que llueva en dos días consecutivos, no son eventos independientes con probabilidades aisladas. Si llueve en un día, es más probable que llueva al siguiente. Resolver este problema involucra determinar la probabilidad de que llueva hoy, y entonces determinar la probabilidad de que llueva mañana condicional a la probabilidad de que llueva hoy. Estas son conocidas como “probabilidades comunes.” Supóngase que P(llueva hoy) = 0.20 y P(llueva mañana dado que llueve hoy) = 0.70. La probabilidad de tales eventos conjuntos es determinada por:

(eq. 12)

que también se puede expresar como:

(eq. 13)[10]

Resolviendo las probabilidades comunes para todas las eventualidades, los resultados se pueden expresar en un formato de tabla:

Tabla 4: Probabilidades Común y Marginal de que llueva hoy y mañana

  Llueva Mañana

No Llueva Mañana

Probabilidad Marginal de que Llueva Hoy

Llueva hoy 0.14 0.06 0.20

No Llueva hoy 0.16 0.64 0.80

Probabilidad Marginal de que Llueva Mañana

0.30 0.70  

De la tabla, es evidente que la probabilidad común de lluvia en ambos días es 0.14, pero existe gran parte de otra información que tenía que ser traída al cálculo antes de que fuera posible una determinación. Con solo dos variables binarias, discretas, se requirieron cuatro cálculos.

7

Page 8: Cap1-5Métodos Bayesianos

Este mismo escenario se puede expresar usando un Diagrama de Red Bayesiana como el siguiente (en la Figura 1: “!” es usado para denotar “no”).

 

Figura 1: Una Red Bayesiana que muestra la probabilidad de que llueva

Algo atractivo de las Redes Bayesianas es la eficiencia que solo una rama del árbol necesita para ser viajada. Realmente solo estamos concernidos con P(E1), P(E2|E1) y P(E2,E1).

También podemos utilizar la gráfica tanto visualmente como algorítmicamente para determinar que parámetros son independientes entre sí. En lugar de calcular cuatro probabilidades comunes, podemos usar la independencia de los parámetros para limitar nuestros cálculos a dos. Es auto-evidente que las probabilidades de lluvia en el segundo día que ha llovido en el primero son completamente autónomas de las probabilidades de lluvia en el segundo día que no ha llovido en el primero.

Al mismo tiempo que acentuar indiferencia paramétrica, las Redes Bayesianas también proporcionan una representación parsimoniosa de condicionalidad entre relaciones paramétricas. Mientras que la probabilidad de lluvia hoy y la probabilidad de lluvia mañana son dos acontecimientos discretos (no puede llover hoy y mañana al mismo tiempo), existe una relación condicional entre ellos (si hoy llueve, es mas probable que los sistemas persistentes del tiempo y la humedad residual den lugar a que mañana llueva). Por esta razón, los bordes dirigidos del gráfico están conectados para demostrar esta dependencia.

Friedman y Goldszmidt sugieren el mirar las redes Bayesian como una "anecdota". Ofrecen el ejemplo de una anecdota que contiene cinco variables al azar: " Burglary" , " Earthquake" , " Alarm" , " Neighbour Call "; , y " Radio Announcement ";. [11] En tal anecdota, " Burglary" y " Earthquake" son independientes, y " Burglary" y " Radio Announcement "; son independientes dado "Earthquake." És decir no hay acontecimiento que efectúe robos y terremotos. También, " Burglary" y " Radio Announcement"; son independientes dado "Earthquake" –indica que mientras un aviso de radio pudo resultar de un terremoto, no resultará como una repercusión de un robo.

8

Page 9: Cap1-5Métodos Bayesianos

Debido a la independencia entre estas variables, la probabilidad de P(A,R,E,B) (La probabilidad común de una alarma, aviso de radio, temblor y robo) puede ser reducido de

P(A,R,E,B)=P(A|R,E,B)*P(R|E,B)*P(E|B)*P(B)

Pasando de 15 parametros a 8:

P(A,R,E,B) = P(A|E,B)*P(R|E)*P(E)*P(B)

Esto significativamente redujo el número de probabilidades comúnes. Esto se puede representar como una red Bayesiana:

Figura 2: Probabilidades condicionales de una alarma dados los eventos independientes de un robo (burglary) y un temblor(earthquake).

Usar una red Bayesiana ofrece muchas ventajas sobre los métodos tradicionales para determinar relaciones causales. La independencia entre variables es fácil de reconocer y aislar mientras las relaciones condicionales estén claramente delimitadas por un borde dirigido del gráfico: dos variables son independientes si todas las trayectorias entre ellos están bloqueadas (dado que los bordes sean direccionales). No todas las probabilidades comunes necesitan ser calculadas para tomar una decisión; las ramas y las relaciones extrañas pueden ser ignoradas (Uno puede hacer una predicción de un aviso de radio sin importar si una alarma suena). Optimizando el gráfico, se puede demostrar que cada nodo tiene a lo más k padres. Las rutinas algorítmicas requeridas se pueden entonces correr en O(2kn) en lugar de O(2n) veces. En esencia, el algoritmo puede funcionar en tiempo lineal (basado en el número de bordes) en vez del tiempo exponencial (basado en el número de parámetros).[12]

Asociado con cada nodo está un conjunto de distribuciones de probabilidad condicional. Por ejemplo, el nodo “Alarma” podría tener la siguiente distribución de probabilidad:[13]

Tabla 5: Distribución de Probabilidad para el Nodo Alarma dados los eventos de "Temblores" y "Robos". (Nota: “¬” denota “no”)

9

Page 10: Cap1-5Métodos Bayesianos

E B P(A|E,B) P(¬A|E,B)

E B 0.90 0.10

E ¬B 0.20 0.80

¬E B 0.90 0.10

¬E ¬B 0.01 0.99

Por ejemplo, debe haber un terremoto y un robo, para que la alarma tenga una posibilidad de 90% de sonar. Con solo un terremoto y sin robo, sonaría solo en 20% de los casos. Un robo sin terremoto fijaría la alarma 90% de las veces, y la probabilidad de una alarma falsa no dado que no hay eventos antecedentes debería solo tener una probabilidad de 0.1% de las veces. Obviamente, estos valores tendrían que ser determinados a posteriori.

5.4 Implicaciones Algorítmicas de Redes Bayesianas

Las redes Bayesian son útiles tanto para exploración inferencial de relaciones previamente indeterminadas entre variables como para descripciones de estas relaciones en descubrimientos. En el primer caso, el poder computacional se puede aplicar en un problema. En el segundo caso, para determinar la verosimilitud de lluvia al día siguiente de un día lluvioso, los datos meteorológicos se pueden introducir en la computadora y la computadora puede determinar la probabilidad resultante de la red. Este proceso de descubrimiento de la red es discutido por Friedman & Goldszmidt [14]. Tal proceso es computacionalmente intensivo y NP-difícil en sus implicaciones algorítmicas. El beneficio de tal proceso es evidente en la habilidad para describir la red descubierta en el futuro. Entonces el cálculo de cualquier rama de probabilidad de la red se puede calcular en tiempo lineal.

Usos Practicos para Redes Bayesianas AutoClass

La National Aeronautic and Space Administration tiene una gran inversión en investigación Bayesiana. El centro de investigación Ames de la NASA' está interesado en la exploración del espacio-profundo y la adquisición de conocimiento. En recopilar datos de observatorios del espacio-profundo y de exploraciones planetarias, una imposición de la estructura apriori o patrones esperados es inadecuada. Los investigadores no siempre saben qué esperar con o aún tener hipótesis para las cuales probar cuando recopilar tales datos. La inferencia Bayesiana es útil porque permite al sistema de inferencia construir sus propios sistemas potenciales de entender los datos. Una vez que cualquier red implícita se descubre dentro de los datos, la yuxtaposición de esta red contra otros conjuntos de datos permite pruebas rápidas y eficientes de nuevas teorías e hipótesis.

El proyecto AutoClass es un intento de crear aplicaciones Bayesianas que pueden interpolar automáticamente datos originales de pruebas interplanetarias, y de

10

Page 11: Cap1-5Métodos Bayesianos

exploraciones del espacio profundo. [15] Un ejemplo gráfico de las capacidades de AutoClass se exhibe en la Figura 3. Incidentalmente, el código fuente de AutoClass está disponible tanto en Lisp como en C en una base de Fuente Abierta.

Figura 3: Una interpolación AutoClass de datos sin categorías predefinidas. with no predefined categories. Los datos clasificados son agrupados por el color y la forma. El área superior se clasifica en las formas verde-azules, el centro en azules, y la parte inferior en formas rojo-anaranjado-amarillas

Un ejemplo aplicado de las capacidades de AutoClass fue la entrada de los espectros infrarrojos. Aunque no se sospechara inicialmente de ninguna diferencias entre estos espectros, AutoClass distinguió con éxito a dos subgrupos de estrellas. [16]

Introducción de Busquedas Heurísticas

La búsqueda de una solución a un problema es usualmente un problema NP-difícil que resulta en una explosión combinatoria de posibles soluciones a investigar. Este problema se mejora a menudo con el uso de heurísticas, o subrutinas que hacen elecciones " inteligentes" a lo largo del árbol de decisión. Un heurístico apropiadamente definida puede acelerar la búsqueda obviamente eliminando las trayectorias no exitosas del árbol de búsqueda. Una heurística inadecuada podría eliminar las soluciones acertadas y dar lugar a soluciones no evidentes.

Las redes Bayesianas pueden reemplazar métodos heurísticos introduciendo un método donde las probabilidades son actualizadas continuamente durante la búsqueda

Una clase de algoritmos de búsqueda llamada búsqueda Estocástica utiliza lo que se conoce como procedimiento "Monte-Carlo". Este procedimiento es no determinista y no garantiza una solución a un problema. Como tal es muy rápido, y el uso repetido de estos algoritmos agregará evidencia de que no existe una solución aunque nunca prueba que tal solución no existe.

Acoplando tales procedimientos con el conocimiento de propiedades de la distribución de la cual se bosquejan los ejemplos del problema puede ser un modo efectivo de extender la utilidad de estos algorithms" [17] ayudando a enfocarse en áreas de la búsqueda del árbol no previamente estudiado.

11

Page 12: Cap1-5Métodos Bayesianos

Lumiere

Microsoft comenzó a trabajar en 1993 en Lumiere, su proyecto para crear software que automática e inteligentemente pudiera interactuar con usuarios del software anticipando las metas y necesidades de estos usuarios.

"Esta habilidad de identificar el foco de atención de un piloto en cualquier momento durante un vuelo puede proporcionar un enlace esencial a la disposición de apoyo efectivo de decisión. En particular, la comprensión de las metas comunes de un piloto experimental se pueden aplicar a seleccionar la presentación de sistemas alternativos y de pantallas." [19]

El proyecto Lumiere en Microsoft eventualmente dio lugar al "Asistente de Office" con la introducción de Office 95 de productos de escritorio. [20]

Limitaciones de Redes Bayesianas A pesar de su poder notable y potencial de dirigir procesos inferenciales, hay algunas limitaciones y responsabilidades inherentes a las redes Bayesianas

En la revisión del proyecto Lumiere, un problema potencial que casi se reconoce es la remota posibilidad de que un usuario del sistema pueda querer violar la distribución de probabilidades sobre las cuales se construye el sistema. Mientras que un sistema de escritorio de ayuda automatizado que no puede abrazar peticiones inusuales o inesperadas es meramente frustrante, un sistema de navegación automatizado que no puede responder a un cierto acontecimiento previamente imprevisto podría poner un avión y a sus ocupantes en peligro mortal. Mientras que estos sistemas pueden actualizar sus metas y objetivos basados en distribución a priori de metas y objetivos entre grupos de la muestra, la posibilidad de que un usuario haga una solicitud de información nueva de una manera previamente inesperada también debe ser acomodada.

Otros dos problemas son más serios. El primero es la dificultad computacional de explorar una red previamente desconocida. Para calcular la probabilidad de cualquier rama de la red, todas las ramas deben ser calculadas. Mientras que la habilidad resultante para describir la red se puede realizar en tiempo lineal, este proceso del descubrimiento de la red es una tarea NP-difícil que podría ser demasiado costosa de efectuar, o imposible dado el número y combinación de variables.

El segundo problema se centra en la calidad y el grado de la creencia a priori usada en el proceso de inferencia Bayesiana. Una red Bayesiana es solo tan útil como este conocimiento a priori es confiable. Una expectativa excesivamente optimista o pesimista de la calidad de esta creencia a priori distorsionará la red completa e invalidará los resultados. Se relaciona con esta preocupación la selección de la distribución estadística inducida en el modelado de los datos. La selección del modelo apropiado de la distribución para describir los datos tiene un efecto notable sobre la calidad de la red resultante.

12

Page 13: Cap1-5Métodos Bayesianos

ConclusionesAl lado de estas preocupaciones, las redes Bayesian tienen poder increíble de ofrecer ayuda en una amplia gama de esfuerzos. Apoyan el uso de inferencia probabilística para actualizar y revisar valores de la creencia. Las redes Bayesianas permiten fácilmente inferencias cualitativas sin las ineficiencias computacionales de determinaciones tradicionales de probabilidad común. Al hacer eso, apoyan la inferencia compleja que modela incluyendo sistemas de toma de decisión racionales, el valor de la información y el análisis de sensibilidad. Como tal, son útiles para el análisis de la causalidad y por medio de inducción estadística apoyan una forma de aprendizaje automatizado. Este aprendizaje puede implicar descubrimiento paramétrico, descubrimiento de red, y descubrimiento causal de la relación. [21]

En este artículo, discutimos las premisas de redes Bayesiana del Teorema de Bayes y cómo tal inferencia Bayesiana difiere de tratamientos clásicos de la inferencia estadística. Las razones, implicaciones y potencial emergente de redes Bayesiana en el área de Inteligencia Artificial fueron explorados entonces con un foco aplicado que perfilaba algunas áreas comunes donde los modelos y las redes Bayesianas se están empleando para abordar problemas de la vida real. Finalmente, examinamos algunas de las limitaciones de redes Bayesianas.

En lo mejor, tal artículo solo puede ser una foto del estado de la investigación Bayesiana en un lugar y momento dados. La anchura y los focos eclécticos de los muchos individuos, grupos y corporaciones investigando este asunto le hace uno de las áreas verdaderamente dinámicas dentro de la disciplina de la inteligencia artificial.

These concerns aside, Bayesian networks have incredible power to offer assistance in a wide range of endeavours. They support the use of probabilistic inference to update and revise belief values. Bayesian networks readily permit qualitative inferences without the computational inefficiencies of traditional joint probability determinations. In doing so, they support complex inference modelling including rational decision making systems, value of information and sensitivity analysis. As such, they are useful for causality analysis and through statistical induction they support a form of automated learning. This learning can involve parametric discovery, network discovery, and causal relationship discovery.[21]

In this paper, we discussed the premises of Bayesian networks from Bayes' Theorem and how such Bayesian inference differs from classical treatments of statistical inference. The reasons, implications and emerging potential of Bayesian networks in the area of Artificial Intelligence were then explored with an applied focus profiling some current areas where Bayesian networks and models are being employed to address real-life problems. Finally, we examined some of the limitations of Bayesian networks.

At best, such a paper can only be a snapshot of the state of Bayesian research at a given time and place. The breadth and eclectic foci of the many individuals, groups and corporations researching this topic makes it one of the truly dynamic areas within the discipline of Artificial Intelligence.

13

Page 14: Cap1-5Métodos Bayesianos

References[1]Hopkins, K.D. & G.V. Glass. Basic Statistics for the Behavioral Sciences. Prentice-Hall Inc., Englewood Cliffs, N.J. 1978. p. 3.

[2]Although this is properly a binomial distribution rather than a normal one, the use of [sigma] to represent the variability of the sample illustrates the basic point.

[3]cf. Hopkins & Glass, p. 401ff for an example.

[4]Stutz, J. & P. Cheeseman, "A Short Exposition on Bayesian Inference and Probability." June 1994. National Aeronautic and Space Administration Ames Research Centre: Computational Sciences Division, Data Learning Group, [5]Morgan, Bruce W. An Introduction to Bayesian Statistical Decision Processes. Prentice-Hall Inc., Englewood Cliffs, N.J. 1968. p. 15.

[6]Friedman, N. & M. Goldszmidt, "Learning Bayesian Network from Data." SRI International. 1998. http://www.erg.sri.com/people/moises/tutorial/index.htm

[7]Heckerman, D. & D. Geiger. "Learning Bayesian Networks. Microsoft Research: Redmond WA. December 1994. p. 3. http://www.research.microsoft.com/research/dtg/heckerma/TR-95-02.htm

[8]Heckerman & Geiger. p. 3.

[9]Heckerman & Geiger. p. 3.

[10]Winkler, Robert L. An Introduction to Bayesian Inference and Decision. Holt, Rinehart and Winston, Onc., Toronto. 1972.

[11]Friedman & Goldszmidt, http://www.erg.sri.com/people/moises/tutorial/sld009.htm

[12]Friedman & Goldszmidt, http://www.erg.sri.com/people/moises/tutorial/sld016.htm

[13]Friedman & Goldszmidt, http://www.erg.sri.com/people/moises/tutorial/sld020.htm

[14]Friedman & Goldszmidt, http://www.erg.sri.com/people/moises/tutorial

[15] Stutz, J., W. Taylor & P. Cheeseman"AutoClass C - General Information" NASA, Ames Research Center: 1998. http://ic-www.arc.nasa.gov/ic/projects/bayes-group/autoclass/autoclass-c-program.html#AutoClass C

[16] http://ic-www.arc.nasa.gov/ic/projects/bayes-group/autoclass/index.html

[17]Stewart, H. & Masjedizadeh, N."Bayesian Search" NASA, Ames Research Center: 1998. http://ic.arc.nasa.gov/ic/projects/bayes-search.html

14

Page 15: Cap1-5Métodos Bayesianos

[18] Cooper, G., E. Horvitz, & R. Curry"Conceptual Design of Goal Understanding Systems: Investigation of Temporal Reasoning Under Uncertainty" Decision Theory & Adaptive Systems Group, Microsoft Research. Microsoft Corp. Redmond, WA: 1998. http://research.microsoft.com/research/dtg/horvitz/goal.htm

[19] Horvitz, E."Lumiere Project: Bayesian Reasoning for Automated Assistance" Decision Theory & Adaptive Systems Group, Microsoft Research. Microsoft Corp. Redmond, WA: 1998. http://research.microsoft.com/research/dtg/horvitz/lum.htm

[20] Heckerman, D. & E. Horvitz"Inferring Informational Goals from Free-Text Queries: A Bayesian Approach" Decision Theory & Adaptive Systems Group, Microsoft Research. Microsoft Corp. Redmond, WA: 1998. http://research.microsoft.com/research/dtg/horvitz/aw.htm

[21] http://www.erg.sri.com/people/moises/tutorial/sld029.htm

15