fbpx
Wikipedia

Red bayesiana

Una red bayesiana, red de Bayes, red de creencia, modelo bayesiano (de Bayes) o modelo probabilístico en un grafo acíclico dirigido es un modelo grafo probabilístico (un tipo de modelo estático) que representa un conjunto de variables aleatorias y sus dependencias condicionales a través de un grafo acíclico dirigido (DAG por sus siglas en inglés). Por ejemplo, una red bayesiana puede representar las relaciones probabilísticas entre enfermedades y síntomas. Dados los síntomas, la red puede ser usada para computar la probabilidad de la presencia de varias enfermedades. Su nombre deriva del matemático inglés del siglo XVIII Thomas Bayes.

Una red Bayesiana simple. Influencia de la lluvia si el rociador está activado e influencia de la lluvia y el rociador si la hierba se encuentra húmeda.

Formalmente, las redes bayesianas son grafos dirigidos acíclicos cuyos nodos representan variables aleatorias en el sentido de Bayes: las mismas pueden ser cantidades observables, variables latentes, parámetros desconocidos o hipótesis. Las aristas representan dependencias condicionales; los nodos que no se encuentran conectados representan variables las cuales son condicionalmente independientes de las otras. Cada nodo tiene asociado una función de probabilidad que toma como entrada un conjunto particular de valores de las variables padres del nodo y devuelve la probabilidad de la variable representada por el nodo. Por ejemplo, si por padres son variables booleanas entonces la función de probabilidad puede ser representada por una tabla de entradas, una entrada para cada una de las posibles combinaciones de los padres siendo verdadero o falso. Ideas similares pueden ser aplicadas a grafos no dirigidos, y posiblemente cíclicos; como son las llamadas redes de Markov.

Existen algoritmos eficientes que llevan a cabo la inferencia y el aprendizaje en redes bayesianas. Las redes bayesianas que modelan secuencias de variables (ej. señales del habla o secuencias de proteínas) son llamadas redes bayesianas dinámicas. Las generalizaciones de las redes bayesianas que pueden representar y resolver problemas de decisión bajo incertidumbre son llamados diagramas de influencia.

Ejemplo

 
Ejemplo de una red bayesiana simple.

Supongamos que hay dos eventos los cuales pueden causar que la hierba esté húmeda: que el rociador esté activado o que esté lloviendo. También supongamos que la lluvia tiene un efecto directo sobre el uso del rociador (usualmente cuando llueve el rociador se encuentra apagado). Entonces la situación puede ser modelada con una red Bayesiana (como hemos visto). Las tres variables tienen dos posibles valores, T (para verdadero) y F (para falso). La función de probabilidad conjunta es:

 

donde los nombres de las variables han sido abreviados a G = Hierba húmeda, S = Rociador activado, y R = Lloviendo.

El modelo puede responder preguntas como "¿Cuál es la probabilidad de que esté lloviendo dado que la hierba está húmeda?" usando la fórmula de probabilidad condicional y sumando sobre todas las variables incordias:

 
 

Como está señalado explícitamente en el numerador del ejemplo, la función de probabilidad conjunta es usada para calcular cada iteración de la función de sumatoria, marginalizando sobre   en el numerador y sobre   y   en el denominador.

Si, por otra parte, deseamos responder una pregunta intermedia: "¿Cuál es la probabilidad de que llueva dado que la hierba está húmeda?" la respuesta puede ser dada por la post-intervención de la función de distribución conjunta   obtenida eliminando el factor   de la distribución de pre-intervención. Como era de esperarse, la probabilidad de que llueva no es afectada por la acción:  .

Si por otra parte queremos predecir el impacto que tendrá encender el rociador, tenemos entonces   con el término   eliminado, mostrando que la acción tiene efecto sobre la hierba pero no sobre la lluvia.

Estas predicciones no son factibles cuando alguna de las variables no son observadas, como en la mayoría de los problemas de evaluación. El efecto de la acción   puede mantenerse predictivo, sin embargo, cada vez un criterio llamado "puerta trasera" es satisfecho.[1]​ Los estados que, si un conjunto Z de nodos se puede observar que d-separa (o bloquea) todos los caminos de "puestra trasera" desde X hasta Y entonces  . Un camino de puestra trasera es uno que termina con una flecha hacia X. Los conjuntos que satisfacen el criterio de puerta trasera son llamados "suficientes" o "admisibles". Por ejemplo, el conjunto Z=R es admisible para predecir el efecto de S=T sobre G, porque R d-separa el (único) camino de puerta trasera S?R?G. Sin embargo, si S no es observado, no hay otro conjunto que d-separe este camino y el efecto de encender los rociadores (S=T) sobre la hierba (G) no puede ser predicho desde observaciones pasivas. Nosotros entonces decimos que   no está identificado. Esto refleja el hecho de que, careciendo de datos intervencionales, no podemos determinar si la dependencia observada entre S y G es debido a una conexión casual o debido a una artificial creada por una causa común, R. (ver paradoja de Simpson)

Para determinar si una relación casual es identificada desde una red Bayesiana arbitraria con variables no obervadas, uno puede usar las tres reglas de "do-calculus"[1][2]​ y probar si todos los términos do pueden ser eliminados de la expresión de la relación, así conforme que la cantidad deseada es estimable desde la frecuencia de datos.[3]

Usar una red de bayesian puede salvar las cantidades considerables de la memoria, si las dependencias en el reparto conjunto están escasas. Por ejemplo, una manera ingenua de guardar las probabilidades condicionales de 10 variables con dos valores como una tabla requiere el espacio de almacenamiento para   valores. Si las distribuciones locales de ninguna variable depende de más de 3 variables padre, la representación de la red de bayesiana solamente tiene que almacenar a lo sumo   valores.

Una ventaja de las redes bayesianas es que es intuitivamente más fácil para un ser humano comprender (un conjunto escaso de) dependencias directas y distribuciones locales que la distribución conjunta completa.

Inferencia de aprendizaje

Hay tres tareas principales de inferencia para las redes bayesianas.

Deducción de variables no observadas

Debido a que una red bayesiana es un modelo completo de las variables y sus relaciones, se puede utilizar para responder a las consultas de probabilidad acerca de ellos. Por ejemplo, la red se puede utilizar para averiguar el conocimiento actualizado del estado de un subconjunto de variables cuando otras variables (las variables de evidencia) se observan. Este proceso de cálculo de la distribución posterior de las variables dada la evidencia que se llama inferencia probabilística. La posterior da un suficiente estadístico universal para aplicaciones de detección, cuando se quiere elegir los valores para la variable de un subconjunto que minimizan alguna función de pérdida esperada, por ejemplo, la probabilidad de error de decisión. Una red bayesiana de esta manera, puede considerarse como un mecanismo para aplicar automáticamente el teorema de Bayes a problemas complejos.

Los métodos más comunes de inferencia exactas son: eliminación de variables, el cual elimina (mediante integración o suma) las variables no observadas y no consultadas una por una mediante la distribución de la suma sobre el producto; propagación en un árbol clique, que almacena en caché el cálculo de modo que muchas variables se pueden consultar en una vez y nueva evidencia se puede propagar rápidamente; y condicionamiento recursivo y búsqueda AND/OR, que permiten un equilibrio espacio-tiempo y realiza eficientemente la eliminación de variables cuando se usa suficiente espacio. Todos estos métodos tienen una complejidad que es exponencial con respecto al ancho del árbol. Los algoritmos de inferencia aproximada más comunes son muestreo de importancia, simulación estocástica MCMC (Markov Chain Monte Carlo), eliminación mini-cubo, LBP (Loopy Belief Propagation), GBP (Generalized Belief Propagation), y los métodos variacionales.

Aprendizaje de Parámetros

Para especificar completamente la red bayesiana y por lo tanto representar plenamente a la distribución de probabilidad conjunta , es necesario especificar para cada nodo X la distribución de probabilidad de X condicionada dado sus padres. La distribución de X condicionada dado sus padres puede tener cualquier forma. Es común trabajar con distribuciones discretas o gaussianas ya que simplifica los cálculos. A veces sólo restricciones sobre una distribución son conocidas; uno puede entonces utilizar el principio de máxima entropía para determinar una distribución única. (Análogamente, en el contexto específico de una red bayesiana dinámica, una que comúnmente especifica la distribución condicional para la evolución temporal del estado ocultos para maximizar la tasa de entropía del proceso estocástico implícito) A menudo, estas distribuciones condicionales incluyen parámetros que son desconocidos y deben estimarse a partir de los datos, a veces utilizando el enfoque de máxima probabilidad. La maximización directa de la probabilidad (o de la probabilidad posterior) es a menudo compleja cuando hay variables no observadas. Un método clásico de este problema es el algoritmo de expectación-maximización el cual alterna los valores esperados computados de las variables condicionales no observadas a datos observados, con la maximización de la probabilidad total (o posterior) suponiendo que previamente calculados los valores esperados son correctas. Bajo condiciones de regularidad leves este proceso converge en valores de probabilidad máxima (o máximo posterior) para los parámetros. Un enfoque más Bayesiano es tratar a los parámetros como variables no observadas adicionales y para calcular la distribución posterior completa sobre todos los nodos condicionales de los datos observados, después, integrar los parámetros. Este enfoque puede ser costoso y llevar a modelos de grandes dimensiones, por lo que en la práctica enfoques de ajuste de parámetros clásicos son más comunes.

Aprendizaje de Estructuras

En el caso más simple, una red bayesiana se especifica por un experto y se utiliza entonces para realizar inferencia. En otras aplicaciones, la tarea de definir la red es demasiado compleja para los seres humanos. En este caso la estructura de la red y los parámetros de las distribuciones locales debe ser aprendido de datos.

El aprendizaje automático de la estructura gráfica de una red bayesiana es un reto dentro del aprendizaje de máquina. La idea básica se remonta a un algoritmo de recuperación desarrollado por Rebane y Pearl (1987)[4]​ y se basa en la distinción entre los tres tipos posibles de triplos adyacentes permitidos en un gráfico acíclico dirigido (DAG):

  1.  
  2.  
  3.  

Tipo 1 y tipo 2 representan las mismas dependencias (  y   son independientes dada  ) y son, por tanto, indistinguibles. Tipo 3, sin embargo, puede ser identificado de forma única, ya que   y   son marginalmente independientes y todos los otros pares son dependientes. Así, mientras que los esqueletos (los grafos despojados de flechas) de estos tres triplos son idénticos, la direccionalidad de las flechas es parcialmente identificable. La misma distinción se aplica cuando   y   tienen padres comunes, excepto que uno debe condicionar primero en esos padres. Se han desarrollado algoritmos para determinar sistemáticamente el esqueleto del grafo subyacente y, a continuación, orientar todas las flechas cuya direccionalidad está dictada por las independencias condicionales observados.[1][5][6][7]

Un método alternativo de aprendizaje estructural utiliza la optimización basada en búsquedas. Se requiere una función de puntuación y una estrategia de búsqueda. Una función de puntuación común es la probabilidad posterior de la estructura dado los datos de entrenamiento. El requisito de tiempo de una búsqueda exhaustiva retornando una estructura que maximice la puntuación es superexponencial en el número de variables. Una estrategia de búsqueda local hace cambios incrementales destinados a mejorar la puntuación de la estructura. Un algoritmo de búsqueda global como la cadena de Markov Monte Carlo puede evitar quedar atrapado en mínimos locales. Friedman et al.[8][9]​ habla acerca del uso de la información mutua entre las variables y encontrar una estructura que maximiza esto. Lo hacen mediante la restricción del conjunto de padres candidatos a k nodos y exhaustivamente buscan en el mismo.

Introducción estadística

Dados los datos   y el parámetro  , Un simple análisis Bayesiano comienza con una probabilidad a priori (antes)   y probabilidad   para calcular una probabilidad posterior  . A menudo, el antes en  , depende a su vez de otros parámetros   que no se mencionan en la probabilidad. Por lo tanto, la previa   debe ser sustituido por una probabilidad  , y un previo   en los parámetros introducidos recientemente   se requiere, lo que resulta en una probabilidad posterior

 

Este es el ejemplo más simple de un modelo jerárquico Bayesiano. El proceso se puede repetir, por ejemplo, los parámetros   pueden depender a su vez de parámetros adicionales  , lo que requerirá su propio previo. Finalmente, el proceso debe terminar, con previos que no dependen de otros parámetros no se han mencionado.

Ejemplos Introductorios

Supongamos que hemos medido las cantidades   cada una con una distribución normal de los errores conocidos y desviación estándar  ,

 

Supongamos que estamos interesados en estimar la  . Un enfoque sería estimar la   utilizando un enfoque de máxima verosimilitud; ya que las observaciones son independientes, la probabilidad factoriza y la estimación de máxima probabilidad es simplemente

 

Sin embargo, si las cantidades están relacionados, de modo que por ejemplo se puede pensar que los   individuales han sido extraídos de una distribución subyacente, a continuación, esta relación destruye la independencia y sugiere un modelo más complejo, por ejemplo,

 
 

con previos inapropiados  plana,  plano . ¿Cuándo  , este es un modelo identificado (es decir, existe una única solución para los parámetros del modelo), y la distribución posterior de la   individual tenderá a moverse o reducir la distancia de máxima verosimilitud estimada hacia su media común. Esta contracción es un comportamiento típico de los modelos jerárquicos bayesianos.

Restricciones a los previos

Hay que tener algún cuidado al elegir los previos en un modelo jerárquico, en particular sobre las variables de escala en los niveles superiores de la jerarquía, como la variable   en el ejemplo. Los previos habituales, tales como los previos de Jeffrey a menudo no funcionan, debido a que la distribución posterior será incorrecta (no normalizable), y estimaciones realizadas por reducir al mínimo la pérdida esperada será inadmisible .

Definiciones y conceptos

Hay varias definiciones equivalentes de una red bayesiana. Por todo lo siguiente, sea G = (V, E) un gráfico acíclico dirigido (o DAG), y sea X = (Xv)v ? V un conjunto de variables aleatorias indexadas por V.

Definición de factorización

X es una red bayesiana con respecto a G si su función de densidad de probabilidad conjunta (con respecto a una medida de producto) se puede escribir como un producto de las funciones de densidad individuales, condicionadas a las variables de sus padres:[10] 

donde pa(v) es el conjunto de padres de v (es decir, los vértices apuntando directamente a v a través de una sola arista).

Para cualquier conjunto de variables aleatorias, la probabilidad de cualquier miembro de una distribución conjunta se puede calcular a partir de las probabilidades condicionales utilizando la regla de la cadena (dado un ordenamiento topológico de X) como sigue:[10] 

Compárese esto con la definición anterior, que puede ser escrita como:   por cada   el cual es padre de  

La diferencia entre las dos expresiones es la independencia condicional de las variables de cualquiera de sus no-descendientes, dados los valores de las variables de sus padres.

Propiedad local de Markov

X es una red bayesiana con respecto a V si satisface la propiedad local de Markov: cada variable es condicionalmente independiente de sus no-descendientes dado sus variables padres:[11]

 

donde de(v) es el conjunto de descendientes de v.

Esto también se puede expresar en términos similares a la primera definición, como

  para cada   la cual no es descendiente de   para cada   que es padre de  

Tenga en cuenta que el conjunto de los padres es un subconjunto del conjunto de los no descendientes porque el grafo es acíclico.

Desarrollo de redes bayesianas

Desarrollar una red bayesiana, que a menudo se desarrolla primero un DAG G tal que creemos que X satisface la propiedad local de Markov con respecto a G. A veces esto se hace creando un DAG casual. A continuación, determinar las distribuciones de probabilidad condicional de cada variable dados sus padres en G. En muchos casos, en particular en el caso donde las variables son discretas, si se define la distribución conjunta de X como el producto de las distribuciones condicionales, entonces X es una red bayesiana con respecto a G.[12]

Modelo Oculto de Markov

Un modelo oculto de Markov comparte propiedades estadísticas similares a un modelo normal de Markov, pero en lugar de hacer inferencias basadas en estados directamente, se utilizan observaciones basadas en esos estados.

Manta de Markov

 
Todos los nodos dentro del círculo azul están dentro de la manta de markov de A

La manta de Markov de un nodo es el conjunto de nodos vecinos: sus padres, sus hijos y otros padres de sus hijos. X es una red bayesiana con respecto a G si cada nodo es condicionalmente independiente de todos los demás nodos de la red, dada su manta Markov.[11]​ Esto significa que la manta de Markov de un nodo es el único conocimiento necesario para predecir el comportamiento de ese nodo y sus hijos.

d-separación

Esta definición puede ser más general mediante la definición de la "d" de separación de dos nodos, donde d es direccional.[13][14]​ Sea P un camino (es decir, una colección de aristas, que es como un camino, pero cada una de cuyas aristas pueden tener cualquier dirección) de un nodo de u a v. Entonces P se dice que es d-separado por un conjunto de nodos Z si y sólo si (al menos) uno de cumple lo siguiente:

  1. P contiene una cadena dirigida,   o  , de manera tal que el nodo medio de m está en Z,
  2. P contiene una divergencia de m,  , de manera tal que el nodo medio de m está en Z, o
  3. P contiene una convergencia a m,  , de manera tal que el nodo medio de m no está en Z y el no descendiente de m está en Z.

Así, u y v se dice que están d-separados por Z si todas las rutas entre ellos son d-separados. Si U y V no son d-separados, se les llama d-conectado.

X es una red bayesiana con respecto a G si, para cualquier par de nodos u, v:

 

donde Z es un conjunto que d-separa u y v. (La manta de Markov es el conjunto mínimo de nodos que d-separa al nodo v de todos los demás nodos)

Modelos Jerárquicos

El término modelo jerárquico a veces se considera un tipo particular de red Bayesiana, pero no tiene una definición formal. A veces el término se reserva para los modelos con tres o más niveles de las variables aleatorias, en otras ocasiones, se reserva para los modelos con variables latentes. En general, sin embargo, cualquier red Bayesiana moderadamente compleja suele llamarse "jerárquica".

Redes Causales

Aunque las redes Bayesianas se utilizan a menudo para representar relaciones causales, esto no tiene por qué ser el caso: una arista dirigida de u a v no requiere que Xv sea causalmente dependiente de Xu. Esto se demuestra por el hecho de que las redes Bayesianas en los grafos:

 

son equivalentes, es decir imponen exactamente los mismos requisitos de independencia condicional.

Una red causal es una red Bayesiana con un requisito explícito de que la relación sea causal. Las semánticas adicionales de las redes causales especifican que si un nodo X está activamente causado a estar en un estado dado x (una acción escrita como lo hacen (X=x)), entonces la probabilidad de cambios de la función de densidad a la de la red obtenida por cortar los vínculos de los padres de X a X, y el seteando X al valor causada x.[1]​ El uso de estas semánticas, se puede predecir el impacto de las intervenciones externas de los datos obtenidos antes de la intervención.

Aplicaciones

Las redes Bayesianas se utilizan para el modelado del conocimiento en biología computacional y bioinformática (redes reguladoras de genes, la estructura de la proteína, la expresión de genes de análisis,[15]​ el aprendizaje de epistasis a partir de los conjuntos de datos de GWAS[16]​), la medicina,[17]​ biomonitoreo,[18]​ la clasificación de documentos, recuperación de información,[19]​ la búsqueda semántica,[20]​ el procesamiento de imágenes, fusión de datos, sistemas de soporte de decisiones,[21]​ la ingeniería, los juegos y la ley.[22][23][24]

otras de las aplicaciones actuales es a la ciencia de datos ya que se ayuda de tablas de probabilidades condicionales respecto a los nodos y ayuda para predicciones y análisis de datos

Software

  • WinBUGS
  • OpenBUGS (website), (código abierto) desarrollo adicional de WinBUGS.
  • Just another Gibbs sampler (JAGS) ().
  • GeNIe&SMILE (website) — SMILE es una librería de C++ para BN e ID, y GeNIe es una GUI para ella.
  • SamIam (website), otra GUI usando la librería SMILE.
  • Redes de creencia y de decisión en AIspace.
  • Hugin.
  • Netica por Norsys.
  • por Apara Software.

Historia

El término "redes bayesianas" fue acuñado por Judea Pearl en 1985 para hacer hincapié en tres aspectos:[25]

  1. El carácter a menudo subjetivo de la información de entrada.
  2. La dependencia de acondicionamiento de Bayes como base para la actualización de la información.
  3. La distinción entre los modos causales y probatorio de razonamiento, lo que subraya Thomas Bayes en un documento publicado póstumamente en 1763.[26]

A finales de 1980 los textos seminales Razonamiento Probabilístico en Sistemas Inteligentes[27]​ y Razonamiento Probabilístico en Sistemas Expertos[28]​ resume las propiedades de las redes Bayesianas y ayudó a establecer las mismas como un campo de estudio.

Variantes informales de este tipo de redes se utilizaron por primera vez por el jurista John Henry Wigmore, en forma de grafos de Wigmore, para analizar la evidencia en un juicio en 1913.[23]:66–76 Otra variante, llamada diagrama de rutas, fue desarrollada por el genetista Sewall Wright[29]​ y utilizado en ciencias de la conducta y sociales (en su mayoría con modelos paramétricos lineales).

Véase también

Referencias

  1. Pearl, Judea (2000). Causality: Models, Reasoning, and Inference. Cambridge University Press. ISBN 0-521-77362-8. 
  2. J., Pearl (1994). «A Probabilistic Calculus of Actions». En Lopez de Mantaras, R.; Poole, D., eds. UAI'94 Proceedings of the Tenth international conference on Uncertainty in artificial intelligence. San Mateo CA: Morgan Kaufman. pp. 454-462. ISBN 1-55860-332-8. 
  3. I. Shpitser, J. Pearl, "Identification of Conditional Interventional Distributions" In R. Dechter and T.S. Richardson (Eds.), Proceedings of the Twenty-Second Conference on Uncertainty in Artificial Intelligence, 437-444, Corvallis, OR: AUAI Press, 2006.
  4. Rebane, G. and Pearl, J., "The Recovery of Causal Poly-trees from Statistical Data," Proceedings, 3rd Workshop on Uncertainty in AI, (Seattle, WA) pages 222–228, 1987
  5. Spirtes, P.; Glymour, C. (1991). «An algorithm for fast recovery of sparse causal graphs» (PDF). Social Science Computer Review 9 (1): 62-72. doi:10.1177/089443939100900106. 
  6. Spirtes, Peter; Glymour, Clark N.; Scheines, Richard (1993). Causation, Prediction, and Search (1st edición). Springer-Verlag. ISBN 978-0-387-97979-3. 
  7. Verma, Thomas; Pearl, Judea (1991). «Equivalence and synthesis of causal models». En Bonissone, P.; Henrion, M.; Kanal, L.N. et al., eds. UAI '90 Proceedings of the Sixth Annual Conference on Uncertainty in Artificial Intelligence. Elsevier. pp. 255-270. ISBN 0-444-89264-8. 
  8. Friedman, N.; Geiger, D.; Goldszmidt, M. (1997). Machine Learning 29 (2/3): 131. doi:10.1023/A:1007465528199. 
  9. Friedman, N.; Linial, M.; Nachman, I.; Pe'er, D. (2000). «Using Bayesian Networks to Analyze Expression Data». Journal of Computational Biology 7 (3–4): 601-620. PMID 11108481. doi:10.1089/106652700750050961. 
  10. Russell y Norvig, 2003, p. 496.
  11. Russell y Norvig, 2003, p. 499.
  12. Neapolitan, Richard E. (2004). Learning Bayesian networks. Prentice Hall. ISBN 978-0-13-012534-7. 
  13. Geiger, Dan; Verma, Thomas; Pearl, Judea (1990). «Identifying independence in Bayesian Networks» (PDF). Networks 20: 507-534. doi:10.1177/089443939100900106. 
  14. Richard Scheines, D-separation .
  15. N. Friedman, M. Linial, I. Nachman, D. Pe'er (agosto de 2000). «Using Bayesian Networks to Analyze Expression Data». Journal of Computational Biology (Larchmont (Nueva York): Mary Ann Liebert, Inc.) 7 (3/4): 601-620. ISSN 1066-5277. PMID 11108481. doi:10.1089/106652700750050961. 
  16. Jiang, X.; Neapolitan, R.E.; Barmada, M.M.; Visweswaran, S. (2011). «Learning Genetic Epistasis using Bayesian Network Scoring Criteria». BMC Bioinformatics 12: 89. PMC 3080825. PMID 21453508. doi:10.1186/1471-2105-12-89. 
  17. J. Uebersax (2004). Genetic Counseling and Cancer Risk Modeling: An Application of Bayes Nets. Marbella, Spain: Ravenpack International. 
  18. Jiang X, Cooper GF. (July–August 2010). «A Bayesian spatio-temporal method for disease outbreak detection». J Am Med Inform Assoc 17 (4): 462-71. PMC 2995651. PMID 20595315. doi:10.1136/jamia.2009.000356. 
  19. Luis M. de Campos, Juan M. Fernández-Luna and Juan F. Huete (2004). «Bayesian networks and information retrieval: an introduction to the special issue». Information Processing & Management (Elsevier) 40 (5): 727-733. ISBN 0-471-14182-8. doi:10.1016/j.ipm.2004.03.001. 
  20. Christos L. Koumenides and Nigel R. Shadbolt. 2012. Combining link and content-based information in a Bayesian inference model for entity search. In Proceedings of the 1st Joint International Workshop on Entity-Oriented and Semantic Search (JIWES '12). ACM, Nueva York, NY, EE.UU., , Article 3 , 6 pages. DOI=10.1145/2379307.2379310
  21. F.J. Díez, J. Mira, E. Iturralde and S. Zubillaga (1997). «DIAVAL, a Bayesian expert system for echocardiography». Artificial Intelligence in Medicine (Elsevier) 10 (1): 59-73. PMID 9177816. 
  22. G. A. Davis (2003). «Bayesian reconstruction of traffic accidents». Law, Probability and Risk 2 (2): 69-89. doi:10.1093/lpr/2.2.69. 
  23. J. B. Kadane and D. A. Schum (1996). A Probabilistic Analysis of the Sacco and Vanzetti Evidence. Nueva York: Wiley. ISBN 0-471-14182-8. 
  24. O. Pourret, P. Naim and B. Marcot (2008). Bayesian Networks: A Practical Guide to Applications. Chichester, UK: Wiley. ISBN 978-0-470-06030-8. 
  25. Pearl, J. (1985). Bayesian Networks: A Model of Self-Activated Memory for Evidential Reasoning (UCLA Technical Report CSD-850017). Proceedings of the 7th Conference of the Cognitive Science Society, University of California, Irvine, CA. pp. 329-334. Consultado el 1 de mayo de 2009. 
  26. Bayes, T.; Price, Mr. (1763). «An Essay towards solving a Problem in the Doctrine of Chances». Philosophical Transactions of the Royal Society of London 53: 370-418. doi:10.1098/rstl.1763.0053. 
  27. Pearl, J. Probabilistic Reasoning in Intelligent Systems. San Francisco CA: Morgan Kaufmann. p. 1988. ISBN 1558604790. 
  28. Neapolitan, Richard E. (1989). Probabilistic reasoning in expert systems: theory and algorithms. Wiley. ISBN 978-0-471-61840-9. 
  29. Wright, S. (1921). «Correlation and Causation» (PDF). Journal of Agricultural Research 20 (7): 557-585. 

Bibliografía

  • Ben-Gal, Irad (2007). Bayesian Networks (PDF). En Ruggeri, Fabrizio; Kennett, Ron S.; Faltin, Frederick W, ed. «Encyclopedia of Statistics in Quality and Reliability». Encyclopedia of Statistics in Quality and Reliability. John Wiley & Sons. ISBN 978-0-470-01861-3. doi:10.1002/9780470061572.eqr089. 
  • Bertsch McGrayne, Sharon (2011). The Theory That Would not Die. Yale. 
  • Borgelt, Christian; Kruse, Rudolf (marzo de 2002). Graphical Models: Methods for Data Analysis and Mining. Chichester, UK: Wiley. ISBN 0-470-84337-3. 
  • Borsuk, Mark Edward (2008). «Ecological informatics: Bayesian networks». En Jørgensen , Sven Erik, Fath, Brian, ed. Encyclopedia of Ecology. Elsevier. ISBN 978-0-444-52033-3. 
  • Castillo, Enrique; Gutiérrez, José Manuel; Hadi, Ali S. (1997). «Learning Bayesian Networks». Expert Systems and Probabilistic Network Models. Monographs in computer science. Nueva York: Springer-Verlag. pp. 481–528. ISBN 0-387-94858-9. 
  • Comley, Joshua W.; Dowe, David L. (October 2003). «Minimum Message Length and Generalized Bayesian Nets with Asymmetric Languages». Escrito en Victoria, Australia. En Grünwald, Peter D.; Myung, In Jae; Pitt, Mark A., eds. Advances in Minimum Description Length: Theory and Applications. Neural information processing series. Cambridge, Massachusetts: Bradford Books (MIT Press) (publicado el April 2005). pp. 265-294. ISBN 0-262-07262-9.  (This paper puts decision trees in internal nodes of Bayes networks using Minimum Message Length (MML). An earlier version is Comley and Dowe (2003), [1])
  • Dowe, David L. (2010). MML, hybrid Bayesian network graphical models, statistical consistency, invariance and uniqueness, in Handbook of Philosophy of Science (Volume 7: Handbook of Philosophy of Statistics), Elsevier, ISBN 978-0-444-51862-0, pp 901-982.
  • Fenton, Norman; Neil, Martin E. (November 2007). – A Knowledge Transfer Report from the London Mathematical Society and the Knowledge Transfer Network for Industrial Mathematics. Londres (Reino Unido): London Mathematical Society.
  • Fenton, Norman; Neil, Martin E. (23 de julio de 2004). (PDF). Safety Critical Systems Club Newsletter 13 (4) (Newcastle upon Tyne, England). pp. 8-13. Archivado desde el original el 27 de septiembre de 2007. 
  • Andrew Gelman; Donald B Rubin; Hal S Stern (2003). «Part II: Fundamentals fo Bayesian Data Analysis: Ch.5 Hierachical models». Bayesian Data Analysis. CRC Press. pp. 120-. ISBN 978-1-58488-388-3. 
  • Heckerman, David (1 de marzo de 1995). «Tutorial on Learning with Bayesian Networks». En Jordan, Michael Irwin, ed. Learning in Graphical Models. Adaptive Computation and Machine Learning. Cambridge, Massachusetts: MIT Press (publicado el 1998). pp. 301-354. ISBN 0-262-60032-3. . :También aparece como Heckerman, David (marzo de 1997). «Bayesian Networks for Data Mining». Data Mining and Knowledge Discovery (Netherlands: Springer Netherlands) 1 (1): 79-119. ISSN 1384-5810. doi:10.1023/A:1009730122752. :Una versión reciente aparece como Technical Report MSR-TR-95-06, Microsoft Research, March 1, 1995. The paper is about both parameter and structure learning in Bayesian networks.
  • Jensen, Finn V; Nielsen, Thomas D. (6 de junio de 2007). Bayesian Networks and Decision Graphs. Information Science and Statistics series (2nd edición). Nueva York: Springer-Verlag. ISBN 978-0-387-68281-5. 
  • Korb, Kevin B.; Nicholson, Ann E. (December 2010). Bayesian Artificial Intelligence. CRC Computer Science & Data Analysis (2nd edición). Boca Raton, Florida: Chapman & Hall (CRC Press). ISBN 1-58488-387-1. doi:10.1007/s10044-004-0214-5. 
  • Lunn, D.; et al., D; Thomas, A; Best, N (2009). «The BUGS project: Evolution, critique and future directions». Statistics in Medicine 28 (25): 3049-3067. PMID 19630097. doi:10.1002/sim.3680. 
  • Neil, Martin; Fenton, Norman E.; Tailor, Manesh (agosto de 2005). «Using Bayesian Networks to Model Expected and Unexpected Operational Losses» (pdf). En Greenberg, Michael R., ed. Risk Analysis: an International Journal (John Wiley & Sons) 25 (4): 963-972. PMID 16268944. doi:10.1111/j.1539-6924.2005.00641.x. 
  • Pearl, Judea (septiembre de 1986). «Fusion, propagation, and structuring in belief networks». Artificial Intelligence (Elsevier) 29 (3): 241-288. ISSN 0004-3702. doi:10.1016/0004-3702(86)90072-X. 
  • Pearl, Judea (1988). Probabilistic Reasoning in Intelligent Systems: Networks of Plausible Inference. Representation and Reasoning Series (2nd printing edición). San Francisco: Morgan Kaufmann. ISBN 0-934613-73-7. 
  • Pearl, Judea; Russell, Stuart (noviembre de 2002). «Bayesian Networks». En Arbib, Michael A., ed. Handbook of Brain Theory and Neural Networks. Cambridge, Massachusetts: Bradford Books (MIT Press). pp. 157-160. ISBN 0-262-01197-2. 
  • Zhang, Nevin Lianwen; Poole, David (mayo de 1994). «A simple approach to Bayesian network computations». Proceedings of the Tenth Biennial Canadian Artificial Intelligence Conference (AI-94). (Banff, Alberta): 171-178.  This paper presents variable elimination for belief networks.

Enlaces externos

  • Un tutorial sobre el aprendizaje con redes Bayesianas
  • Una Introducción a las Redes Bayesianas y sus aplicaciones contemporáneas
  • Tutorial en línea sobre redes bayesianas y probabilidad
  • Redes Bayesianas en Tiempo Continuo
  • Un tutorial en vivo en el aprendizaje de redes bayesianas
  • Un modelo jerárquico de Bayes para la manipulación de heterogeneidad de la muestra en problemas de clasificación, proporciona un modelo de clasificación teniendo en cuenta la incertidumbre asociada a la medición de muestras replicadas.
  • Modelo Jerárquico Ingenuo de Bayes para el manejo de las muestras de incertidumbre, muestra cómo realizar la clasificación y el aprendizaje con las variables continuas y discretas con mediciones replicadas.
  •   Datos: Q812540

bayesiana, bayesiana, bayes, creencia, modelo, bayesiano, bayes, modelo, probabilístico, grafo, acíclico, dirigido, modelo, grafo, probabilístico, tipo, modelo, estático, representa, conjunto, variables, aleatorias, dependencias, condicionales, través, grafo, . Una red bayesiana red de Bayes red de creencia modelo bayesiano de Bayes o modelo probabilistico en un grafo aciclico dirigido es un modelo grafo probabilistico un tipo de modelo estatico que representa un conjunto de variables aleatorias y sus dependencias condicionales a traves de un grafo aciclico dirigido DAG por sus siglas en ingles Por ejemplo una red bayesiana puede representar las relaciones probabilisticas entre enfermedades y sintomas Dados los sintomas la red puede ser usada para computar la probabilidad de la presencia de varias enfermedades Su nombre deriva del matematico ingles del siglo XVIII Thomas Bayes Una red Bayesiana simple Influencia de la lluvia si el rociador esta activado e influencia de la lluvia y el rociador si la hierba se encuentra humeda Formalmente las redes bayesianas son grafos dirigidos aciclicos cuyos nodos representan variables aleatorias en el sentido de Bayes las mismas pueden ser cantidades observables variables latentes parametros desconocidos o hipotesis Las aristas representan dependencias condicionales los nodos que no se encuentran conectados representan variables las cuales son condicionalmente independientes de las otras Cada nodo tiene asociado una funcion de probabilidad que toma como entrada un conjunto particular de valores de las variables padres del nodo y devuelve la probabilidad de la variable representada por el nodo Por ejemplo si por padres son m displaystyle m variables booleanas entonces la funcion de probabilidad puede ser representada por una tabla de 2 m displaystyle 2 m entradas una entrada para cada una de las 2 m displaystyle 2 m posibles combinaciones de los padres siendo verdadero o falso Ideas similares pueden ser aplicadas a grafos no dirigidos y posiblemente ciclicos como son las llamadas redes de Markov Existen algoritmos eficientes que llevan a cabo la inferencia y el aprendizaje en redes bayesianas Las redes bayesianas que modelan secuencias de variables ej senales del habla o secuencias de proteinas son llamadas redes bayesianas dinamicas Las generalizaciones de las redes bayesianas que pueden representar y resolver problemas de decision bajo incertidumbre son llamados diagramas de influencia Indice 1 Ejemplo 2 Inferencia de aprendizaje 2 1 Deduccion de variables no observadas 2 2 Aprendizaje de Parametros 2 3 Aprendizaje de Estructuras 3 Introduccion estadistica 3 1 Ejemplos Introductorios 3 2 Restricciones a los previos 4 Definiciones y conceptos 4 1 Definicion de factorizacion 4 2 Propiedad local de Markov 4 3 Desarrollo de redes bayesianas 4 4 Modelo Oculto de Markov 4 5 Manta de Markov 4 6 d separacion 4 7 Modelos Jerarquicos 4 8 Redes Causales 5 Aplicaciones 5 1 Software 6 Historia 7 Vease tambien 8 Referencias 9 Bibliografia 10 Enlaces externosEjemplo Editar Ejemplo de una red bayesiana simple Supongamos que hay dos eventos los cuales pueden causar que la hierba este humeda que el rociador este activado o que este lloviendo Tambien supongamos que la lluvia tiene un efecto directo sobre el uso del rociador usualmente cuando llueve el rociador se encuentra apagado Entonces la situacion puede ser modelada con una red Bayesiana como hemos visto Las tres variables tienen dos posibles valores T para verdadero y F para falso La funcion de probabilidad conjunta es P G S R P G S R P S R P R displaystyle mathrm P G S R mathrm P G S R mathrm P S R mathrm P R donde los nombres de las variables han sido abreviados a G Hierba humeda S Rociador activado y R Lloviendo El modelo puede responder preguntas como Cual es la probabilidad de que este lloviendo dado que la hierba esta humeda usando la formula de probabilidad condicional y sumando sobre todas las variables incordias P R T G T P G T R T P G T S T F P G T S R T S R T F P G T S R displaystyle mathrm P mathit R T mid mathit G T frac mathrm P mathit G T mathit R T mathrm P mathit G T frac sum mathit S in T F mathrm P mathit G T mathit S mathit R T sum mathit S mathit R in T F mathrm P mathit G T mathit S mathit R 0 99 0 01 0 2 0 00198 T T T 0 8 0 99 0 2 0 1584 T F T 0 00198 T T T 0 288 T T F 0 1584 T F T 0 T F F 35 77 displaystyle frac 0 99 times 0 01 times 0 2 0 00198 TTT 0 8 times 0 99 times 0 2 0 1584 TFT 0 00198 TTT 0 288 TTF 0 1584 TFT 0 TFF approx 35 77 Como esta senalado explicitamente en el numerador del ejemplo la funcion de probabilidad conjunta es usada para calcular cada iteracion de la funcion de sumatoria marginalizando sobre S displaystyle mathit S en el numerador y sobre S displaystyle mathit S y R displaystyle mathit R en el denominador Si por otra parte deseamos responder una pregunta intermedia Cual es la probabilidad de que llueva dado que la hierba esta humeda la respuesta puede ser dada por la post intervencion de la funcion de distribucion conjunta P S R d o G T P S R P R displaystyle mathrm P S R do G T P S R P R obtenida eliminando el factor P G S R displaystyle mathrm P G S R de la distribucion de pre intervencion Como era de esperarse la probabilidad de que llueva no es afectada por la accion P R d o G T P R displaystyle mathrm P R do G T P R Si por otra parte queremos predecir el impacto que tendra encender el rociador tenemos entonces P R G d o S T P R P G R S T displaystyle P R G do S T P R P G R S T con el termino P S T R displaystyle P S T R eliminado mostrando que la accion tiene efecto sobre la hierba pero no sobre la lluvia Estas predicciones no son factibles cuando alguna de las variables no son observadas como en la mayoria de los problemas de evaluacion El efecto de la accion d o x displaystyle do x puede mantenerse predictivo sin embargo cada vez un criterio llamado puerta trasera es satisfecho 1 Los estados que si un conjunto Z de nodos se puede observar que d separa o bloquea todos los caminos de puestra trasera desde X hasta Y entonces P Y Z d o x P Y Z X x P X x Z displaystyle P Y Z do x P Y Z X x P X x Z Un camino de puestra trasera es uno que termina con una flecha hacia X Los conjuntos que satisfacen el criterio de puerta trasera son llamados suficientes o admisibles Por ejemplo el conjunto Z R es admisible para predecir el efecto de S T sobre G porque R d separa el unico camino de puerta trasera S R G Sin embargo si S no es observado no hay otro conjunto que d separe este camino y el efecto de encender los rociadores S T sobre la hierba G no puede ser predicho desde observaciones pasivas Nosotros entonces decimos que P G d o S T displaystyle P G do S T no esta identificado Esto refleja el hecho de que careciendo de datos intervencionales no podemos determinar si la dependencia observada entre S y G es debido a una conexion casual o debido a una artificial creada por una causa comun R ver paradoja de Simpson Para determinar si una relacion casual es identificada desde una red Bayesiana arbitraria con variables no obervadas uno puede usar las tres reglas de do calculus 1 2 y probar si todos los terminos do pueden ser eliminados de la expresion de la relacion asi conforme que la cantidad deseada es estimable desde la frecuencia de datos 3 Usar una red de bayesian puede salvar las cantidades considerables de la memoria si las dependencias en el reparto conjunto estan escasas Por ejemplo una manera ingenua de guardar las probabilidades condicionales de 10 variables con dos valores como una tabla requiere el espacio de almacenamiento para 2 10 1024 displaystyle 2 10 1024 valores Si las distribuciones locales de ninguna variable depende de mas de 3 variables padre la representacion de la red de bayesiana solamente tiene que almacenar a lo sumo 10 2 3 80 displaystyle 10 cdot 2 3 80 valores Una ventaja de las redes bayesianas es que es intuitivamente mas facil para un ser humano comprender un conjunto escaso de dependencias directas y distribuciones locales que la distribucion conjunta completa Inferencia de aprendizaje EditarHay tres tareas principales de inferencia para las redes bayesianas Deduccion de variables no observadas Editar Debido a que una red bayesiana es un modelo completo de las variables y sus relaciones se puede utilizar para responder a las consultas de probabilidad acerca de ellos Por ejemplo la red se puede utilizar para averiguar el conocimiento actualizado del estado de un subconjunto de variables cuando otras variables las variables de evidencia se observan Este proceso de calculo de la distribucion posterior de las variables dada la evidencia que se llama inferencia probabilistica La posterior da un suficiente estadistico universal para aplicaciones de deteccion cuando se quiere elegir los valores para la variable de un subconjunto que minimizan alguna funcion de perdida esperada por ejemplo la probabilidad de error de decision Una red bayesiana de esta manera puede considerarse como un mecanismo para aplicar automaticamente el teorema de Bayes a problemas complejos Los metodos mas comunes de inferencia exactas son eliminacion de variables el cual elimina mediante integracion o suma las variables no observadas y no consultadas una por una mediante la distribucion de la suma sobre el producto propagacion en un arbol clique que almacena en cache el calculo de modo que muchas variables se pueden consultar en una vez y nueva evidencia se puede propagar rapidamente y condicionamiento recursivo y busqueda AND OR que permiten un equilibrio espacio tiempo y realiza eficientemente la eliminacion de variables cuando se usa suficiente espacio Todos estos metodos tienen una complejidad que es exponencial con respecto al ancho del arbol Los algoritmos de inferencia aproximada mas comunes son muestreo de importancia simulacion estocastica MCMC Markov Chain Monte Carlo eliminacion mini cubo LBP Loopy Belief Propagation GBP Generalized Belief Propagation y los metodos variacionales Aprendizaje de Parametros Editar Para especificar completamente la red bayesiana y por lo tanto representar plenamente a la distribucion de probabilidad conjunta es necesario especificar para cada nodo X la distribucion de probabilidad de X condicionada dado sus padres La distribucion de X condicionada dado sus padres puede tener cualquier forma Es comun trabajar con distribuciones discretas o gaussianas ya que simplifica los calculos A veces solo restricciones sobre una distribucion son conocidas uno puede entonces utilizar el principio de maxima entropia para determinar una distribucion unica Analogamente en el contexto especifico de una red bayesiana dinamica una que comunmente especifica la distribucion condicional para la evolucion temporal del estado ocultos para maximizar la tasa de entropia del proceso estocastico implicito A menudo estas distribuciones condicionales incluyen parametros que son desconocidos y deben estimarse a partir de los datos a veces utilizando el enfoque de maxima probabilidad La maximizacion directa de la probabilidad o de la probabilidad posterior es a menudo compleja cuando hay variables no observadas Un metodo clasico de este problema es el algoritmo de expectacion maximizacion el cual alterna los valores esperados computados de las variables condicionales no observadas a datos observados con la maximizacion de la probabilidad total o posterior suponiendo que previamente calculados los valores esperados son correctas Bajo condiciones de regularidad leves este proceso converge en valores de probabilidad maxima o maximo posterior para los parametros Un enfoque mas Bayesiano es tratar a los parametros como variables no observadas adicionales y para calcular la distribucion posterior completa sobre todos los nodos condicionales de los datos observados despues integrar los parametros Este enfoque puede ser costoso y llevar a modelos de grandes dimensiones por lo que en la practica enfoques de ajuste de parametros clasicos son mas comunes Aprendizaje de Estructuras Editar En el caso mas simple una red bayesiana se especifica por un experto y se utiliza entonces para realizar inferencia En otras aplicaciones la tarea de definir la red es demasiado compleja para los seres humanos En este caso la estructura de la red y los parametros de las distribuciones locales debe ser aprendido de datos El aprendizaje automatico de la estructura grafica de una red bayesiana es un reto dentro del aprendizaje de maquina La idea basica se remonta a un algoritmo de recuperacion desarrollado por Rebane y Pearl 1987 4 y se basa en la distincion entre los tres tipos posibles de triplos adyacentes permitidos en un grafico aciclico dirigido DAG X Y Z displaystyle X rightarrow Y rightarrow Z X Y Z displaystyle X leftarrow Y rightarrow Z X Y Z displaystyle X rightarrow Y leftarrow Z Tipo 1 y tipo 2 representan las mismas dependencias X displaystyle X y Z displaystyle Z son independientes dada Y displaystyle Y y son por tanto indistinguibles Tipo 3 sin embargo puede ser identificado de forma unica ya que X displaystyle X y Z displaystyle Z son marginalmente independientes y todos los otros pares son dependientes Asi mientras que los esqueletos los grafos despojados de flechas de estos tres triplos son identicos la direccionalidad de las flechas es parcialmente identificable La misma distincion se aplica cuando X displaystyle X y Z displaystyle Z tienen padres comunes excepto que uno debe condicionar primero en esos padres Se han desarrollado algoritmos para determinar sistematicamente el esqueleto del grafo subyacente y a continuacion orientar todas las flechas cuya direccionalidad esta dictada por las independencias condicionales observados 1 5 6 7 Un metodo alternativo de aprendizaje estructural utiliza la optimizacion basada en busquedas Se requiere una funcion de puntuacion y una estrategia de busqueda Una funcion de puntuacion comun es la probabilidad posterior de la estructura dado los datos de entrenamiento El requisito de tiempo de una busqueda exhaustiva retornando una estructura que maximice la puntuacion es superexponencial en el numero de variables Una estrategia de busqueda local hace cambios incrementales destinados a mejorar la puntuacion de la estructura Un algoritmo de busqueda global como la cadena de Markov Monte Carlo puede evitar quedar atrapado en minimos locales Friedman et al 8 9 habla acerca del uso de la informacion mutua entre las variables y encontrar una estructura que maximiza esto Lo hacen mediante la restriccion del conjunto de padres candidatos a k nodos y exhaustivamente buscan en el mismo Introduccion estadistica EditarDados los datos x displaystyle x y el parametro 8 displaystyle theta Un simple analisis Bayesiano comienza con una probabilidad a priori antes p 8 displaystyle p theta y probabilidad p x 8 displaystyle p x theta para calcular una probabilidad posterior p 8 x p x 8 p 8 displaystyle p theta x propto p x theta p theta A menudo el antes en 8 displaystyle theta depende a su vez de otros parametros f displaystyle varphi que no se mencionan en la probabilidad Por lo tanto la previa p 8 displaystyle p theta debe ser sustituido por una probabilidad p 8 f displaystyle p theta varphi y un previo f displaystyle varphi en los parametros introducidos recientemente f displaystyle varphi se requiere lo que resulta en una probabilidad posterior p 8 f x p x 8 p 8 f p f displaystyle p theta varphi x propto p x theta p theta varphi p varphi Este es el ejemplo mas simple de un modelo jerarquico Bayesiano El proceso se puede repetir por ejemplo los parametros f displaystyle varphi pueden depender a su vez de parametros adicionales ps displaystyle psi lo que requerira su propio previo Finalmente el proceso debe terminar con previos que no dependen de otros parametros no se han mencionado Ejemplos Introductorios Editar Supongamos que hemos medido las cantidades x 1 x n displaystyle x 1 dots x n cada una con una distribucion normal de los errores conocidos y desviacion estandar s displaystyle sigma x i N 8 i s 2 displaystyle x i sim N theta i sigma 2 Supongamos que estamos interesados en estimar la 8 i displaystyle theta i Un enfoque seria estimar la 8 i displaystyle theta i utilizando un enfoque de maxima verosimilitud ya que las observaciones son independientes la probabilidad factoriza y la estimacion de maxima probabilidad es simplemente 8 i x i displaystyle theta i x i Sin embargo si las cantidades estan relacionados de modo que por ejemplo se puede pensar que los 8 i displaystyle theta i individuales han sido extraidos de una distribucion subyacente a continuacion esta relacion destruye la independencia y sugiere un modelo mas complejo por ejemplo x i N 8 i s 2 displaystyle x i sim N theta i sigma 2 8 i N f t 2 displaystyle theta i sim N varphi tau 2 con previos inapropiados f displaystyle varphi sim plana t displaystyle tau sim plano 0 displaystyle in 0 infty Cuando n 3 displaystyle n geq 3 este es un modelo identificado es decir existe una unica solucion para los parametros del modelo y la distribucion posterior de la 8 i displaystyle theta i individual tendera a moverse o reducir la distancia de maxima verosimilitud estimada hacia su media comun Esta contraccion es un comportamiento tipico de los modelos jerarquicos bayesianos Restricciones a los previos Editar Hay que tener algun cuidado al elegir los previos en un modelo jerarquico en particular sobre las variables de escala en los niveles superiores de la jerarquia como la variable t displaystyle tau en el ejemplo Los previos habituales tales como los previos de Jeffrey a menudo no funcionan debido a que la distribucion posterior sera incorrecta no normalizable y estimaciones realizadas por reducir al minimo la perdida esperada sera inadmisible Definiciones y conceptos EditarHay varias definiciones equivalentes de una red bayesiana Por todo lo siguiente sea G V E un grafico aciclico dirigido o DAG y sea X Xv v V un conjunto de variables aleatorias indexadas por V Definicion de factorizacion Editar X es una red bayesiana con respecto a G si su funcion de densidad de probabilidad conjunta con respecto a una medida de producto se puede escribir como un producto de las funciones de densidad individuales condicionadas a las variables de sus padres 10 p x v V p x v x pa v displaystyle p x prod v in V p big x v big x operatorname pa v big donde pa v es el conjunto de padres de v es decir los vertices apuntando directamente a v a traves de una sola arista Para cualquier conjunto de variables aleatorias la probabilidad de cualquier miembro de una distribucion conjunta se puede calcular a partir de las probabilidades condicionales utilizando la regla de la cadena dado un ordenamiento topologico de X como sigue 10 P X 1 x 1 X n x n v 1 n P X v x v X v 1 x v 1 X n x n displaystyle mathrm P X 1 x 1 ldots X n x n prod v 1 n mathrm P X v x v mid X v 1 x v 1 ldots X n x n Comparese esto con la definicion anterior que puede ser escrita como P X 1 x 1 X n x n v 1 n P X v x v X j x j displaystyle mathrm P X 1 x 1 ldots X n x n prod v 1 n mathrm P X v x v mid X j x j por cada X j displaystyle X j el cual es padre de X v displaystyle X v La diferencia entre las dos expresiones es la independencia condicional de las variables de cualquiera de sus no descendientes dados los valores de las variables de sus padres Propiedad local de Markov Editar X es una red bayesiana con respecto a V si satisface la propiedad local de Markov cada variable es condicionalmente independiente de sus no descendientes dado sus variables padres 11 X v X V de v X pa v for all v V displaystyle X v perp perp X V setminus operatorname de v X operatorname pa v quad text for all v in V donde de v es el conjunto de descendientes de v Esto tambien se puede expresar en terminos similares a la primera definicion como P X v x v X i x i displaystyle mathrm P X v x v mid X i x i para cada X i displaystyle X i la cual no es descendiente de X v P X v x v X j x j displaystyle X v P X v x v mid X j x j para cada X j displaystyle X j que es padre de X v displaystyle X v Tenga en cuenta que el conjunto de los padres es un subconjunto del conjunto de los no descendientes porque el grafo es aciclico Desarrollo de redes bayesianas Editar Desarrollar una red bayesiana que a menudo se desarrolla primero un DAG G tal que creemos que X satisface la propiedad local de Markov con respecto a G A veces esto se hace creando un DAG casual A continuacion determinar las distribuciones de probabilidad condicional de cada variable dados sus padres en G En muchos casos en particular en el caso donde las variables son discretas si se define la distribucion conjunta de X como el producto de las distribuciones condicionales entonces X es una red bayesiana con respecto a G 12 Modelo Oculto de Markov Editar Un modelo oculto de Markov comparte propiedades estadisticas similares a un modelo normal de Markov pero en lugar de hacer inferencias basadas en estados directamente se utilizan observaciones basadas en esos estados Manta de Markov Editar Todos los nodos dentro del circulo azul estan dentro de la manta de markov de A La manta de Markov de un nodo es el conjunto de nodos vecinos sus padres sus hijos y otros padres de sus hijos X es una red bayesiana con respecto a G si cada nodo es condicionalmente independiente de todos los demas nodos de la red dada su manta Markov 11 Esto significa que la manta de Markov de un nodo es el unico conocimiento necesario para predecir el comportamiento de ese nodo y sus hijos d separacion Editar Esta definicion puede ser mas general mediante la definicion de la d de separacion de dos nodos donde d es direccional 13 14 Sea P un camino es decir una coleccion de aristas que es como un camino pero cada una de cuyas aristas pueden tener cualquier direccion de un nodo de u a v Entonces P se dice que es d separado por un conjunto de nodos Z si y solo si al menos uno de cumple lo siguiente P contiene una cadena dirigida x m y displaystyle x ldots leftarrow m leftarrow ldots y o y m x displaystyle y ldots rightarrow m rightarrow ldots x de manera tal que el nodo medio de m esta en Z P contiene una divergencia de m x m y displaystyle x ldots leftarrow m rightarrow ldots y de manera tal que el nodo medio de m esta en Z o P contiene una convergencia a m x m y displaystyle x ldots rightarrow m leftarrow ldots y de manera tal que el nodo medio de m no esta en Z y el no descendiente de m esta en Z Asi u y v se dice que estan d separados por Z si todas las rutas entre ellos son d separados Si U y V no son d separados se les llama d conectado X es una red bayesiana con respecto a G si para cualquier par de nodos u v X u X v X Z displaystyle X u perp perp X v X Z donde Z es un conjunto que d separa u y v La manta de Markov es el conjunto minimo de nodos que d separa al nodo v de todos los demas nodos Modelos Jerarquicos Editar El termino modelo jerarquico a veces se considera un tipo particular de red Bayesiana pero no tiene una definicion formal A veces el termino se reserva para los modelos con tres o mas niveles de las variables aleatorias en otras ocasiones se reserva para los modelos con variables latentes En general sin embargo cualquier red Bayesiana moderadamente compleja suele llamarse jerarquica Redes Causales Editar Aunque las redes Bayesianas se utilizan a menudo para representar relaciones causales esto no tiene por que ser el caso una arista dirigida de u a v no requiere que Xv sea causalmente dependiente de Xu Esto se demuestra por el hecho de que las redes Bayesianas en los grafos a b c and a b c displaystyle a longrightarrow b longrightarrow c qquad text and qquad a longleftarrow b longleftarrow c son equivalentes es decir imponen exactamente los mismos requisitos de independencia condicional Una red causal es una red Bayesiana con un requisito explicito de que la relacion sea causal Las semanticas adicionales de las redes causales especifican que si un nodo X esta activamente causado a estar en un estado dado x una accion escrita como lo hacen X x entonces la probabilidad de cambios de la funcion de densidad a la de la red obtenida por cortar los vinculos de los padres de X a X y el seteando X al valor causada x 1 El uso de estas semanticas se puede predecir el impacto de las intervenciones externas de los datos obtenidos antes de la intervencion Aplicaciones EditarLas redes Bayesianas se utilizan para el modelado del conocimiento en biologia computacional y bioinformatica redes reguladoras de genes la estructura de la proteina la expresion de genes de analisis 15 el aprendizaje de epistasis a partir de los conjuntos de datos de GWAS 16 la medicina 17 biomonitoreo 18 la clasificacion de documentos recuperacion de informacion 19 la busqueda semantica 20 el procesamiento de imagenes fusion de datos sistemas de soporte de decisiones 21 la ingenieria los juegos y la ley 22 23 24 otras de las aplicaciones actuales es a la ciencia de datos ya que se ayuda de tablas de probabilidades condicionales respecto a los nodos y ayuda para predicciones y analisis de datos Software Editar WinBUGS OpenBUGS website codigo abierto desarrollo adicional de WinBUGS Just another Gibbs sampler JAGS website GeNIe amp SMILE website SMILE es una libreria de C para BN e ID y GeNIe es una GUI para ella SamIam website otra GUI usando la libreria SMILE Redes de creencia y de decision en AIspace Hugin Netica por Norsys dVelox por Apara Software Historia EditarEl termino redes bayesianas fue acunado por Judea Pearl en 1985 para hacer hincapie en tres aspectos 25 El caracter a menudo subjetivo de la informacion de entrada La dependencia de acondicionamiento de Bayes como base para la actualizacion de la informacion La distincion entre los modos causales y probatorio de razonamiento lo que subraya Thomas Bayes en un documento publicado postumamente en 1763 26 A finales de 1980 los textos seminales Razonamiento Probabilistico en Sistemas Inteligentes 27 y Razonamiento Probabilistico en Sistemas Expertos 28 resume las propiedades de las redes Bayesianas y ayudo a establecer las mismas como un campo de estudio Variantes informales de este tipo de redes se utilizaron por primera vez por el jurista John Henry Wigmore en forma de grafos de Wigmore para analizar la evidencia en un juicio en 1913 23 66 76 Otra variante llamada diagrama de rutas fue desarrollada por el genetista Sewall Wright 29 y utilizado en ciencias de la conducta y sociales en su mayoria con modelos parametricos lineales Vease tambien Editar Portal Inteligencia Artificial Contenido relacionado con Estadisticas Inteligencia Artificial Teorema de Bayes Inferencia bayesiana Inteligencia Computacional Judea Pearl Filtro de Kalman Poliarbol Reconocimiento de vozReferencias Editar a b c d Pearl Judea 2000 Causality Models Reasoning and Inference Cambridge University Press ISBN 0 521 77362 8 J Pearl 1994 A Probabilistic Calculus of Actions En Lopez de Mantaras R Poole D eds UAI 94 Proceedings of the Tenth international conference on Uncertainty in artificial intelligence San Mateo CA Morgan Kaufman pp 454 462 ISBN 1 55860 332 8 I Shpitser J Pearl Identification of Conditional Interventional Distributions In R Dechter and T S Richardson Eds Proceedings of the Twenty Second Conference on Uncertainty in Artificial Intelligence 437 444 Corvallis OR AUAI Press 2006 Rebane G and Pearl J The Recovery of Causal Poly trees from Statistical Data Proceedings 3rd Workshop on Uncertainty in AI Seattle WA pages 222 228 1987 Spirtes P Glymour C 1991 An algorithm for fast recovery of sparse causal graphs PDF Social Science Computer Review 9 1 62 72 doi 10 1177 089443939100900106 Spirtes Peter Glymour Clark N Scheines Richard 1993 Causation Prediction and Search 1st edicion Springer Verlag ISBN 978 0 387 97979 3 Verma Thomas Pearl Judea 1991 Equivalence and synthesis of causal models En Bonissone P Henrion M Kanal L N et al eds UAI 90 Proceedings of the Sixth Annual Conference on Uncertainty in Artificial Intelligence Elsevier pp 255 270 ISBN 0 444 89264 8 Se sugiere usar numero editores ayuda Friedman N Geiger D Goldszmidt M 1997 Machine Learning 29 2 3 131 doi 10 1023 A 1007465528199 Friedman N Linial M Nachman I Pe er D 2000 Using Bayesian Networks to Analyze Expression Data Journal of Computational Biology 7 3 4 601 620 PMID 11108481 doi 10 1089 106652700750050961 a b Russell y Norvig 2003 p 496 a b Russell y Norvig 2003 p 499 Neapolitan Richard E 2004 Learning Bayesian networks Prentice Hall ISBN 978 0 13 012534 7 Geiger Dan Verma Thomas Pearl Judea 1990 Identifying independence in Bayesian Networks PDF Networks 20 507 534 doi 10 1177 089443939100900106 Richard Scheines D separation N Friedman M Linial I Nachman D Pe er agosto de 2000 Using Bayesian Networks to Analyze Expression Data Journal of Computational Biology Larchmont Nueva York Mary Ann Liebert Inc 7 3 4 601 620 ISSN 1066 5277 PMID 11108481 doi 10 1089 106652700750050961 Jiang X Neapolitan R E Barmada M M Visweswaran S 2011 Learning Genetic Epistasis using Bayesian Network Scoring Criteria BMC Bioinformatics 12 89 PMC 3080825 PMID 21453508 doi 10 1186 1471 2105 12 89 J Uebersax 2004 Genetic Counseling and Cancer Risk Modeling An Application of Bayes Nets Marbella Spain Ravenpack International Jiang X Cooper GF July August 2010 A Bayesian spatio temporal method for disease outbreak detection J Am Med Inform Assoc 17 4 462 71 PMC 2995651 PMID 20595315 doi 10 1136 jamia 2009 000356 Luis M de Campos Juan M Fernandez Luna and Juan F Huete 2004 Bayesian networks and information retrieval an introduction to the special issue Information Processing amp Management Elsevier 40 5 727 733 ISBN 0 471 14182 8 doi 10 1016 j ipm 2004 03 001 Christos L Koumenides and Nigel R Shadbolt 2012 Combining link and content based information in a Bayesian inference model for entity search In Proceedings of the 1st Joint International Workshop on Entity Oriented and Semantic Search JIWES 12 ACM Nueva York NY EE UU Article 3 6 pages DOI 10 1145 2379307 2379310 F J Diez J Mira E Iturralde and S Zubillaga 1997 DIAVAL a Bayesian expert system for echocardiography Artificial Intelligence in Medicine Elsevier 10 1 59 73 PMID 9177816 G A Davis 2003 Bayesian reconstruction of traffic accidents Law Probability and Risk 2 2 69 89 doi 10 1093 lpr 2 2 69 a b J B Kadane and D A Schum 1996 A Probabilistic Analysis of the Sacco and Vanzetti Evidence Nueva York Wiley ISBN 0 471 14182 8 O Pourret P Naim and B Marcot 2008 Bayesian Networks A Practical Guide to Applications Chichester UK Wiley ISBN 978 0 470 06030 8 Pearl J 1985 Bayesian Networks A Model of Self Activated Memory for Evidential Reasoning UCLA Technical Report CSD 850017 Proceedings of the 7th Conference of the Cognitive Science Society University of California Irvine CA pp 329 334 Consultado el 1 de mayo de 2009 Bayes T Price Mr 1763 An Essay towards solving a Problem in the Doctrine of Chances Philosophical Transactions of the Royal Society of London 53 370 418 doi 10 1098 rstl 1763 0053 Pearl J Probabilistic Reasoning in Intelligent Systems San Francisco CA Morgan Kaufmann p 1988 ISBN 1558604790 Neapolitan Richard E 1989 Probabilistic reasoning in expert systems theory and algorithms Wiley ISBN 978 0 471 61840 9 Wright S 1921 Correlation and Causation PDF Journal of Agricultural Research 20 7 557 585 Bibliografia EditarBen Gal Irad 2007 Bayesian Networks PDF En Ruggeri Fabrizio Kennett Ron S Faltin Frederick W ed Encyclopedia of Statistics in Quality and Reliability Encyclopedia of Statistics in Quality and Reliability John Wiley amp Sons ISBN 978 0 470 01861 3 doi 10 1002 9780470061572 eqr089 Bertsch McGrayne Sharon 2011 The Theory That Would not Die Yale Borgelt Christian Kruse Rudolf marzo de 2002 Graphical Models Methods for Data Analysis and Mining Chichester UK Wiley ISBN 0 470 84337 3 Borsuk Mark Edward 2008 Ecological informatics Bayesian networks En Jorgensen Sven Erik Fath Brian ed Encyclopedia of Ecology Elsevier ISBN 978 0 444 52033 3 Castillo Enrique Gutierrez Jose Manuel Hadi Ali S 1997 Learning Bayesian Networks Expert Systems and Probabilistic Network Models Monographs in computer science Nueva York Springer Verlag pp 481 528 ISBN 0 387 94858 9 Comley Joshua W Dowe David L October 2003 Minimum Message Length and Generalized Bayesian Nets with Asymmetric Languages Escrito en Victoria Australia En Grunwald Peter D Myung In Jae Pitt Mark A eds Advances in Minimum Description Length Theory and Applications Neural information processing series Cambridge Massachusetts Bradford Books MIT Press publicado el April 2005 pp 265 294 ISBN 0 262 07262 9 This paper puts decision trees in internal nodes of Bayes networks using Minimum Message Length MML An earlier version is Comley and Dowe 2003 1 Dowe David L 2010 MML hybrid Bayesian network graphical models statistical consistency invariance and uniqueness in Handbook of Philosophy of Science Volume 7 Handbook of Philosophy of Statistics Elsevier ISBN 978 0 444 51862 0 pp 901 982 Fenton Norman Neil Martin E November 2007 Managing Risk in the Modern World Applications of Bayesian Networks A Knowledge Transfer Report from the London Mathematical Society and the Knowledge Transfer Network for Industrial Mathematics Londres Reino Unido London Mathematical Society Fenton Norman Neil Martin E 23 de julio de 2004 Combining evidence in risk analysis using Bayesian Networks PDF Safety Critical Systems Club Newsletter 13 4 Newcastle upon Tyne England pp 8 13 Archivado desde el original el 27 de septiembre de 2007 Andrew Gelman Donald B Rubin Hal S Stern 2003 Part II Fundamentals fo Bayesian Data Analysis Ch 5 Hierachical models Bayesian Data Analysis CRC Press pp 120 ISBN 978 1 58488 388 3 Heckerman David 1 de marzo de 1995 Tutorial on Learning with Bayesian Networks En Jordan Michael Irwin ed Learning in Graphical Models Adaptive Computation and Machine Learning Cambridge Massachusetts MIT Press publicado el 1998 pp 301 354 ISBN 0 262 60032 3 Tambien aparece como Heckerman David marzo de 1997 Bayesian Networks for Data Mining Data Mining and Knowledge Discovery Netherlands Springer Netherlands 1 1 79 119 ISSN 1384 5810 doi 10 1023 A 1009730122752 Una version reciente aparece como Technical Report MSR TR 95 06 Microsoft Research March 1 1995 The paper is about both parameter and structure learning in Bayesian networks Jensen Finn V Nielsen Thomas D 6 de junio de 2007 Bayesian Networks and Decision Graphs Information Science and Statistics series 2nd edicion Nueva York Springer Verlag ISBN 978 0 387 68281 5 Korb Kevin B Nicholson Ann E December 2010 Bayesian Artificial Intelligence CRC Computer Science amp Data Analysis 2nd edicion Boca Raton Florida Chapman amp Hall CRC Press ISBN 1 58488 387 1 doi 10 1007 s10044 004 0214 5 Lunn D et al D Thomas A Best N 2009 The BUGS project Evolution critique and future directions Statistics in Medicine 28 25 3049 3067 PMID 19630097 doi 10 1002 sim 3680 Neil Martin Fenton Norman E Tailor Manesh agosto de 2005 Using Bayesian Networks to Model Expected and Unexpected Operational Losses pdf En Greenberg Michael R ed Risk Analysis an International Journal John Wiley amp Sons 25 4 963 972 PMID 16268944 doi 10 1111 j 1539 6924 2005 00641 x Pearl Judea septiembre de 1986 Fusion propagation and structuring in belief networks Artificial Intelligence Elsevier 29 3 241 288 ISSN 0004 3702 doi 10 1016 0004 3702 86 90072 X Pearl Judea 1988 Probabilistic Reasoning in Intelligent Systems Networks of Plausible Inference Representation and Reasoning Series 2nd printing edicion San Francisco Morgan Kaufmann ISBN 0 934613 73 7 Pearl Judea Russell Stuart noviembre de 2002 Bayesian Networks En Arbib Michael A ed Handbook of Brain Theory and Neural Networks Cambridge Massachusetts Bradford Books MIT Press pp 157 160 ISBN 0 262 01197 2 Zhang Nevin Lianwen Poole David mayo de 1994 A simple approach to Bayesian network computations Proceedings of the Tenth Biennial Canadian Artificial Intelligence Conference AI 94 Banff Alberta 171 178 This paper presents variable elimination for belief networks Enlaces externos EditarUn tutorial sobre el aprendizaje con redes Bayesianas Una Introduccion a las Redes Bayesianas y sus aplicaciones contemporaneas Tutorial en linea sobre redes bayesianas y probabilidad Redes Bayesianas en Tiempo Continuo Redes Bayesianas Explicacion y Analogia Un tutorial en vivo en el aprendizaje de redes bayesianas Un modelo jerarquico de Bayes para la manipulacion de heterogeneidad de la muestra en problemas de clasificacion proporciona un modelo de clasificacion teniendo en cuenta la incertidumbre asociada a la medicion de muestras replicadas Modelo Jerarquico Ingenuo de Bayes para el manejo de las muestras de incertidumbre muestra como realizar la clasificacion y el aprendizaje con las variables continuas y discretas con mediciones replicadas Datos Q812540 Obtenido de https es wikipedia org w index php title Red bayesiana amp oldid 144744797, wikipedia, wiki, leyendo, leer, libro, biblioteca,

español

, española, descargar, gratis, descargar gratis, mp3, video, mp4, 3gp, jpg, jpeg, gif, png, imagen, música, canción, película, libro, juego, juegos