fbpx
Wikipedia

Inferencia bayesiana en filogenia

La inferencia bayesiana en filogenia genera la probabilidad posterior de un parámetro, un árbol filogenético y/o un modelo evolutivo, basada en la probabilidad anterior de ese parámetro y la función de verosimilitud de los datos. La aplicación del análisis bayesiano en la inferencia filogenética presenta varias ventajas en comparación con otros métodos de inferencia, como la fácil interpretación de los resultados, la posibilidad de usar información apriorística[1]​ y algunas ventajas computacionales.[2]​ Se calcula la probabilidad de que nuestro árbol sea correcto condicionada por los datos que tenemos: P (árbol|datos). Lo contrario a otros métodos, que calculan la probabilidad de que nuestros datos se adapten al árbol: P (datos|árbol).

Fundamento teórico

Probabilidad posterior

La estadística bayesiana, a diferencia de la estadística clásica, considera los parámetros de un modelo como variables aleatorias con una distribución estadística y no como constantes desconocidas. Puesto que desconocemos los valores de los parámetros del modelo, desde un punto de vista bayesiano resulta más razonable especificar a priori unas distribuciones para describir los valores que éstos pueden tomar. La Inferencia Bayesiana (IB) de la filogenia se basa en el cálculo de la probabilidad posterior de un árbol, esto es, la probabilidad de que dicho árbol sea correcto dados unos datos y un modelo evolutivo.

La probabilidad posterior se calcula mediante el Teorema de Bayes, según el cual la probabilidad posterior de un árbol P(H|D) es proporcional a su probabilidad previa P(H) multiplicada por su verosimilitud P(D|H) (o probabilidad de los datos dados un árbol y modelo evolutivo). El cálculo de la probabilidad posterior implica evaluar todos los posibles árboles y, para cada árbol, investigar todas las posibles combinaciones de longitudes de ramas y parámetros del modelo evolutivo. Sin embargo, este cálculo resulta prohibitivo computacionalmente. Se debe tener en cuenta que, aunque, si bien es cierto que un modelo más rico en parámetros siempre tiene una mayor verosimilitud que un submodelo anidado, su verosimiltud total no tiene por qué ser superior. La razón es que un modelo más rico en parámetros también tiene un espacio de parámetros más amplio y, por tanto, una menor densidad de probabilidad a priori.

Algoritmo empleado

En el caso de la IB, utilizamos algoritmos MCMC (o Markov Chain Monte Carlo) para obtener una aproximación de la distribución de la probabilidad posterior. Los MCMC son algoritmos de simulación estocástica que evitan el cálculo directo de las probabilidades posteriores y permiten obtener una muestra de la distribución posterior. De manera análoga a cómo opera la búsqueda heurística por MV (máxima verosimilitud), la cadena MCMC de la IB parte de un árbol al azar (combinación al azar de topología, longitudes de rama y parámetros del modelo) y realiza un cierto número de visitas a árboles concretos. De este modo, los algoritmos MCMC modifican ligeramente una de las variables del árbol inicial (ya sea la posición o longitud de una rama en concreto, o el valor de un parámetro del modelo evolutivo) y evalúan el nuevo árbol. Esto es lo que se conoce como una generación. Tras cada generación, el cambio propuesto se acepta o rechaza en función del valor de la razón entre las probabilidades posteriores de los estados actual y anterior. Si esta razón es mayor que uno (el nuevo estado es más probable), el cambio se acepta y la cadena MCMC continúa desde este punto. Si por el contrario, la razón es menor de uno, el cambio puede aceptarse o rechazarse en función del valor que toma la razón entre probabilidades posteriores.

 
Fases en la búsqueda de árboles filogenéticos mediante Inferencia Bayesiana

Debemos tener en cuenta que la aproximación de la probabilidad posterior sería más exacta cuantas más generaciones se evalúen en la cadena de Markov. Durante las generaciones iniciales de las cadenas MCMC, los árboles suelen tener una probabilidad posterior baja como resultado de haber comenzado a partir de combinaciones aleatorias de topología, longitudes de rama y valores de parámetros. Esto es lo que conocemos como la fase de burnin o calentamiento. Tras esta fase inicial, las cadenas MCMC alcanzan una fase estacionaria donde los árboles muestreados tienen una probabilidad posterior elevada. Para la estimación del árbol final mediante IB es necesario descartar los árboles del burnin y todo el resto de árboles con probabilidad posterior elevada se resumen mediante un árbol consenso.[3]

Para trabajar correctamente en la práctica desde este enfoque, se deben tener en cuenta algunas consideraciones.

 
Modelo representativo de la búsqueda topológica en filogenética bayesiana mediante el algoritmo Monte Carlo Cadenas de Markov
  • En primer lugar, el mecanismo de modificación de estado de la cadena debe ser diseñado con cuidado. Por un lado, los cambios sugeridos deben ser bastante pequeños a fin de evitar una caída drástica en la probabilidad posterior. Por otro lado, las modificaciones deben ser lo suficientemente grandes como para asegurar que la cadena es capaz de explorar un porción suficiente de espacio de parámetros en un período razonable de tiempo.
  • En segundo lugar, como la cadena MCMC comienza en una ubicación aleatoria en el espacio de parámetros, generalmente de muy baja probabilidad posterior, se le debe dar tiempo para llegar a la estacionalidad, un estado en el que la cadena es en realidad muestreo de la probabilidad posterior. En la práctica, aproximadamente las primeras 10.000 generaciones, quedarán excluidas de análisis posteriores.
  • En tercer lugar, los árboles que se encuentran cerca unos de otros están altamente correlacionados en su construcción, ya que sólo se diferencian por pequeñas modificaciones. Para evitar este problema de autocorrelación, el conjunto final de los árboles de salida se obtiene, por ejemplo, manteniendo el último árbol cada 1000 muestreos que realiza la cadena MCMC.

Extensión del algoritmo MCMC

Como ocurre con las búsquedas heurísticas mediante el método de máxima verosimilitud, la cadena MCMC puede quedar atrapada en máximos locales, de manera que dos análisis con los mismos criterios de búsqueda pueden presentar resultados diferentes para el mismo conjunto de datos. Para evitarlo, la IB utiliza varias cadenas MCMC simultáneamente y además se recomienda hacer cada análisis de IB por duplicado. Este algoritmo se conoce como Metropolis-coupled Montecarlo vía Cadenas de Markov (MC3). Los programas de IB como MrBayes generalmente implementan cuatro cadenas MCMC, una cadena “fría" y tres “calientes". Las cadenas “calientes" elevan la probabilidad posterior de los árboles visitados a una potencia entre 0 y 1, favoreciendo así el salto entre picos locales de probabilidad posterior. Durante el proceso de búsqueda, las cadenas se intercambian, de modo que en cada momento la cadena con mayor probabilidad posterior se comporta como “fría" y el resto como “calientes". Esto favorece una exploración más exhaustiva del conjunto de árboles posibles, puesto que se facilita el salto entre picos locales de probabilidad posterior elevada y con ello se reduce la posibilidad de que la cadena “fría" quede atrapada en máximos locales. Para el resultado final, sólo se tiene en cuenta los resultados de la cadena “fría", pues incluye a los árboles con mayor probabilidad posterior entre todos los visitados por las cuatro cadenas.

El factor "temperatura de las cadenas" es, por tanto, un parámetro importante a tener en cuenta en la búsqueda filogenética mediante IB. Si aplicamos un exceso de temperatura, entonces las cadenas que se mueven en los paisajes calentados caminarán por todo el espacio y la probabilidad de estar en un pico interesante, cuando se intercambie el estado con la cadena fría, será menor. Por lo tanto, la mayoría de los intercambios serán rechazados y la temperatura no aumentará la eficacia de mezcla con la cadena fría. Por otro lado, si no calentamos lo suficiente, entonces las cadenas serán muy similares, y las cadenas calentadas no intercambiarán información a una velocidad adecuada que la cadena fría.

Para saber si las cadenas MCMC de nuestro análisis de IB han explorado de modo eficiente el conjunto de árboles es necesario estudiar la convergencia de las cadenas “frías" entre los dos análisis de IB. La forma más sencilla es observar sus diferencias medias, que en MrBayes conocemos como Average Standard Deviation of Split Frequencies. Una diferencia entre las desviaciones estándar medias menor de 0.01 suele indicarnos que los dos análisis de IB han convergido. Otra herramienta adecuada de diagnóstico de convergencia es el llamado Potential Scale Reduction Factor (PSRF) originalmente propuesto por Gelman y Rubin (1992). El PSRF compara la varianza entre runs con la varianza dentro de los runs. Si se inician las cadenas en puntos de partida dispersos, la varianza entre runs será inicialmente mayor que la varianza dentro de las mismas. Sin embargo, la convergencia de las cadenas hará que esta varianza se asimile y el PSRF se acercará a 1. Sin embargo, es muy recomendable además estudiar la convergencia de las cadenas MCMC a posteriori con herramientas adecuadas desarrolladas a tal efecto, como AWTY.[4]

Por último, señalar que algunos programas como MrBayes nos permiten estudiar los resultados mediante medidas de calidad de modelos estadísticos como son: el criterio de información de Akaike, el criterio de información Bayesiano o el factor Bayes. Además, una alternativa a la ejecución de un análisis completo de cada modelo escogiendo luego entre ellos, en función de las probabilidades estimadas y factor Bayes que presentan los mismos, consiste en llevar a cabo un solo análisis bayesiano que explore los modelos en un espacio predefinido de éstos (reversible-jump MCMC). Además, en la práctica, también se pueden emplear varios tipos de modificaciones en el flujo de trabajo. Los métodos de intercambio de ramas como NNI (nearest neighbor interchange), SPR (subtree prune and regraft) y TBR (tree bisection and reattachment) se emplean en el contexto de los métodos de máxima parsimonia y máxima verosimilitud para la búsqueda a través del espacio de topologías de los árboles filogenéticos; a efectos de la construcción de una cadena MCMC se necesita acoplar un método para proponer estas modificaciones y los parámetros del modelo evolutivo.[5]

Fundamento práctico

Teorema de Bayes

La inferencia bayesiana se basa en la interrelación cuantitativa entre la función de verosimilitud y las distribuciones anteriores y posteriores de probabilidad. Esta interrelación viene dada por el Teorema de Bayes, el cual permite calcular la probabilidad posterior a partir de la verosimilitud y probabilidad anterior de los datos.

 

 =Hipótesis o parámetro

 =Datos

 =Verosimilitud de los datos, probabilidad de H (o valor del parámetro)dados D

 =Probabilidad anterior, es la probabilidad incondicional de H

 =Probabilidad incondicional de D, que puede ser obtenida usando la ley de la probabilidad total, calculando ΣH P(H) P(D|H). Funciona como constante normalizadora,asegurando que la sumatoria de  

La probabilidad posterior de un árbol filogenético   condicional a un alineamiento múltiple   puede ser calculado mediante el Teorema de Bayes:

 

Siendo la función de verosimilitud:

 

El sumatorio es sobre todos los   árboles posibles para   especies, así como, las integrales son sobre todas las combinaciones de longitud de rama   y parámetros de sustitución  .

La probabilidad anterior de un árbol suele establecerse como:  

Montecarlo vía cadenas de Markov

El sumatorio y las integrales requeridas en el análisis bayesiano filogenético no pueden ser evaluados analíticamente por ello se requiere de métodos no determinísticos para aproximar las probabilidades posteriores de los árboles. El método más usado es el de Montecarlo vía Cadenas de Markov (MCMC, siglas en inglés) que se basa en el muestreo de una distribución de probabilidad simulada. Su algoritmo parte de un estado inicial aleatorio de la cadena, y a continuación se propone un nuevo estado generado estocásticamente. Se calcula el cociente (R) de la función de densidad probabilística de ambos estados, usando el algoritmo Metropolis-Hastings. La decisión de aceptar T' o mantener Ti se basa en la relación de las probabilidades a posteriori de los dos árboles, que viene dada por:

 

Siendo   el árbol filogenético en una posición determinada de la cadena de Markov,   la modificación propuesta y   el conjunto de datos alineados.

  • Si R ≥1 se acepta el nuevo estado y la cadena es actualizada.
  • Si R< 1, se genera un número aleatorio entre 0 y 1. Si es mayor que R se rechaza el nuevo estado.

Por tanto, el MCMC trabaja de la siguiente manera:

  • Comienza una cadena markoviana con un árbol ya sea elegido al azar o elegido por el investigador.
  • Se propone un nuevo árbol: el proceso de cambio del árbol 1 al 2 debe satisfacer las siguientes condiciones:

1) El mecanismo debe ser estocástico

2) Cada árbol posible debe ser obtenido por aplicaciones repetidas del mismo mecanismo.

3) La cadena debe ser aperiódica.

Este proceso se puede repetir varios miles o millones de veces. La probabilidad posterior se puede aproximar a la proporción de veces que un árbol es visitado por la cadena.

Metropolis-coupled Montecarlo vía cadenas de Markov

El MCMC presenta limitaciones cuando la distribución presenta varios picos separados valles profundos, pudiendo la cadena quedar atascada en algún pico local. El algoritmo Metropolis-coupled Montecarlo vía Cadenas de Markov (MC3, siglas en inglés) permite a la cadena saltar valles profundos. En esta variante del MCMC se corren   cadenas en paralelo(normalmente 4), donde   son cadenas calentadas. Las cadenas tienen una distribución  . Cuando C es igual a 0 todos los árboles tiene la misma probabilidad, pudiendo las cadenas visitarlos con total libertad. En la cadena fría C es igual a 1, siendo, por tanto, su distribución igual a la distribución de interés. Por ejemplo, se puede aplicar un calentamiento gradual con forma:

 

Cuando todas las cadenas han terminado un ciclo se produce un intercambio entre dos cadenas elegidas al azar. Si el cambio se acepta las dos cadenas son actualizadas. La inferencia se realiza basada únicamente en los estados muestreados por la cadena fría. Mediante este método se permite que la cadena fría (que quizás este bloqueada en un pico local) colonice nuevos picos, si se producen intercambios exitosos con cadenas calentadas, que tienen mayor libertad para explorar todo el espacio topográfico. Por tanto, este algoritmo implica:

  • Correr algunas cadenas independientemente.
  • La primera cadena que cuenta es la fría el resto se denomina cadenas accesorias (calentadas, con más capacidad de exploración).
  • Los cambios de estado se establecen al azar entre dos cadenas distintas.
  • Se necesita correr varios análisis independientes para confirmar convergencias.

Inferencia Bayesiana y otros métodos computacionales

En la inferencia filogenética bayesiana el objetivo no es determinar un solo árbol filogenético de máxima probabilidad posterior (el objetivo de la MV), sino más bien calcular una muestra de árboles filogenéticos de acuerdo con la probabilidad posterior de distribución de los mismos. Dicha muestra de árboles se procesa adicionalmente, para generar un único árbol de consenso. Esta integración de árboles otorga la ventaja de incluir la incertidumbre presente en la determinación de la topología, longitudes de rama y parámetros del modelo evolutivo.

Sin embargo, los métodos de IB tienen una conexión fuerte con la MV, ya que la hipótesis preferida es aquella con la mayor probabilidad posterior, y éste es un valor que se calcula en función de la verosimilitud. Puesto que la IB se basa directamente en la verosimilitud, comparte sus propiedades de eficiencia y consistencia.

Algunos investigadores prefieren usar IB sobre MV debido a que el primer método utiliza “atajos” para los cálculos al emplear el algoritmo Markov Chain Monte Carlo, el cual permite realizar búsquedas a través de un número menor de árboles según sus valores de probabilidades posteriores. Esto permite que la IB demande menos poder computacional y sea más rápida que MV. Además, no es tan necesario en IB el empleo de métodos posteriores de análisis de bootstrap para comprobar la robustez del árbol.

Por otro lado, la IB nos permite introducir cierto conocimiento previo en el análisis de datos, ya que resulta necesario especificar la distribución previa de varios parámetros[6]​ (aunque, en general, el conocimiento de la mayoría de los parámetros es escaso). De hecho, las áreas de investigación en IB aplicada a filogenias indagan en cómo asegurar la convergencia de cadenas y también cómo escoger las distribuciones a priori apropiadas.

Sin embargo, ningún método de análisis filogenético se encuentra exento de críticas:

  • La máxima parsimonia se ve afectada por el fenómeno conocido como atracción de ramas largas, y su concepto teórico no resulta aplicable en muchos casos.
  • El método de máxima verosimilitud suele dar lugar a fenómenos de “repulsión” de grupos hermanos cuando estos se ubican en ramas largas de los árboles.[7]
  • La MV y la IB son poco fiables cuando las tasas de evolución de ADN no son homogéneas en el tiempo ni entre linajes.[8]

Debido a la gran dificultad que se presenta a la hora de escoger el método a implementar en una reconstrucción filogenética, un procedimiento conciliatorio consiste en emplear los tres métodos. Si las topologías de los árboles obtenidos, usando los diferentes métodos, son concordantes, la hipótesis filogenética resultante es considerada robusta

Software más utilizado

Véase también

Referencias

  1. Huelsenbeck, J.P. and F. Ronquist. (2001) MrBayes: Bayesian inference in phylogenetic trees. Bioinformatics, 17, 754–755.
  2. Larget, B. and D.L. Simon. (1999) Markov chain Monte Carlo algorithms for the Bayesian analysis of phylogenetic trees. Molecular Biology and Evolution, 16, 750–759.
  3. Ronquist, F.; van der Mark P. and Huelsenbeck, J. P. “Bayesian phylogenetic analysis using MrBayes”. Second edition, ed. New York: Cambridge University Press, pp. 210-266. (2009)
  4. Nylander J. A.; Wilgenbusch, J. C.; Warren, D. L. and Swofford, D. L. “Awty (are we there yet?): A system for graphical exploration of mcmc convergence in bayesian phylogenetics,". Bioinformatics, vol. 24, no. 4, pp. 581-583. (2008)
  5. Huson et al."Phylogenetic Networks: Concepts, Algorithms and Applications." p. 45
  6. Holder, M. and Lewis, P. O. “Phylogeny estimation: traditional and bayesian approaches," Nature Reviews Genetics, vol. 4, pp. 275-284. (2003)
  7. Siddall, M.E. “Success of Parsimony in the Four-Taxon Case: Long-Branch Repulsion by Likelihood in the Farris Zone”. Cladistics, 14, 209–220. (1998)
  8. Kolaczkowski B. and J.W. Thornton.. “Performance of maximum parsimony and likelihood phylogenetics when evolution is heterogeneous”. Nature, 431, 980–984. (2004)

Bibliografía

  • Hall, Barrie G. "Pgylogenetic Trees Made Easy: A How-To Manual". Second Edition. Publishers Sunderland, Massachusetts. (2004)
  • Holder, M. and Lewis, P. O. “Phylogeny estimation: traditional and bayesian approaches," Nature Reviews Genetics, vol. 4, pp. 275-284. (2003)
  • Huelsenbeck, John P., Fredrik Ronquist, Rasmus Nielsen, and Jonathan P. Bollback. “Bayesian Inference of Phylogeny and Its Impact on Evolutionary Biology.” Science 294, no. 5550 (December 14, 2001): 2310–2314. doi:10.1126/science.1065889.
  • Huson, David H.; Rupp Regula and Scornavacca Celine."Phylogenetic Networks: Concepts, Algorithms and Applications." Cambridge University Press. (2011)
  • Lemey, Philippe; Salemi, Marco and Vandamme, Anne-Mieke. "The Phylogenetic Handbook: A Practical Approach to Phylogenetic Analysis and Hypothesis Testing". Cambridge University Press. (2009)
  • Nylander J. A.; Wilgenbusch, J. C.; Warren, D. L. and Swofford, D. L. “Awty (are we there yet?): A system for graphical exploration of mcmc convergence in bayesian phylogenetics,". Bioinformatics, vol. 24, no. 4, pp. 581-583. (2008)
  • Peña, C. "Métodos de inferencia filogenética". Rev. peru. biol. 18(2): 265 - 267. (2011)
  • Ronquist, F.; van der Mark P. and Huelsenbeck, J. P. “Bayesian phylogenetic analysis using MrBayes”. Second edition, ed. New York: Cambridge University Press, pp. 210-266. (2009)
  • Yang, Ziheng and Rannala, Bruce. “Molecular Phylogenetics: Principles and Practice.” Nature Reviews Genetics 13, no. 5 (May 2012): 303–314. doi:10.1038/nrg3186.
  • Yang, Z. and Rannala, B.. "Bayesian phylogenetic inference using DNA sequences: A Markov chain Monte Carlo method." Molecular Biology and Evolution, 14, 717–724.(1997)

en:English

  •   Datos: Q4874472

inferencia, bayesiana, filogenia, inferencia, bayesiana, filogenia, genera, probabilidad, posterior, parámetro, árbol, filogenético, modelo, evolutivo, basada, probabilidad, anterior, parámetro, función, verosimilitud, datos, aplicación, análisis, bayesiano, i. La inferencia bayesiana en filogenia genera la probabilidad posterior de un parametro un arbol filogenetico y o un modelo evolutivo basada en la probabilidad anterior de ese parametro y la funcion de verosimilitud de los datos La aplicacion del analisis bayesiano en la inferencia filogenetica presenta varias ventajas en comparacion con otros metodos de inferencia como la facil interpretacion de los resultados la posibilidad de usar informacion aprioristica 1 y algunas ventajas computacionales 2 Se calcula la probabilidad de que nuestro arbol sea correcto condicionada por los datos que tenemos P arbol datos Lo contrario a otros metodos que calculan la probabilidad de que nuestros datos se adapten al arbol P datos arbol Indice 1 Fundamento teorico 1 1 Probabilidad posterior 1 2 Algoritmo empleado 1 3 Extension del algoritmo MCMC 2 Fundamento practico 2 1 Teorema de Bayes 2 2 Montecarlo via cadenas de Markov 2 3 Metropolis coupled Montecarlo via cadenas de Markov 3 Inferencia Bayesiana y otros metodos computacionales 4 Software mas utilizado 5 Vease tambien 6 Referencias 7 BibliografiaFundamento teorico EditarProbabilidad posterior Editar La estadistica bayesiana a diferencia de la estadistica clasica considera los parametros de un modelo como variables aleatorias con una distribucion estadistica y no como constantes desconocidas Puesto que desconocemos los valores de los parametros del modelo desde un punto de vista bayesiano resulta mas razonable especificar a priori unas distribuciones para describir los valores que estos pueden tomar La Inferencia Bayesiana IB de la filogenia se basa en el calculo de la probabilidad posterior de un arbol esto es la probabilidad de que dicho arbol sea correcto dados unos datos y un modelo evolutivo La probabilidad posterior se calcula mediante el Teorema de Bayes segun el cual la probabilidad posterior de un arbol P H D es proporcional a su probabilidad previa P H multiplicada por su verosimilitud P D H o probabilidad de los datos dados un arbol y modelo evolutivo El calculo de la probabilidad posterior implica evaluar todos los posibles arboles y para cada arbol investigar todas las posibles combinaciones de longitudes de ramas y parametros del modelo evolutivo Sin embargo este calculo resulta prohibitivo computacionalmente Se debe tener en cuenta que aunque si bien es cierto que un modelo mas rico en parametros siempre tiene una mayor verosimilitud que un submodelo anidado su verosimiltud total no tiene por que ser superior La razon es que un modelo mas rico en parametros tambien tiene un espacio de parametros mas amplio y por tanto una menor densidad de probabilidad a priori Algoritmo empleado EditarEn el caso de la IB utilizamos algoritmos MCMC o Markov Chain Monte Carlo para obtener una aproximacion de la distribucion de la probabilidad posterior Los MCMC son algoritmos de simulacion estocastica que evitan el calculo directo de las probabilidades posteriores y permiten obtener una muestra de la distribucion posterior De manera analoga a como opera la busqueda heuristica por MV maxima verosimilitud la cadena MCMC de la IB parte de un arbol al azar combinacion al azar de topologia longitudes de rama y parametros del modelo y realiza un cierto numero de visitas a arboles concretos De este modo los algoritmos MCMC modifican ligeramente una de las variables del arbol inicial ya sea la posicion o longitud de una rama en concreto o el valor de un parametro del modelo evolutivo y evaluan el nuevo arbol Esto es lo que se conoce como una generacion Tras cada generacion el cambio propuesto se acepta o rechaza en funcion del valor de la razon entre las probabilidades posteriores de los estados actual y anterior Si esta razon es mayor que uno el nuevo estado es mas probable el cambio se acepta y la cadena MCMC continua desde este punto Si por el contrario la razon es menor de uno el cambio puede aceptarse o rechazarse en funcion del valor que toma la razon entre probabilidades posteriores Fases en la busqueda de arboles filogeneticos mediante Inferencia Bayesiana Debemos tener en cuenta que la aproximacion de la probabilidad posterior seria mas exacta cuantas mas generaciones se evaluen en la cadena de Markov Durante las generaciones iniciales de las cadenas MCMC los arboles suelen tener una probabilidad posterior baja como resultado de haber comenzado a partir de combinaciones aleatorias de topologia longitudes de rama y valores de parametros Esto es lo que conocemos como la fase de burnin o calentamiento Tras esta fase inicial las cadenas MCMC alcanzan una fase estacionaria donde los arboles muestreados tienen una probabilidad posterior elevada Para la estimacion del arbol final mediante IB es necesario descartar los arboles del burnin y todo el resto de arboles con probabilidad posterior elevada se resumen mediante un arbol consenso 3 Para trabajar correctamente en la practica desde este enfoque se deben tener en cuenta algunas consideraciones Modelo representativo de la busqueda topologica en filogenetica bayesiana mediante el algoritmo Monte Carlo Cadenas de Markov En primer lugar el mecanismo de modificacion de estado de la cadena debe ser disenado con cuidado Por un lado los cambios sugeridos deben ser bastante pequenos a fin de evitar una caida drastica en la probabilidad posterior Por otro lado las modificaciones deben ser lo suficientemente grandes como para asegurar que la cadena es capaz de explorar un porcion suficiente de espacio de parametros en un periodo razonable de tiempo En segundo lugar como la cadena MCMC comienza en una ubicacion aleatoria en el espacio de parametros generalmente de muy baja probabilidad posterior se le debe dar tiempo para llegar a la estacionalidad un estado en el que la cadena es en realidad muestreo de la probabilidad posterior En la practica aproximadamente las primeras 10 000 generaciones quedaran excluidas de analisis posteriores En tercer lugar los arboles que se encuentran cerca unos de otros estan altamente correlacionados en su construccion ya que solo se diferencian por pequenas modificaciones Para evitar este problema de autocorrelacion el conjunto final de los arboles de salida se obtiene por ejemplo manteniendo el ultimo arbol cada 1000 muestreos que realiza la cadena MCMC Extension del algoritmo MCMC Editar Como ocurre con las busquedas heuristicas mediante el metodo de maxima verosimilitud la cadena MCMC puede quedar atrapada en maximos locales de manera que dos analisis con los mismos criterios de busqueda pueden presentar resultados diferentes para el mismo conjunto de datos Para evitarlo la IB utiliza varias cadenas MCMC simultaneamente y ademas se recomienda hacer cada analisis de IB por duplicado Este algoritmo se conoce como Metropolis coupled Montecarlo via Cadenas de Markov MC3 Los programas de IB como MrBayes generalmente implementan cuatro cadenas MCMC una cadena fria y tres calientes Las cadenas calientes elevan la probabilidad posterior de los arboles visitados a una potencia entre 0 y 1 favoreciendo asi el salto entre picos locales de probabilidad posterior Durante el proceso de busqueda las cadenas se intercambian de modo que en cada momento la cadena con mayor probabilidad posterior se comporta como fria y el resto como calientes Esto favorece una exploracion mas exhaustiva del conjunto de arboles posibles puesto que se facilita el salto entre picos locales de probabilidad posterior elevada y con ello se reduce la posibilidad de que la cadena fria quede atrapada en maximos locales Para el resultado final solo se tiene en cuenta los resultados de la cadena fria pues incluye a los arboles con mayor probabilidad posterior entre todos los visitados por las cuatro cadenas El factor temperatura de las cadenas es por tanto un parametro importante a tener en cuenta en la busqueda filogenetica mediante IB Si aplicamos un exceso de temperatura entonces las cadenas que se mueven en los paisajes calentados caminaran por todo el espacio y la probabilidad de estar en un pico interesante cuando se intercambie el estado con la cadena fria sera menor Por lo tanto la mayoria de los intercambios seran rechazados y la temperatura no aumentara la eficacia de mezcla con la cadena fria Por otro lado si no calentamos lo suficiente entonces las cadenas seran muy similares y las cadenas calentadas no intercambiaran informacion a una velocidad adecuada que la cadena fria Para saber si las cadenas MCMC de nuestro analisis de IB han explorado de modo eficiente el conjunto de arboles es necesario estudiar la convergencia de las cadenas frias entre los dos analisis de IB La forma mas sencilla es observar sus diferencias medias que en MrBayes conocemos como Average Standard Deviation of Split Frequencies Una diferencia entre las desviaciones estandar medias menor de 0 01 suele indicarnos que los dos analisis de IB han convergido Otra herramienta adecuada de diagnostico de convergencia es el llamado Potential Scale Reduction Factor PSRF originalmente propuesto por Gelman y Rubin 1992 El PSRF compara la varianza entre runs con la varianza dentro de los runs Si se inician las cadenas en puntos de partida dispersos la varianza entre runs sera inicialmente mayor que la varianza dentro de las mismas Sin embargo la convergencia de las cadenas hara que esta varianza se asimile y el PSRF se acercara a 1 Sin embargo es muy recomendable ademas estudiar la convergencia de las cadenas MCMC a posteriori con herramientas adecuadas desarrolladas a tal efecto como AWTY 4 Por ultimo senalar que algunos programas como MrBayes nos permiten estudiar los resultados mediante medidas de calidad de modelos estadisticos como son el criterio de informacion de Akaike el criterio de informacion Bayesiano o el factor Bayes Ademas una alternativa a la ejecucion de un analisis completo de cada modelo escogiendo luego entre ellos en funcion de las probabilidades estimadas y factor Bayes que presentan los mismos consiste en llevar a cabo un solo analisis bayesiano que explore los modelos en un espacio predefinido de estos reversible jump MCMC Ademas en la practica tambien se pueden emplear varios tipos de modificaciones en el flujo de trabajo Los metodos de intercambio de ramas como NNI nearest neighbor interchange SPR subtree prune and regraft y TBR tree bisection and reattachment se emplean en el contexto de los metodos de maxima parsimonia y maxima verosimilitud para la busqueda a traves del espacio de topologias de los arboles filogeneticos a efectos de la construccion de una cadena MCMC se necesita acoplar un metodo para proponer estas modificaciones y los parametros del modelo evolutivo 5 Fundamento practico EditarTeorema de Bayes Editar La inferencia bayesiana se basa en la interrelacion cuantitativa entre la funcion de verosimilitud y las distribuciones anteriores y posteriores de probabilidad Esta interrelacion viene dada por el Teorema de Bayes el cual permite calcular la probabilidad posterior a partir de la verosimilitud y probabilidad anterior de los datos P H D P H P D H P D displaystyle P H D frac P H P D H P D H displaystyle H Hipotesis o parametroD displaystyle D DatosP D H displaystyle P D H Verosimilitud de los datos probabilidad de H o valor del parametro dados DP H displaystyle P H Probabilidad anterior es la probabilidad incondicional de HP D displaystyle P D Probabilidad incondicional de D que puede ser obtenida usando la ley de la probabilidad total calculando SH P H P D H Funciona como constante normalizadora asegurando que la sumatoria de p P 1 displaystyle pP 1 La probabilidad posterior de un arbol filogenetico A i displaystyle A i condicional a un alineamiento multiple B displaystyle B puede ser calculado mediante el Teorema de Bayes P A i B P B A i P A i j 1 T e P B A j P A j displaystyle P A i B frac P B A i P A i sum j 1 T e P B A j P A j Siendo la funcion de verosimilitud P B A i l s P B A i l s P l s d l d s displaystyle P B A i int l int s P B A i l s P l s mathrm d l mathrm d s El sumatorio es sobre todos los T e displaystyle T e arboles posibles para e displaystyle e especies asi como las integrales son sobre todas las combinaciones de longitud de rama l displaystyle l y parametros de sustitucion s displaystyle s La probabilidad anterior de un arbol suele establecerse como P A i 1 T e displaystyle P A i frac 1 T e Montecarlo via cadenas de Markov Editar El sumatorio y las integrales requeridas en el analisis bayesiano filogenetico no pueden ser evaluados analiticamente por ello se requiere de metodos no deterministicos para aproximar las probabilidades posteriores de los arboles El metodo mas usado es el de Montecarlo via Cadenas de Markov MCMC siglas en ingles que se basa en el muestreo de una distribucion de probabilidad simulada Su algoritmo parte de un estado inicial aleatorio de la cadena y a continuacion se propone un nuevo estado generado estocasticamente Se calcula el cociente R de la funcion de densidad probabilistica de ambos estados usando el algoritmo Metropolis Hastings La decision de aceptar T o mantener Ti se basa en la relacion de las probabilidades a posteriori de los dos arboles que viene dada por R P A B P A i B P B A P A P B P B A i P A i P B P B A P A P B A i P A i displaystyle R frac P A B P A i B frac P B A P A P B P B A i P A i P B frac P B A P A P B A i P A i Siendo A i displaystyle A i el arbol filogenetico en una posicion determinada de la cadena de Markov A displaystyle A la modificacion propuesta y B displaystyle B el conjunto de datos alineados Si R 1 se acepta el nuevo estado y la cadena es actualizada Si R lt 1 se genera un numero aleatorio entre 0 y 1 Si es mayor que R se rechaza el nuevo estado Por tanto el MCMC trabaja de la siguiente manera Comienza una cadena markoviana con un arbol ya sea elegido al azar o elegido por el investigador Se propone un nuevo arbol el proceso de cambio del arbol 1 al 2 debe satisfacer las siguientes condiciones 1 El mecanismo debe ser estocastico2 Cada arbol posible debe ser obtenido por aplicaciones repetidas del mismo mecanismo 3 La cadena debe ser aperiodica Este proceso se puede repetir varios miles o millones de veces La probabilidad posterior se puede aproximar a la proporcion de veces que un arbol es visitado por la cadena Metropolis coupled Montecarlo via cadenas de Markov Editar El MCMC presenta limitaciones cuando la distribucion presenta varios picos separados valles profundos pudiendo la cadena quedar atascada en algun pico local El algoritmo Metropolis coupled Montecarlo via Cadenas de Markov MC3 siglas en ingles permite a la cadena saltar valles profundos En esta variante del MCMC se corren n displaystyle n cadenas en paralelo normalmente 4 donde n 1 displaystyle n 1 son cadenas calentadas Las cadenas tienen una distribucion P A i B C displaystyle P A i B C Cuando C es igual a 0 todos los arboles tiene la misma probabilidad pudiendo las cadenas visitarlos con total libertad En la cadena fria C es igual a 1 siendo por tanto su distribucion igual a la distribucion de interes Por ejemplo se puede aplicar un calentamiento gradual con forma C 1 1 i 1 a displaystyle C frac 1 1 i 1 alpha Cuando todas las cadenas han terminado un ciclo se produce un intercambio entre dos cadenas elegidas al azar Si el cambio se acepta las dos cadenas son actualizadas La inferencia se realiza basada unicamente en los estados muestreados por la cadena fria Mediante este metodo se permite que la cadena fria que quizas este bloqueada en un pico local colonice nuevos picos si se producen intercambios exitosos con cadenas calentadas que tienen mayor libertad para explorar todo el espacio topografico Por tanto este algoritmo implica Correr algunas cadenas independientemente La primera cadena que cuenta es la fria el resto se denomina cadenas accesorias calentadas con mas capacidad de exploracion Los cambios de estado se establecen al azar entre dos cadenas distintas Se necesita correr varios analisis independientes para confirmar convergencias Inferencia Bayesiana y otros metodos computacionales EditarEn la inferencia filogenetica bayesiana el objetivo no es determinar un solo arbol filogenetico de maxima probabilidad posterior el objetivo de la MV sino mas bien calcular una muestra de arboles filogeneticos de acuerdo con la probabilidad posterior de distribucion de los mismos Dicha muestra de arboles se procesa adicionalmente para generar un unico arbol de consenso Esta integracion de arboles otorga la ventaja de incluir la incertidumbre presente en la determinacion de la topologia longitudes de rama y parametros del modelo evolutivo Sin embargo los metodos de IB tienen una conexion fuerte con la MV ya que la hipotesis preferida es aquella con la mayor probabilidad posterior y este es un valor que se calcula en funcion de la verosimilitud Puesto que la IB se basa directamente en la verosimilitud comparte sus propiedades de eficiencia y consistencia Algunos investigadores prefieren usar IB sobre MV debido a que el primer metodo utiliza atajos para los calculos al emplear el algoritmo Markov Chain Monte Carlo el cual permite realizar busquedas a traves de un numero menor de arboles segun sus valores de probabilidades posteriores Esto permite que la IB demande menos poder computacional y sea mas rapida que MV Ademas no es tan necesario en IB el empleo de metodos posteriores de analisis de bootstrap para comprobar la robustez del arbol Por otro lado la IB nos permite introducir cierto conocimiento previo en el analisis de datos ya que resulta necesario especificar la distribucion previa de varios parametros 6 aunque en general el conocimiento de la mayoria de los parametros es escaso De hecho las areas de investigacion en IB aplicada a filogenias indagan en como asegurar la convergencia de cadenas y tambien como escoger las distribuciones a priori apropiadas Sin embargo ningun metodo de analisis filogenetico se encuentra exento de criticas La maxima parsimonia se ve afectada por el fenomeno conocido como atraccion de ramas largas y su concepto teorico no resulta aplicable en muchos casos El metodo de maxima verosimilitud suele dar lugar a fenomenos de repulsion de grupos hermanos cuando estos se ubican en ramas largas de los arboles 7 La MV y la IB son poco fiables cuando las tasas de evolucion de ADN no son homogeneas en el tiempo ni entre linajes 8 Debido a la gran dificultad que se presenta a la hora de escoger el metodo a implementar en una reconstruccion filogenetica un procedimiento conciliatorio consiste en emplear los tres metodos Si las topologias de los arboles obtenidos usando los diferentes metodos son concordantes la hipotesis filogenetica resultante es considerada robustaSoftware mas utilizado EditarMrBayes BEASTVease tambien EditarFilogenia Analisis moleculares de ADN Filogenetica computacionalReferencias Editar Huelsenbeck J P and F Ronquist 2001 MrBayes Bayesian inference in phylogenetic trees Bioinformatics 17 754 755 Larget B and D L Simon 1999 Markov chain Monte Carlo algorithms for the Bayesian analysis of phylogenetic trees Molecular Biology and Evolution 16 750 759 Ronquist F van der Mark P and Huelsenbeck J P Bayesian phylogenetic analysis using MrBayes Second edition ed New York Cambridge University Press pp 210 266 2009 Nylander J A Wilgenbusch J C Warren D L and Swofford D L Awty are we there yet A system for graphical exploration of mcmc convergence in bayesian phylogenetics Bioinformatics vol 24 no 4 pp 581 583 2008 Huson et al Phylogenetic Networks Concepts Algorithms and Applications p 45 Holder M and Lewis P O Phylogeny estimation traditional and bayesian approaches Nature Reviews Genetics vol 4 pp 275 284 2003 Siddall M E Success of Parsimony in the Four Taxon Case Long Branch Repulsion by Likelihood in the Farris Zone Cladistics 14 209 220 1998 Kolaczkowski B and J W Thornton Performance of maximum parsimony and likelihood phylogenetics when evolution is heterogeneous Nature 431 980 984 2004 Bibliografia EditarHall Barrie G Pgylogenetic Trees Made Easy A How To Manual Second Edition Publishers Sunderland Massachusetts 2004 Holder M and Lewis P O Phylogeny estimation traditional and bayesian approaches Nature Reviews Genetics vol 4 pp 275 284 2003 Huelsenbeck John P Fredrik Ronquist Rasmus Nielsen and Jonathan P Bollback Bayesian Inference of Phylogeny and Its Impact on Evolutionary Biology Science 294 no 5550 December 14 2001 2310 2314 doi 10 1126 science 1065889 Huson David H Rupp Regula and Scornavacca Celine Phylogenetic Networks Concepts Algorithms and Applications Cambridge University Press 2011 Lemey Philippe Salemi Marco and Vandamme Anne Mieke The Phylogenetic Handbook A Practical Approach to Phylogenetic Analysis and Hypothesis Testing Cambridge University Press 2009 Nylander J A Wilgenbusch J C Warren D L and Swofford D L Awty are we there yet A system for graphical exploration of mcmc convergence in bayesian phylogenetics Bioinformatics vol 24 no 4 pp 581 583 2008 Pena C Metodos de inferencia filogenetica Rev peru biol 18 2 265 267 2011 Ronquist F van der Mark P and Huelsenbeck J P Bayesian phylogenetic analysis using MrBayes Second edition ed New York Cambridge University Press pp 210 266 2009 Yang Ziheng and Rannala Bruce Molecular Phylogenetics Principles and Practice Nature Reviews Genetics 13 no 5 May 2012 303 314 doi 10 1038 nrg3186 Yang Z and Rannala B Bayesian phylogenetic inference using DNA sequences A Markov chain Monte Carlo method Molecular Biology and Evolution 14 717 724 1997 en English Datos Q4874472 Obtenido de https es wikipedia org w index php title Inferencia bayesiana en filogenia amp oldid 146430002, wikipedia, wiki, leyendo, leer, libro, biblioteca,

español

, española, descargar, gratis, descargar gratis, mp3, video, mp4, 3gp, jpg, jpeg, gif, png, imagen, música, canción, película, libro, juego, juegos