fbpx
Wikipedia

Filogenética computacional

La filogenética computacional es la aplicación de algoritmos computacionales, en métodos y programas de análisis filogenético. El objetivo es construir un árbol filogenético que representa una hipótesis evolutiva de un conjunto de genes, especies u otros taxones. Por ejemplo, estas técnicas han sido usadas para explorar el árbol de la familia de los homínidos[1]​ y las relaciones entre los genes específicos compartidos por muchos tipos de organismos.[2]

Filogenética computacional

La filogenética tradicional usaba datos morfológicos obtenidos mediante la medición y cuantificación de las propiedades fenotípicas de los organismos representativos, mientras que los más recientes campos en filogenética molecular usan secuencias de nucleótidos que codifican genes o secuencias de aminoácidos que forman proteínas como bases de la clasificación. Muchas formas de filogenética molecular están muy relacionadas y hacen un uso extensivo del alineamiento de secuencias en la construcción y redefinición de los árboles filogenéticos usados para la clasificación de las relaciones evolutivas entre los genes homólogos existentes en los genomas de especies divergentes. Los árboles filogenéticos construidos mediante métodos computacionales rara vez reflejan fielmente los árboles filogenéticos que representan las relaciones históricas entre las especies analizadas. El árbol de especies históricas puede diferir del árbol histórico de genes homólogos individuales compartidos por dichas especies.

Producir un árbol filogenético requiere una cuantificación de las homologías entre las características compartidas por los taxones bajo estudio. En estudios morfológicos, esto requiere hacer supuestos explícitos sobre las características físicas a medir y como usarlos para codificar los distintos estados correspondientes a los taxones de entrada. En los estudios moleculares, uno de los problemas básicos es producir un alineamiento múltiple entre las secuencias de interés. Por fuerza, los métodos de alineamiento progresivo producen un árbol filogenético, porque incorporan las secuencias nuevas en el alineamiento calculado por orden de distancia genética. Aunque los árboles filogenéticos puedan ser construidos a partir de un alineamiento múltiple, métodos de inferencia filogenética como la máxima parsimonia y máxima verosimilitud no requieren la producción de un alineamiento múltiple inicial.

Tipos de árboles filogenéticos

Los árboles filogenéticos generados mediante filogenia computacional pueden ser enraizados o sin raíz, dependiendo de los datos de entrada y el algoritmo usado. Un árbol enraizado es un grafo directo que implícitamente identifica un antecesor común más reciente, usualmente una secuencia imputada que no está representada en la entrada. Las medidas de distancia genética pueden ser usadas para trazar un árbol con las secuencias de entrada como nodos hoja y sus ramas con distancia a la raíz proporcionales a su distancia genética desde el hipotético antecesor común. La identificación de la raíz normalmente requiere la inclusión en los datos de entrada de al menos un grupo externo (en inglés outgroup) que esté relacionado solamente de forma distante con las secuencias en estudio.

Por el contrario, en los árboles sin raíz se trazan las distancias y relaciones entre las secuencias de entrada sin hacer suposiciones en cuanto a sus antecesores. Un árbol sin raíz siempre se puede producir a partir de un árbol enraizado, pero usualmente no es posible hacerlo a la inversa, a menos que se provea información adicional sobre las tasas de divergencia, como al asumir la hipótesis de un reloj molecular.[3]

El conjunto de todos los árboles filogenéticos posibles para un grupo dado de secuencias de entrada puede ser conceptualizado como un "espacio de árboles" discretamente definido y multidimensional, y mediante algoritmos de optimización matemática trazar el árbol adecuado. Aunque contabilizar el número total de árboles para un número no trivial de secuencias de entrada puede ser complicado debido a los distintos tipos de topologías del árbol, también es cierto que el número de árboles enraizados es mayor que el número de árboles posibles sin raíz, para una misma secuencia de entradas y de parámetros.[4]

Codificando caracteres y definiendo homología

Análisis morfológico

El problema básico en la filogenia basada en morfología es la construcción de una matriz matemática que contenga valores representativos de cada una de las características fenotípicas usadas como clasificador para cada uno de los taxones en estudio. Los tipos de datos fenotípicos que se usen para construirla dependerán de los taxones involucrados; para estudios dentro de una misma especie, se pueden incluir medidas del tamaño corporal promedio, longitudes o tamaños de ciertos huesos u otros rasgos físicos o incluso conductuales. Como no toda característica fenotípica puede ser medida y codificada para un análisis de esta naturaleza, la selección de los rasgos que se van a medir es uno de los grandes obstáculos inherentes a este método. La decisión de qué rasgos se van a usar en la matriz constituye necesariamente acerca de las características de un taxón entregan información acerca de su evolución.[5]​ Los estudios morfológicos pueden ser distorsionados por casos de convergencia evolutiva.[6]​ Uno de los principales desafíos de construir clases útiles es la alta probabilidad de que la distribución de la variación fenotípica se traslape entre taxones. La inclusión de grupos extintos a menudo es difícil, a causa de que no existen registros fósiles o son incompletos, sin embargo, se ha demostrado que tiene un efecto significativo en los árboles producidos; por ejemplo, en cierto estudio morfológico, solo la inclusión de simios extintos produjo un árbol consistente con los producidos a partir de datos moleculares.[1]

Algunas clasificaciones fenotípicas, particularmente aquellas usadas cuando se analizan grupos muy diversos corresponden a variables discretas y no ambiguas. Por ejemplo, el clasificar organismos de acuerdo a la presencia o ausencia de cola es sencillo en la mayoría de los casos, así como lo es hacerlo según el número de ojos o vértebras. Sin embargo, la representación más apropiada de variables fenotípicas continuas es un problema controvertido sin una única solución. Un método común es simplemente agrupar las medidas en dos o más clases, tratando de este modo la variación continua como si fuera discreta (p. ej., los húmeros cuya longitud supera cierta medida son considerados dentro de un estado, y los que no, se agrupan en otro estado). Este método produce un conjunto de datos fácil de procesar, pero se le ha criticado lo poco que ahonda en los fundamentos de la determinación de clases y que desperdicia información si se lo compara con métodos que usan medidas de distribución continua.[7]

En vista de que los datos morfológicos son difíciles de reunir, ya sea de fuentes escritas o de observaciones en terreno, no es raro el uso de matrices de datos compiladas previamente, aunque esto puede ocasionar que los errores del original se propaguen por los sucesivos análisis derivados.[8]

Análisis molecular

El problema de la codificación de caracteres es muy distinto en los análisis moleculares, pues los caracteres en secuencias biológicas son inmediatos de naturaleza discreta - diferentes nucleótidos en secuencias de ADN o ARN y diferentes aminoácidos en secuencias de proteína. Sin embargo, definir la homología puede ser un reto, debido a las dificultades inherentes al alineamiento múltiple de secuencias. Para un determinado alineamiento con gaps se pueden construir muchos árboles filogenéticos enraizados que difieren en cuáles cambios son "mutaciones" de caracteres ancestrales y cuáles corresponden a inserciones o deleciones de bases. Por ejemplo, con solo un par de secuencias alineadas que contengan un gap, es imposible determinar si una de ellas contiene una inserción o si la otra sufrió una deleción. El problema se magnifica en los alineamientos múltiples con gaps no alineados y no traslapados. En la práctica, al construir árboles filogenéticos deben descartarse regiones importantes de los alineamientos para evitar que se introduzcan distorsiones en el cálculo del árbol.

Métodos de matriz de distancias

 
Matriz de distancias a partir de un alineamiento múltiple.

Los métodos basados en distancias permiten construir árboles filogenéticos basados en la distancia genética entre parejas de secuencias de ADN o proteínas, por lo que requieren un alineamiento múltiple como información de entrada. Difieren de los métodos basados en caracteres (Máxima parsimonia, Máxima verosimilitud, Inferencia bayesiana) en que los datos utilizados se presentan en una matriz de distancias obtenida a partir del alineamiento de las secuencias, en lugar de emplear el propio alineamiento como ocurre en el resto de métodos. De esta manera se comparan las secuencias completas, lo que tiene un mayor significado evolutivo y evoca una imagen intuitiva del “grado de parentesco” entre ambas.

La principal ventaja de los métodos basados en distancias es su velocidad, lo que resulta de particular utilidad cuando se tiene un gran número de secuencias. Los problemas más importantes son la pérdida de información del alineamiento múltiple y la generación de un árbol único, por lo que se desechan árboles que podrían ser igualmente válidos y consistentes con los datos. En muchas ocasiones se usan los métodos basados en distancias para generar los árboles de partida necesarios para métodos más complejos, como el de Máxima Verosimilitud. Tras generar el árbol, puede comprobarse su fiabilidad mediante un análisis de bootstrap.

Cálculo de las distancias genéticas

La distancia entre dos secuencias (p-distance) se obtiene como la fracción de posiciones en las que existe una diferencia de nucleótidos o aminoácidos.[9]​ Los gaps pueden ignorarse o contarse como diferencias. Sin embargo, es posible que en una misma posición se hayan producido varias sustituciones a lo largo del tiempo evolutivo, por lo que la distancia observada puede no corresponderse con la distancia real. También existe la posibilidad de que en una posición ocurra la reversión al estado ancestral o que se dé la misma mutación en las dos secuencias comparadas; en ambos casos se supondría una ausencia de cambio. Cuanto menos relacionadas filogenéticamente estén las secuencias, más probabilidad existirá de que hayan ocurrido eventos de sustitución múltiple, ya que han contado con más tiempo para acumular cambios. Otro problema que entorpece la estima de las distancias genéticas es la diferente velocidad de evolución que se observa en los distintos linajes.

Modelos de sustitución de nucleótidos

 
Diferencia entre la distancia esperada y la observada, que debe corregirse mediante un modelo de sustitución de nucleótidos.

Para "corregir" la distancia entre secuencias y estimar el número de sustituciones que realmente han ocurrido, se emplean modelos evolutivos, que pretenden describir, mediante una serie de parámetros, la forma en la que se producen las sustituciones en una determinada secuencia. El modelo escogido debe ser lo más ajustado posible al verdadero comportamiento de la evolución de las secuencias, ya que de ello depende que se realice un buen cálculo de la distancia genética entre ellas, que a su vez es la base para construir un buen árbol filogenético.

Para elegir el modelo evolutivo correcto se puede recurrir a programas como las diferentes versiones de ModelTest, que implementa distintas estrategias de selección (AIC, hLRT, dLRT, BIC, DT). Los modelos evolutivos están definidos por la frecuencia de cada uno de los nucleótidos y las tasas de sustitución de cada tipo (transiciones y transversiones). Existen muchos modelos evolutivos diferentes, desde el más simple, con la misma frecuencia para todos los nucleótidos y las mismas tasas de sustitución en todos los casos (Jukes-Cantor, 1969) hasta otros más complejos como el General Time-Reversible (GTR), que considera distintas frecuencias para cada nucleótido y distinta tasa para cada tipo de sustitución.

Tipos de métodos basados en distancias

Los métodos de reconstrucción filogenética pueden clasificarse en dos tipos según su forma de proceder. Los primeros son los llamados algorítmicos, que agrupan las secuencias según distintos criterios, creando un nuevo nodo en cada paso, y finalmente obtienen un árbol único, que se considera el más ajustado a los datos. Los segundos son los basados en un criterio de optimización en la búsqueda de árboles, y funcionan generando todos los árboles posibles y eligiendo luego los más adecuados según los datos y otros parámetros previamente establecidos. Existen métodos basados en distancias tanto del primer tipo (UPGMA, Neighbor-joining) como del segundo (Fitch-Margoliash).

UPGMA (Unweighted Pair-Group Method with Arithmetic)

Es un método que procede por agrupación de las secuencias que presentan la menor distancia genética. La agrupación de las dos secuencias más relacionadas produce el primer nodo, que se incorpora a una nueva matriz en la que se calcula su distancia a cada una de las secuencias restantes como la media aritmética de las distancias de las dos secuencias componentes del nodo. El proceso se repite hasta que todas las secuencias quedan agrupadas y unidas por nodos internos.[9]

Con este método se obtiene un árbol enraizado y ultramétrico, en el que todas las secuencias presentan la misma distancia al punto de origen, ya que se asume la existencia de un reloj molecular evolutivo. La hipótesis del reloj molecular postula la velocidad constante del cambio evolutivo, reflejada en secuencias genómicas con una tasa de cambio constante, en las que la divergencia a partir de una secuencia ancestral debería ser la misma para todas las secuencias derivadas. Sin embargo, está demostrado que este reloj molecular no existe en la mayoría de los casos, ya que el ritmo de cambio es distinto entre especies y entre las diferentes regiones del genoma.

Neighbor-joining

Es un método basado en el criterio de mínima evolución (BME: balanced minimum evolution), en el que el mejor árbol es aquel que minimiza la longitud de las ramas internas. Para ello, a partir de un árbol en estrella, se determina la pareja de secuencias más cercanas y se unen mediante un nodo interno. Este proceso se repite con el resto de secuencias hasta que quedan todas unidas por nodos internos que minimizan la longitud de cada una de las ramas internas, aunque no se asegura una longitud mínima global.[9]

Con este método se obtiene un árbol no enraizado y aditivo, en el que la longitud de sus ramas indica cambio evolutivo. Las ramas presentan diferentes distancias al punto de origen porque no asume la existencia de un reloj molecular, y por lo tanto la tasa de cambio varía entre distintos linajes y secuencias. Con estas premisas, el método de Neighbor-joining representa mejor la situación real que el UPGMA, por lo que en la actualidad se utiliza más.

Fitch-Margoliash

El método de Fitch-Margoliash emplea cuadrados mínimos ponderados para el agrupamiento basado en distancia genética.[10]​ A las secuencias relacionadas de manera más estrecha se les asigna una mayor valoración en el proceso de construcción del árbol para contrapesar el aumento de la inexactitud al medir distancias entre secuencias relacionadas de forma distante.

El criterio de los cuadrados mínimos aplicado a estas distancias es más exacto pero menos eficiente que los métodos de neighbor-joining. Encontrar el árbol óptimo mediante cuadrados mínimos con cualquier factor de corrección es un problema NP-completo,[11]​ así que a través del espacio de árboles se emplean métodos de búsqueda heurística, como aquellos usados en los análisis de máxima parsimonia.

Uso de grupos externos

Se puede emplear información independiente acerca de las relaciones filogenéticas entre secuencias o grupos para reducir el espacio de búsqueda y enraizar los árboles. En el uso estándar de métodos de matrices de distancia se incluye al menos un grupo externo (en inglés, outgroup), es decir, una secuencia de la que se sabe que solamente está relacionada de forma distante con las secuencias de interés para la investigación.[3]​ Esta secuencia se puede entender como grupo de control.

Si el grupo externo se elige bien, debería estar separado de los demás por una mayor distancia genética, y por lo tanto, en el árbol será una rama de mucha mayor longitud que el resto y con un nodo más cercano a la raíz. Para escoger un grupo apropiado hay que seleccionar una secuencia que esté relacionada hasta cierto punto con las secuencias de interés: si está demasiado próxima, no cumple bien el propósito de un grupo externo y si está demasiado alejada, distorsiona el análisis.[3]

Un punto que se debe tener en cuenta es que el tomar secuencias procedentes de una especie relacionada de forma distante no asegura el éxito, pues podría suceder que la porción del genoma que se estudia sea una que presenta escasa variación entre linajes. La transferencia horizontal de genes, especialmente ente bacterias que de otro modo no tendrían semejanzas genéticas importantes, también puede afectar el uso de grupos externos.

Máxima parsimonia

El método de máxima parsimonia (MP) es un método de gran utilidad en diversos campos de la ciencia y uno de los métodos más utilizados en la reconstrucción de árboles filogenéticos, basado en el principio de parsimonia. El método de máxima parsimonia en la reconstrucción filogenética tiene como objetivo la búsqueda e identificación de un posible árbol filogenético que requiera el menor número de eventos evolutivos ( mínimo de cambios evolutivos o pasos de un estado a otro) para dar explicación a los procesos o fenómenos observados. Esta idea fue extraída de la argumentación filosófica de la navaja de Ockham de Guillermo de Ockham en la que defiende que si se parte de dos o más hipótesis que dan lugar a explicaciones igual de válidas para un acontecimiento dado, la hipótesis más simple tiene mayor probabilidad de ser la correcta para explicar el fenómeno.

Análisis

Desde la década de los 70 el método de máxima parsimonia ha sido uno de los más utilizados para la reconstrucción de árboles filogenéticos. Aunque en la actualidad se utilizan otros métodos con mayor frecuencia tales como el método de máxima verosimilitud (ML), inferencia bayesiana (IB), método de matriz de distancias...; el método de máxima parsimonia sigue siendo de gran utilidad y de suma importancia en el campo de estudio de filogenias moleculares, a pesar de presentar ciertas limitaciones.

Los datos que se utilizan para la realización de filogenias moleculares se recogen en una matriz que puede estar formada por secuencias de ADN previamente alineadas, siendo los estados los cuatro diferentes nucleótidos (A,T,C,G) o en una matriz compuesta por secuencias proteicas que recoge los diferentes 20 aminoácidos; es en la matriz donde se asigna uno o varios caracteres a cada taxón.[12]

 
Árbol filogenético enraizado
 
Árbol filogenético sin raíz

Una vez obtenidas las diferentes topologías, se le asigna a cada una de ellas un coste, y es el árbol con la topología de menor coste el que se elige como árbol más parsimonioso. Esta forma de búsqueda del árbol más parsimonioso solamente es posible cuando se obtienen un número relativamente pequeño de topologías.[13]​ El número de topologías posibles depende del número de taxones (nodos terminales) y si el árbol está enraizado o no.

  • N.º de topologías posibles para árboles no enraizados:
 
  • N.º de topologías posibles para árboles enraizados:
 

Aplicando las fórmulas anteriores se deduce que el número de topologías posibles crece exponencialmente conforme aumenta el número de taxones. Cuando el número de topologías posibles es mayor o igual a 12 se tiene que emplear métodos de búsqueda heurísticas para reducir la complejidad de búsqueda (resulta imposible calcular todos los árboles posibles), ya que identificar el árbol más parsimonioso es un problema debido a NP-hard;.[4]​ Tanto el método de máxima parsimonia, como el método de máxima verosimilitud y el método de matriz de distancias son métodos que se basan en criterios de optimización, es decir se centran en la búsqueda de árboles que presenten una topología óptima. Teniendo en cuenta que el número de topologías crece exponencialmente conforme aumenta el número de taxones, este tipo de métodos basados en criterios de optimización son mucho más lentos que los métodos basados en algoritmos como el método del vecino más cercano (en inglés neighbor-joining (NJ) o UPGMA. Aunque el proceso de estos métodos sea más lento, hay que destacar que son más precisos matemáticamente a diferencia de los métodos algorítmicos, ya que se puede decir al menos que la topología del árbol resultante es la mejor que se puede encontrar de acuerdo con el criterio establecido,[13]​ y por tanto se puede explicar y aclarar por qué se eligió esa topología. Los árboles filogenéticos reconstruidos por medio del método de máxima parsimonia proporcionan más información a partir de los datos obtenidos y resulta fácil su interpretación que otro métodos. Además este método no requiere de modelos evolutivos previos para su realización. Aunque hay que tener en cuenta que los resultados obtenidos por este método pueden ser erróneos si se trata de homoplasias.

Problema de la parsimonia

Encontrar un árbol filogenético óptimo a partir de un conjunto de secuencias alineadas basándose en el mínimo número de eventos evolutivos a menudo puede resultar ser tarea difícil presentando los siguientes problemas:

1. Determinación de la cantidad de cambios que se dan en el carácter/es y la longitud del árbol.

2. La búsqueda del árbol con mínima longitud entre una amplia gama de topologías posibles.

La resolución del último problema es lento y costoso ya que la cantidad de posibles topologías aumenta de forma exponencial a medida que aumentan los taxones.

Cálculo de la longitud de un árbol

Para el cálculo de la longitud de una topología de árbol (τ) binario sin raíz, compuesto por n nodos terminales, n-2 nodos internos y 2n-3 ramas encargadas de unir los pares de nodos, que se ha elegido de forma aleatoria de todos los árboles posibles se obtiene por medio de:

 

siendo N el número de caracteres empleados en el alineamiento y lj (longitud de cada sitio de j, valor obtenido por medio de algoritmos) cantidad de cambios de los caracteres que se han tomado por la reconstrucción de parsimonia que asigna un estado de carácter Xij, donde i representa cada nodo y j representa cada sitio. La asignación del estado del carácter para los nodos terminales se fija por medio de la entrada de datos. Por lo tanto, para el cálculo de la longitud de un árbol basado en criterios de parsimonia se aplica la siguiente fórmula:

 

los estados asignados a los nodos terminales de la rama k se representa por a(k) y b(k), siendo cxy el costo correspondiente al cambio del estado x al estado y.[13]

Los costes de cambio entre un estado y otro se pueden representar por medio de una matriz de coste o una matriz de paso. La matriz de coste suele ser en general simétrica, cxy = cxy, obteniendo la misma longitud en los árboles independientemente de la posición de la raíz. En el caso de que la matriz de coste no sea simétrica, cxy ≠ cxy, la longitud de los árboles es diferente y la búsqueda de árboles se tiene que realizar a partir de árboles enraizados. Por medio de esquemas de costes desiguales el carácter llega a ser informativo ya que se puede discriminar que árboles tienen mejor longitud que otros. Por lo que el uso de esquemas de costes desiguales puede proporcionar más información para la reconstrucción filogenética que esquemas de costes iguales. Una vez calculadas las longitudes de los árboles, se elige aquel árbol que minimiza la longitud total. Pero el problema radica cuando el número de topologías posibles es muy elevado, por lo que se necesita otra forma de determinar la longitud mínima de los árboles sin que requiera la evaluación de todas las reconstrucciones.[13]​ Este problema se ha intentado solventar a partir de dinámicas de programación algorítmica. A partir de algoritmos se trata de resolver un conjunto de subproblemas y evaluar una serie de soluciones de forma que garantice la optimización de todo el problema en conjunto. Se pueden emplear diferentes tipos de algoritmos dependiendo del tipo de topología del árbol y de la forma de ajustar los cambios de los diferentes estados. Entre los algoritmos utilizados, destacan:

  • Algoritmo de Fitch: para árboles bifurcados y los cambios entre diferentes estados se ajustan por medio de la misma ponderación.
  • Algoritmo de Fitch-Hartigan: para árboles multifurcados.
  • Algoritmo de Sankoff: la ponderación se realiza de forma diferente entre los cambios de los distintos estados.
Ramificación y acotación (método branch and bound)

El algoritmo de ramificación y acotación o poda (en inglés, branch and bound) es un método que se usa para aumentar la eficiencia de búsquedas de soluciones cuasi-óptimas en problemas NP-hard aplicándose por primera vez en reconstrucciones filogenéticas a principios de la década de 1980.[14]​ Este método se basa en la evaluación de forma implícita de todos los árboles posibles a partir de un camino trazado. A partir del recorrido establecido se emprende la búsqueda del árbol, deteniéndose en ciertas secciones del recorrido cuando se determina que ese camino no lleva a árboles óptimos, es decir subdivide el espacio del problema en regiones más pequeñas.[13]​ Como su nombre dice, requiere de una orden de entrada de ramificación y una de acotamiento (una regla que excluya ciertas regiones del espacio de búsqueda, asumiendo por lo tanto que la solución óptima no puede encontrarse en esa región); al acotar el camino de esta forma, grandes tramos de búsqueda del árbol pueden ser evitados procediendo el algoritmo a atravesar el resto del trayecto, cortando otros caminos cuando sea posible y almacenando árboles óptimos cuando los encuentra, ahorrándose por tanto, tiempo en la búsqueda. El algoritmo termina la búsqueda cuando la raíz ha sido visitada por última vez, siendo en ese momento cuando todos los árboles óptimos se habrán podido identificar.[13]​ Identificar un buen acotamiento en el recorrido es lo más difícil a la hora de aplicar el algoritmo. Una forma simple de definir el acotamiento es establecer un número máximo de cambios evolutivos permitidos por árbol, es decir aplicando un límite superior a la longitud del árbol óptimo. Un conjunto de criterios conocidos como reglas de Zharkikh[15]​ limita de forma severa el espacio de búsqueda mediante la definición de características compartidas por todos los árboles que podrían ser el más parsimonioso. Las dos reglas más básicas ordenan la eliminación de todas las secuencias redundantes excepto una (para casos en que observaciones múltiples han producido datos idénticos) y la eliminación de sitios en que dos o más estados no ocurren en al menos dos especies. Bajo condiciones ideales, estas reglas y los algoritmos asociados a ellas servirían para definir totalmente a un árbol. Este método también se puede utilizar en máxima verosimilitud y en algunos criterios de matriz de distancias.

Algoritmo Sankoff-Morel-Cedergren

El algoritmo Sankoff-Morel-Cedergren estuvo entre los primeros métodos para producir al mismo tiempo MSA y un árbol filogenético.[16]​ Emplea un cálculo de máxima parsimonia junto con una función de puntuación que penaliza los gaps y los desajuestes en el alineamiento, favoreciendo de este modo a aquellos árboles que contienen un número mínimo de estos eventos. Las secuencias introducidas en los nodos internos del árbol se puntúan y suman en todos los nodos de cada árbol posible. El árbol con el puntaje final más bajo entrega por lo tanto, el árbol óptimo y el alineamiento múltiple óptimo de acuerdo a esta función de puntuación. En vista de que el método demanda muchos recursos computacionales, existe un método aproximativo en el cual los supuestos iniciales para los alineamientos interiores son refinados un nodo por vez. Tanto el método completo como el aproximativo son calculados mediante programación dinámica.[4]

MALIGN y POY

Los métodos filogenéticos más recientes usan la heurística para identificar árboles con buen puntaje, aunque no necesariamente óptimos. El método MALIGN utiliza una técnica de máxima parsimonia para calcular un alineamiento múltiple mediante la maximización del puntaje de un cladograma, y el programa relacionado POY usa un método iterativo que aúna la optimización del árbol filogenético con mejoras en el alineamiento correspondiente.[17]​ Sin embargo, se ha criticado el sesgo que tienen estos métodos al construir hipótesis evolutivas, pues llevan a la construcción de árboles que contengan el mínimo de eventos.[18]

Máxima verosimilitud

La máxima verosimilitud es uno de los métodos basados en caracteres empleados para realizar inferencias filogenéticas, a través del cual se busca determinar la organización de las ramas de un árbol filogenético y su longitud, para evaluar las hipótesis evolutivas de un grupo de taxones, o OTUS como también suelen ser denominados los extremos de las ramas. Este método usa técnicas estadísticas estándar para inferir la distribución de probabilidad, al asignar probabilidades a posibles árboles. Actualmente la máxima verosimilitud se emplea para analizar secuencias alineadas de nucleótidos, aminoácidos y proteínas. Una de las características principales del método, es que requiere un modelo de sustitución de bases, o modelo evolutivo para establecer la probabilidad de cada tipo de mutación en las secuencias; en términos generales se puede decir que un árbol que requiere más mutaciones en sus nodos internos, para explicar los datos observados, es menos verosímil. Este hecho hasta cierto punto es similar a la máxima parsimonia, pero difiere en que la máxima verosimilitud tiene mayor flexibilidad estadística, permite diferentes tasas de evolución tanto en los linajes como en los sitios de las secuencias, así como también presenta bajas varianzas con respecto a otros métodos. Mientras al obtener una probabilidad alta, dará lugar al estado actual de las relaciones entre los OTUS y esta será una hipótesis más veraz que una con una baja probabilidad de alcanzar el estado de las relaciones de los datos observados.[19][20]

Algunas de las principales ventajas de este método es que todos los sitios de las secuencias son informativos y permite estudiar la información que mejor se ajuste a los datos observados. Además, debido a que requiere que la evolución de diferentes sitios y entre distintos linajes sea estadísticamente independiente, es apropiado para el análisis de secuencias relacionadas de forma distante; en adición resiste las tasas de heterogeneidad y sustitución, así como también tiene menos efectos por errores de muestreo. No obstante presenta ciertas limitaciones con respecto a los demás métodos; ya que dependiendo del número de secuencias que se deseen analizar, generalmente si son más de 10 taxones o OTUS, los requerimientos computacionales se incrementan y puede ser un proceso demasiado lento, puesto que estimar las numerosas hipótesis alternativas, resulta ser una tarea dispendiosa. Otra limitante que presenta es que no se pueden incluir datos morfológicos, los cuales en muchos casos son de utilidad en la reconstrucción filogenética de un grupo, y contribuiría a dar más soporte a la elección de la mejor hipótesis; así como también, tiende a presentar inconvenientes cuando taxones muy cercanos presentan ramas de gran longitud.[19][20]

Por otra parte, el método es robusto debido a que las topologías generadas necesitan de un modelo evolutivo particular, ya que el modelo se obtiene por la observación de las secuencias y la probabilidad de los datos bajo el modelo elegido; así en algunos casos los modelos suelen asumir hechos que pueden ser desatinados, puesto que muchos interpretan distribuciones idénticas en algunos lugares, incluso si no lo son, debido a que estos se basan en las características de los lugares donde se tiene la certeza del proceso de substitución, y asumen substituciones en otros lugares que tienen elementos en común, incluso si no son totalmente idénticos[21]​ Por ello los componentes que determinan la evolución de secuencias puede estar regido bajo pocos parámetros; sin embargo, si la elección del modelo es incorrecto, el árbol generado también lo será.

El cálculo de verosimilitud es una probabilidad condicional de obtener una hipótesis verdadera a partir de los datos observados, así para evaluar la verosimilitud de un árbol, se estima la probabilidad de que este pueda haber generado los datos obtenidos bajo el modelo elegido. Por otra parte, la verosimilitud del árbol es independiente de la localización de la raíz, así si los sitios de los nucleótidos evolucionan independientemente, se puede calcular la verosimilitud de cada sitio y combinar las verosimilitudes parciales en un valor total. Para calcular una posición se deben considerar todos los posibles escenarios, y cada uno tiene una probabilidad de generar un patrón de nucleótidos observado, así el nodo de la raíz puede presentarse en cualquier posición. Una vez calculada la verosimilitud de cada lugar, se une a la probabilidad que el árbol y el modelo genera sobre todos los sitios, y es computado como el producto de las verosimilitudes individuales. Debido a que la probabilidad de alguna observación es pequeña en número, esta se expresa siempre en términos de logaritmo, así la verosimilitud es calculada como la suma de los logaritmos.[22]

Para reducir el espacio de búsqueda mediante el cálculo eficiente de la verosimilitud de los subárboles, se emplea un algoritmo "de poda", una variante de la programación dinámica.[4]​ El método calcula la verosimilitud de cada sitio de forma "lineal", empezando en un nodo cuyos únicos descendientes son hojas, es decir, las ramas terminales de un árbol; y trabajando hacia atrás, hacia los nodos más cercanos a la raíz, en conjuntos anidados. Sin embargo, los árboles producidos por el método solo se enraízan si el modelo de sustitución es irreversible, lo cual no es generalmente verdadero para los sistemas biológicos. La búsqueda de los árboles con máxima verosimilitud contiene un componente de optimización de la longitud de las ramas que es difícil de mejorar mediante algoritmos; y a veces se usan herramientas genéricas de optimización global, como el método de Newton-Raphson. La búsqueda de topologías de árboles por máxima verosimilitud no se ha probado que sea NP-completa,[4]​ pero sigue siendo extremadamente difícil pues el buscarlas por ramificación y acotamiento todavía no es efectivo para árboles definidos de este modo. Las desventajas de este método es que puede ser un proceso demorado, en función de la profundidad de la búsqueda y de la capacidad de los equipos computacionales de los cuales se disponga.

Inferencia bayesiana

La inferencia bayesiana puede usarse para producir árboles filogenéticos de un modo muy cercano al de los métodos de máxima verosimilitud. Los métodos bayesianos una distribución de probabilidades previa de los posibles árboles, que puede ser simplemente la probabilidad de un árbol entre todos aquelpodrían generarse a partir de los datos, o puede ser una estimación más sofisticada, derivada del supuesto de que eventos de divergencia como la especiación ocurren como procesos estocásticos. La elección de la distribución previa es tema de debate entre los usuarios de este método.[4]

La utilización de inferencia bayesiana en filogenias generalmente recurre al algoritmo de muestreo de cadenas de Markov a través del método de Monte Carlo.

Véase también

Referencias

  1. Strait DS, Grine FE. (2004). Inferring hominoid and early hominid phylogeny using craniodental characters: the role of fossil taxa. J Hum Evol 47(6):399-452.
  2. Hodge T, Cope MJ. (2000). A myosin family tree. J Cell Sci 113: 3353-3354.
  3. Mount DM. (2004). Bioinformatics: Sequence and Genome Analysis 2nd ed. Cold Spring Harbor Laboratory Press: Cold Spring Harbor, NY.
  4. Felsenstein J. (2004). Inferring Phylogenies Sinauer Associates: Sunderland, MA.
  5. Swiderski DL, Zelditch ML, Fink WL. (1998). Why morphometrics is not special: coding quantitative data for phylogenetic analysis. 47(3):508-19.
  6. Gaubert P, Wozencraft WC, Cordeiro-Estrela P, Veron G. (2005). Mosaics of convergences and noise in morphological phylogenies: what's in a viverrid-like carnivoran? Syst Biol 54(6):865-94.
  7. Wiens JJ. (2001). Character analysis in morphological phylogenetics: problems and solutions. Syst Biol 50(5):689-99.
  8. Jenner RA. (2001). Bilaterian phylogeny and uncritical recycling of morphological data sets. Syst Biol 50(5): 730-743.
  9. Lemey P, Salemi M, Vandamme, A-M. (2009). The Phylogenetic Handbook: a Practical Approach to Phylogenetic Analysis and Hyphotesis Testing. Cambridge University Press.
  10. Fitch WM, Margoliash E. (1967). Construction of phylogenetic trees. Science 155: 279-84.
  11. Day, WHE. (1986). Computational complexity of inferring phylogenies from dissimilarity matrices. Bulletin of Mathematical Biology 49:461-7.
  12. Daniel H. Huson,Regula Rupp,Celine Scornavacca. (2011). Phylogenetic Nettworks. Concepts, Algorithms and Applications 2nd ed. Cambridge. University Press. New York
  13. Marco Salemi,Philippe Lemey,Anne-Mieke Vandamme. (2009). The Phylogenetic Handbook. A Practical Approach to Phylogenetic Analysis and Hypothesis Testing 2nd ed. Cambridge. University Press. New York
  14. Hendy MD, Penny D. (1982). Branch and bound algorithms to determine minimal evolutionary trees. Math Biosci 60: 133-42.
  15. Ratner VA, Zharkikh AA, Kolchanov N, Rodin S, Solovyov S, Antonov AS. (1995). Molecular Evolution Biomathematics Series Vol 24. Springer-Verlag: New York, NY.
  16. Sankoff D, Morel C, Cedergren RJ. (1973). Evolution of 5S RNA and the non-randomness of base replacement. Nature New Biology 245:232-4.
  17. Wheeler WC, Gladstein DG. (1994). MALIGN: a multiple nucleic acid sequence alignment program. J Heredity 85: 417-18.
  18. Simmons MP. (2004). Independence of alignment and tree search. Mol Phylogenet Evol 31(3):874-9.
  19. Hall BG. (2004). Phylogenetic tres made easy: A hoy to manual. Second edition. Sinauer Associates, Sunderland, MA. USA. 221 p.
  20. Schmidt HA. von Haeseler A. (2009). Phylogenetic inference using máximum likelihood methods. En: The phylogenetic handbook: a practical approach to phylogenetic anaysis and hypothesis testing, Lemey P, Slemi M, Vandamme AM (eds.). Published by Cambridge Univrsity Press.
  21. Swofford DL, Olson GJ, Waddell PJ, Hillis DM. (1996). Phylogenetic inference. Pp.407-514 In: Molecular systematics, DM. Hillis, Moritz C, Mable BK. (eds.) Sinauer Associates, Sunderland, MA.
  22. De Luna E, Guerrero JA, Chew-Taracena T. (2005). Sistemática biológica: avances y direcciones en la teoría y los métodos de la reconstrucción filogenética. Hidrobiológica, 15(3): 351-370.

Enlaces externos

  •   Datos: Q3772859
  •   Multimedia: Computational phylogenetics / Q3772859

filogenética, computacional, filogenética, computacional, aplicación, algoritmos, computacionales, métodos, programas, análisis, filogenético, objetivo, construir, árbol, filogenético, representa, hipótesis, evolutiva, conjunto, genes, especies, otros, taxones. La filogenetica computacional es la aplicacion de algoritmos computacionales en metodos y programas de analisis filogenetico El objetivo es construir un arbol filogenetico que representa una hipotesis evolutiva de un conjunto de genes especies u otros taxones Por ejemplo estas tecnicas han sido usadas para explorar el arbol de la familia de los hominidos 1 y las relaciones entre los genes especificos compartidos por muchos tipos de organismos 2 Filogenetica computacional La filogenetica tradicional usaba datos morfologicos obtenidos mediante la medicion y cuantificacion de las propiedades fenotipicas de los organismos representativos mientras que los mas recientes campos en filogenetica molecular usan secuencias de nucleotidos que codifican genes o secuencias de aminoacidos que forman proteinas como bases de la clasificacion Muchas formas de filogenetica molecular estan muy relacionadas y hacen un uso extensivo del alineamiento de secuencias en la construccion y redefinicion de los arboles filogeneticos usados para la clasificacion de las relaciones evolutivas entre los genes homologos existentes en los genomas de especies divergentes Los arboles filogeneticos construidos mediante metodos computacionales rara vez reflejan fielmente los arboles filogeneticos que representan las relaciones historicas entre las especies analizadas El arbol de especies historicas puede diferir del arbol historico de genes homologos individuales compartidos por dichas especies Producir un arbol filogenetico requiere una cuantificacion de las homologias entre las caracteristicas compartidas por los taxones bajo estudio En estudios morfologicos esto requiere hacer supuestos explicitos sobre las caracteristicas fisicas a medir y como usarlos para codificar los distintos estados correspondientes a los taxones de entrada En los estudios moleculares uno de los problemas basicos es producir un alineamiento multiple entre las secuencias de interes Por fuerza los metodos de alineamiento progresivo producen un arbol filogenetico porque incorporan las secuencias nuevas en el alineamiento calculado por orden de distancia genetica Aunque los arboles filogeneticos puedan ser construidos a partir de un alineamiento multiple metodos de inferencia filogenetica como la maxima parsimonia y maxima verosimilitud no requieren la produccion de un alineamiento multiple inicial Indice 1 Tipos de arboles filogeneticos 2 Codificando caracteres y definiendo homologia 2 1 Analisis morfologico 2 2 Analisis molecular 3 Metodos de matriz de distancias 3 1 Calculo de las distancias geneticas 3 2 Modelos de sustitucion de nucleotidos 3 3 Tipos de metodos basados en distancias 3 3 1 UPGMA Unweighted Pair Group Method with Arithmetic 3 3 2 Neighbor joining 3 3 3 Fitch Margoliash 3 4 Uso de grupos externos 4 Maxima parsimonia 4 1 Analisis 4 1 1 Problema de la parsimonia 4 1 1 1 Calculo de la longitud de un arbol 4 1 1 2 Ramificacion y acotacion metodo branch and bound 4 2 Algoritmo Sankoff Morel Cedergren 4 3 MALIGN y POY 5 Maxima verosimilitud 6 Inferencia bayesiana 7 Vease tambien 8 Referencias 9 Enlaces externosTipos de arboles filogeneticos EditarLos arboles filogeneticos generados mediante filogenia computacional pueden ser enraizados o sin raiz dependiendo de los datos de entrada y el algoritmo usado Un arbol enraizado es un grafo directo que implicitamente identifica un antecesor comun mas reciente usualmente una secuencia imputada que no esta representada en la entrada Las medidas de distancia genetica pueden ser usadas para trazar un arbol con las secuencias de entrada como nodos hoja y sus ramas con distancia a la raiz proporcionales a su distancia genetica desde el hipotetico antecesor comun La identificacion de la raiz normalmente requiere la inclusion en los datos de entrada de al menos un grupo externo en ingles outgroup que este relacionado solamente de forma distante con las secuencias en estudio Por el contrario en los arboles sin raiz se trazan las distancias y relaciones entre las secuencias de entrada sin hacer suposiciones en cuanto a sus antecesores Un arbol sin raiz siempre se puede producir a partir de un arbol enraizado pero usualmente no es posible hacerlo a la inversa a menos que se provea informacion adicional sobre las tasas de divergencia como al asumir la hipotesis de un reloj molecular 3 El conjunto de todos los arboles filogeneticos posibles para un grupo dado de secuencias de entrada puede ser conceptualizado como un espacio de arboles discretamente definido y multidimensional y mediante algoritmos de optimizacion matematica trazar el arbol adecuado Aunque contabilizar el numero total de arboles para un numero no trivial de secuencias de entrada puede ser complicado debido a los distintos tipos de topologias del arbol tambien es cierto que el numero de arboles enraizados es mayor que el numero de arboles posibles sin raiz para una misma secuencia de entradas y de parametros 4 Codificando caracteres y definiendo homologia EditarAnalisis morfologico Editar El problema basico en la filogenia basada en morfologia es la construccion de una matriz matematica que contenga valores representativos de cada una de las caracteristicas fenotipicas usadas como clasificador para cada uno de los taxones en estudio Los tipos de datos fenotipicos que se usen para construirla dependeran de los taxones involucrados para estudios dentro de una misma especie se pueden incluir medidas del tamano corporal promedio longitudes o tamanos de ciertos huesos u otros rasgos fisicos o incluso conductuales Como no toda caracteristica fenotipica puede ser medida y codificada para un analisis de esta naturaleza la seleccion de los rasgos que se van a medir es uno de los grandes obstaculos inherentes a este metodo La decision de que rasgos se van a usar en la matriz constituye necesariamente acerca de las caracteristicas de un taxon entregan informacion acerca de su evolucion 5 Los estudios morfologicos pueden ser distorsionados por casos de convergencia evolutiva 6 Uno de los principales desafios de construir clases utiles es la alta probabilidad de que la distribucion de la variacion fenotipica se traslape entre taxones La inclusion de grupos extintos a menudo es dificil a causa de que no existen registros fosiles o son incompletos sin embargo se ha demostrado que tiene un efecto significativo en los arboles producidos por ejemplo en cierto estudio morfologico solo la inclusion de simios extintos produjo un arbol consistente con los producidos a partir de datos moleculares 1 Algunas clasificaciones fenotipicas particularmente aquellas usadas cuando se analizan grupos muy diversos corresponden a variables discretas y no ambiguas Por ejemplo el clasificar organismos de acuerdo a la presencia o ausencia de cola es sencillo en la mayoria de los casos asi como lo es hacerlo segun el numero de ojos o vertebras Sin embargo la representacion mas apropiada de variables fenotipicas continuas es un problema controvertido sin una unica solucion Un metodo comun es simplemente agrupar las medidas en dos o mas clases tratando de este modo la variacion continua como si fuera discreta p ej los humeros cuya longitud supera cierta medida son considerados dentro de un estado y los que no se agrupan en otro estado Este metodo produce un conjunto de datos facil de procesar pero se le ha criticado lo poco que ahonda en los fundamentos de la determinacion de clases y que desperdicia informacion si se lo compara con metodos que usan medidas de distribucion continua 7 En vista de que los datos morfologicos son dificiles de reunir ya sea de fuentes escritas o de observaciones en terreno no es raro el uso de matrices de datos compiladas previamente aunque esto puede ocasionar que los errores del original se propaguen por los sucesivos analisis derivados 8 Analisis molecular Editar El problema de la codificacion de caracteres es muy distinto en los analisis moleculares pues los caracteres en secuencias biologicas son inmediatos de naturaleza discreta diferentes nucleotidos en secuencias de ADN o ARN y diferentes aminoacidos en secuencias de proteina Sin embargo definir la homologia puede ser un reto debido a las dificultades inherentes al alineamiento multiple de secuencias Para un determinado alineamiento con gaps se pueden construir muchos arboles filogeneticos enraizados que difieren en cuales cambios son mutaciones de caracteres ancestrales y cuales corresponden a inserciones o deleciones de bases Por ejemplo con solo un par de secuencias alineadas que contengan un gap es imposible determinar si una de ellas contiene una insercion o si la otra sufrio una delecion El problema se magnifica en los alineamientos multiples con gaps no alineados y no traslapados En la practica al construir arboles filogeneticos deben descartarse regiones importantes de los alineamientos para evitar que se introduzcan distorsiones en el calculo del arbol Metodos de matriz de distancias Editar Matriz de distancias a partir de un alineamiento multiple Los metodos basados en distancias permiten construir arboles filogeneticos basados en la distancia genetica entre parejas de secuencias de ADN o proteinas por lo que requieren un alineamiento multiple como informacion de entrada Difieren de los metodos basados en caracteres Maxima parsimonia Maxima verosimilitud Inferencia bayesiana en que los datos utilizados se presentan en una matriz de distancias obtenida a partir del alineamiento de las secuencias en lugar de emplear el propio alineamiento como ocurre en el resto de metodos De esta manera se comparan las secuencias completas lo que tiene un mayor significado evolutivo y evoca una imagen intuitiva del grado de parentesco entre ambas La principal ventaja de los metodos basados en distancias es su velocidad lo que resulta de particular utilidad cuando se tiene un gran numero de secuencias Los problemas mas importantes son la perdida de informacion del alineamiento multiple y la generacion de un arbol unico por lo que se desechan arboles que podrian ser igualmente validos y consistentes con los datos En muchas ocasiones se usan los metodos basados en distancias para generar los arboles de partida necesarios para metodos mas complejos como el de Maxima Verosimilitud Tras generar el arbol puede comprobarse su fiabilidad mediante un analisis de bootstrap Calculo de las distancias geneticas Editar La distancia entre dos secuencias p distance se obtiene como la fraccion de posiciones en las que existe una diferencia de nucleotidos o aminoacidos 9 Los gaps pueden ignorarse o contarse como diferencias Sin embargo es posible que en una misma posicion se hayan producido varias sustituciones a lo largo del tiempo evolutivo por lo que la distancia observada puede no corresponderse con la distancia real Tambien existe la posibilidad de que en una posicion ocurra la reversion al estado ancestral o que se de la misma mutacion en las dos secuencias comparadas en ambos casos se supondria una ausencia de cambio Cuanto menos relacionadas filogeneticamente esten las secuencias mas probabilidad existira de que hayan ocurrido eventos de sustitucion multiple ya que han contado con mas tiempo para acumular cambios Otro problema que entorpece la estima de las distancias geneticas es la diferente velocidad de evolucion que se observa en los distintos linajes Modelos de sustitucion de nucleotidos Editar Diferencia entre la distancia esperada y la observada que debe corregirse mediante un modelo de sustitucion de nucleotidos Para corregir la distancia entre secuencias y estimar el numero de sustituciones que realmente han ocurrido se emplean modelos evolutivos que pretenden describir mediante una serie de parametros la forma en la que se producen las sustituciones en una determinada secuencia El modelo escogido debe ser lo mas ajustado posible al verdadero comportamiento de la evolucion de las secuencias ya que de ello depende que se realice un buen calculo de la distancia genetica entre ellas que a su vez es la base para construir un buen arbol filogenetico Para elegir el modelo evolutivo correcto se puede recurrir a programas como las diferentes versiones de ModelTest que implementa distintas estrategias de seleccion AIC hLRT dLRT BIC DT Los modelos evolutivos estan definidos por la frecuencia de cada uno de los nucleotidos y las tasas de sustitucion de cada tipo transiciones y transversiones Existen muchos modelos evolutivos diferentes desde el mas simple con la misma frecuencia para todos los nucleotidos y las mismas tasas de sustitucion en todos los casos Jukes Cantor 1969 hasta otros mas complejos como el General Time Reversible GTR que considera distintas frecuencias para cada nucleotido y distinta tasa para cada tipo de sustitucion Tipos de metodos basados en distancias Editar Los metodos de reconstruccion filogenetica pueden clasificarse en dos tipos segun su forma de proceder Los primeros son los llamados algoritmicos que agrupan las secuencias segun distintos criterios creando un nuevo nodo en cada paso y finalmente obtienen un arbol unico que se considera el mas ajustado a los datos Los segundos son los basados en un criterio de optimizacion en la busqueda de arboles y funcionan generando todos los arboles posibles y eligiendo luego los mas adecuados segun los datos y otros parametros previamente establecidos Existen metodos basados en distancias tanto del primer tipo UPGMA Neighbor joining como del segundo Fitch Margoliash UPGMA Unweighted Pair Group Method with Arithmetic Editar Es un metodo que procede por agrupacion de las secuencias que presentan la menor distancia genetica La agrupacion de las dos secuencias mas relacionadas produce el primer nodo que se incorpora a una nueva matriz en la que se calcula su distancia a cada una de las secuencias restantes como la media aritmetica de las distancias de las dos secuencias componentes del nodo El proceso se repite hasta que todas las secuencias quedan agrupadas y unidas por nodos internos 9 Con este metodo se obtiene un arbol enraizado y ultrametrico en el que todas las secuencias presentan la misma distancia al punto de origen ya que se asume la existencia de un reloj molecular evolutivo La hipotesis del reloj molecular postula la velocidad constante del cambio evolutivo reflejada en secuencias genomicas con una tasa de cambio constante en las que la divergencia a partir de una secuencia ancestral deberia ser la misma para todas las secuencias derivadas Sin embargo esta demostrado que este reloj molecular no existe en la mayoria de los casos ya que el ritmo de cambio es distinto entre especies y entre las diferentes regiones del genoma Neighbor joining Editar Es un metodo basado en el criterio de minima evolucion BME balanced minimum evolution en el que el mejor arbol es aquel que minimiza la longitud de las ramas internas Para ello a partir de un arbol en estrella se determina la pareja de secuencias mas cercanas y se unen mediante un nodo interno Este proceso se repite con el resto de secuencias hasta que quedan todas unidas por nodos internos que minimizan la longitud de cada una de las ramas internas aunque no se asegura una longitud minima global 9 Con este metodo se obtiene un arbol no enraizado y aditivo en el que la longitud de sus ramas indica cambio evolutivo Las ramas presentan diferentes distancias al punto de origen porque no asume la existencia de un reloj molecular y por lo tanto la tasa de cambio varia entre distintos linajes y secuencias Con estas premisas el metodo de Neighbor joining representa mejor la situacion real que el UPGMA por lo que en la actualidad se utiliza mas Fitch Margoliash Editar El metodo de Fitch Margoliash emplea cuadrados minimos ponderados para el agrupamiento basado en distancia genetica 10 A las secuencias relacionadas de manera mas estrecha se les asigna una mayor valoracion en el proceso de construccion del arbol para contrapesar el aumento de la inexactitud al medir distancias entre secuencias relacionadas de forma distante El criterio de los cuadrados minimos aplicado a estas distancias es mas exacto pero menos eficiente que los metodos de neighbor joining Encontrar el arbol optimo mediante cuadrados minimos con cualquier factor de correccion es un problema NP completo 11 asi que a traves del espacio de arboles se emplean metodos de busqueda heuristica como aquellos usados en los analisis de maxima parsimonia Uso de grupos externos Editar Se puede emplear informacion independiente acerca de las relaciones filogeneticas entre secuencias o grupos para reducir el espacio de busqueda y enraizar los arboles En el uso estandar de metodos de matrices de distancia se incluye al menos un grupo externo en ingles outgroup es decir una secuencia de la que se sabe que solamente esta relacionada de forma distante con las secuencias de interes para la investigacion 3 Esta secuencia se puede entender como grupo de control Si el grupo externo se elige bien deberia estar separado de los demas por una mayor distancia genetica y por lo tanto en el arbol sera una rama de mucha mayor longitud que el resto y con un nodo mas cercano a la raiz Para escoger un grupo apropiado hay que seleccionar una secuencia que este relacionada hasta cierto punto con las secuencias de interes si esta demasiado proxima no cumple bien el proposito de un grupo externo y si esta demasiado alejada distorsiona el analisis 3 Un punto que se debe tener en cuenta es que el tomar secuencias procedentes de una especie relacionada de forma distante no asegura el exito pues podria suceder que la porcion del genoma que se estudia sea una que presenta escasa variacion entre linajes La transferencia horizontal de genes especialmente ente bacterias que de otro modo no tendrian semejanzas geneticas importantes tambien puede afectar el uso de grupos externos Maxima parsimonia EditarEl metodo de maxima parsimonia MP es un metodo de gran utilidad en diversos campos de la ciencia y uno de los metodos mas utilizados en la reconstruccion de arboles filogeneticos basado en el principio de parsimonia El metodo de maxima parsimonia en la reconstruccion filogenetica tiene como objetivo la busqueda e identificacion de un posible arbol filogenetico que requiera el menor numero de eventos evolutivos minimo de cambios evolutivos o pasos de un estado a otro para dar explicacion a los procesos o fenomenos observados Esta idea fue extraida de la argumentacion filosofica de la navaja de Ockham de Guillermo de Ockham en la que defiende que si se parte de dos o mas hipotesis que dan lugar a explicaciones igual de validas para un acontecimiento dado la hipotesis mas simple tiene mayor probabilidad de ser la correcta para explicar el fenomeno Analisis Editar Desde la decada de los 70 el metodo de maxima parsimonia ha sido uno de los mas utilizados para la reconstruccion de arboles filogeneticos Aunque en la actualidad se utilizan otros metodos con mayor frecuencia tales como el metodo de maxima verosimilitud ML inferencia bayesiana IB metodo de matriz de distancias el metodo de maxima parsimonia sigue siendo de gran utilidad y de suma importancia en el campo de estudio de filogenias moleculares a pesar de presentar ciertas limitaciones Los datos que se utilizan para la realizacion de filogenias moleculares se recogen en una matriz que puede estar formada por secuencias de ADN previamente alineadas siendo los estados los cuatro diferentes nucleotidos A T C G o en una matriz compuesta por secuencias proteicas que recoge los diferentes 20 aminoacidos es en la matriz donde se asigna uno o varios caracteres a cada taxon 12 Arbol filogenetico enraizado Arbol filogenetico sin raiz Una vez obtenidas las diferentes topologias se le asigna a cada una de ellas un coste y es el arbol con la topologia de menor coste el que se elige como arbol mas parsimonioso Esta forma de busqueda del arbol mas parsimonioso solamente es posible cuando se obtienen un numero relativamente pequeno de topologias 13 El numero de topologias posibles depende del numero de taxones nodos terminales y si el arbol esta enraizado o no N º de topologias posibles para arboles no enraizados N u 2 n 5 2 n 3 n 3 displaystyle N u 2n 5 2 n 3 n 3 N º de topologias posibles para arboles enraizados N r 2 n 3 2 n 2 n 2 displaystyle N r 2n 3 2 n 2 n 2 Aplicando las formulas anteriores se deduce que el numero de topologias posibles crece exponencialmente conforme aumenta el numero de taxones Cuando el numero de topologias posibles es mayor o igual a 12 se tiene que emplear metodos de busqueda heuristicas para reducir la complejidad de busqueda resulta imposible calcular todos los arboles posibles ya que identificar el arbol mas parsimonioso es un problema debido a NP hard 4 Tanto el metodo de maxima parsimonia como el metodo de maxima verosimilitud y el metodo de matriz de distancias son metodos que se basan en criterios de optimizacion es decir se centran en la busqueda de arboles que presenten una topologia optima Teniendo en cuenta que el numero de topologias crece exponencialmente conforme aumenta el numero de taxones este tipo de metodos basados en criterios de optimizacion son mucho mas lentos que los metodos basados en algoritmos como el metodo del vecino mas cercano en ingles neighbor joining NJ o UPGMA Aunque el proceso de estos metodos sea mas lento hay que destacar que son mas precisos matematicamente a diferencia de los metodos algoritmicos ya que se puede decir al menos que la topologia del arbol resultante es la mejor que se puede encontrar de acuerdo con el criterio establecido 13 y por tanto se puede explicar y aclarar por que se eligio esa topologia Los arboles filogeneticos reconstruidos por medio del metodo de maxima parsimonia proporcionan mas informacion a partir de los datos obtenidos y resulta facil su interpretacion que otro metodos Ademas este metodo no requiere de modelos evolutivos previos para su realizacion Aunque hay que tener en cuenta que los resultados obtenidos por este metodo pueden ser erroneos si se trata de homoplasias Problema de la parsimonia Editar Encontrar un arbol filogenetico optimo a partir de un conjunto de secuencias alineadas basandose en el minimo numero de eventos evolutivos a menudo puede resultar ser tarea dificil presentando los siguientes problemas 1 Determinacion de la cantidad de cambios que se dan en el caracter es y la longitud del arbol 2 La busqueda del arbol con minima longitud entre una amplia gama de topologias posibles La resolucion del ultimo problema es lento y costoso ya que la cantidad de posibles topologias aumenta de forma exponencial a medida que aumentan los taxones Calculo de la longitud de un arbol Editar Para el calculo de la longitud de una topologia de arbol t binario sin raiz compuesto por n nodos terminales n 2 nodos internos y 2n 3 ramas encargadas de unir los pares de nodos que se ha elegido de forma aleatoria de todos los arboles posibles se obtiene por medio de L t j 1 N l j displaystyle L tau sum j 1 N l j siendo N el numero de caracteres empleados en el alineamiento y lj longitud de cada sitio de j valor obtenido por medio de algoritmos cantidad de cambios de los caracteres que se han tomado por la reconstruccion de parsimonia que asigna un estado de caracter Xij donde i representa cada nodo y j representa cada sitio La asignacion del estado del caracter para los nodos terminales se fija por medio de la entrada de datos Por lo tanto para el calculo de la longitud de un arbol basado en criterios de parsimonia se aplica la siguiente formula l j k 1 2 N 3 C a k b k displaystyle l j sum k 1 2N 3 C a k b k los estados asignados a los nodos terminales de la rama k se representa por a k y b k siendo cxy el costo correspondiente al cambio del estado x al estado y 13 Los costes de cambio entre un estado y otro se pueden representar por medio de una matriz de coste o una matriz de paso La matriz de coste suele ser en general simetrica cxy cxy obteniendo la misma longitud en los arboles independientemente de la posicion de la raiz En el caso de que la matriz de coste no sea simetrica cxy cxy la longitud de los arboles es diferente y la busqueda de arboles se tiene que realizar a partir de arboles enraizados Por medio de esquemas de costes desiguales el caracter llega a ser informativo ya que se puede discriminar que arboles tienen mejor longitud que otros Por lo que el uso de esquemas de costes desiguales puede proporcionar mas informacion para la reconstruccion filogenetica que esquemas de costes iguales Una vez calculadas las longitudes de los arboles se elige aquel arbol que minimiza la longitud total Pero el problema radica cuando el numero de topologias posibles es muy elevado por lo que se necesita otra forma de determinar la longitud minima de los arboles sin que requiera la evaluacion de todas las reconstrucciones 13 Este problema se ha intentado solventar a partir de dinamicas de programacion algoritmica A partir de algoritmos se trata de resolver un conjunto de subproblemas y evaluar una serie de soluciones de forma que garantice la optimizacion de todo el problema en conjunto Se pueden emplear diferentes tipos de algoritmos dependiendo del tipo de topologia del arbol y de la forma de ajustar los cambios de los diferentes estados Entre los algoritmos utilizados destacan Algoritmo de Fitch para arboles bifurcados y los cambios entre diferentes estados se ajustan por medio de la misma ponderacion Algoritmo de Fitch Hartigan para arboles multifurcados Algoritmo de Sankoff la ponderacion se realiza de forma diferente entre los cambios de los distintos estados Ramificacion y acotacion metodo branch and bound Editar El algoritmo de ramificacion y acotacion o poda en ingles branch and bound es un metodo que se usa para aumentar la eficiencia de busquedas de soluciones cuasi optimas en problemas NP hard aplicandose por primera vez en reconstrucciones filogeneticas a principios de la decada de 1980 14 Este metodo se basa en la evaluacion de forma implicita de todos los arboles posibles a partir de un camino trazado A partir del recorrido establecido se emprende la busqueda del arbol deteniendose en ciertas secciones del recorrido cuando se determina que ese camino no lleva a arboles optimos es decir subdivide el espacio del problema en regiones mas pequenas 13 Como su nombre dice requiere de una orden de entrada de ramificacion y una de acotamiento una regla que excluya ciertas regiones del espacio de busqueda asumiendo por lo tanto que la solucion optima no puede encontrarse en esa region al acotar el camino de esta forma grandes tramos de busqueda del arbol pueden ser evitados procediendo el algoritmo a atravesar el resto del trayecto cortando otros caminos cuando sea posible y almacenando arboles optimos cuando los encuentra ahorrandose por tanto tiempo en la busqueda El algoritmo termina la busqueda cuando la raiz ha sido visitada por ultima vez siendo en ese momento cuando todos los arboles optimos se habran podido identificar 13 Identificar un buen acotamiento en el recorrido es lo mas dificil a la hora de aplicar el algoritmo Una forma simple de definir el acotamiento es establecer un numero maximo de cambios evolutivos permitidos por arbol es decir aplicando un limite superior a la longitud del arbol optimo Un conjunto de criterios conocidos como reglas de Zharkikh 15 limita de forma severa el espacio de busqueda mediante la definicion de caracteristicas compartidas por todos los arboles que podrian ser el mas parsimonioso Las dos reglas mas basicas ordenan la eliminacion de todas las secuencias redundantes excepto una para casos en que observaciones multiples han producido datos identicos y la eliminacion de sitios en que dos o mas estados no ocurren en al menos dos especies Bajo condiciones ideales estas reglas y los algoritmos asociados a ellas servirian para definir totalmente a un arbol Este metodo tambien se puede utilizar en maxima verosimilitud y en algunos criterios de matriz de distancias Algoritmo Sankoff Morel Cedergren Editar El algoritmo Sankoff Morel Cedergren estuvo entre los primeros metodos para producir al mismo tiempo MSA y un arbol filogenetico 16 Emplea un calculo de maxima parsimonia junto con una funcion de puntuacion que penaliza los gaps y los desajuestes en el alineamiento favoreciendo de este modo a aquellos arboles que contienen un numero minimo de estos eventos Las secuencias introducidas en los nodos internos del arbol se puntuan y suman en todos los nodos de cada arbol posible El arbol con el puntaje final mas bajo entrega por lo tanto el arbol optimo y el alineamiento multiple optimo de acuerdo a esta funcion de puntuacion En vista de que el metodo demanda muchos recursos computacionales existe un metodo aproximativo en el cual los supuestos iniciales para los alineamientos interiores son refinados un nodo por vez Tanto el metodo completo como el aproximativo son calculados mediante programacion dinamica 4 MALIGN y POY Editar Los metodos filogeneticos mas recientes usan la heuristica para identificar arboles con buen puntaje aunque no necesariamente optimos El metodo MALIGN utiliza una tecnica de maxima parsimonia para calcular un alineamiento multiple mediante la maximizacion del puntaje de un cladograma y el programa relacionado POY usa un metodo iterativo que auna la optimizacion del arbol filogenetico con mejoras en el alineamiento correspondiente 17 Sin embargo se ha criticado el sesgo que tienen estos metodos al construir hipotesis evolutivas pues llevan a la construccion de arboles que contengan el minimo de eventos 18 Maxima verosimilitud EditarLa maxima verosimilitud es uno de los metodos basados en caracteres empleados para realizar inferencias filogeneticas a traves del cual se busca determinar la organizacion de las ramas de un arbol filogenetico y su longitud para evaluar las hipotesis evolutivas de un grupo de taxones o OTUS como tambien suelen ser denominados los extremos de las ramas Este metodo usa tecnicas estadisticas estandar para inferir la distribucion de probabilidad al asignar probabilidades a posibles arboles Actualmente la maxima verosimilitud se emplea para analizar secuencias alineadas de nucleotidos aminoacidos y proteinas Una de las caracteristicas principales del metodo es que requiere un modelo de sustitucion de bases o modelo evolutivo para establecer la probabilidad de cada tipo de mutacion en las secuencias en terminos generales se puede decir que un arbol que requiere mas mutaciones en sus nodos internos para explicar los datos observados es menos verosimil Este hecho hasta cierto punto es similar a la maxima parsimonia pero difiere en que la maxima verosimilitud tiene mayor flexibilidad estadistica permite diferentes tasas de evolucion tanto en los linajes como en los sitios de las secuencias asi como tambien presenta bajas varianzas con respecto a otros metodos Mientras al obtener una probabilidad alta dara lugar al estado actual de las relaciones entre los OTUS y esta sera una hipotesis mas veraz que una con una baja probabilidad de alcanzar el estado de las relaciones de los datos observados 19 20 Algunas de las principales ventajas de este metodo es que todos los sitios de las secuencias son informativos y permite estudiar la informacion que mejor se ajuste a los datos observados Ademas debido a que requiere que la evolucion de diferentes sitios y entre distintos linajes sea estadisticamente independiente es apropiado para el analisis de secuencias relacionadas de forma distante en adicion resiste las tasas de heterogeneidad y sustitucion asi como tambien tiene menos efectos por errores de muestreo No obstante presenta ciertas limitaciones con respecto a los demas metodos ya que dependiendo del numero de secuencias que se deseen analizar generalmente si son mas de 10 taxones o OTUS los requerimientos computacionales se incrementan y puede ser un proceso demasiado lento puesto que estimar las numerosas hipotesis alternativas resulta ser una tarea dispendiosa Otra limitante que presenta es que no se pueden incluir datos morfologicos los cuales en muchos casos son de utilidad en la reconstruccion filogenetica de un grupo y contribuiria a dar mas soporte a la eleccion de la mejor hipotesis asi como tambien tiende a presentar inconvenientes cuando taxones muy cercanos presentan ramas de gran longitud 19 20 Por otra parte el metodo es robusto debido a que las topologias generadas necesitan de un modelo evolutivo particular ya que el modelo se obtiene por la observacion de las secuencias y la probabilidad de los datos bajo el modelo elegido asi en algunos casos los modelos suelen asumir hechos que pueden ser desatinados puesto que muchos interpretan distribuciones identicas en algunos lugares incluso si no lo son debido a que estos se basan en las caracteristicas de los lugares donde se tiene la certeza del proceso de substitucion y asumen substituciones en otros lugares que tienen elementos en comun incluso si no son totalmente identicos 21 Por ello los componentes que determinan la evolucion de secuencias puede estar regido bajo pocos parametros sin embargo si la eleccion del modelo es incorrecto el arbol generado tambien lo sera El calculo de verosimilitud es una probabilidad condicional de obtener una hipotesis verdadera a partir de los datos observados asi para evaluar la verosimilitud de un arbol se estima la probabilidad de que este pueda haber generado los datos obtenidos bajo el modelo elegido Por otra parte la verosimilitud del arbol es independiente de la localizacion de la raiz asi si los sitios de los nucleotidos evolucionan independientemente se puede calcular la verosimilitud de cada sitio y combinar las verosimilitudes parciales en un valor total Para calcular una posicion se deben considerar todos los posibles escenarios y cada uno tiene una probabilidad de generar un patron de nucleotidos observado asi el nodo de la raiz puede presentarse en cualquier posicion Una vez calculada la verosimilitud de cada lugar se une a la probabilidad que el arbol y el modelo genera sobre todos los sitios y es computado como el producto de las verosimilitudes individuales Debido a que la probabilidad de alguna observacion es pequena en numero esta se expresa siempre en terminos de logaritmo asi la verosimilitud es calculada como la suma de los logaritmos 22 Para reducir el espacio de busqueda mediante el calculo eficiente de la verosimilitud de los subarboles se emplea un algoritmo de poda una variante de la programacion dinamica 4 El metodo calcula la verosimilitud de cada sitio de forma lineal empezando en un nodo cuyos unicos descendientes son hojas es decir las ramas terminales de un arbol y trabajando hacia atras hacia los nodos mas cercanos a la raiz en conjuntos anidados Sin embargo los arboles producidos por el metodo solo se enraizan si el modelo de sustitucion es irreversible lo cual no es generalmente verdadero para los sistemas biologicos La busqueda de los arboles con maxima verosimilitud contiene un componente de optimizacion de la longitud de las ramas que es dificil de mejorar mediante algoritmos y a veces se usan herramientas genericas de optimizacion global como el metodo de Newton Raphson La busqueda de topologias de arboles por maxima verosimilitud no se ha probado que sea NP completa 4 pero sigue siendo extremadamente dificil pues el buscarlas por ramificacion y acotamiento todavia no es efectivo para arboles definidos de este modo Las desventajas de este metodo es que puede ser un proceso demorado en funcion de la profundidad de la busqueda y de la capacidad de los equipos computacionales de los cuales se disponga Inferencia bayesiana EditarLa inferencia bayesiana puede usarse para producir arboles filogeneticos de un modo muy cercano al de los metodos de maxima verosimilitud Los metodos bayesianos una distribucion de probabilidades previa de los posibles arboles que puede ser simplemente la probabilidad de un arbol entre todos aquelpodrian generarse a partir de los datos o puede ser una estimacion mas sofisticada derivada del supuesto de que eventos de divergencia como la especiacion ocurren como procesos estocasticos La eleccion de la distribucion previa es tema de debate entre los usuarios de este metodo 4 La utilizacion de inferencia bayesiana en filogenias generalmente recurre al algoritmo de muestreo de cadenas de Markov a traves del metodo de Monte Carlo Vease tambien EditarInferencia Bayesiana en Filogenia Soportes de arboles filogeneticos Arbol filogenetico Filogenia Sistematica Cladistica List of phylogenetics software PHYLIP Phylogenetic comparative methods Microbial phylogeneticsReferencias Editar a b Strait DS Grine FE 2004 Inferring hominoid and early hominid phylogeny using craniodental characters the role of fossil taxa J Hum Evol 47 6 399 452 Hodge T Cope MJ 2000 A myosin family tree J Cell Sci 113 3353 3354 a b c Mount DM 2004 Bioinformatics Sequence and Genome Analysis 2nd ed Cold Spring Harbor Laboratory Press Cold Spring Harbor NY a b c d e f Felsenstein J 2004 Inferring Phylogenies Sinauer Associates Sunderland MA Swiderski DL Zelditch ML Fink WL 1998 Why morphometrics is not special coding quantitative data for phylogenetic analysis 47 3 508 19 Gaubert P Wozencraft WC Cordeiro Estrela P Veron G 2005 Mosaics of convergences and noise in morphological phylogenies what s in a viverrid like carnivoran Syst Biol 54 6 865 94 Wiens JJ 2001 Character analysis in morphological phylogenetics problems and solutions Syst Biol 50 5 689 99 Jenner RA 2001 Bilaterian phylogeny and uncritical recycling of morphological data sets Syst Biol 50 5 730 743 a b c Lemey P Salemi M Vandamme A M 2009 The Phylogenetic Handbook a Practical Approach to Phylogenetic Analysis and Hyphotesis Testing Cambridge University Press Fitch WM Margoliash E 1967 Construction of phylogenetic trees Science 155 279 84 Day WHE 1986 Computational complexity of inferring phylogenies from dissimilarity matrices Bulletin of Mathematical Biology 49 461 7 Daniel H Huson Regula Rupp Celine Scornavacca 2011 Phylogenetic Nettworks Concepts Algorithms and Applications 2nd ed Cambridge University Press New York a b c d e f Marco Salemi Philippe Lemey Anne Mieke Vandamme 2009 The Phylogenetic Handbook A Practical Approach to Phylogenetic Analysis and Hypothesis Testing 2nd ed Cambridge University Press New York Hendy MD Penny D 1982 Branch and bound algorithms to determine minimal evolutionary trees Math Biosci 60 133 42 Ratner VA Zharkikh AA Kolchanov N Rodin S Solovyov S Antonov AS 1995 Molecular Evolution Biomathematics Series Vol 24 Springer Verlag New York NY Sankoff D Morel C Cedergren RJ 1973 Evolution of 5S RNA and the non randomness of base replacement Nature New Biology 245 232 4 Wheeler WC Gladstein DG 1994 MALIGN a multiple nucleic acid sequence alignment program J Heredity 85 417 18 Simmons MP 2004 Independence of alignment and tree search Mol Phylogenet Evol 31 3 874 9 a b Hall BG 2004 Phylogenetic tres made easy A hoy to manual Second edition Sinauer Associates Sunderland MA USA 221 p a b Schmidt HA von Haeseler A 2009 Phylogenetic inference using maximum likelihood methods En The phylogenetic handbook a practical approach to phylogenetic anaysis and hypothesis testing Lemey P Slemi M Vandamme AM eds Published by Cambridge Univrsity Press Swofford DL Olson GJ Waddell PJ Hillis DM 1996 Phylogenetic inference Pp 407 514 In Molecular systematics DM Hillis Moritz C Mable BK eds Sinauer Associates Sunderland MA De Luna E Guerrero JA Chew Taracena T 2005 Sistematica biologica avances y direcciones en la teoria y los metodos de la reconstruccion filogenetica Hidrobiologica 15 3 351 370 Enlaces externos EditarCharles Semple and Mike Steel 2003 Phylogenetics Oxford University Press ISBN 978 0 19 850942 4 Barry A Cipra 2007 Algebraic Geometers See Ideal Approach to Biology SIAM News Volume 40 N º 6 Datos Q3772859 Multimedia Computational phylogenetics Q3772859 Obtenido de https es wikipedia org w index php title Filogenetica computacional amp oldid 147160338, wikipedia, wiki, leyendo, leer, libro, biblioteca,

español

, española, descargar, gratis, descargar gratis, mp3, video, mp4, 3gp, jpg, jpeg, gif, png, imagen, música, canción, película, libro, juego, juegos