Infiriendo transferencia genética horizontal
La transferencia genética horizontal o lateral (TGH o TGL) es la transmisión de partes de ADN genómico entre organismos a través de un proceso desacoplado de la herencia vertical. Cuando ocurren eventos TGH, diferentes fragmentos del genoma son el resultado de diferentes historias evolutivas. Esto puede, entonces, complicar las investigaciones del parentesco evolutivo de linajes y especies. También, como una TGH puede llevarle a los genomas unos genotipos radicalmente diferentes de linajes distantes o incluso nuevos genes con nuevas funciones, es una fuente importante de innovación fenotípica y un mecanismo de adaptación de nichos. Por ejemplo, de relevancia particular para la salud humana es la transferencia lateral de resistencia antibiótica y determinantes de patogenicidad, llevando al surgimiento de linajes patogénicos.[1]
Infiriendo la transferencia genética horizontal a través de identificación computacional de eventos TGH se basa en la investigación de la composición de la secuencia o historia evolutiva de los genes. Métodos basados en la composición de la secuencia ("paramétricos") busca desviaciones de un promedio genómico mientras que procedimientos de inferencia basados en la historia ("filogenéticos") identifican genes cuya historia evolutiva difiera significativamente de la de la especie huésped. La valoración y evaluación comparativa de los métodos de inferencia de TGH típicamente se basan en genomas simulados, para los cuales la verdadera historia se conoce. En información real, diferentes métodos tienden a inferir diferentes eventos de TGH y, como resultado, puede ser difícil determinar todos los eventos de TGH que no son simples o claros.
Introducción
La transferencia genética horizontal fue observado por primera vez en 1928 en el experimento de Frederick Griffith, mostrando que la virulencia se podía pasar de cepas virulentas a no virulentas de Streptococcus pneumoniae. Griffith demostró que la información genética puede ser transferida horizontalmente entre bacterias a través de un mecanismo conocido como transformación.[2] Observaciones similares en la década de los cuarenta[3] y cincuenta[4] mostró la evidencia de que la conjugación y la transducción son mecanismos adicionales de la TGH.[5]
Para inferir eventos de TGH, que pueden no resultar en cambios fenotípicos, la mayoría de los métodos contemporáneos se basan en análisis de la información de la secuencia genómica. Estos métodos pueden ser separados a grandes rasgos en dos: métodos paramétricos y filogenéticos. Los métodos paramétricos buscan secciones de un genoma que difieren significativamente del promedio genómico como el contenido CG o uso preferencial de codones.[6] Los métodos filogenéticos examinan la historia evolutiva de los genes involucrados e identifican filogenias incompatibles. Estos pueden ser clasificados en los que reconstruyen y coparan árboles filogenéticos explícitamente y los que usan medidas suplentes en lugar de los árboles filogenéticos.[7]
La característica principal de los métodos paramétricos es que dependen únicamente del genoma que se estudia para inferir eventos de TGH que pudieron haber ocurrido en su linaje. Ha sido una ventaja considerable al inicio de la era de secuenciación, cuando pocos genomas relacionados estrechamente eran disponibles para los métodos comparativos. Sin embargo, como dependen de la uniformidad de la huella del organismo para inferir los eventos de TGH, no contar la variabilidad intragenómica resultará en sobreestimaciones—marcando segmentos nativos como posibles eventos de TGH.[8] Similarmente, los segmentos transferidos necesitan exhibir la marca del sonador y ser significativamente diferente al del receptor.[6] Además, segmentos genómicos de origen foráneo están sujetos al mismo proceso mutacional como el resto del genoma y, por lo tanto, la diferencia entre los dos tiende a desaparecer a lo largo del tiempo, proceso conocido como amelioración.[9] Esto limita la habilidad de los métodos paramétricos para detectar viejas TGH.
Los métodos filogenéticos se benefician de la reciente disponibilidad de muchos genomas secuenciados. Es más, al igual que todos los métodos comparativos, los métodos filogenéticos pueden integrar información de múltiples genomas y en particular entregarlos usando un modelo de evolución. Esto les otorga la habilidad de caracterizar mejor los eventos de TGH que infieren—notablemente al diseñar la especie donadora y el tiempo de transferencia. Sin embargo, los modelos tienen límites y necesitan ser utilizados cuidadosamente. Por ejemplo, filogenias en conflicto pueden resultar de eventos no tomados en cuenta por el modelo, como parología no reconocida debido a duplicación seguida de pérdida de genes. También, muchos acercamientos dependen de un árbol de una especie de referencia que se supone es conocido, cuando en muchos casos puede ser difícil obtener un árbol de confianza. Finalmente, los costos computacionales de reconstruir árboles de muchos genes/especies puede ser prohibidamente caro. Los métodos filogenéticos tiendes a ser aplicados a genes o secuencias proteicas como unidades evolutivas básicas, lo que limita su habilidad para detectar TGH en regiones fuera o entre fronteras de genes.
Debido a sus enfoques complementarios—y usualmente diferentes grupos de candidatos de TGH—combinar predicciones de estos métodos paramétricos y filogenéticos puede dar un grupo de genes candidatos a eventos de TGH más exhaustivo. Es más, combinar diferentes métodos paramétricos ha sido visto que mejora significativamente la calidad de las predicciones.[10][11] Por otra parte, en ausencia de un grupo exhaustivo de genes verdaderamente transferidos horizontalmente, discrepancias entre diferentes métodos[12][13] pueden ser resultas a través de la combinación de métodos paramétricos y filogenéticos. Sin embargo, combinar inferencias de múltiples métodos también conlleva a un alto índice de falsos positivos.[14]
Métodos paramétricos
Los métodos paramétricos utilizan características de la secuencia genómica específicas a especies o clados definidos, también llamados marcadores genéticos, para inferir la TGH. Si un fragmento de un genoma se desvía mucho del marcador, esta es una seña de una posible transferencia horizontal. Por ejemplo, como el contenido de GC bacterial cae dentro de un gran rango (ver Figura 2), el contenido GC de un segmento genómico es un simple marcador genético. Los marcadores genéticos usualmente utilizados incluyen la composición de nucleótidos,[15] frecuencias de oligonucleótidos[16] o características estructurales del genoma.[17]
Para detectar TGH usando métodos paramétricos, el marcador genéticos del organismo necesita ser claramente reconocible. Sin embargo, el genoma de este no es siempre uniforme con respecto al marcador genético: por ejemplo, el contenido GC de la posición del tercer codón es menor cerca del término de replicación [18] y en contenido CG tiende a ser mayor en genes altamente expresados.[19] No tomar en cuenta esta variabilidad intragenómica en el organismo puede resultar en sobrestimaciones, marcando segmentos nativos como candidatos a TGH.[8] Una ventana deslizable más grande puede explicar esta variabilidad con el costo de reducir la habilidad para detectar regiones de TGH más pequeñas.[12]
Igual de importante, segmentos transferidos horizontalmente necesitan exhibir los marcadores genéticos del donador. Esto puede no ser el caso para transferencias antiguas donde las secuencias transferidas son sujetas a los mismos procesos mutacionales que el resto del genoma de aceptador, potencialmente causando que las diferencias se "amelioricen"[9] y se vuelvan indetectables a través de métodos paramétricos. Por ejemplo, Bdellovibrio bacteriovorus, una δ-Proteobacteria depredadora, tiene un contenido GC homogéneo y puedeconcluirse que su genoma es resistente a TGH.[20] Sin embargo, análisis subsecuente utilizando métod filogenéticos identificaron una cantidad de eventos de TGH antigua en el genoma de B. bacteriovorus.[21] Similarmente, si el segmento insertado fue previamente ameliorado al genoma del receptor, como es el caso de las inserciones de profagos,[22] métodos paramétricos pueden fallar predecir estos eventos de TGH. También, la composición del donador debe ser significativamente diferente del receptor para poder ser identificada como anormal, una condición que puede perderse en el caso de distancia de corta a media de TGH, la cual es muy prevalente. Además, se ha visto que genes adquiridos recientemente tienden a ser más ricos en AT que el promedio del rceptor,[15] lo que indica que las diferencias en contenido GC pueden resultar por procesos mutacionales desconocidos después de la adquisición en vez del genoma del donador.
Composición de nucleótidos
En contenido GC bacterial cae dentro de una rango grande con Ca. Zinderia insecticola teniendo un contenido GC de 13.5%[23] mientras que el de Anaeromyxobacter dehalogenans es del [24]. Incluso en un grupo muy de α-Proteobacterias relacionadas, los valores van del 30% al 65% aproximadamente.[25] Estas diferencias pueden ser utilizadas cuando se detectan eventos de TGH como un contenido de GC significativamente diferente para el segmento genómico y pueden ser indicación de un origen foráneo[15].
Espectro de oligonucleótidos
El espectro de oligonucleótidos (o frecuencias de k-mero) mide la frecuencia de todas las posibles secuencias de nucleótidos de una longitud, en particular en el genoma. Tiende a variar menos en un genoma que entre genomas y puede, por lo tanto, se utilizado como un marcador genético.[26] Una desviación de este marcador sugiere que un segmento genético pudo haber llegado a través de transferencia horizontal.
El espectro de oligonucleótidos debe mucho de su poder discriminatorio a el número de oligonucleótidos posibles: si n es el tamaño del vocabulario y w es el tamaño del oligonucleótido, el número de posibles oligonucleótidos diferentes es nw; por ejemplo, hay 45=1024 posible pentanucleótidos. Algunos métodos pueden capturar la señal grabada en patrones de tamaño variable,[27] capturando así los patrones raros y discriminatorios al mismo tiempo que los frecuentes pero menos comunes.
El uso preferencial de codones, una medida relacionada con la frecuencia de codones, fue uno de los primeros métodos utilizados en mediciones metódicas de TGH.[16] Este enfoque requiere un genoma receptor el cual contiene una tendencia hacia ciertos condones sinónimos (diferentes codones que codifican para el mismo aminoácido) que es claramente diferente a la tendencia encontrada dentro del genoma del donador. El oligonucleótido más simple utilizado como marcador genético es el dinucleótido, por ejemplo, el tercer nucleótido en un codón y el primer nucleótido en el siguiente codón representan el dinucleótido menos restringido por la preferencia de aminoácidos y de codones.[28]
Es importante optimizar el tamaño de la ventana deslizable en donde contar la frecuencia de oligonucleótidos: na ventana deslizable más grande será un mejor amortiguador de la variabilidad del genoma del receptor al costo de ser peor detectando regiones más pequeñas de TGH.[29] Un buen compromiso ha sido reportado utilizando frecuencias de tetranucleótidos en una ventana deslizable de 5 kb con una separación de 0.5 kb.[30]
Un método conveniente de modelar marcadores genéticos de oligonucleótidos es utilizar cadenas de Markov. La transición de la matriz de probabilidad puede ser derivada de genes endógenos contra adquiridos,[31] de donde las probabilidades posteriores bayesianas para un segmento particular de ADN puede ser obtenido.[32]
Características estructurales
Como la composición de nucleótidos de una molécula de ADN puede ser representada por una secuencia de letras, sus características estructurales pueden ser codificadas en una secuencia numérica. Sus características estructurales incluyen energías de interacción entre pares de bases vecinos,[33] el ángulo de giro que hacen dos bases de un par no coplanar[34] o la deformación del ADN inducida por proteínas que moldean la cromatina.[35]
El análisis de autocorrelación de algunas secuencias numéricas muestra periodicidades características en genomas completos.[36] De hecho, después de detectar regiones parecidas a las archaea en la bacteria termofílica Thermotoga maritima,[37] el espectro de periodicidad de estas regiones era comparado al de regiones homólogas en la archaea Pyrococcus horikoshii.[17] Esto reveló que las similitudes en la periodicidad eran fuertes evidencias apoyando el caso de una TGH masiva entre los reinos bacteria y archaea.[17]
Contexto genómico
La existencia de islas genómicas, regiones pequeñas (típicamente de 10–200kb) de un genoma que pudieron haber sido adquiridas horizontalmente da soporte a la habilidad de identificar genes no nativos localizándolas en un genoma.[38] Por ejemplo, un gen de origen ambiguo que forma parte de un operón no nativo puede ser considerado ser no nativo. Alternativamente, secuencias repetidas en ambos extremos o la presencia de integrasas o transposasas puede indicar una región no nativa.[39] Una enfoque de aprendizaje automático que combina análisis de fecuancia de oligonucleótidos con información del contexto fue visto que era efectivo para identificar islas genómicas.[40] En otro estudio, el contexto fue utilizado como un indicador secundario, después de remover genes que se cree que son nativos o no nativos a través del uso de otros métodos paramétricos.[10]
Métodos filogenéticos
El uso de análisis filogenético en la detección de TGH fue impulsado por la disponibilidad de muchos nuevos genomas secuenciados. Los métodos filogenéticos detectan inconsistencias en la historia de la evolución de un gen y especies de dos formas: explícitamente, reconstruyendo el árbol genético y reconciliándolo con el árbol de la especie de referencia, o implícitamente, examinando aspectos que se correlacionan con la historia evolutiva de los genes estudiados, ej. patrones de presencia/ausencia entre especies o distancias evolutivas inesperadamente cortas o distantes.
Métodos filogenéticos explícitos
El objetivo de los métodos filogenéticos explícitos es comparar árboles de genes con árboles de especies asociadas. Mientras que diferencias débilmente sustentadas entre árboles de genes y de especies pueden deberse a la incertidumbre de la inferencia, diferencias estadísticamente significativas pueden sugerir eventos de TGH. Por ejemplo, si dos genes de diferentes especies comparten el nodo de conexión ancestral más reciente en el árbol genético, pero las respectivas especies están separadas en el árbol de especies, un evento de TGH puede ser referenciado. Este enfoque puede producir resultados más específicos que el enfoque paramétrico porque las especies involucradas, el tiempo y la dirección e transferencia puede ser potencialmente identidficada.
Como es discutido a más detalle en siguientes secciones, los métodos filogenéticos varían de métodos simples que identifican desde meras diferencias entre árboles de genes y de especies hasta modelos mecanísticos que infieren posibles secuencias de eventos de TGH. Una estrategia intermediaria involucra deconstruir un árbol genético en partes más pequeñas hasta que cada una corresponda al árbol de especies (enfoques de espectro genómico).
Métodos filogenéticos explícitos dependen de la exactitud del árbol genético y de especie utilizado, pero estos pueden ser difíciles de construir.[41] Aún cuando no hay duda sobre los árboles utilizados, las filogenias en conflicto puede ser resultado de procesos evolutivos que no son TGH, como duplicaciones y paridad, causando que estos métodos infieran erróneamente eventos de TGH cuando la paralogía es la explicación correcta. Similarmente, en la presencia de clasificación incompleta de linaje, los métodos filogenéticos explícitos pueden erróneamente inferir eventos de TGH.[42] Esta es la razón por la cual algunos métodos explícitos basados en modelos prueban muchos escenarios evolutivos tipos de eventos y comparan su ajuste a la información con criterios de parsimonia o probabilísticos.
Pruebas de topologías
Para detectar conjuntos de genes que se ajustan muy poco al árbol de referencia, uno puede utilizar pruebas estadísticas de topología como la de Kishino–Hasegawa (KH),[43] Shimodaira–Hasegawa (SH),[44] y Aproximadamente Imparcial (AU por su siglas en inglés Approximately Unbiased)[45]. Estas pruebas miden la probabilidad del alineamiento de la secuencia del gen cuando una topología de referencia es utilizado como hipótesis nula.
El rechazo de la topología de referencia es una indicación de que la historia evolutiva para la familia del gen es inconsistente con el árbol de referencia. Cuando estas inconsistencias no pueden ser explicadas utilizando un número pequeño de eventos no horizontales, como la pérdida y duplicación de genes, un evento de TGH es inferido.
Un análisis de este tipo buscó TGH en grupos homólogos del linaje de γ-proteobacteria.[46] Seis árboles de referencia fueron reconstruidos utilizando ya sea una pequeña subunidad altamente conservada de secuencias de RNA ribosomales, un consenso de los árboles genéticos disponibles o alineamientos concatenados ortólogos. El fracaso de rechazar las seis topologías evaluadas, y el rechazo de las siete topologías alternativas, fue interpretado como evidencia para un número pequeño de eventos de TGH en grupos específicos.
La pruebas de topología identifican diferencias en la topología del árbol tomando en cuenta la incertidumbre de la inferencia del árbol pero no hicieron ningún intento de inferir cómo las diferencias surgieron. Para inferir los detalles de eventos particulares, se requiere de métodos de espectro genómico o arreglos del árbol.
Enfoque de espectro genómico
Para poder identificar la localización de los eventos de TGH, los enfoques de espectro genómico descomponen un árbol genético en subestructuras (como biparticiones o cuartetos) e identifican los que son consistente o inconsistentes con el árbol de especies.
Biparticiones Remover un extremo del árbol de referencia produce dos sub-árboles desconectados, cada uno con un grupo de nodos separados—una bipartición. Si una bipartición está presente tanto en el árbol genético como en el de especies, es compatible; de otro modo, es conflictiva. Estos conflictos pueden indicar un evento de TGH o pueden ser el resultado de la incertidumbre de la inferencia del árbol genético. Para reducir la incertidumbre, los análisis de bipartición se concentran típicamente en biparticiones fuertemente apoyadas como las asociadas con valores bootstrap o probabilidades posteriores por encima de ciertos límites. Cualquier familia de genes que se haya encontrado que tiene una o varias biparticiones conflictivas fuertemente apoyadas se considera como un candidato a TGH.[47][48]
Descomposición de cuartetos Los cuartetos son árboles que consisten en cuatro hojas. En árboles bifurcados (completamente resueltos), cada rama interna induce un cuarteto cuyas hojas son sub-árboles del árbol original o hojas del árbol original. Si la topología de un cuarteto extraído del árbol de especies de referencia es incrustado en el árbol genético, el cuarteto es compatible con el árbol genético. Opuestamente, cuartetos fuertemento apoyados incompatibles indican eventos de TGH.[49] Métodos cartográficos de cuartetos son mucho más eficientes computacionalmente y representaciones homogéneas de taxones fáciles de manejar entre las familias de genes, haciéndolos una buena base para desarrollar investigaciones grandes para TGH, buscando caminos de compartición de genes en bases de datos de cientos de genomas completos.[50][51]
Poda e injertos de sub-árboles
Una forma mecanística de modelar eventos de TGH en el árbol de referencia es primero cortar una rama interna—ej. podar el árbol—y después realizar un injerto a otro extremo, una operación llamada como poda e injerto de sub-árboles (SPR por sus siglas en inglés, subtree pruning and regrafting).[52] Si un árbol genético era topológicamente consistente con el árbol de referencia, los resultados de la edición son inconsistencias. Similarmente, cuando el árbol genético original es inconsistente con el árbol de referencia, es posible obtener una topología consistente a través de una serie de una o más operaciones SPR aplicadas al árbol de referencia. Interpretando el camino tomado por esta técnica, nodos candidatos a TGH pueden ser marcados así como inferir los genomas del donador y receptor.[48][53] Para evitar reportar eventos de TGH falsos positivos debido a la incertidumbre de la topología del árbol genético, el "camino" óptimo de las operaciones de SPR pueden ser escogidas entre múltiples combinaciones posibles considerando el soporte de la rama en el árbol genético. Extremos de árboles genéticos apoyados débilmente pueden ser ignorados a priori[54] o el apoyo puede ser utilizado para calcular un criterio de optimalidad.[55][56]
Como la conversión de un árbol a otro por un número mínimo de operaciones SPR es NP-Hard,[57] resolver el problema se vuelve considerablemente más difícil mientras más nudos sean considerados. El reto computacional radica en encontrar el camino óptimo de edición, ej. el que requiere el menor número de pasos,[58][59] y diferentes estrategias son utilizadas para resolver el problema. Por ejemplo, el algoritmo HorizStory reduce el problema primero eliminando los nodos consistentes;[60] poda e injertos repetitivos reconcilia el árbol de referencia con el árbol genético y ediciones óptimas son interpretadas como eventos de TGH. Los métodos de SPR incluidos en los paquetes de reconstrucción de super árboles disminuyen substancialmente el tiempo de búsqueda por un conjunto de operaciones SPR al considerar múltiples problemas menores localizados en grandes árboles a través de un enfoque de agrupación.[61]
Métodos de reconciliación basados en modelos
La reconciliación de los árboles genético y de especies conlleva a graficar eventos evolutivos a árboles genéticos de una forma que los hace acordes al árbol de especies. Existen diferentes modelos de reconciliación, difiriendo en los tipos de eventos que toman en cuentan para explicar las incongruencias entre las topologías del árbol genético y de especie. Los primeros métodos modelaban exclusivamente transferencia horizontales (T).[52][55] Los más recientes también considera eventos de duplicación (D), pérdida (L), clasificación incompleta de linaje (ILS) o recombinación homóloga (HR). La dificulta es que permitiendo múltiples tipos de eventos, el número de posibles reconciliaciones incrementa rápidamente. Por ejemplo, la topología conglictiva de un árbol genético puede ser explicada en término de un solo eventos de TGH o varios eventos de duplicación y pérdidas. Ambas alternativas son consideradas posibles reconciliaciones dependiendo de la frecuencia de los eventos a lo largo del árbol de especies.
Métodos de reconciliación pueden depender de un encuadre de parsimonia o probabilístico para inferir el evento más probable, donde el costo relativo/probabilidad de eventos D, T, L pueden ser fijados a priori o estimados a partir de información.[62] El espacio de las reconciliaciones DTL y sus costos parsimonios—los cuales pueden ser muchos para familias de árboles de genes con varias copias—pueden ser explorados eficientemente a través de algortimos de programación dinámica.[62][63][64] En algunos programas, la topología del árbol genético puede ser mejorado donde era incierto que quedara como un evento evolutivo así como el alineamiento de la secuencia inicial.[63][65][66] Modelos más refinados toman en cuenta la frecuencia arbitraria de TGH entre linajes estrechamente relacionados,[67] reflejando la pérdida de la eficiencia de HR con la distancia filogenética,[68] por ILS,[69] o por el hecho de que el donador verdadero de la mayoría de la TGH pertenece a un linaje extinto o no muestreado.[70] Externsiones mayores de los modelos DTL están siendo desarrollados hacia una descripción integral del proceso de evolución del genoma. En particular, algunos de ellos consideran transferencia horizontales a arias escalas—modelando la evolución independiente de fragmente de genes[71] o reconociendo la coevolución de varios genes (ej. debido a una transferencia de intercambio) en y entre genomas.[72]
Métodos filogenéticos implícitos
En contraste con los métodos filogenéticos explícitos que comparan la concordancia entre los árboles genético y de especies, los métodos filogenéticos implícitos comparan las distancias evolutivas o la similitud de las secuencias. Aquí, una distancia inesperadamente corta o grande desde un punto de referencia comparada con el promedio puede sugerir un evento de TGH. Como la construcción de un árbol no es necesaria, los enfoques implícitos tienden a ser más simples y rápidos que los métodos explícitos.
Sin embargo, los métodos implícitos pueden estar militados por las grandes diferencias entre la correcta filogenia subyacente y las distancias evolutivas consideradas. Por ejemplo, las secuencia más similar obtenida por el BLAST de mayor puntaje no es siempre las más cercana evolutivamente.[73]
Mejor alineamiento de secuencia en una especie distante
Una manera simple de identificar eventos de TGH es buscando relaciones entre secuencias con altos puntajes en especies relacionadas de lejos. Por ejemplo, un análisis de los resultados de máxima correspondencia de secuencias de proteínas de la bacteria Thermotoga maritima revelaron que la mayoría de los resultados eran en archaeas en vez de en bacterias estrechamente relacionadas, sugiriendo una extensiva TGH entre las dos;[37] estas predicciones fueron después apoyadas por un análisis de las características estructurales de la molécula de ADN.[17]
Sin embargo, este método está limitado a detectar eventos de TGH relativamente recientes. Además, si la TGH ocurrió en el ancestro común de dos o más especies incluidas en la base de datos, el resultado más cercano será dentro del clado y, por lo tanto, la TGH no será detectada por el método. Así, el límite de número mínimo de resultados foráneos más altos de BLAST para observar y decidir si un gen fue transferido es altamente dependiente de la cobertura taxonómica de las secuencia de las bases de datos. Por lo tanto, es posible que los parámetros experimentales deban ser definidos de manera ad-hoc.[74]
Discrepancia ente distancias de genes y especies
La hipótesis del reloj molecular plantea que genes homólogos evolucionaron a una velocidad aproximadamente constante en diferentes especies.[75]Si uno considera solamente genes homólogos relacionados a través de eventos de especiación (referidos como genes ortólogos), su árbol subyacente debería por definición corresponder al árbol de especies. Por lo tanto, asumiendo un reloj molecular, la distancia evolutiva entre genes ortólogos debería de ser aproximadamente proporcional al las distancias evolutivas entre sus especies respectivas. Si un grupo putativo contiene xenólogos (pares de genes relacionados a través de una TGH), la proporcionalidad de las distancias evolutivas puede ser que solo se mantenga entre los ortólogos y no los xenólogos.[76]
Enfoques simples comparan la distribución de los puntajes de similitud entre secuencias particulares y sus contrapartes ortólogas en otras especies; TGH es inferida a partir de valores atípicos.[77][78] Los métodos DLIGHT (Inferencia basada en Probabilidad de la Distancia de Genes Horizontalmente Transferidos o en inglés 'Distance Likelihood-based Inference of Genes Horizontally Transferred') más sofisticados consideran simultáneamente el efecto de la TGH en todas las secuencias entre grupos de ortólogos putativos:[7] si la prueba de proporción de probabilidad de la hipótesis de TGH contra una hipótesis de un evento no de TGH es significativa, un evento de TGH putativo es inferido. Además, este método permite la inferencia de un donador y receptor potencial dando una estimación del tiempo desde el último evento de TGH.
Perfiles filogenéticos
Un grupo de genes ortólogos o homólogos puede ser analizado en término de la presencia o ausencia de miembros del grupo en los genomas de referencia; estos patrones son llamados.[79] Para encontrar eventos de TGH, los perfiles filogenéticos son examinados para encontrar una distribución inusual de los genes. La ausencia de un homólogo en algunos miembros del grupo de especies estrechamente relacionadas indica que el gen analizado pudo haber llegado vía un evento de TGH. Por ejemplo, las tres cepas facultativamente simbióticas de Frankia son de diferentes tamaños: 5.43 Mpb, 7.50 Mpb y 9.04 Mpb, dependiendo del rango de receptores.[80] Porciones marcadas de genes de cepas específicas no tuvieron un resultado significante en la base de datos de referencia, y fueron posiblemente adquiridas por TGH de otras bacterias. Similarmente, las tres cepas diversamente fenotípicas de Escherichia coli (uropatogénica, enterohemorrágica y benigna) comparten cerca del 40% del acervo génico total combinado, mientras que el otro 60%son genes específicos de la cepa y consecuentemente candidatos a TGH.[81] Más evidencias para estos genes resultando de TGH fue el inesperado patrón de uso preferencial de codones de los genes fundamentales y la falta de una conservación del orden genético (conservación del orden es típico de genes evolucionados verticalmente).[81] La presencia/ausencia de homólogos (o su conteo efectivo) puede ser utilizado por programas para reconstruir el escenario evolutivo más probable al igual que el árbol de especies. Como con los métodos de reconciliación, esto puede ser obtenido a partir de estimaciones de parsimonia[82] o probabilísticas del número de eventos de ganancias o pérdidas.[83][84] Modelos pueden ser hechos más complejos por procesos aditivos, como la truncación de genes,[85] pero también modelando la heterogeneidad de la proporción de ganancias y pérdidas en diferentes linajes[86] y/o en familias de genes.[84][87]
Agrupaciones de sitios polimórficos
Los genes son comúnmente considerados como las unidades básicas transferidas a través de eventos de TGH. Sin embargo, es posible que ocurra la TGH dentro de genes. Por ejemplo, ha sido demostrado que la transferencia hosrizontal entre especies relacionadas estrechamente resulta en más intercambios de fragmentos de marcos abiertos de lectura,[88][89] un tipo de transferencia llamada conversión genética, mediada por recombinación homóloga. El análisis de un grupo de cuatro cepas de Escherichia coli y dos de Shigella flexneri reveló que las secuencias comunes alas seis cepas contenían sitios polimórficos, consecuencia de recombinación homóloga.[90] Agrupaciones de sitios polimórficos en exceso pueden ser utilizadas para detectar ADN recombinado con relativos distantes.[91] Este método de detección es, sin embargo, restringido a sitios en común para todas las secuencias analizadas, limitando el análisis a un grupo de organismo estrechamente relacionados.
Evaluación
La existencia de varios y diferentes métodos para inferir TGH plantea la cuestión de cómo validar inferencias individuales y cómo compara los diferentes métodos.
Un problema principal es que, como con otros tipos de inferencias filogenéticas, la verdadera historia evolutiva no puede ser establecida con seguridad. Como resultado, es difícil obtener un grupo de pruebas representativas de eventos de TGH. Además, los métodos de TGH varían considerablemente en la información que consideran y normalmente identifican grupos inconsistentes como candidatos a TGH:[6][92] no es claro en qué medida tomar la intersección, la unión o alguna otra combinación de los métodos individuales afecta la proporción de falsos positivos y falsos negativos.[14]
Los métodos paramétricos y filogenéticos aprovechan diferentes fuentes de información; es, por lo tanto, más difícil hacer aseveraciones generales sobre su desempeño relativo. No obstante, se pueden utilizar argumentos conceptuales. Mientras que los métodos paramétricos están limitados al análisis de genomas únicos o en parejas, los métodos filogenéticos otorgan un encuadre natural para tomar ventaja de la información contenida en múltiples genomas. En muchos casos, segmentos de genomas inferidos como TGH basados en su composición anómala pueden ser reconocidos como tal con base en análisis filogenéticos o a través de la mera ausencia en genomas de organismo relacionados. Además, los métodos filogenéticos dependen de modelos explícitos de la evolución de la secuencia, lo que implica una parte bien entendida para los parámetros de inferencia, pruebas de hipótesis y selección de modelos. Esto se refleja en la literatura, la cual tienden a a favorecer los métodos filogenéticos como prueba estándar para la TGH.[93][94][95][96] El uso de métodos filogenéticos parece ser la preferencia, especialmente dado el incremento en el poder computacional acompañado de mejoras de algoritmos que los han hecho más manejables,[61][70] y que cada vez es más la cantidad de genomas muestreados que dan más poder a estas pruebas.
Considerando los métodos filogenéticos, varios enfoques que validan inferencias de TGH individuales y métodos de evaluación comparativa han sido adoptados, típicamente dependiendo de varias formas de simulación. Como la verdad es conocida en similación, el número de falsos positivos y de falsos negativos es fácil de calcular. Sin embargo, simular información no resuelve el problema porque la verdadera extensión de la TGH en la naturaleza permanece en gran parte desconocida y especificar velocidades de TGH en el modelo de simulación es siempre arriesgado. No obstante, estudios que involucran la comparación de varios métodos filogenéticos en un encuadre de simulación podría dar un ensayo cuantitativo de sus desempeños respectivos y por lo tanto ayudar a un biólogo a elegir objetivamente las herramientas correctas.[56]
Herramientas estándar que simulan la evolución de la secuencia en árboles como INDELible[97] o PhyloSim[98] pueden ser adaptados para simular TGH. Los eventos de TGH cauan que árboles genéticos importantes entre en conflicto con el árbol de especies. Estos eventos pueden ser simulados a través de SPR del árbol de especies.[54] Sin embargo, es importante simular la información que es suficientemente realista para ser representativo del reto de verdaderos bancos de información, y simulación bajo modelos complejos son lo preferible. Un modelo fue desarrollado para simular árboles genéticos con el proceso de substitución heterogénea además de la ocurrencia de la transferencia y tomando en cuenta el hecho de que la transferencia puede llegar de linajes que ahora están extintos.[99] Alternativamente, el simulador de la evolución genómica ALF[100] genera directamente familias de genes sujetas a TGH tomando en cuenta un gran rango de fuerzas evolutivas como base, pero en el contexto de un genoma completo. Dadas secuencias simuladas que tienen TGH, el análisis de estas secuencias utilizando los métodos de interés y comparación de sus resultados con la verdad conocida permite estudiar su desempeño. Similarmente, los métodos de pruebas en secuencias que se abe que no hay TGH permite que el estudio no tenga falsos positivos.
Simulación de eventos de TGH puede ser realizada por la manipulación de las mismas secuencias biológicas. Genomas de quimeras artificiales pueden ser obtenidos insertando genes foráneos conocidos a posiciones aleatorias del genoma del receptor.[12][101][102][103] Las secuencias del donador son insertadas al receptor sin cambios o pueden ser evolucionadas a través de siulación,[7] ej. usando los métodos descritos anteriormente.
Una importante advertencia de las simulaciones como forma de comparar los diferentes métodos es que la simulación está basada en suposiciones simplificadas que pueden favorecer ciertos métodos.[104]
Véase también
Referencias
- Hiramatsu, K; Cui, L; Kuroda, M; Ito, T (2001). «The emergence and evolution of methicillin-resistant Staphylococcus aureus». Trends in microbiology 9 (10): 486-93. PMID 11597450. doi:10.1016/s0966-842x(01)02175-8.
- Griffith, F (1928). «The Significance of Pneumococcal Types». The Journal of hygiene 27 (2): 113-59. PMC 2167760. PMID 20474956. doi:10.1017/s0022172400031879.
- Tatum, E. L.; Lederberg, J (1947). «Gene Recombination in the Bacterium Escherichia coli». Journal of Bacteriology 53 (6): 673-84. PMC 518375. PMID 16561324.
- Zinder, N. D.; Lederberg, J. (1952). «Genetic Exchange in Salmonella». Journal of Bacteriology 64 (5): 679-699. PMC 169409. PMID 12999698.
- Jones, D; Sneath, P. H. (1970). «Genetic transfer and bacterial taxonomy». Bacteriological reviews 34 (1): 40-81. PMC 378348. PMID 4909647.
- ↑ Lawrence, J. G.; Ochman, H (2002). «Reconciling the many faces of lateral gene transfer». Trends in microbiology 10 (1): 1-4. PMID 11755071. doi:10.1016/s0966-842x(01)02282-x.
- ↑ Dessimoz, C.; Margadant, D.; Gonnet, G. H. (2008). «DLIGHT – Lateral Gene Transfer Detection Using Pairwise Evolutionary Distances in a Statistical Framework». Research in Computational Molecular Biology. Lecture Notes in Computer Science 4955. p. 315. ISBN 978-3-540-78838-6. doi:10.1007/978-3-540-78839-3_27.
- ↑ Guindon, S; Perrière, G (2001). «Intragenomic base content variation is a potential source of biases when searching for horizontally transferred genes». Molecular Biology and Evolution 18 (9): 1838-40. PMID 11504864. doi:10.1093/oxfordjournals.molbev.a003972.
- ↑ Lawrence, J. G.; Ochman, H (1997). «Amelioration of bacterial genomes: Rates of change and exchange». Journal of Molecular Evolution 44 (4): 383-97. PMID 9089078. doi:10.1007/pl00006158.
- ↑ Azad, R. K.; Lawrence, J. G. (2011). «Towards more robust methods of alien gene detection». Nucleic Acids Research 39 (9): e56. PMC 3089488. PMID 21297116. doi:10.1093/nar/gkr059.
- Xiong, D; Xiao, F; Liu, L; Hu, K; Tan, Y; He, S; Gao, X (2012). «Towards a better detection of horizontally transferred genes by combining unusual properties effectively». PLoS ONE 7 (8): e43126. PMC 3419211. PMID 22905214. doi:10.1371/journal.pone.0043126.
- ↑ Becq, J; Churlaud, C; Deschavanne, P (2010). «A benchmark of parametric methods for horizontal transfers detection». PLoS ONE 5 (4): e9989. PMC 2848678. PMID 20376325. doi:10.1371/journal.pone.0009989.
- Poptsova, M (2009). Testing Phylogenetic Methods to Identify Horizontal Gene Transfer. «Horizontal Gene Transfer». Methods in molecular biology (Clifton, N.J.). Methods in Molecular Biology 532. pp. 227-40. ISBN 978-1-60327-852-2. PMID 19271188. doi:10.1007/978-1-60327-853-9_13.
- ↑ Poptsova, M. S.; Gogarten, J. P. (2007). «The power of phylogenetic approaches to detect horizontally transferred genes». BMC Evolutionary Biology 7: 45. PMC 1847511. PMID 17376230. doi:10.1186/1471-2148-7-45.
- ↑ Daubin, V; Lerat, E; Perrière, G (2003). «The source of laterally transferred genes in bacterial genomes». Genome Biology 4 (9): R57. PMC 193657. PMID 12952536. doi:10.1186/gb-2003-4-9-r57.
- ↑ Lawrence, J. G.; Ochman, H (1998). «Molecular archaeology of the Escherichia coli genome». Proceedings of the National Academy of Sciences of the United States of America 95 (16): 9413-7. PMC 21352. PMID 9689094. doi:10.1073/pnas.95.16.9413.
- ↑ Worning, P; Jensen, L. J.; Nelson, K. E.; Brunak, S; Ussery, D. W. (2000). «Structural analysis of DNA sequence: Evidence for lateral gene transfer in Thermotoga maritima». Nucleic Acids Research 28 (3): 706-9. PMC 102551. PMID 10637321. doi:10.1093/nar/28.3.706.
- Deschavanne, P; Filipski, J (1995). «Correlation of GC content with replication timing and repair mechanisms in weakly expressed E.coli genes». Nucleic Acids Research 23 (8): 1350-3. PMC 306860. PMID 7753625. doi:10.1093/nar/23.8.1350.
- Wuitschick, J. D.; Karrer, K. M. (1999). «Analysis of genomic G + C content, codon usage, initiator codon context and translation termination sites in Tetrahymena thermophila». The Journal of eukaryotic microbiology 46 (3): 239-47. PMID 10377985. doi:10.1111/j.1550-7408.1999.tb05120.x.
- Rendulic, S.; Jagtap, P.; Rosinus, A.; Eppinger, M.; Baar, C.; Lanz, C.; Keller, H.; Lambert, C.; Evans, K. J.; Goesmann, A.; Meyer, F.; Sockett, R. E.; Schuster, S. C. (2004). «A Predator Unmasked: Life Cycle of Bdellovibrio bacteriovorus from a Genomic Perspective». Science 303 (5658): 689-692. PMID 14752164. doi:10.1126/science.1093027.
- Gophna, U; Charlebois, R. L.; Doolittle, W. F. (2006). «Ancient lateral gene transfer in the evolution of Bdellovibrio bacteriovorus». Trends in Microbiology 14 (2): 64-9. PMID 16413191. doi:10.1016/j.tim.2005.12.008.
- Vernikos, G. S.; Thomson, N. R.; Parkhill, J (2007). «Genetic flux over time in the Salmonella lineage». Genome Biology 8 (6): R100. PMC 2394748. PMID 17547764. doi:10.1186/gb-2007-8-6-r100.
- McCutcheon, J. P.; Moran, N. A. (2010). «Functional convergence in reduced genomes of bacterial symbionts spanning 200 My of evolution». Genome Biology and Evolution 2: 708-18. PMC 2953269. PMID 20829280. doi:10.1093/gbe/evq055.
- Liu, Z; Venkatesh, S. S.; Maley, C. C. (2008). «Sequence space coverage, entropy of genomes and the potential to detect non-human DNA in human samples». BMC Genomics 9: 509. PMC 2628393. PMID 18973670. doi:10.1186/1471-2164-9-509.
- Bentley, S. D.; Parkhill, J (2004). «Comparative genomic structure of prokaryotes». Annual Review of Genetics 38: 771-92. PMID 15568993. doi:10.1146/annurev.genet.38.072902.094318.
- Karlin, S; Burge, C (1995). «Dinucleotide relative abundance extremes: A genomic signature». Trends in genetics : TIG 11 (7): 283-90. PMID 7482779.
- Vernikos, G. S.; Parkhill, J (2006). «Interpolated variable order motifs for identification of horizontally acquired DNA: Revisiting the Salmonella pathogenicity islands». Bioinformatics 22 (18): 2196-203. PMID 16837528. doi:10.1093/bioinformatics/btl369.
- Hooper, S. D.; Berg, O. G. (2002). «Detection of genes with atypical nucleotide sequence in microbial genomes». Journal of Molecular Evolution 54 (3): 365-75. PMID 11847562. doi:10.1007/s00239-001-0051-8.
- Deschavanne, P. J.; Giron, A; Vilain, J; Fagot, G; Fertil, B (1999). «Genomic signature: Characterization and classification of species assessed by chaos game representation of sequences». Molecular Biology and Evolution 16 (10): 1391-9. PMID 10563018. doi:10.1093/oxfordjournals.molbev.a026048.
- Dufraigne, C; Fertil, B; Lespinats, S; Giron, A; Deschavanne, P (2005). «Detection and characterization of horizontal transfers in prokaryotes using genomic signature». Nucleic Acids Research 33 (1): e6. PMC 546175. PMID 15653627. doi:10.1093/nar/gni004.
- Cortez, D; Forterre, P; Gribaldo, S (2009). «A hidden reservoir of integrative elements is the major source of recently acquired foreign genes and ORFans in archaeal and bacterial genomes». Genome Biology 10 (6): R65. PMC 2718499. PMID 19531232. doi:10.1186/gb-2009-10-6-r65.
- Nakamura, Y; Itoh, T; Matsuda, H; Gojobori, T (2004). «Biased biological functions of horizontally transferred genes in prokaryotic genomes». Nature Genetics 36 (7): 760-6. PMID 15208628. doi:10.1038/ng1381.
- Ornstein, R. L.; Rein, R (1978). «An optimized potential function for the calculation of nucleic acid interaction energies I. Base stacking». Biopolymers 17 (10): 2341-60. PMID 24624489. doi:10.1002/bip.1978.360171005.
- El Hassan, M. A.; Calladine, C. R. (1996). «Propeller-twisting of base-pairs and the conformational mobility of dinucleotide steps in DNA». Journal of Molecular Biology 259 (1): 95-103. PMID 8648652. doi:10.1006/jmbi.1996.0304.
- Olson, W. K.; Gorin, A. A.; Lu, X. J.; Hock, L. M.; Zhurkin, V. B. (1998). «DNA sequence-dependent deformability deduced from protein-DNA crystal complexes». Proceedings of the National Academy of Sciences of the United States of America 95 (19): 11163-8. PMC 21613. PMID 9736707. doi:10.1073/pnas.95.19.11163.
- Herzel, H; Weiss, O; Trifonov, E. N. (1999). «10-11 bp periodicities in complete genomes reflect protein structure and DNA folding». Bioinformatics (Oxford, England) 15 (3): 187-93. PMID 10222405. doi:10.1093/bioinformatics/15.3.187.
- ↑ Fraser, C. M.; Clayton, K. E.; Gill, R. A.; Gwinn, S. R.; Dodson, M. L.; Haft, R. J.; Hickey, D. H.; Peterson, E. K.; Nelson, J. D.; Ketchum, W. C.; McDonald, K. A.; Utterback, L.; Malek, T. R.; Linher, J. A.; Garrett, K. D.; Stewart, M. M.; Cotton, A. M.; Pratt, M. D.; Phillips, M. S.; Richardson, C. A.; Heidelberg, D.; Sutton, J.; Fleischmann, G. G.; Eisen, R. D.; White, J. A.; Salzberg, O.; Smith, S. L.; Venter, H. O.; Fraser, J. C. (1999). «Evidence for lateral gene transfer between Archaea and bacteria from genome sequence of Thermotoga maritima». Nature 399 (6734): 323-329. Bibcode:1999Natur.399..323N. PMID 10360571. doi:10.1038/20601.
- Langille, M. G. I.; Hsiao, W. W. L.; Brinkman, F. S. L. (2010). «Detecting genomic islands using bioinformatics approaches». Nature Reviews Microbiology 8 (5): 373-382. PMID 20395967. doi:10.1038/nrmicro2350.
- Hacker, J; Blum-Oehler, G; Mühldorfer, I; Tschäpe, H (1997). «Pathogenicity islands of virulent bacteria: Structure, function and impact on microbial evolution». Molecular Microbiology 23 (6): 1089-97. PMID 9106201. doi:10.1046/j.1365-2958.1997.3101672.x.
- Vernikos, G. S.; Parkhill, J (2008). «Resolving the structural features of genomic islands: A machine learning approach». Genome Research 18 (2): 331-42. PMC 2203631. PMID 18071028. doi:10.1101/gr.7004508.
- Altenhoff, A. M.; Dessimoz, C (2012). Inferring Orthology and Paralogy. «Evolutionary Genomics». Methods in molecular biology (Clifton, N.J.). Methods in Molecular Biology 855. pp. 259-79. ISBN 978-1-61779-581-7. PMID 22407712. doi:10.1007/978-1-61779-582-4_9.
- Than, C; Ruths, D; Innan, H; Nakhleh, L (2007). «Confounding factors in HGT detection: Statistical error, coalescent effects, and multiple solutions». Journal of Computational Biology 14 (4): 517-35. PMID 17572027. doi:10.1089/cmb.2007.A010.
- Goldman, N; Anderson, J. P.; Rodrigo, A. G. (2000). «Likelihood-based tests of topologies in phylogenetics». Systematic Biology 49 (4): 652-70. PMID 12116432. doi:10.1080/106351500750049752.
- Shimodaira, H; Hasegawa, M (1999). «Multiple Comparisons of Log-Likelihoods with Applications to Phylogenetic Inference». Molecular Biology and Evolution 16 (8): 1114-1116. doi:10.1093/oxfordjournals.molbev.a026201.
- Shimodaira, H (2002). «An approximately unbiased test of phylogenetic tree selection». Systematic Biology 51 (3): 492-508. PMID 12079646. doi:10.1080/10635150290069913.
- Lerat, E; Daubin, V; Moran, N. A. (2003). «From gene trees to organismal phylogeny in prokaryotes: The case of the gamma-Proteobacteria». PLoS Biology 1 (1): E19. PMC 193605. PMID 12975657. doi:10.1371/journal.pbio.0000019.
- Zhaxybayeva, O; Hamel, L; Raymond, J; Gogarten, J. P. (2004). «Visualization of the phylogenetic content of five genomes using dekapentagonal maps». Genome Biology 5 (3): R20. PMC 395770. PMID 15003123. doi:10.1186/gb-2004-5-3-r20.
- ↑ Beiko, R. G.; Harlow, T. J.; Ragan, M. A. (2005). «Highways of gene sharing in prokaryotes». Proceedings of the National Academy of Sciences 102 (40): 14332-7. PMC 1242295. PMID 16176988. doi:10.1073/pnas.0504068102.
- Zhaxybayeva, O; Gogarten, J. P.; Charlebois, R. L.; Doolittle, W. F.; Papke, R. T. (2006). «Phylogenetic analyses of cyanobacterial genomes: Quantification of horizontal gene transfer events». Genome Research 16 (9): 1099-108. PMC 1557764. PMID 16899658. doi:10.1101/gr.5322306.
- Bansal, M. S.; Banay, G; Gogarten, J. P.; Shamir, R (2011). «Detecting highways of horizontal gene transfer». Journal of Computational Biology 18 (9): 1087-114. PMID 21899418. doi:10.1089/cmb.2011.0066.
- Bansal, M. S.; Banay, G; Harlow, T. J.; Gogarten, J. P.; Shamir, R (2013). «Systematic inference of highways of horizontal gene transfer in prokaryotes». Bioinformatics 29 (5): 571-9. PMID 23335015. doi:10.1093/bioinformatics/btt021.
- ↑ Hallett MT, Lagergren J. RECOMB 2001. Montreal: ACM; 2001. Efficient Algorithms for Lateral Gene Transfer Problems; pp. 149–156.
- Baroni, M; Grünewald, S; Moulton, V; Semple, C (2005). «Bounding the number of hybridisation events for a consistent evolutionary history». Journal of Mathematical Biology 51 (2): 171-82. PMID 15868201. doi:10.1007/s00285-005-0315-9.
- ↑ Beiko, R. G.; Hamilton, N (2006). «Phylogenetic identification of lateral genetic transfer events». BMC Evolutionary Biology 6: 15. PMC 1431587. PMID 16472400. doi:10.1186/1471-2148-6-15.
- ↑ Nakhleh L, Ruths DA, Wang L: RIATA-HGT: A Fast and Accurate Heuristic for Reconstructing Horizontal Gene Transfer. COCOON, August 16–29, 2005; Kunming 2005.
- ↑ Abby, S. S.; Tannier, E; Gouy, M; Daubin, V (2010). «Detecting lateral gene transfers by statistical reconciliation of phylogenetic forests». BMC Bioinformatics 11: 324. PMC 2905365. PMID 20550700. doi:10.1186/1471-2105-11-324.
- Hickey, G; Dehne, F; Rau-Chaplin, A; Blouin, C (2008). «SPR distance computation for unrooted trees». Evolutionary bioinformatics online 4: 17-27. PMC 2614206. PMID 19204804.
- Hein, J.; Jiang, T.; Wang, L.; Zhang, K. (1996). «On the complexity of comparing evolutionary trees». Discrete Applied Mathematics 71: 153-169. doi:10.1016/S0166-218X(96)00062-5.
- Allen, B. L.; Steel, M. (2001). «Subtree Transfer Operations and Their Induced Metrics on Evolutionary Trees». Annals of Combinatorics 5: 1-15. doi:10.1007/s00026-001-8006-8.
- MacLeod, D; Charlebois, R. L.; Doolittle, F; Bapteste, E (2005). «Deduction of probable events of lateral gene transfer through comparison of phylogenetic trees by recursive consolidation and rearrangement». BMC Evolutionary Biology 5: 27. PMC 1087482. PMID 15819979. doi:10.1186/1471-2148-5-27.
- ↑ Doyon, J. P.; Hamel, S; Chauve, C (2012). «An efficient method for exploring the space of gene tree/species tree reconciliations in a probabilistic framework». IEEE/ACM Transactions on Computational Biology and Bioinformatics 9 (1): 26-39. PMID 21464510. doi:10.1109/TCBB.2011.64.
- ↑ David, L. A.; Alm, E. J. (2011). «Rapid evolutionary innovation during an Archaean genetic expansion». Nature 469 (7328): 93-6. PMID 21170026. doi:10.1038/nature09649.
- Szöllosi, G. J.; Boussau, B; Abby, S. S.; Tannier, E; Daubin, V (2012). «Phylogenetic modeling of lateral gene transfer reconstructs the pattern and relative timing of speciations». Proceedings of the National Academy of Sciences 109 (43): 17513-8. PMC 3491530. PMID 23043116. doi:10.1073/pnas.1202997109.
- Nguyen, T. H.; Ranwez, V; Pointet, S; Chifolleau, A. M.; Doyon, J. P.; Berry, V (2013). «Reconciliation and local gene tree rearrangement can be of mutual profit». Algorithms for Molecular Biology 8 (1): 12. PMC 3871789. PMID 23566548. doi:10.1186/1748-7188-8-12.
- Szöllosi, G. J.; Tannier, E; Lartillot, N; Daubin, V (2013). «Lateral gene transfer from the dead». Systematic Biology 62 (3): 386-97. PMC 3622898. PMID 23355531. doi:10.1093/sysbio/syt003.
- Bansal, M. S.; Alm, E. J.; Kellis, M (2012). «Efficient algorithms for the reconciliation problem with gene duplication, horizontal transfer and loss». Bioinformatics 28 (12): i283-91. PMC 3371857. PMID 22689773. doi:10.1093/bioinformatics/bts225.
- Majewski, J; Zawadzki, P; Pickerill, P; Cohan, F. M.; Dowson, C. G. (2000). «Barriers to genetic exchange between bacterial species: Streptococcus pneumoniae transformation». Journal of Bacteriology 182 (4): 1016-23. PMC 94378. PMID 10648528. doi:10.1128/jb.182.4.1016-1023.2000.
- Sjöstrand, J; Tofigh, A; Daubin, V; Arvestad, L; Sennblad, B; Lagergren, J (2014). «A Bayesian method for analyzing lateral gene transfer». Systematic Biology 63 (3): 409-20. PMID 24562812. doi:10.1093/sysbio/syu007.
- ↑ Szöllõsi, G. J.; Rosikiewicz, W; Boussau, B; Tannier, E; Daubin, V (2013). «Efficient exploration of the space of reconciled gene trees». Systematic Biology 62 (6): 901-12. PMC 3797637. PMID 23925510. doi:10.1093/sysbio/syt054.
- Haggerty, L. S.; Jachiet, P. A.; Hanage, W. P.; Fitzpatrick, D. A.; Lopez, P; O'Connell, M. J.; Pisani, D; Wilkinson, M; Bapteste, E; McInerney, J. O. (2014). «A pluralistic account of homology: Adapting the models to the data». Molecular Biology and Evolution 31 (3): 501-16. PMC 3935183. PMID 24273322. doi:10.1093/molbev/mst228.
- Szöllősi, G. J.; Tannier, E; Daubin, V; Boussau, B (2015). «The inference of gene trees with species trees». Systematic Biology 64 (1): e42-62. PMC 4265139. PMID 25070970. doi:10.1093/sysbio/syu048.
- Koski, L. B.; Golding, G. B. (2001). «The closest BLAST hit is often not the nearest neighbor». Journal of Molecular Evolution 52 (6): 540-2. PMID 11443357. doi:10.1007/s002390010184.
- Wisniewski-Dyé, F.; Borziak, K.; Khalsa-Moyers, G.; Alexandre, G.; Sukharnikov, L. O.; Wuichet, K.; Hurst, G. B.; McDonald, W. H.; Robertson, J. S.; Barbe, V.; Calteau, A.; Rouy, Z.; Mangenot, S.; Prigent-Combaret, C.; Normand, P.; Boyer, M.; Siguier, P.; Dessaux, Y.; Elmerich, C.; Condemine, G.; Krishnen, G.; Kennedy, I.; Paterson, A. H.; González, V.; Mavingui, P.; Zhulin, I. B. (2011). «Azospirillum Genomes Reveal Transition of Bacteria from Aquatic to Terrestrial Environments». En Richardson, Paul M, ed. PLoS Genetics 7 (12): e1002430. PMC 3245306. PMID 22216014. doi:10.1371/journal.pgen.1002430.
- Zuckerkandl, E. and Pauling, L.B. 1965. Evolutionary divergence and convergence in proteins. In Bryson, V.and Vogel, H.J. (editors). Evolving Genes and Proteins. Academic Press, New York. pp. 97–166.
- Novichkov, P. S.; Omelchenko, M. V.; Gelfand, M. S.; Mironov, A. A.; Wolf, Y. I.; Koonin, E. V. (2004). «Genome-wide molecular clock and horizontal gene transfer in bacterial evolution». Journal of Bacteriology 186 (19): 6575-85. PMC 516599. PMID 15375139. doi:10.1128/JB.186.19.6575-6585.2004.
- Lawrence, J. G.; Hartl, D. L. (1992). «Inference of horizontal genetic transfer from molecular data: An approach using the bootstrap». Genetics 131 (3): 753-60. PMC 1205046. PMID 1628816.
- Clarke, G. D.; Beiko, R. G.; Ragan, M. A.; Charlebois, R. L. (2002). «Inferring genome trees by using a filter to eliminate phylogenetically discordant sequences and a distance matrix based on mean normalized BLASTP scores». Journal of Bacteriology 184 (8): 2072-80. PMC 134965. PMID 11914337. doi:10.1128/jb.184.8.2072-2080.2002.
- Pellegrini, M; Marcotte, E. M.; Thompson, M. J.; Eisenberg, D; Yeates, T. O. (1999). «Assigning protein functions by comparative genome analysis: Protein phylogenetic profiles». Proceedings of the National Academy of Sciences of the United States of America 96 (8): 4285-8. PMC 16324. PMID 10200254. doi:10.1073/pnas.96.8.4285.
- Normand, P.; Lapierre, P.; Tisa, L. S.; Gogarten, J. P.; Alloisio, N.; Bagnarol, E.; Bassi, C. A.; Berry, A. M.; Bickhart, D. M.; Choisne, N.; Couloux, A.; Cournoyer, B.; Cruveiller, S.; Daubin, V.; Demange, N.; Francino, M. P.; Goltsman, E.; Huang, Y.; Kopp, O. R.; Labarre, L.; Lapidus, A.; Lavire, C.; Marechal, J.; Martinez, M.; Mastronunzio, J. E.; Mullin, B. C.; Niemann, J.; Pujic, P.; Rawnsley, T.; Rouy, Z. (2006). «Genome characteristics of facultatively symbiotic Frankia sp. Strains reflect host range and host plant biogeography». Genome Research 17 (1): 7-15. PMC 1716269. PMID 17151343. doi:10.1101/gr.5798407.
- ↑ Welch, R. A.; Burland, V; Plunkett g, 3rd; Redford, P; Roesch, P; Rasko, D; Buckles, E. L.; Liou, S. R.; Boutin, A; Hackett, J; Stroud, D; Mayhew, G. F.; Rose, D. J.; Zhou, S; Schwartz, D. C.; Perna, N. T.; Mobley, H. L.; Donnenberg, M. S.; Blattner, F. R. (2002). «Extensive mosaic structure revealed by the complete genome sequence of uropathogenic Escherichia coli». Proceedings of the National Academy of Sciences 99 (26): 17020-4. PMC 139262. PMID 12471157. doi:10.1073/pnas.252529799.
- Csűrös, M. S. (2008). «Ancestral Reconstruction by Asymmetric Wagner Parsimony over Continuous Characters and Squared Parsimony over Distributions». Comparative Genomics. Lecture Notes in Computer Science 5267. p. 72. ISBN 978-3-540-87988-6. doi:10.1007/978-3-540-87989-3_6.
- Pagel, M. (1999). «Inferring the historical patterns of biological evolution». Nature 401 (6756): 877-84. PMID 10553904. doi:10.1038/44766.
- ↑ Csurös, M; Miklós, I (2009). «Streamlining and large ancestral genomes in Archaea inferred with a phylogenetic birth-and-death model». Molecular Biology and Evolution 26 (9): 2087-95. PMC 2726834. PMID 19570746. doi:10.1093/molbev/msp123.
- Hao, W; Golding, G. B. (2010). «Inferring bacterial genome flux while considering truncated genes». Genetics 186 (1): 411-26. PMC 2940306. PMID 20551435. doi:10.1534/genetics.110.118448.
- Hao, W; Golding, G. B. (2006). «The fate of laterally transferred genes: Life in the fast lane to adaptation or death». Genome Research 16 (5): 636-43. PMC 1457040. PMID 16651664. doi:10.1101/gr.4746406.
- Hao, W; Golding, G. B. (2008). «Uncovering rate variation of lateral gene transfer during bacterial genome evolution». BMC Genomics 9: 235. PMC 2426709. PMID 18492275. doi:10.1186/1471-2164-9-235.
- Ochman, H; Lawrence, J. G.; Groisman, E. A. (2000). «Lateral gene transfer and the nature of bacterial innovation». Nature 405 (6784): 299-304. PMID 10830951. doi:10.1038/35012500.
- Papke, R. T.; Koenig, J. E.; Rodríguez-Valera, F; Doolittle, W. F. (2004). «Frequent recombination in a saltern population of Halorubrum». Science 306 (5703): 1928-9. PMID 15591201. doi:10.1126/science.1103289.
- Mau, B; Glasner, J. D.; Darling, A. E.; Perna, N. T. (2006). «Genome-wide detection and analysis of homologous recombination among sequenced strains of Escherichia coli». Genome Biology 7 (5): R44. PMC 1779527. PMID 16737554. doi:10.1186/gb-2006-7-5-r44.
- Didelot, X; Falush, D (2007). «Inference of bacterial microevolution using multilocus sequence data». Genetics 175 (3): 1251-66. PMC 1840087. PMID 17151252. doi:10.1534/genetics.106.063305.
- Ragan, M. A. (2001). «On surrogate methods for detecting lateral gene transfer». FEMS microbiology letters 201 (2): 187-91. PMID 11470360. doi:10.1111/j.1574-6968.2001.tb10755.x.
- Ragan, M. A.; Harlow, T. J.; Beiko, R. G. (2006). «Do different surrogate methods detect lateral genetic transfer events of different relative ages?». Trends in Microbiology 14 (1): 4-8. PMID 16356716. doi:10.1016/j.tim.2005.11.004.
- Kechris, K. J.; Lin, J. C.; Bickel, P. J.; Glazer, A. N. (2006). «Quantitative exploration of the occurrence of lateral gene transfer by using nitrogen fixation genes as a case study». Proceedings of the National Academy of Sciences 103 (25): 9584-9. PMC 1480450. PMID 16769896. doi:10.1073/pnas.0603534103.
- Nancy A. Moran; Tyler Jarvik (2010). «Lateral Transfer of Genes from Fungi Underlies Carotenoid Production in Aphids». Science 328 (5978): 624-627. Bibcode:2010Sci...328..624M. PMID 20431015. doi:10.1126/science.1187113.
- Danchin, E. G.; Rosso, M. N.; Vieira, P; De Almeida-Engler, J; Coutinho, P. M.; Henrissat, B; Abad, P (2010). «Multiple lateral gene transfers and duplications have promoted plant parasitism ability in nematodes». Proceedings of the National Academy of Sciences 107 (41): 17651-6. PMC 2955110. PMID 20876108. doi:10.1073/pnas.1008486107.
- Fletcher, W; Yang, Z (2009). «INDELible: A flexible simulator of biological sequence evolution». Molecular Biology and Evolution 26 (8): 1879-88. PMC 2712615. PMID 19423664. doi:10.1093/molbev/msp098.
- Sipos, B; Massingham, T; Jordan, G. E.; Goldman, N (2011). «Phylo Sim - Monte Carlo simulation of sequence evolution in the R statistical computing environment». BMC Bioinformatics 12: 104. PMC 3102636. PMID 21504561. doi:10.1186/1471-2105-12-104.
- Galtier, N (2007). «A model of horizontal gene transfer and the bacterial phylogeny problem». Systematic Biology 56 (4): 633-42. PMID 17661231. doi:10.1080/10635150701546231.
- Dalquen, D. A.; Anisimova, M; Gonnet, G. H.; Dessimoz, C (2012). «ALF--a simulation framework for genome evolution». Molecular Biology and Evolution 29 (4): 1115-23. PMC 3341827. PMID 22160766. doi:10.1093/molbev/msr268.
- Cortez, D. Q.; Lazcano, A; Becerra, A (2005). «Comparative analysis of methodologies for the detection of horizontally transferred genes: A reassessment of first-order Markov models». In silico biology 5 (5-6): 581-92. PMID 16610135.
- Tsirigos, A; Rigoutsos, I (2005). «A new computational method for the detection of horizontal gene transfer events». Nucleic Acids Research 33 (3): 922-33. PMC 549390. PMID 15716310. doi:10.1093/nar/gki187.
- Azad, R. K.; Lawrence, J. G. (2005). «Use of artificial genomes in assessing methods for atypical gene detection». PLoS Computational Biology 1 (6): e56. PMC 1282332. PMID 16292353. doi:10.1371/journal.pcbi.0010056.
- Iantorno, S; Gori, K; Goldman, N; Gil, M; Dessimoz, C (2014). Who Watches the Watchmen? An Appraisal of Benchmarks for Multiple Sequence Alignment. «Multiple Sequence Alignment Methods». Methods in molecular biology (Clifton, N.J.). Methods in Molecular Biology 1079. pp. 59-73. ISBN 978-1-62703-645-0. PMID 24170395. doi:10.1007/978-1-62703-646-7_4.
- Ravenhall M, Škunca N, Lassalle F, Dessimoz C (2015). «Inferring horizontal gene transfer». PLOS Computational Biology 11 (5): e1004095. doi:10.1371/journal.pcbi.1004095. Parámetro desconocido
|review=
ignorado (ayuda)