fbpx
Wikipedia

Alineamiento múltiple de secuencias

Un alineamiento múltiple de secuencias (MSA, por sus siglas en inglés) es un alineamiento de tres o más secuencias biológicas, generalmente proteínas, ADN o ARN. En general, se asume que el conjunto de secuencias de consulta que se ingresa como entrada (conjunto problema) tienen una relación evolutiva por la cual comparten un linaje y descienden de un ancestro común. Del MSA resultante, se puede inferir la homología, y puede llevarse a cabo el análisis filogenético para evaluar los orígenes evolutivos compartidos por las secuencias. Las representaciones visuales del alineamiento ilustran mutaciones tales como mutaciones puntuales (un solo cambio de aminoácidos o nucleótidos) que aparecen como diferentes caracteres en una sola columna del alineamiento, y las inserciones o supresiones de fragmentos (o indels), que aparecen como huecos en una o varias de las secuencias en la alineación. El alineamiento múltiple de secuencias a menudo se utiliza para evaluar la conservación de los dominios proteicos, las estructuras terciarias y secundarias, e incluso aminoácidos o nucleótidos individuales.

Alineamiento múltiple de 27 secuencias de la proteína hemaglutinina de la gripe aviaria, coloreado según la conservación de residuos (más oscuro cuanta mayor conservación, arriba) y sus propiedades químicas (abajo).

Los alineamientos múltiples de secuencias también se refieren al proceso de alinearlas como un conjunto de secuencias. Como puede ser difícil alinear a mano tres o más secuencias de longitud biológicamente relevante, y casi siempre consume mucho tiempo, se utilizan algoritmos computacionales para producir y analizar los alineamientos. Los MSA requieren metodologías más sofisticadas que los alineamiento de pares porque son computacionalmente más complejos de producir. La mayor parte de los programas de alineamiento múltiple de secuencias usan métodos heurísticos en lugar de optimización global, porque identificar el alineamiento óptimo entre más de unas pocas secuencias de longitud moderada es prohibitivamente costoso computacionalmente.

Programación dinámica y complejidad computacional

El método más directo para producir alineamientos múltiples de secuencias utiliza la técnica de programación dinámica para identificar la solución de alineamiento globalmente óptima. Para las proteínas, este método supone normalmente dos conjuntos de parámetros: una penalización por gap (o hueco) y una matriz de sustitución que asigna puntuaciones o probabilidades al alineamiento de cada posible par de aminoácidos basadas en la similitud de las propiedades químicas de los mismos o en la probabilidad evolutiva de la mutación. Para secuencias de nucleótidos puede usarse una matriz de sustitución, pero dado que solo hay cuatro caracteres estándar posibles por secuencia, y que los nucleótidos individuales no difieren mucho en su probabilidad de sustitución, los parámetros para secuencias de ADN y ARN consisten, normalmente, en una penalización por gap, una puntuación positiva para coincidencias de caracteres, y una puntuación negativa para desigualdades.

Para n secuencias individuales, el método requiere construir el equivalente n-dimensional de la matriz formada en el alineamiento estándar de pares de secuencias de la programación dinámica. De esta forma, el espacio de búsqueda se incrementa exponencialmente conforme se incrementa n, dependiendo también fuertemente de la longitud de la secuencia. Encontrar de esta forma el óptimo global para n secuencias ha mostrado ser un problema NP-completo.[1][2]​ Los métodos para reducir el espacio de búsqueda efectuando inicialmente alineamientos de pares mediante programación dinámica sobre cada par de secuencias en el conjunto problema, y buscando solo el espacio solución cerca de estos resultados (encontrando de forma efectiva la intersección entre trayectorias locales en los alrededores inmediatos de cada solución óptima de alineamiento por pares) representan la técnica de programación dinámica más eficiente. El método denominado "suma de pares" se ha implementado en el software MSA, pero no es todavía práctico para la mayoría de aplicaciones de alineamiento múltiple de secuencias que requieren el alineamiento simultáneo de docenas (y aun de varios centenares) de secuencias. Los métodos de programación dinámica solo se usan ahora cuando se necesita un alineamiento de muy alta calidad entre un pequeño número de secuencias, así como benchmark estándar en la evaluación de nuevas o mejoradas técnicas heurísticas.

Construcción progresiva del alineamiento

Un método para realizar una búsqueda heurística del alineamiento es la técnica progresiva (también conocido como método jerárquico o de árbol) que construye un alineamiento múltiple final realizando primero una serie de alineamientos de pares sobre secuencias sucesivamente menos emparentadas. Tales métodos comienzan alineando en primer lugar las dos secuencias más cercanamente relacionadas, para seguir alineando sucesivamente la siguiente secuencia del conjunto problema más emparentada con el alineamiento producido en el paso previo. El par inicial "más relacionado", o emparentado, se determina mediante un método eficiente de categorización (o clustering) tal como el neighbour-joining, basado en una simple búsqueda heurística del conjunto problema con una herramienta como FASTA. Las técnicas progresivas, por tanto, construyen automáticamente tanto un árbol filogenético como un alineamiento.

Una limitación importante de los métodos progresivos es su fuerte dependencia de la asignación inicial del parentesco entre las secuencias, así como de la calidad del alineamiento inicial. De este modo, los métodos son sensibles también a la distribución de las secuencias en el conjunto problema: el rendimiento mejora cuando la cuantificación de la estructura del parentesco entre las secuencias problema compone un gradiente relativamente suave en lugar de encontrarse en categorías distantes. También se degrada significativamente el rendimiento cuando todas las secuencias del conjunto están bastante lejanamente relacionadas, ya que entonces son más probables las imprecisiones en el alineamiento inicial. Los métodos progresivos más modernos modifican su función de puntuación con una función de ponderación secundaria que asigna individualmente factores de escala a miembros del conjunto problema de forma no lineal, basada en su distancia filogenética a sus vecinos más próximos. Una elección juiciosa de los pesos puede ayudar en la evaluación de las relaciones y mitigar los efectos de alineamientos iniciales relativamente pobres en instantes tempranos de la progresión.

 
Primeras noventa posiciones del alineamiento múltiple de secuencias de la proteína ribosómica P0 (L10E) de varios organismos. Generado con ClustalW.

Los métodos de alineamiento progresivo son lo bastante eficientes como para implementarlos a gran escala para muchas secuencias, y se ejecutan a menudo en servidores web públicamente accesibles, por lo que los usuarios no necesitan instalar localmente las aplicaciones de interés. Un método de alineamiento progresivo muy popular es la familia Clustal,[3]​ especialmente la variante ponderada ClustalW,[4]​ cuyo acceso se proporciona en un buen número de portales web, incluyendo , y EMBNet el 1 de mayo de 2011 en Wayback Machine.. Diferentes portales o implementaciones pueden variar la interfaz con el usuario y hacer accesibles a éste diferentes parámetros. Se usa Clustal extensivamente en la construcción de árboles filogenéticos y como input para la predicción de la estructura de proteínas mediante modelado por homología.

Otro método común de alineamiento progresivo denominado T-Coffee[5]​ es más lento que Clustal y sus derivados, pero generalmente produce alineamientos más precisos para conjuntos de secuencias lejanamente emparentadas. T-Coffee calcula alineamientos de pares combinando el alineamiento directo del par con alineamientos indirectos que alinean cada secuencia del par con una tercera. Usa la salida de Clustal así como otro programa de alineamiento local, LALIGN, que encuentra regiones múltiples de alineamiento local entre dos secuencias. Los alineamientos y el árbol filogenético resultantes se usan como guía para producir nuevos y más precisos factores de ponderación.

Puesto que los métodos progresivos son heurísticos y, por lo tanto, no garantizan la convergencia a un óptimo global, la calidad del alineamiento puede ser difícil de evaluar, y su verdadera significación biológica puede ser oscura. Un muy reciente método semiprogresivo que mejora la calidad del alineamiento y que no utiliza una heurística "con pérdidas" a la vez que se ejecuta en tiempo polinómico[6]​ se ha implementado en el programa PSAlign el 2 de agosto de 2020 en Wayback Machine..

Métodos iterativos

Un conjunto de métodos para producir alineamientos múltiples de secuencias que reducen los errores inherentes en los métodos progresivos son los clasificados como “iterativos”, ya que trabajan de forma similar a los métodos progresivos, pero realinean repetidamente las secuencias iniciales además de añadir nuevas secuencias al MSA en crecimiento. Una razón por la que los métodos progresivos son tan fuertemente dependientes de la alta calidad del alineamiento inicial es el hecho de que estos alineamientos se incorporan siempre al resultado final; esto es, una vez que una secuencia ha sido alineada dentro del MSA, su alineamiento no vuelve a ser considerado. Este enfoque mejora la eficiencia a costa de la precisión. En contraste, los métodos iterativos pueden volver a alineamientos de pares previamente calculados (o sub-MSAs) incorporando subconjuntos de la secuencia problema como un medio de optimización de una función objetivo general, tal como encontrar una puntuación de alineamiento de alta calidad.

Se ha implementado una variedad de métodos de iteración sutilmente diferentes, que han sido dispuestos en diferentes paquetes de software. Existen revisiones y comparaciones útiles, pero evitan, generalmente, elegir la "mejor" técnica.[7]

El paquete utiliza un algoritmo hill climbing (ascenso a colina, en alguna literatura) para optimizar su puntuación de alineamiento del MSA[8]​ y corregir iterativamente tanto las ponderaciones del alineamiento como las regiones localmente divergentes (con huecos) del alineamiento múltiple de secuencias en crecimiento.[9]​ PRRP actúa mejor cuando refina un alineamiento previamente construido por un método más rápido.[9]

Otro programa iterativo, DIALIGN, toma una inusual aproximación al concentrarse estrechamente sobre alineamientos locales entre subsegmentos o secuencias motivo sin introducir una penalización por hueco.[10]​ Se consigue el alineamiento de motivos individuales con una representación matricial similar a una gráfica de matriz de puntos en un alineamientos de pares. Un método alternativo que utiliza alineamientos locales rápidos como puntos de referencia o "semillas" para un procedimiento más lento de alineamiento global se implementa en la suite CHAOS/DIALIGN.[11]

Un tercer método popular basado en la iteración, llamado MUSCLE (de multiple sequence alignment by log-expectation, o alineamiento múltiple de secuencias por log-esperanza; este último término corresponde a una función de puntuación no común basada en la esperanza matemática, y resultado de modificar la función log-average o log-promedio), mejora en relación a los métodos progresivos con una medida más precisa de la distancia para valorar el parentesco de dos secuencias.[12]​ La medición de la distancia se actualiza entre las etapas de la iteración (sin embargo, en su forma original, MUSCLE contenía solo dos o tres iteraciones, dependiendo de si se activaba o no el refinamiento).

Modelos de Márkov ocultos

Los modelos de Márkov ocultos (o HMM, del inglés Hidden Márkov Models) son modelos probabilísticos que asignan probabilidades a todas las posibles combinaciones de huecos, coincidencias y diferencias para determinar el más probable alineamiento múltiple de secuencias o conjunto de posibles MSA. Los HMM pueden producir una salida única con la mayor puntuación, pero también pueden generar una familia de alineamientos posibles que puedan ser evaluados en su significación biológica. Dado que los modelos ocultos de Márkov son probabilísticos, no producen la misma solución cada vez que se ejecutan sobre el mismo conjunto de datos; de esta forma, no pueden garantizar converger al alineamiento óptimo. Los HMM pueden producir alineamientos tanto locales como globales. Aunque los métodos basados en estos modelos han sido desarrollados recientemente, ofrecen mejoras significativas en la velocidad computacional, especialmente para secuencias que contienen regiones solapadas.[9]

Los métodos típicos basados en HMM trabajan representando un MSA bajo la forma de grafo dirigido acíclico, conocido como un grafo de orden parcial, y que consiste en una serie de nodos representando posibles entradas en las columnas de un alineamiento múltiple de secuencias. En esta representación, una columna que esté absolutamente conservada (esto es, que todas las secuencias en el MSA compartan un carácter determinado en esa posición en particular) se codifica como un único nodo con tantas conexiones salientes como posibles caracteres haya en la siguiente columna del alineamiento. En los términos de un típico modelo oculto de Márkov, los estados observados son las columnas individuales del alineamiento, y los estados "ocultos" representan la supuesta secuencia ancestral desde la cual las secuencias del conjunto problema se presume han descendido. Una variante de búsqueda eficiente del método de programación dinámica, conocida como algoritmo de Viterbi, se usa generalmente para alinear sucesivamente el MSA en crecimiento con la siguiente secuencia del conjunto problema para generar un nuevo MSA.[13]​ Esto es diferente de los métodos de alineamiento progresivo puesto que el alineamiento de las secuencias previas se actualiza en cada adición de una nueva secuencia. Sin embargo, como en los métodos progresivos, esta técnica puede verse influenciada por el orden en el cual las secuencias del conjunto problema son integradas al alineamiento, especialmente cuando las secuencias están lejanamente relacionadas.[9]

Pueden encontrarse bastantes programas de software en los cuales se han implementado variantes de los métodos basados en HMM, y que se caracterizan por su escalabilidad y eficiencia, aunque el uso correcto de un método HMM es más complejo que el de los métodos progresivos más comunes. El más sencillo es POA (Partial-Order Alignment, alineamiento de orden parcial).[14]​ Un método similar, pero más general, se implementa en el paquete (Sequence Alignment and Modeling System, sistema de alineamiento y modelado de secuencia).[15]​ SAM se ha usado como una fuente de alineamientos para predicción de estructura de proteínas al participar en el experimento de predicción de estructura CASP (de Critical Assessment of Techniques for Protein Structure Prediction, valoración crítica de técnicas para predicción de la estructura de proteínas), y para desarrollar una base de datos de proteínas predichas en la especie de levadura S. cerevisiae. Los métodos HMM también pueden usarse para búsquedas en bases de datos con .[16]

Algoritmos genéticos y simulated annealing

En el intento de producir MSA de calidad de forma más eficiente también se han usado algunas técnicas de optimización estándar en ciencias de la computación inspiradas por procesos físicos (pero que no los reproducen directamente). Una de tales técnicas, los algoritmos genéticos, se han utilizado en la producción de MSA intentando simular, en líneas generales, el hipotético proceso evolutivo que da lugar a la divergencia en el conjunto problema. Este método trabaja rompiendo en fragmentos una serie de posibles MSA y reordenando repetidamente estos fragmentos con la introducción de huecos en diferentes posiciones. Una función objetivo general se optimiza durante la simulación, normalmente una función de maximización "suma de pares" introducida en los métodos de MSA de programación dinámica. Se ha implementado una técnica para secuencias de proteínas en el programa de software SAGA (Sequence Alignment by Genetic Algorithm, alineamiento de secuencias por algoritmo genético),[17]​ denominándose RAGA su equivalente para ARN.[18]

Mediante la técnica de simulated annealing (tienen relativamente poco éxito en la literatura en castellano traducciones como "temple" o "recocido" simulado), un alineamiento múltiple de secuencias existente, producido por otro método, se refina por una serie de reordenamientos diseñados para encontrar regiones más óptimas del espacio de alineamiento que la ya ocupada por el MSA previo. Al igual que en el método de algoritmos genéticos, en simulated annealing se maximiza una función objetivo como la suma de pares. Este método utiliza un "factor de temperatura" virtual que determina el ritmo al cual los reordenamientos avanzan, así como la probabilidad de cada uno de ellos. Un uso típico alterna periodos de altos ritmos de reorganización y relativamente baja probabilidad (para explorar regiones más distantes del espacio de alineamiento), con periodos de bajos ritmos y más altas probabilidades para explorar a fondo mínimos locales cerca de las regiones recientemente “colonizadas”. Este enfoque ha sido implementado en el programa MSASA (Multiple Sequence Alignment by Simulated Annealing, alineamiento múltiple de secuencias por simulated annealing).[19]

Descubrimiento de motivos

 
Alineamiento de las caspasas de Drosophila coloreado por motivos identificados por MEME. Cuando las posiciones de los motivos y los alineamientos de las secuencias se generan independientemente, a menudo se correlacionan, pero no perfectamente, como en este ejemplo.

El descubrimiento de motivos, también conocido como análisis de perfiles, es un método de localización de motivos de secuencia en MSA globales, y que supone tanto un medio para producir mejores alineamientos múltiples de secuencias como para producir una matriz de puntuación para ser usada en la búsqueda de motivos similares en otras secuencias. Se han desarrollado varios métodos para aislar los motivos, pero todos están basados en la identificación de patrones cortos altamente conservados dentro de un alineamiento mayor, y en la construcción de una matriz, similar a una de sustitución, que refleje la composición de aminoácidos o nucleótidos de cada posición en el supuesto motivo. Los alineamientos se pueden refinar entonces usando estas matrices. En el análisis estándar de perfiles, la matriz incluye entradas para cada posible carácter, así como entradas para huecos.[9]​ Alternativamente, los algoritmos estadísticos de descubrimiento de patrones pueden identificar motivos como precursores de MSA, en lugar de como derivados. En muchos casos, cuando el conjunto de secuencias problema contiene solo un pequeño número de secuencias, o contiene solo secuencias altamente relacionadas, se añaden seudocontadores para normalizar la distribución reflejada en la matriz de puntuación. Esto corrige, en particular, entradas en la matriz con probabilidad cero mediante valores pequeños, pero no nulos.

El análisis de bloques es un método de descubrimiento de motivos que los restringe a regiones sin huecos en el alineamiento. Los bloques se pueden generar desde un MSA o pueden ser extraídos de secuencias sin alinear usando un conjunto precalculado de motivos previamente generado desde familias conocidas de genes.[20]​ La puntuación de los bloques depende generalmente del espaciado de los caracteres con altas frecuencias, en lugar de recaer sobre el cálculo de una matriz de sustitución explícita. El servidor proporciona un método interactivo para localizar tales motivos en secuencias sin alinear.

Se han implementado comparadores de patrones utilizando tanto el algoritmo expectación-maximización como el muestreo de Gibbs. Una de las más comunes herramientas de descubrimiento de motivos, denominada MEME, utiliza expectación-maximización y modelos ocultos de Márkov para generar motivos que luego se usan como herramientas de búsqueda por su compañero MAST en la suite combinada .[21][22]

Referencias

  1. Wang L, Jiang T. (1994) On the complexity of multiple sequence alignment. J Comput Biol 1:337-348.
  2. Just W. (2001). Computational complexity of multiple sequence alignment with SP-score. J Comput Biol 8(6):615-23.
  3. Higgins DG, Sharp PM. (1988). CLUSTAL: a package for performing multiple sequence alignment on a microcomputer. Gene 73(1):237-44.
  4. Thompson JD, Higgins DG, Gibson TJ. (1994). CLUSTAL W: improving the sensitivity of progressive multiple sequence alignment through sequence weighting, positions-specific gap penalties and weight matrix choice. Nucleic Acids Res 22:4673-4680.
  5. Notredame C, Higgins DG, Heringa J. (2000). T-Coffee: A novel method for fast and accurate multiple sequence alignment. J Mol Biol 302(1):205-17.
  6. Sze SH, Lu Y, Yang Q. (2006). A polynomial time solvable formulation of multiple sequence alignment. J Comput Biol 13(2):309-19.
  7. Hirosawa M, Totoki Y, Hoshida M, Ishikawa M. (1995). Comprehensive study on iterative algorithms of multiple sequence alignment. Comput Appl Biosci 11:13-18.
  8. Gotoh O. (1996). Significant improvement in accuracy of multiple protein sequence alignments by iterative refinement as assessed by reference to structural alignments. J Mol Biol 264(4):823-38.
  9. Mount DM. (2004). Bioinformatics: Sequence and Genome Analysis 2nd ed. Cold Spring Harbor Laboratory Press: Cold Spring Harbor, NY.
  10. Brudno M, Chapman M, Göttgens B, Batzoglou S, Morgenstern B. (2003) Fast and sensitive multiple alignment of large genomic sequences. BMC Bioinformatics 4:66.
  11. Brudno M, Chapman M, Göttgens B, Batzoglou S, Morgenstern B. (2003) Fast and sensitive multiple alignment of large genomic sequences BMC Bioinformatics 4:66.
  12. Edgar RC. (2004), MUSCLE: multiple sequence alignment with high accuracy and high throughput. Nucleic Acids Research 32(5), 1792-97.
  13. Hughey R, Krogh A. (1996). Hidden Márkov models for sequence analysis: extension and analysis of the basic method. CABIOS 12(2):95-107.
  14. Grasso C, Lee C. (2004). Combining partial order alignment and progressive multiple sequence alignment increases alignment speed and scalability to very large alignment problems. Bioinformatics 20(10):1546-56.
  15. Hughey R, Krogh A. SAM: Sequence alignment and modeling software system. Technical Report UCSC-CRL-96-22, University of California, Santa Cruz, CA, September 1996.
  16. Durbin R, Eddy S, Krogh A, Mitchison G. (1998). Biological sequence analysis: probabilistic models of proteins and nucleic acids, Cambridge University Press, 1998.
  17. Notredame C, Higgins DG. (1996). SAGA: sequence alignment by genetic algorithm. Nucleic Acids Res 24(8):1515-24.
  18. Notredame C, O'Brien EA, Higgins DG. (1997). RAGA: RNA sequence alignment by genetic algorithm. Nucleic Acids Res 25(22):4570-80.
  19. Kim J, Pramanik S, Chung MJ. (1994). Multiple sequence alignment using simulated annealing. Comput Appl Biosci 10(4):419-26.
  20. Henikoff S, Henikoff JG. (1991). Automated assembly of protein blocks for database searching. Nucleic Acids Res 19:6565-72.
  21. Bailey TL, Elkan C.(1994). Fitting a mixture model by expectation maximization to discover motifs in biopolymers. Proceedings of the Second International Conference on Intelligent Systems for Molecular Biology, pp. 28-36, AAAI Press, Menlo Park, California.
  22. Bailey TL, Gribskov M. (1998). Combining evidence using p-values: application to sequence homology searches. Bioinformatics14:48-54.

Véase también

Artículos de consulta

  • Duret, L.; S. Abdeddaim (2000). «Multiple alignment for structural functional or phylogenetic analyses of homologous sequences». En D. Higgins and W. Taylor, ed. Bioinformatics sequence structure and databanks. Oxford: Oxford University Press. 
  • Notredame, C. (2002). «Recent progresses in multiple sequence alignment: a survey». Pharmacogenomics 31 (1): 131 -- 144. 
  • Thompson, J. D.; F. Plewniak and O. Poch (1999). «A comprehensive comparison of multiple sequence alignment programs». Nucleic Acids Research 27 (13): 12682--2690. 
  • Wallace, I.M.; Blackshields G and Higgins DG. (2005). «Multiple sequence alignments». Curr Opin Struct Biol 15 (3): 261-6. 
  • Notredame, C (2007). «Recent evolutions of multiple sequence alignment algorithms». PLOS Computational Biology 8 (3): e123. 

Enlaces externos

  • Herramientas de alineamiento de secuencias ExPASy el 13 de abril de 2010 en Wayback Machine.
  • , de la Virtual School of Natural Sciences
  • , de Pôle Bioinformatique Lyonnais
  • Apuntes sobre alineamientos múltiples de secuencias, del Max Planck Institute for Molecular Genetics
  • Punto de entrada a los principales servidores T-Coffee
  •   Datos: Q1377767

alineamiento, múltiple, secuencias, alineamiento, múltiple, secuencias, siglas, inglés, alineamiento, tres, más, secuencias, biológicas, generalmente, proteínas, general, asume, conjunto, secuencias, consulta, ingresa, como, entrada, conjunto, problema, tienen. Un alineamiento multiple de secuencias MSA por sus siglas en ingles es un alineamiento de tres o mas secuencias biologicas generalmente proteinas ADN o ARN En general se asume que el conjunto de secuencias de consulta que se ingresa como entrada conjunto problema tienen una relacion evolutiva por la cual comparten un linaje y descienden de un ancestro comun Del MSA resultante se puede inferir la homologia y puede llevarse a cabo el analisis filogenetico para evaluar los origenes evolutivos compartidos por las secuencias Las representaciones visuales del alineamiento ilustran mutaciones tales como mutaciones puntuales un solo cambio de aminoacidos o nucleotidos que aparecen como diferentes caracteres en una sola columna del alineamiento y las inserciones o supresiones de fragmentos o indels que aparecen como huecos en una o varias de las secuencias en la alineacion El alineamiento multiple de secuencias a menudo se utiliza para evaluar la conservacion de los dominios proteicos las estructuras terciarias y secundarias e incluso aminoacidos o nucleotidos individuales Alineamiento multiple de 27 secuencias de la proteina hemaglutinina de la gripe aviaria coloreado segun la conservacion de residuos mas oscuro cuanta mayor conservacion arriba y sus propiedades quimicas abajo Los alineamientos multiples de secuencias tambien se refieren al proceso de alinearlas como un conjunto de secuencias Como puede ser dificil alinear a mano tres o mas secuencias de longitud biologicamente relevante y casi siempre consume mucho tiempo se utilizan algoritmos computacionales para producir y analizar los alineamientos Los MSA requieren metodologias mas sofisticadas que los alineamiento de pares porque son computacionalmente mas complejos de producir La mayor parte de los programas de alineamiento multiple de secuencias usan metodos heuristicos en lugar de optimizacion global porque identificar el alineamiento optimo entre mas de unas pocas secuencias de longitud moderada es prohibitivamente costoso computacionalmente Indice 1 Programacion dinamica y complejidad computacional 2 Construccion progresiva del alineamiento 3 Metodos iterativos 4 Modelos de Markov ocultos 5 Algoritmos geneticos y simulated annealing 6 Descubrimiento de motivos 7 Referencias 8 Vease tambien 8 1 Articulos de consulta 9 Enlaces externosProgramacion dinamica y complejidad computacional EditarEl metodo mas directo para producir alineamientos multiples de secuencias utiliza la tecnica de programacion dinamica para identificar la solucion de alineamiento globalmente optima Para las proteinas este metodo supone normalmente dos conjuntos de parametros una penalizacion por gap o hueco y una matriz de sustitucion que asigna puntuaciones o probabilidades al alineamiento de cada posible par de aminoacidos basadas en la similitud de las propiedades quimicas de los mismos o en la probabilidad evolutiva de la mutacion Para secuencias de nucleotidos puede usarse una matriz de sustitucion pero dado que solo hay cuatro caracteres estandar posibles por secuencia y que los nucleotidos individuales no difieren mucho en su probabilidad de sustitucion los parametros para secuencias de ADN y ARN consisten normalmente en una penalizacion por gap una puntuacion positiva para coincidencias de caracteres y una puntuacion negativa para desigualdades Para n secuencias individuales el metodo requiere construir el equivalente n dimensional de la matriz formada en el alineamiento estandar de pares de secuencias de la programacion dinamica De esta forma el espacio de busqueda se incrementa exponencialmente conforme se incrementa n dependiendo tambien fuertemente de la longitud de la secuencia Encontrar de esta forma el optimo global para n secuencias ha mostrado ser un problema NP completo 1 2 Los metodos para reducir el espacio de busqueda efectuando inicialmente alineamientos de pares mediante programacion dinamica sobre cada par de secuencias en el conjunto problema y buscando solo el espacio solucion cerca de estos resultados encontrando de forma efectiva la interseccion entre trayectorias locales en los alrededores inmediatos de cada solucion optima de alineamiento por pares representan la tecnica de programacion dinamica mas eficiente El metodo denominado suma de pares se ha implementado en el software MSA pero no es todavia practico para la mayoria de aplicaciones de alineamiento multiple de secuencias que requieren el alineamiento simultaneo de docenas y aun de varios centenares de secuencias Los metodos de programacion dinamica solo se usan ahora cuando se necesita un alineamiento de muy alta calidad entre un pequeno numero de secuencias asi como benchmark estandar en la evaluacion de nuevas o mejoradas tecnicas heuristicas Construccion progresiva del alineamiento EditarUn metodo para realizar una busqueda heuristica del alineamiento es la tecnica progresiva tambien conocido como metodo jerarquico o de arbol que construye un alineamiento multiple final realizando primero una serie de alineamientos de pares sobre secuencias sucesivamente menos emparentadas Tales metodos comienzan alineando en primer lugar las dos secuencias mas cercanamente relacionadas para seguir alineando sucesivamente la siguiente secuencia del conjunto problema mas emparentada con el alineamiento producido en el paso previo El par inicial mas relacionado o emparentado se determina mediante un metodo eficiente de categorizacion o clustering tal como el neighbour joining basado en una simple busqueda heuristica del conjunto problema con una herramienta como FASTA Las tecnicas progresivas por tanto construyen automaticamente tanto un arbol filogenetico como un alineamiento Una limitacion importante de los metodos progresivos es su fuerte dependencia de la asignacion inicial del parentesco entre las secuencias asi como de la calidad del alineamiento inicial De este modo los metodos son sensibles tambien a la distribucion de las secuencias en el conjunto problema el rendimiento mejora cuando la cuantificacion de la estructura del parentesco entre las secuencias problema compone un gradiente relativamente suave en lugar de encontrarse en categorias distantes Tambien se degrada significativamente el rendimiento cuando todas las secuencias del conjunto estan bastante lejanamente relacionadas ya que entonces son mas probables las imprecisiones en el alineamiento inicial Los metodos progresivos mas modernos modifican su funcion de puntuacion con una funcion de ponderacion secundaria que asigna individualmente factores de escala a miembros del conjunto problema de forma no lineal basada en su distancia filogenetica a sus vecinos mas proximos Una eleccion juiciosa de los pesos puede ayudar en la evaluacion de las relaciones y mitigar los efectos de alineamientos iniciales relativamente pobres en instantes tempranos de la progresion Primeras noventa posiciones del alineamiento multiple de secuencias de la proteina ribosomica P0 L10E de varios organismos Generado con ClustalW Los metodos de alineamiento progresivo son lo bastante eficientes como para implementarlos a gran escala para muchas secuencias y se ejecutan a menudo en servidores web publicamente accesibles por lo que los usuarios no necesitan instalar localmente las aplicaciones de interes Un metodo de alineamiento progresivo muy popular es la familia Clustal 3 especialmente la variante ponderada ClustalW 4 cuyo acceso se proporciona en un buen numero de portales web incluyendo GenomeNet EBI y EMBNet Archivado el 1 de mayo de 2011 en Wayback Machine Diferentes portales o implementaciones pueden variar la interfaz con el usuario y hacer accesibles a este diferentes parametros Se usa Clustal extensivamente en la construccion de arboles filogeneticos y como input para la prediccion de la estructura de proteinas mediante modelado por homologia Otro metodo comun de alineamiento progresivo denominado T Coffee 5 es mas lento que Clustal y sus derivados pero generalmente produce alineamientos mas precisos para conjuntos de secuencias lejanamente emparentadas T Coffee calcula alineamientos de pares combinando el alineamiento directo del par con alineamientos indirectos que alinean cada secuencia del par con una tercera Usa la salida de Clustal asi como otro programa de alineamiento local LALIGN que encuentra regiones multiples de alineamiento local entre dos secuencias Los alineamientos y el arbol filogenetico resultantes se usan como guia para producir nuevos y mas precisos factores de ponderacion Puesto que los metodos progresivos son heuristicos y por lo tanto no garantizan la convergencia a un optimo global la calidad del alineamiento puede ser dificil de evaluar y su verdadera significacion biologica puede ser oscura Un muy reciente metodo semiprogresivo que mejora la calidad del alineamiento y que no utiliza una heuristica con perdidas a la vez que se ejecuta en tiempo polinomico 6 se ha implementado en el programa PSAlign Archivado el 2 de agosto de 2020 en Wayback Machine Metodos iterativos EditarUn conjunto de metodos para producir alineamientos multiples de secuencias que reducen los errores inherentes en los metodos progresivos son los clasificados como iterativos ya que trabajan de forma similar a los metodos progresivos pero realinean repetidamente las secuencias iniciales ademas de anadir nuevas secuencias al MSA en crecimiento Una razon por la que los metodos progresivos son tan fuertemente dependientes de la alta calidad del alineamiento inicial es el hecho de que estos alineamientos se incorporan siempre al resultado final esto es una vez que una secuencia ha sido alineada dentro del MSA su alineamiento no vuelve a ser considerado Este enfoque mejora la eficiencia a costa de la precision En contraste los metodos iterativos pueden volver a alineamientos de pares previamente calculados o sub MSAs incorporando subconjuntos de la secuencia problema como un medio de optimizacion de una funcion objetivo general tal como encontrar una puntuacion de alineamiento de alta calidad Se ha implementado una variedad de metodos de iteracion sutilmente diferentes que han sido dispuestos en diferentes paquetes de software Existen revisiones y comparaciones utiles pero evitan generalmente elegir la mejor tecnica 7 El paquete PRRN PRRP utiliza un algoritmo hill climbing ascenso a colina en alguna literatura para optimizar su puntuacion de alineamiento del MSA 8 y corregir iterativamente tanto las ponderaciones del alineamiento como las regiones localmente divergentes con huecos del alineamiento multiple de secuencias en crecimiento 9 PRRP actua mejor cuando refina un alineamiento previamente construido por un metodo mas rapido 9 Otro programa iterativo DIALIGN toma una inusual aproximacion al concentrarse estrechamente sobre alineamientos locales entre subsegmentos o secuencias motivo sin introducir una penalizacion por hueco 10 Se consigue el alineamiento de motivos individuales con una representacion matricial similar a una grafica de matriz de puntos en un alineamientos de pares Un metodo alternativo que utiliza alineamientos locales rapidos como puntos de referencia o semillas para un procedimiento mas lento de alineamiento global se implementa en la suite CHAOS DIALIGN 11 Un tercer metodo popular basado en la iteracion llamado MUSCLE de multiple sequence alignment by log expectation o alineamiento multiple de secuencias por log esperanza este ultimo termino corresponde a una funcion de puntuacion no comun basada en la esperanza matematica y resultado de modificar la funcion log average o log promedio mejora en relacion a los metodos progresivos con una medida mas precisa de la distancia para valorar el parentesco de dos secuencias 12 La medicion de la distancia se actualiza entre las etapas de la iteracion sin embargo en su forma original MUSCLE contenia solo dos o tres iteraciones dependiendo de si se activaba o no el refinamiento Modelos de Markov ocultos EditarLos modelos de Markov ocultos o HMM del ingles Hidden Markov Models son modelos probabilisticos que asignan probabilidades a todas las posibles combinaciones de huecos coincidencias y diferencias para determinar el mas probable alineamiento multiple de secuencias o conjunto de posibles MSA Los HMM pueden producir una salida unica con la mayor puntuacion pero tambien pueden generar una familia de alineamientos posibles que puedan ser evaluados en su significacion biologica Dado que los modelos ocultos de Markov son probabilisticos no producen la misma solucion cada vez que se ejecutan sobre el mismo conjunto de datos de esta forma no pueden garantizar converger al alineamiento optimo Los HMM pueden producir alineamientos tanto locales como globales Aunque los metodos basados en estos modelos han sido desarrollados recientemente ofrecen mejoras significativas en la velocidad computacional especialmente para secuencias que contienen regiones solapadas 9 Los metodos tipicos basados en HMM trabajan representando un MSA bajo la forma de grafo dirigido aciclico conocido como un grafo de orden parcial y que consiste en una serie de nodos representando posibles entradas en las columnas de un alineamiento multiple de secuencias En esta representacion una columna que este absolutamente conservada esto es que todas las secuencias en el MSA compartan un caracter determinado en esa posicion en particular se codifica como un unico nodo con tantas conexiones salientes como posibles caracteres haya en la siguiente columna del alineamiento En los terminos de un tipico modelo oculto de Markov los estados observados son las columnas individuales del alineamiento y los estados ocultos representan la supuesta secuencia ancestral desde la cual las secuencias del conjunto problema se presume han descendido Una variante de busqueda eficiente del metodo de programacion dinamica conocida como algoritmo de Viterbi se usa generalmente para alinear sucesivamente el MSA en crecimiento con la siguiente secuencia del conjunto problema para generar un nuevo MSA 13 Esto es diferente de los metodos de alineamiento progresivo puesto que el alineamiento de las secuencias previas se actualiza en cada adicion de una nueva secuencia Sin embargo como en los metodos progresivos esta tecnica puede verse influenciada por el orden en el cual las secuencias del conjunto problema son integradas al alineamiento especialmente cuando las secuencias estan lejanamente relacionadas 9 Pueden encontrarse bastantes programas de software en los cuales se han implementado variantes de los metodos basados en HMM y que se caracterizan por su escalabilidad y eficiencia aunque el uso correcto de un metodo HMM es mas complejo que el de los metodos progresivos mas comunes El mas sencillo es POA Partial Order Alignment alineamiento de orden parcial 14 Un metodo similar pero mas general se implementa en el paquete SAM Sequence Alignment and Modeling System sistema de alineamiento y modelado de secuencia 15 SAM se ha usado como una fuente de alineamientos para prediccion de estructura de proteinas al participar en el experimento de prediccion de estructura CASP de Critical Assessment of Techniques for Protein Structure Prediction valoracion critica de tecnicas para prediccion de la estructura de proteinas y para desarrollar una base de datos de proteinas predichas en la especie de levadura S cerevisiae Los metodos HMM tambien pueden usarse para busquedas en bases de datos con HMMer 16 Algoritmos geneticos y simulated annealing EditarEn el intento de producir MSA de calidad de forma mas eficiente tambien se han usado algunas tecnicas de optimizacion estandar en ciencias de la computacion inspiradas por procesos fisicos pero que no los reproducen directamente Una de tales tecnicas los algoritmos geneticos se han utilizado en la produccion de MSA intentando simular en lineas generales el hipotetico proceso evolutivo que da lugar a la divergencia en el conjunto problema Este metodo trabaja rompiendo en fragmentos una serie de posibles MSA y reordenando repetidamente estos fragmentos con la introduccion de huecos en diferentes posiciones Una funcion objetivo general se optimiza durante la simulacion normalmente una funcion de maximizacion suma de pares introducida en los metodos de MSA de programacion dinamica Se ha implementado una tecnica para secuencias de proteinas en el programa de software SAGA Sequence Alignment by Genetic Algorithm alineamiento de secuencias por algoritmo genetico 17 denominandose RAGA su equivalente para ARN 18 Mediante la tecnica de simulated annealing tienen relativamente poco exito en la literatura en castellano traducciones como temple o recocido simulado un alineamiento multiple de secuencias existente producido por otro metodo se refina por una serie de reordenamientos disenados para encontrar regiones mas optimas del espacio de alineamiento que la ya ocupada por el MSA previo Al igual que en el metodo de algoritmos geneticos en simulated annealing se maximiza una funcion objetivo como la suma de pares Este metodo utiliza un factor de temperatura virtual que determina el ritmo al cual los reordenamientos avanzan asi como la probabilidad de cada uno de ellos Un uso tipico alterna periodos de altos ritmos de reorganizacion y relativamente baja probabilidad para explorar regiones mas distantes del espacio de alineamiento con periodos de bajos ritmos y mas altas probabilidades para explorar a fondo minimos locales cerca de las regiones recientemente colonizadas Este enfoque ha sido implementado en el programa MSASA Multiple Sequence Alignment by Simulated Annealing alineamiento multiple de secuencias por simulated annealing 19 Descubrimiento de motivos Editar Alineamiento de las caspasas de Drosophila coloreado por motivos identificados por MEME Cuando las posiciones de los motivos y los alineamientos de las secuencias se generan independientemente a menudo se correlacionan pero no perfectamente como en este ejemplo El descubrimiento de motivos tambien conocido como analisis de perfiles es un metodo de localizacion de motivos de secuencia en MSA globales y que supone tanto un medio para producir mejores alineamientos multiples de secuencias como para producir una matriz de puntuacion para ser usada en la busqueda de motivos similares en otras secuencias Se han desarrollado varios metodos para aislar los motivos pero todos estan basados en la identificacion de patrones cortos altamente conservados dentro de un alineamiento mayor y en la construccion de una matriz similar a una de sustitucion que refleje la composicion de aminoacidos o nucleotidos de cada posicion en el supuesto motivo Los alineamientos se pueden refinar entonces usando estas matrices En el analisis estandar de perfiles la matriz incluye entradas para cada posible caracter asi como entradas para huecos 9 Alternativamente los algoritmos estadisticos de descubrimiento de patrones pueden identificar motivos como precursores de MSA en lugar de como derivados En muchos casos cuando el conjunto de secuencias problema contiene solo un pequeno numero de secuencias o contiene solo secuencias altamente relacionadas se anaden seudocontadores para normalizar la distribucion reflejada en la matriz de puntuacion Esto corrige en particular entradas en la matriz con probabilidad cero mediante valores pequenos pero no nulos El analisis de bloques es un metodo de descubrimiento de motivos que los restringe a regiones sin huecos en el alineamiento Los bloques se pueden generar desde un MSA o pueden ser extraidos de secuencias sin alinear usando un conjunto precalculado de motivos previamente generado desde familias conocidas de genes 20 La puntuacion de los bloques depende generalmente del espaciado de los caracteres con altas frecuencias en lugar de recaer sobre el calculo de una matriz de sustitucion explicita El servidor BLOCKS proporciona un metodo interactivo para localizar tales motivos en secuencias sin alinear Se han implementado comparadores de patrones utilizando tanto el algoritmo expectacion maximizacion como el muestreo de Gibbs Una de las mas comunes herramientas de descubrimiento de motivos denominada MEME utiliza expectacion maximizacion y modelos ocultos de Markov para generar motivos que luego se usan como herramientas de busqueda por su companero MAST en la suite combinada MEME MAST 21 22 Referencias Editar Wang L Jiang T 1994 On the complexity of multiple sequence alignment J Comput Biol 1 337 348 Just W 2001 Computational complexity of multiple sequence alignment with SP score J Comput Biol 8 6 615 23 Higgins DG Sharp PM 1988 CLUSTAL a package for performing multiple sequence alignment on a microcomputer Gene 73 1 237 44 Thompson JD Higgins DG Gibson TJ 1994 CLUSTAL W improving the sensitivity of progressive multiple sequence alignment through sequence weighting positions specific gap penalties and weight matrix choice Nucleic Acids Res 22 4673 4680 Notredame C Higgins DG Heringa J 2000 T Coffee A novel method for fast and accurate multiple sequence alignment J Mol Biol 302 1 205 17 Sze SH Lu Y Yang Q 2006 A polynomial time solvable formulation of multiple sequence alignment J Comput Biol 13 2 309 19 Hirosawa M Totoki Y Hoshida M Ishikawa M 1995 Comprehensive study on iterative algorithms of multiple sequence alignment Comput Appl Biosci 11 13 18 Gotoh O 1996 Significant improvement in accuracy of multiple protein sequence alignments by iterative refinement as assessed by reference to structural alignments J Mol Biol 264 4 823 38 a b c d e Mount DM 2004 Bioinformatics Sequence and Genome Analysis 2nd ed Cold Spring Harbor Laboratory Press Cold Spring Harbor NY Brudno M Chapman M Gottgens B Batzoglou S Morgenstern B 2003 Fast and sensitive multiple alignment of large genomic sequences BMC Bioinformatics 4 66 Brudno M Chapman M Gottgens B Batzoglou S Morgenstern B 2003 Fast and sensitive multiple alignment of large genomic sequences BMC Bioinformatics 4 66 Edgar RC 2004 MUSCLE multiple sequence alignment with high accuracy and high throughput Nucleic Acids Research 32 5 1792 97 Hughey R Krogh A 1996 Hidden Markov models for sequence analysis extension and analysis of the basic method CABIOS 12 2 95 107 Grasso C Lee C 2004 Combining partial order alignment and progressive multiple sequence alignment increases alignment speed and scalability to very large alignment problems Bioinformatics 20 10 1546 56 Hughey R Krogh A SAM Sequence alignment and modeling software system Technical Report UCSC CRL 96 22 University of California Santa Cruz CA September 1996 Durbin R Eddy S Krogh A Mitchison G 1998 Biological sequence analysis probabilistic models of proteins and nucleic acids Cambridge University Press 1998 Notredame C Higgins DG 1996 SAGA sequence alignment by genetic algorithm Nucleic Acids Res 24 8 1515 24 Notredame C O Brien EA Higgins DG 1997 RAGA RNA sequence alignment by genetic algorithm Nucleic Acids Res 25 22 4570 80 Kim J Pramanik S Chung MJ 1994 Multiple sequence alignment using simulated annealing Comput Appl Biosci 10 4 419 26 Henikoff S Henikoff JG 1991 Automated assembly of protein blocks for database searching Nucleic Acids Res 19 6565 72 Bailey TL Elkan C 1994 Fitting a mixture model by expectation maximization to discover motifs in biopolymers Proceedings of the Second International Conference on Intelligent Systems for Molecular Biology pp 28 36 AAAI Press Menlo Park California Bailey TL Gribskov M 1998 Combining evidence using p values application to sequence homology searches Bioinformatics14 48 54 Vease tambien EditarAlineamiento de secuencias Bioinformatica Cladistica Filogenetica Software para alineamiento de secuencias incluyendo software para alineamientos multiplesArticulos de consulta Editar Duret L S Abdeddaim 2000 Multiple alignment for structural functional or phylogenetic analyses of homologous sequences En D Higgins and W Taylor ed Bioinformatics sequence structure and databanks Oxford Oxford University Press La referencia utiliza el parametro obsoleto coautores ayuda Notredame C 2002 Recent progresses in multiple sequence alignment a survey Pharmacogenomics 31 1 131 144 Thompson J D F Plewniak and O Poch 1999 A comprehensive comparison of multiple sequence alignment programs Nucleic Acids Research 27 13 12682 2690 La referencia utiliza el parametro obsoleto coautores ayuda Wallace I M Blackshields G and Higgins DG 2005 Multiple sequence alignments Curr Opin Struct Biol 15 3 261 6 La referencia utiliza el parametro obsoleto coautores ayuda Notredame C 2007 Recent evolutions of multiple sequence alignment algorithms PLOS Computational Biology 8 3 e123 Enlaces externos EditarHerramientas de alineamiento de secuencias ExPASy Archivado el 13 de abril de 2010 en Wayback Machine Pagina de recursos de alineamientos multiples de la Virtual School of Natural Sciences Herramientas para alineamientos multiples de Pole Bioinformatique Lyonnais Apuntes sobre alineamientos multiples de secuencias del Max Planck Institute for Molecular Genetics Punto de entrada a los principales servidores T Coffee Datos Q1377767 Obtenido de https es wikipedia org w index php title Alineamiento multiple de secuencias amp oldid 144028358, wikipedia, wiki, leyendo, leer, libro, biblioteca,

español

, española, descargar, gratis, descargar gratis, mp3, video, mp4, 3gp, jpg, jpeg, gif, png, imagen, música, canción, película, libro, juego, juegos