fbpx
Wikipedia

Alineamiento de secuencias

Un alineamiento de secuencias en bioinformática es una forma de representar y comparar dos o más secuencias o cadenas de ADN, ARN, o estructuras primarias proteicas para resaltar sus zonas de similitud, que podrían indicar relaciones funcionales o evolutivas entre los genes o proteínas consultados. Las secuencias alineadas se escriben con las letras (representando aminoácidos o nucleótidos) en filas de una matriz en las que, si es necesario, se insertan espacios para que las zonas con idéntica o similar estructura se alineen.

Aunque las bases nucleotídicas del ADN y ARN son más similares entre sí que con los aminoácidos, la conservación del emparejado de bases podría indicar papeles funcionales o estructurales similares. El alineamiento de secuencias puede utilizarse con secuencias no biológicas, como en la identificación de similitudes en series de letras y palabras del lenguaje humano o en análisis de datos financieros. Entre los algoritmos más populares basados en la comparación de estructuras primarias de proteínas, se deben destacar el algoritmo Needleman-Wunch, el algoritmo Smith-Waterman, BLAST y FASTA

Secuencias muy cortas o muy similares pueden alinearse manualmente. Aun así, los problemas más interesantes necesitan alinear secuencias largas, muy variables y extremadamente numerosas que no pueden ser alineadas por humanos. El conocimiento humano se aplica principalmente en la construcción de algoritmos que produzcan alineamientos de alta calidad, y ocasionalmente ajustando el resultado final para representar patrones que son difíciles de introducir en algoritmos (especialmente en el caso de secuencias de nucleótidos). Las aproximaciones computacionales al alineamiento de secuencias se dividen en dos categorías: alineamiento global y alineamiento local. Calcular un alineamiento global es una forma de optimización global que "fuerza" al alineamiento a ocupar la longitud total de todas las secuencias introducidas (secuencias problema). Comparativamente, los alineamientos locales identifican regiones similares dentro de largas secuencias que normalmente son muy divergentes entre sí. A menudo se prefieren los alineamientos locales, pero pueden ser más difíciles de calcular porque se añade el desafío de identificar las regiones de mayor similitud. Se aplican gran variedad de algoritmos computacionales al problema de alineamiento de secuencias, como métodos lentos, pero de optimización, como la programación dinámica, y métodos heurísticos o probabilísticos eficientes, pero no exhautivos, diseñados para búsqueda a gran escala en bases de datos.

Representaciones

Los alineamientos se representan normalmente con un formato gráfico y de texto. En casi todas las representaciones de alineamientos, las secuencias se escriben en filas de forma que los residuos alineados aparecen en columnas sucesivas. En los formatos de texto, las columnas alineadas contienen caracteres idénticos o similares, estos últimos indicados con sistema de símbolos de conservados. En la imagen superior se utiliza el asterisco para mostrar identidad entre dos columnas. Otros símbolos menos comunes son la coma para sustituciones conservativas y el punto para sustituciones semiconservativas. Muchos programas de visualización de secuencias utilizan también esquemas coloreados para mostrar información de las propiedades de los elementos secuencia individuales; en secuencias de ADN y ARN significa asignar a cada base su propio color. En alineamientos de proteínas, como el de la imagen superior, los colores se utilizan para indicar propiedades de los aminoácidos para ayudar en la caracterización de conservación o en una sustitución aminoacídica dada. Cuando se introducen múltiples secuencias la última fila de cada columna suele representar la secuencia consenso determinada por el alineamiento. También suele representarse la secuencia consenso en un formato gráfico bajo un logo de secuencias, en el que el tamaño de la letra de cada nucleótido o aminoácido es proporcional a su grado de conservación.[1]

Los alineamientos de secuencias pueden almacenarse en una amplia variedad de formatos de archivo de texto, muchos de los cuales han sido desarrollados a la vez que un programa o implementación de alineamiento. La mayoría de las herramientas web permiten varios formatos de entrada y salida, como el formato FASTA y GenBank. La utilización de herramientas específicas en cada laboratorio de investigación puede complicarse por la baja compatibilidad. Existen programas de conversión genérica en , o en DNA Baser.

Alineamientos locales y globales

 

Los alineamientos globales, que intentan alinear cada residuo de cada secuencia, son más útiles cuando las secuencias problema iniciales son similares y aproximadamente del mismo tamaño (no quiere decir que los alineamientos globales no puedan terminar en huecos). Una estrategia general de alineamiento global es el algoritmo Needleman-Wunsch basado en programación dinámica. Los alineamientos locales son más útiles para secuencias diferenciadas en las que se sospecha que existen regiones muy similares o motivos de secuencias similares dentro de un contexto mayor. El algoritmo Smith-Waterman es un método general de alineamiento local basado en programación dinámica. Con secuencias suficientemente similares, no existe diferencia entre alineamientos globales y locales.

Los métodos híbridos, conocidos como semiglobales o métodos "glocales" intentan encontrar el mejor alineamiento posible que incluya el inicio y el final de una u otra secuencia. Puede ser especialmente útil cuando la parte "corriente arriba" de una secuencia se solapa con la parte "corriente abajo" de la otra. En este caso, ni el alineamiento global ni el local son completamente adecuados: un alineamiento global intentará forzar a la alineación a extenderse más allá de la región de solapamiento, mientras que el alineamiento local no cubrirá totalmente la región solapada.[2][3]

Alineamiento de pares

Los métodos de alineamiento de pares, o emparejamientos, se utilizan para encontrar la mejor coincidencia en bloque (local) o alineamiento global de dos secuencias. Los alineamientos de pares sólo pueden utilizarse con dos secuencias a la vez, pero son eficientes de calcular, y son utilizados a menudo en métodos que no requieren precisión extrema, como la búsqueda en bases de datos de secuencias con alta homología de secuencia con respecto a una petición. Los tres métodos principales de generar alineamientos de pares son los de matriz de puntos, los de programación dinámica y los de búsqueda de palabra,[4]​ aunque la mayoría de métodos de alineación múltiple de secuencias pueden funcionar con sólo dos secuencias. Aunque cada método tiene sus propios puntos fuertes y débiles, todos ellos tienen problemas para alinear secuencias repetitivas con bajo contenido en información, especialmente cuando el número de repeticiones puede ser diferente en las dos secuencias que se alinean. Una manera de cuantificar la utilidad de un alineamiento de pares determinado es la "máxima coincidencia individual", o la mayor subsecuencia que se da en ambas secuencias en estudio. En general, cuanto mayor sea tal subsecuencia, más cercana será su relación.

Métodos de matriz de puntos

 
Una matriz de puntos de ADN del factor de transcripción dedo de zinc en el ser humano (GenBank ID NM_002383), mostrando autosimilitud regional. La diagonal principal representa el alineamiento de la secuencia consigo misma; las líneas fuera de esta diagonal representan patrones similares o repetitivos dentro de la secuencia. Es un ejemplo típico de gráfica recurrente.

El enfoque de matriz de puntos (o matrix-dot), que implícitamente produce una familia de alineamientos para regiones individuales de la secuencia, es cualitativo y simple, a pesar de que consume mucho tiempo para análisis a gran escala. Es fácil identificar visualmente determinadas características de la secuencia (tales como inserciones, borrados, repeticiones, o repeticiones invertidas) en una gráfica de matriz de puntos. Para construir una gráfica de matriz de puntos, las dos secuencias se colocan a lo largo de la fila superior y de la columna que está más a la izquierda de la matriz de dos dimensiones y se coloca un punto en cualquier lugar en el que los caracteres en las columnas correspondientes coincidan (esta es una típica gráfica recurrente). Algunas implementaciones varían el tamaño o la intensidad de los puntos en función del grado de similitud de los dos caracteres, para dar cabida a las sustituciones conservadas. La gráfica de puntos de secuencias muy estrechamente relacionadas aparece como una única línea a lo largo de la diagonal principal de la matriz .

Las gráficas de puntos también pueden utilizarse para evaluar repetitividad en una sola secuencia: una secuencia se gráfica contra sí misma, y las regiones que comparten similitudes significativas aparecerán como líneas fuera de la diagonal principal. Este efecto puede ocurrir cuando una proteína consta de múltiples dominios estructurales similares.

Programación dinámica

La técnica de programación dinámica puede aplicarse para producir alineamientos globales mediante el algoritmo de Needleman-Wunsch, así como alineamientos locales mediante el algoritmo de Smith-Waterman. En una utilización habitual, en los alineamientos de proteínas se utiliza una matriz de sustitución para asignar puntuaciones a las coincidencias y a las diferencias entre aminoácidos, y una penalización por gap (literalmente hueco, aunque en buena parte de la literatura en castellano se utiliza el vocablo inglés) al hacer coincidir un aminoácido de una secuencia con un hueco en otra. En alineamientos de ADN y ARN puede usarse una matriz de puntuaciones, pero en la práctica, a menudo, se asigna simplemente una puntuación positiva a las coincidencias, una negativa a las diferencias, y otra penalización negativa a los gaps. (En la programación dinámica estándar la puntuación de la posición de cada aminoácido es independiente de la identidad de sus vecinos, por lo que los efectos del apilamiento de bases no se toman en cuenta. Sin embargo, es posible hacerlo modificando el algoritmo.)

La programación dinámica puede ser útil en el alineamiento de nucleótidos con secuencias de proteínas, una tarea complicada por la necesidad de tomar en consideración las mutaciones con cambio (inserciones o borrados, normalmente). La búsqueda del marco abierto de lectura proporciona una serie de alineamientos de pares locales o globales entre una secuencia de nucleótidos a investigar (secuencia problema) y un conjunto de búsqueda de secuencias de proteínas, o viceversa. A pesar de que el método es muy lento, su habilidad para evaluar la compensación de los marcos de lectura para un número arbitrario de nucleótidos lo convierte en útil para secuencias que contengan un buen número de indels, los cuales pueden ser muy difíciles de alinear con métodos heurísticos más eficientes. En la práctica, el método requiere una buena cantidad de potencia de cómputo, o un sistema cuya arquitectura esté especializada en programación dinámica. Las suites BLAST y EMBOSS proporcionan herramientas básicas para crear alineamientos adaptados (aunque alguno de estos enfoques saca ventaja de los efectos laterales de la capacidad de búsqueda de secuencias de las herramientas). Se consiguen métodos más generales tanto de fuentes comerciales (como “FrameSearch”, distribuido como parte del ), como de software de código abierto (como ).

El método de programación dinámica garantiza encontrar un alineamiento óptimo dada una función de puntuación en particular; sin embargo, identificar una buena función de puntuación es, usualmente, más una cuestión empírica que teórica. A pesar de que la programación dinámica es extensible a más de dos secuencias, es prohibitivamente lenta para un alto número de secuencias extremadamente largas.

Métodos de palabra corta

Los métodos de palabra corta, también conocidos como métodos de k-tuplas, son métodos heurísticos que no garantizan encontrar una solución de alineamiento óptima, pero son significativamente más eficientes que la programación dinámica. Estos métodos son especialmente útiles en búsquedas sobre bases de datos a gran escala, donde se asume que una larga proporción de las secuencias candidatas no tendrán coincidencias significativas con la secuencia problema. Los métodos de palabra corta son más conocidos por su implementación en las herramientas de búsqueda en bases de datos FASTA y la familia BLAST.[4]​ Estos métodos identifican en la secuencia problema una serie de subsecuencias cortas que no se solapan (“palabras”), y que se contrastan contra las secuencias de la base de datos. Las posiciones relativas de la palabra en las dos secuencias a comparar se restan para obtener un valor de desplazamiento; se manifestará así una región de alineamiento si varias palabras diferentes producen el mismo desplazamiento. Sólo si esta región es detectada, estos métodos aplicarán criterios de alineamiento más sensibles. De esta forma se eliminan muchas comparaciones innecesarias entre secuencias de similitud inapreciable.

En el método FASTA, el usuario define un valor “k” para definir la longitud de la palabra con la cual buscar en la base de datos. El método es más lento, pero más sensible, para valores bajos de “k”, que también son preferibles para búsquedas que impliquen una secuencia problema muy corta. La familia BLAST de métodos de búsqueda proporciona varios algoritmos optimizados para tipos particulares de problemas, tales como la búsqueda de coincidencias entre secuencias escasamente relacionadas. BLAST fue desarrollado para proporcionar una alternativa más rápida a FASTA sin sacrificar demasiada precisión. Como FASTA, BLAST utiliza una palabra de búsqueda de longitud “k”, pero solo evalúa las coincidencias más significativas de las palabras, en lugar de cada coincidencia como hace FASTA. La mayoría de las implementaciones de BLAST usan una longitud de palabra fijada por defecto que se optimiza para el problema y el tipo de base de datos, y que se cambia sólo bajo circunstancias específicas tales como búsquedas con secuencias problema repetitivas o muy cortas. Pueden encontrarse implementaciones a través de varios portales web, como y NCBI BLAST.

Alineamiento múltiple de secuencias

 
Alineamiento de 27 secuencias de la proteína hemaglutinina de la gripe aviaria, coloreado según la conservación de residuos (más oscuro cuanta mayor conservación, arriba) y sus propiedades químicas (abajo).

El alineamiento múltiple de secuencias es una extensión del alineamiento de pares que incorpora más de dos secuencias al mismo tiempo. Los métodos de alineamiento múltiple intentan alinear todas las secuencias de un conjunto dado. Los alineamientos múltiples son usados a menudos en la identificación de regiones conservadas en un grupo de secuencias que hipotéticamente están relacionadas evolutivamente. Estos motivos conservados pueden ser usados en conjunto con la estructura y con información mecanística para localizar sitios activos catalíticos de las enzimas. Los alineamientos son también utilizados para ayudar al establecimiento de relaciones evolutivas mediante la construcción de árboles filogenéticos. Los alineamientos múltiples de secuencias son computacionalmente difíciles de producir y la mayoría de las formulaciones del problema conducen a problemas de optimización combinatorial NP-completos.[5]​ Sin embargo, la utilidad de estos alineamientos en la bioinformática ha dado lugar al desarrollo de una variedad de métodos adecuados para la alineación de tres o más secuencias.

Programación dinámica

La técnica de programación dinámica es teóricamente aplicable a cualquier número de secuencias; sin embargo, y puesto que es computacionalmente costosa tanto en tiempo como en memoria, raramente se usa en su forma más básica para más de tres o cuatro secuencias. Este método requiere la construcción de un equivalente n-dimensional a la matriz formada por dos secuencias, donde “n” es el número de secuencias problema. La programación dinámica estándar se usa primero en todos los emparejamientos entre las secuencias problema, por lo que el “espacio de alineamiento” se rellena considerando posibles coincidencias o huecos en las posiciones intermedias, construyendo, finalmente y en esencia, un alineamiento entre cada alineamiento de dos secuencias. Aunque esta técnica es computacionalmente costosa, su garantía de una solución global óptima es útil en casos donde sólo unas cuantas secuencias necesitan ser alineadas con precisión. Un método para reducir las demandas computacionales de programación dinámica, que depende de la función objetivo “suma de pares”, ha sido implementado en el paquete de software MSA.[6]

Métodos progresivos

Los método progresivos, jerárquicos, o por árbol, generan un alineamiento múltiple de secuencias alineando primero las secuencias más similares, para ir añadiendo sucesivamente al alineamiento secuencias o grupos menos relacionados, hasta que el conjunto problema completo ha sido incorporado a la solución. El árbol inicial describiendo el parentesco de las secuencias se basa en comparaciones de emparejamientos que podrían incluir métodos de emparejamiento heurístico para alineamientos similares a FASTA. Los resultados del alineamiento progresivo dependen de la elección de las secuencias “más relacionadas”, por lo que pueden ser sensibles a imprecisiones en los alineamientos de emparejamientos iniciales. La mayoría de los métodos progresivos de alineamiento múltiple de secuencias ponderan adicionalmente las secuencias en el conjunto problema de acuerdo a su parentesco, lo que reduce la probabilidad de efectuar una pobre elección de las secuencias iniciales y así se mejora la precisión del alineamiento.

Un buen número de variaciones de la implementación progresiva de Clustal[7][8][9]​ se utilizan para alineamientos múltiples de secuencias, construcción de árboles filogenéticos, y como entrada para la predicción de estructura de proteínas. Una variante del método progresivo más lenta pero más precisa se conoce como “T-Coffee” (Tree-based Consistency Objective Function For alignment Evaluation),[10]​ de la que pueden encontrarse implementaciones en y T-Coffee.

Métodos iterativos

Los métodos iterativos intentan mejorar el punto débil de los métodos progresivos: su fuerte dependencia de la precisión de los alineamientos de los emparejamientos iniciales. Los métodos iterativos optimizan una función objetivo basada en un método seleccionado de puntuación de alineamiento mediante la asignación de un alineamiento global inicial y el posterior realineamiento de subconjuntos de secuencias. Los subconjuntos realineados son entonces alineados consigo mismos para producir la siguiente iteración de alineamiento múltiple de secuencias. Se encuentran bajo análisis varias formas de selección de los subgrupos de secuencias y de la función objetivo.[11]

Descubrimiento de motivos

Para el descubrimiento de motivos, o análisis de perfiles, se construyen alineamientos múltiples globales de secuencias que intentan alinear secuencias motivo cortas conservadas entre las secuencias del conjunto problema. Se hace, usualmente, construyendo primero un alineamiento múltiple de secuencias global, tras el cual las regiones altamente conservadas se identifican y se utilizan para construir un conjunto de matrices de perfil (también denominadas matrices ponderadas o matrices de pesos). La matriz del perfil de cada región conservada se dispone como una matriz de puntuación, pero sus cifras de frecuencia para cada aminoácido o nucleótido en cada posición se derivan de la distribución de los caracteres de la región conservada, en lugar de una distribución empírica más general. Las matrices de perfil se usan para buscar ocurrencias del motivo que caracterizan en otras secuencias. En los casos en los que el conjunto de datos original contenga un pequeño número de secuencias, o sólo secuencias muy relacionadas, se añaden pseudocontadores para normalizar las distribuciones de caracteres representadas en el motivo.

Técnicas inspiradas por las ciencias de la computación

Una variedad de algoritmos generales de optimización usados comúnmente en ciencias de la computación se han aplicado también al problema del alineamiento de secuencias. Los modelos ocultos de Márkov se han utilizado para producir registros de probabilidades para una familia de posibles alineamientos múltiples de secuencias sobre un conjunto problema dado. Aunque los primeros métodos basados en estos modelos eran de rendimiento poco brillante, aplicaciones posteriores los han encontrado especialmente efectivos para detectar secuencias remotamente relacionadas, puesto que son menos susceptibles al ruido creado por sustituciones conservativas o semiconservativas.[12]​ Los algoritmos genéticos y el simulated annealing se han usado para optimizar las puntuaciones de alineamientos múltiples de secuencias, valorándolos mediante una función de puntuación como la del método de suma de pares.

Alineamiento estructural

Los alineamientos estructurales, que son específicos de las proteínas y, algunas veces, de secuencias de ARN, usan información sobre la estructura secundaria y terciaria de la proteína o molécula de ARN como ayuda para alinear las secuencias. Estos métodos pueden usarse para dos o más secuencias, y producen típicamente alineamientos locales. Sin embargo, y puesto que dependen de la disponibilidad de información estructural, sólo pueden ser usados para secuencias cuyas correspondientes estructuras sean conocidas (a través, normalmente, de cristalografía de rayos X o espectroscopia de resonancia magnética nuclear). Puesto que la estructura tanto de proteínas como de ARN está más conservada evolutivamente que su secuencia,[13]​ los alineamientos estructurales pueden ser más fidedignos entre secuencias que estén muy lejanamente relacionadas y que hayan divergido tan extensamente que la comparación de las secuencias no pueda detectar fehacientemente su similitud.

Los alineamientos estructurales se usan como el “patrón oro” para evaluar alineamientos en la predicción de estructura de proteínas basada en homología[14]​ ya que explícitamente alinean regiones de la secuencia de la proteína que son estructuralmente similares en lugar de depender exclusivamente en la información derivada de la secuencia. No obstante, los alineamientos estructurales no pueden usarse en la predicción de la estructura puesto que al menos una secuencia en el conjunto problema es el objetivo a modelar, para el cual la estructura se desconoce. Se ha demostrado que, dado el alineamiento estructural entre un objetivo y una secuencia molde, se pueden producir modelos altamente precisos de la proteína objetivo. Un importante obstáculo en la predicción de la estructura basada en homología es la producción de alineamientos estructuralmente precisos dada sólo información de la secuencia.[14]

DALI

El método DALI (del inglés, Distance matrix ALIgnment, alineamiento de matriz de distancias), es un método fragmentario para construir alineamientos estructurales basados en contactar patrones de similitud entre sucesivos hexapéptidos en las secuencias problema.[15]​ Puede generar emparejamientos o alineamientos múltiples, e identificar los vecinos estructurales de una secuencia problema en el Protein Data Bank (PDB). Se ha usado para construir la base de datos de alineamientos estructurales FSSP (del inglés Families of Structurally Similar Proteins, familias de proteínas estructuralmente similares). Puede accederse a un servidor web de DALI en , y la FSSP se localiza en la.

SSAP

SSAP (del inglés Sequential Structure Alignment Program, programa de alineamiento de estructura secuencial) es un método de alineamiento estructural basado en programación dinámica que usa vectores “átomo a átomo” en el espacio de la estructura como puntos a comparar. Se ha extendido desde su descripción original para incluir tanto alineamientos múltiples como emparejamientos,[16]​ y se ha usado en la construcción del CATH (del inglés Class, Architecture, Topology, Homology; clase, arquitectura, topología, homología), base de datos jerárquica de clasificación de plegamientos de proteínas.[17]​ La base de datos CATH puede accederse en la Clasificación de Estructura de Proteínas CATH.

Extensión combinatoria

El método de extensión combinatoria para alineamiento estructural genera un alineamiento estructural de pares usando geometría local para alinear fragmentos cortos de las dos proteínas a analizar, y juntar entonces estos fragmentos en un alineamiento mayor.[18]​ Basado en medidas tales como la raíz del error cuadrático medio en superposición de proteínas como sólidos rígidos, distancias entre residuos, estructura secundaria local, y características medioambientales circundantes tales como la hidrofobicidad de los residuos vecinos, se generan alineamientos locales llamados “pares de fragmentos alineados” que se usan para construir una matriz de similitud representando todos los alineamientos estructurales posibles dentro de un criterio de corte predefinido. Se traza, entonces, una trayectoria desde un estado de la estructura de una proteína a otro a través de la matriz, extendiendo el creciente alineamiento un fragmento cada vez. La trayectoria óptima define el alineamiento por extensión combinatoria. Un servidor web que implementa el método y proporciona una base de datos de emparejamientos de estructura en el Protein Data Bank se localiza en el sitio de Combinatorial Extension.

Análisis filogenético

La filogenia y el alineamiento de secuencias son campos íntimamente relacionados debido a su necesidad compartida de evaluar el parentesco entre secuencias. La filogenia hace un uso extensivo de los alineamientos de secuencias en la construcción e interpretación de árboles filogenéticos, que se usan para clasificar las relaciones evolutivas entre genes homólogos representados en el genoma de especies divergentes. El grado en el que las secuencias de un conjunto problema difieren está relacionado cualitativamente con la distancia evolutiva entre ellas. De forma simplificada, una alta identidad de secuencias sugiere que tienen un comparativamente joven ancestro común más reciente, mientras que una baja identidad sugiere que la divergencia es más remota. Esta aproximación, que refleja la hipótesis de “reloj molecular” (hipótesis que asume un ritmo aproximadamente constante de cambio evolutivo, que puede utilizarse para extrapolar el tiempo transcurrido desde la primera divergencia de dos genes -o tiempo de “coalescencia”-), asume que los efectos de la mutación y de la selección natural son constantes a lo largo de linajes de secuencias. No toma en cuenta, por lo tanto, posibles diferencias entre organismos o especies en los ritmos de reparación del ADN, o la posible conservación funcional de regiones específicas en una secuencia. (En el caso de secuencias de nucleótidos, la hipótesis de reloj molecular en su forma más básica también deja de lado la diferencia en las tasas de aceptación entre mutaciones silenciosas, que no alteran el significado de un determinado codón, y otras mutaciones que resultan en la incorporación de un aminoácido diferente en la proteína.) Métodos con mayor precisión estadística permiten variar el ritmo evolutivo en cada rama del árbol filogenético, produciendo así mejores estimaciones de los tiempos de coalescencia de los genes.

Las técnicas de alineamiento múltiple progresivo producen un árbol filogenético necesariamente, ya que van incorporando secuencias en el creciente alineamiento según su orden de parentesco. Otras técnicas que reúnen alineamientos múltiples de secuencias y árboles filogenéticos, puntúan y ordenan los árboles en primer lugar, y calculan después un alineamiento múltiple de secuencias a partir del árbol de mayor puntuación. Los métodos comunes de construcción de árboles filogenéticos son principalmente heurísticos puesto que el problema de seleccionar el árbol óptimo, al igual que el problema de seleccionar el alineamiento múltiple de secuencias óptimo, es NP-complejo.[19]

Valoración de su significación

Los alineamientos de secuencias son útiles en bioinformática para identificar similitudes entre secuencias, producir árboles filogenéticos, y desarrollar modelos de homología sobre estructuras de proteínas. Sin embargo, la relevancia biológica de los alineamientos no siempre es clara. Se asume a menudo que los alineamientos reflejan un grado de cambio evolutivo entre secuencias que descienden de un ancestro común; pero es formalmente posible que la convergencia evolutiva pueda darse para producir similitudes aparentes entre proteínas que no estén evolutivamente relacionadas, pero que lleven a cabo funciones similares y tengan parecidas estructuras.

En búsquedas en bases de datos, como con BLAST, los métodos estadísticos pueden determinar la probabilidad de un alineamiento particular casual entre secuencias, o regiones de secuencias, dado el tamaño y la composición de la base de datos en cuestión. Estos valores pueden variar significativamente dependiendo del espacio de búsqueda. En particular, la probabilidad de encontrar por casualidad un alineamiento dado se incrementa si la base de datos consiste sólo en secuencias del mismo organismo que la secuencia problema. Secuencias repetitivas en la base de datos o en la consulta también pueden distorsionar tanto la búsqueda de resultados y la valoración de su significación estadística. BLAST filtra automáticamente tales secuencias repetitivas en la consulta para evitar éxitos aparentes que correspondan a artefactos estadísticos.

Funciones de puntuación

Para producir buenos alineamientos es importante la elección de una función de puntuación que refleje observaciones biológicas o estadísticas sobre secuencias conocidas. Las secuencias de proteínas son alineadas usando frecuentemente matrices de sustitución que reflejan las probabilidades de particulares sustituciones carácter por carácter. Una serie de matrices denominadas matrices PAM (del inglés Point Accepted Mutation, mutación puntual aceptada, originalmente definidas por Margaret Dayhoff, por lo que a veces se denominan matrices Dayhoff) codifican explícitamente las aproximaciones evolutivas considerando las frecuencias y probabilidades de mutaciones particulares de aminoácidos. Otra serie común de matrices de puntuación, conocidas como BLOSUM (del inglés Blocks Substitution Matrix, matriz de sustitución de bloques), codifica probabilidades de sustitución derivadas empíricamente. Se utilizan variantes de ambos tipos de matrices para detectar secuencias con diferentes niveles de divergencia, permitiendo así a los usuarios de BLAST o FASTA restringir sus búsquedas a coincidencias más cercanamente relacionadas, o extenderlas para detectar secuencias más divergentes. Las penalizaciones por gaps representan la introducción de huecos (en el modelo evolutivo, una mutación por inserción o borrado) en secuencias tanto de nucleótidos como de proteínas, y estos valores de penalización, por lo tanto, deberían ser proporcionales a la frecuencia esperada de tales mutaciones. La calidad de los alineamientos producidos depende, en consecuencia, de la calidad de la función de puntuación.

Puede resultar muy útil e instructivo intentar el mismo alineamiento diferentes veces con diferentes elecciones de matrices de puntuación y/o diferentes valores de penalización por huecos, y comparar los resultados. Las regiones donde la solución sea poco consistente, o no sea única, pueden ser identificadas a menudo observando qué regiones del alineamiento son robustas a variaciones en los parámetros de alineación.

Usos no biológicos

Los métodos usados para alineamientos de secuencias biológicas pueden también encontrar aplicaciones en otros campos, y muy notablemente en el procesamiento de lenguajes naturales. Las técnicas que generan el conjunto de elementos desde el que las palabras se seleccionarán en los algoritmos de generación de lenguajes naturales han pedido prestadas técnicas de alineamiento de secuencias a la bioinformática para producir versiones lingüísticas de pruebas matemáticas generadas por ordenador.[20]​ En el campo de lingüística histórica y comparativa, se ha usado el alineamiento de secuencias para automatizar parcialmente el método comparativo por el que tradicionalmente los lingüistas reconstruyen lenguajes.[21]​ También se han aplicado técnicas de alineamiento de secuencias en la investigación de negocios y marketing analizando series temporales de compras.[22]

Software

Las herramientas software comunes usadas para tareas generales de alineamiento de secuencias incluyen y para el alineamiento, y para búsquedas en bases de datos. Una lista mucho más completa de software disponible, categorizado por algoritmo y tipo de alineamiento, puede encontrarse en el Anexo:Software para alineamiento de secuencias.

Los algoritmos de alineamiento y el software pueden ser contrastados directamente usando un conjunto estandarizado de benchmark de referencia para alineamientos múltiples de secuencias denominado BAliBASE.[23]​ El conjunto de datos consiste en alineamientos estructurales que pueden ser considerados como un estándar contra el cual se comparan los métodos basados en secuencias. Ha sido tabulado el rendimiento relativo de bastantes métodos comunes de alineamiento encontrados frecuentemente en problemas de alineación, y los resultados más significativos se han publicado en línea en .[24]​ En el banco de trabajo de proteínas STRAP puede computarse una detallada lista de puntuaciones de BAliBASE para varias herramientas diferentes de alineamiento.

Véase también

Referencias

  1. Schneider TD, Stephens RM (1990). «Sequence logos: a new way to display consensus sequences». Nucleic Acids Res 18: 6097-6100. PMID 2172928. doi:10.1093/nar/18.20.6097. 
  2. Brudno M, Malde S, Poliakov A, Do CB, Couronne O, Dubchak I, Batzoglou S (2003). «Glocal alignment: finding rearrangements during alignment». Bioinformatics. 19 Suppl 1: i54-62. PMID 12855437. doi:10.1093/bioinformatics/btg1005. 
  3. Brudno M, Poliakov A, Salamov A, Cooper GM, Sidow A, Rubin EM, Solovyev V, Batzoglou S, Dubchak I (2004). «Automate whole-genome multiple alignment of rat, mouse, and human». Genome Research 14: 685-692. doi:10.1101/gr.2067704. 
  4. Mount DM. (2004). Bioinformatics: Sequence and Genome Analysis 2nd ed. Cold Spring Harbor Laboratory Press: Cold Spring Harbor, NY. ISBN 0-87969-608-7. 
  5. Wang L, Jiang T. (1994). «On the complexity of multiple sequence alignment». J Comput Biol 1: 337-48. PMID 8790475. 
  6. Lipman DJ, Altschul SF, Kececioglu JD (1989). «A tool for multiple sequence alignment». Proc Natl Acad Sci U S A 86: 4412-5. PMID 2734293. doi:10.1073/pnas.86.12.4412. 
  7. Higgins DG, Sharp PM (1988). «CLUSTAL: a package for performing multiple sequence alignment on a microcomputer». Gene 73 (1): 237-44. PMID 3243435. doi:10.1016/0378-1119(88)90330-7. 
  8. Thompson JD, Higgins DG, Gibson TJ. (1994). «CLUSTAL W: improving the sensitivity of progressive multiple sequence alignment through sequence weighting, position-specific gap penalties and weight matrix choice». Nucleic Acids Res 22: 4673-80. PMID 7984417. doi:10.1093/nar/22.22.4673. 
  9. Chenna R, Sugawara H, Koike T, Lopez R, Gibson TJ, Higgins DG, Thompson JD. (2003). «Multiple sequence alignment with the Clustal series of programs». Nucleic Acids Res 31: 3497-500. PMID 12824352. doi:10.1093/nar/gkg500. 
  10. Notredame C, Higgins DG, Heringa J. (2000). «T-Coffee: A novel method for fast and accurate multiple sequence alignment». J Mol Biol 302 (1): 205-17. PMID 10964570. doi:10.1006/jmbi.2000.4042. 
  11. Hirosawa M, Totoki Y, Hoshida M, Ishikawa M. (1995). «Comprehensive study on iterative algorithms of multiple sequence alignment». Comput Appl Biosci 11: 13-8. PMID 7796270. doi:10.1093/bioinformatics/11.1.13. 
  12. Karplus K, Barrett C, Hughey R. (1998). «Hidden Márkov models for detecting remote protein homologies». Bioinformatics 14 (10): 846-856. PMID 9927713. doi:10.1093/bioinformatics/14.10.846. 
  13. Chothia C, Lesk AM. (1986). «The relation between the divergence of sequence and structure in proteins». EMBO J 5 (4): 823-6. PMID 3709526. 
  14. Zhang Y, Skolnick J. (2005). «The protein structure prediction problem could be solved using the current PDB library». Proc Natl Acad Sci U S A 102: 1029-34. PMID 15653774. doi:10.1073/pnas.0407152101. 
  15. Holm L, Sander C (1996). «Mapping the protein universe». Science 273: 595-603. PMID 8662544. 
  16. Taylor WR, Flores TP, Orengo CA. (1994). «Multiple protein structure alignment». Protein Sci 3: 1858-70. PMID 7849601. 
  17. Orengo CA, Michie AD, Jones S, Jones DT, Swindells MB, Thornton JM (1997). «CATH--a hierarchic classification of protein domain structures». Structure 5: 1093-108. PMID 9309224. doi:10.1016/S0969-2126(97)00260-8. 
  18. Shindyalov IN, Bourne PE. (1998). «Protein structure alignment by incremental combinatorial extension (CE) of the optimal path». Protein Eng 11: 739-47. PMID 9796821. doi:10.1093/protein/11.9.739. 
  19. Felsenstein J. (2004). Inferring Phylogenies. Sinauer Associates: Sunderland, MA. ISBN 0-87893-177-5. 
  20. Barzilay R, Lee L. (2002). «Bootstrapping Lexical Choice via Multiple-Sequence Alignment». Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP): 164-171. 
  21. Kondrak, Grzegorz (2002). (PDF). University of Toronto, Ontario. Archivado desde el original el 17 de diciembre de 2008. Consultado el 21 de enero de 2007. 
  22. Prinzie A., D. Van den Poel (2006). «Incorporating sequential information into traditional classification models by using an element/position-sensitive SAM». Decision Support Systems 42 (2): 508-526. doi:10.1016/j.dss.2005.02.004.  See also Prinzie and Van den Poel's paper «Predicting home-appliance acquisition sequences: Márkov/Márkov for Discrimination and survival analysis for modeling sequential information in NPTB models». Decision Support Systems 44 (1): 28-45. 2007. doi:10.1016/j.dss.2007.02.008. 
  23. Thompson JD, Plewniak F, Poch O (1999). «BAliBASE: a benchmark alignment database for the evaluation of multiple alignment programs». Bioinformatics 15: 87-8. PMID 10068696. doi:10.1093/bioinformatics/15.1.87. 
  24. Thompson JD, Plewniak F, Poch O. (1999). «A comprehensive comparison of multiple sequence alignment programs». Nucleic Acids Res 27: 2682-90. PMID 10373585. doi:10.1093/nar/27.13.2682. 
  •   Datos: Q827246
  •   Multimedia: Sequence alignment

alineamiento, secuencias, alineamiento, secuencias, bioinformática, forma, representar, comparar, más, secuencias, cadenas, estructuras, primarias, proteicas, para, resaltar, zonas, similitud, podrían, indicar, relaciones, funcionales, evolutivas, entre, genes. Un alineamiento de secuencias en bioinformatica es una forma de representar y comparar dos o mas secuencias o cadenas de ADN ARN o estructuras primarias proteicas para resaltar sus zonas de similitud que podrian indicar relaciones funcionales o evolutivas entre los genes o proteinas consultados Las secuencias alineadas se escriben con las letras representando aminoacidos o nucleotidos en filas de una matriz en las que si es necesario se insertan espacios para que las zonas con identica o similar estructura se alineen Aunque las bases nucleotidicas del ADN y ARN son mas similares entre si que con los aminoacidos la conservacion del emparejado de bases podria indicar papeles funcionales o estructurales similares El alineamiento de secuencias puede utilizarse con secuencias no biologicas como en la identificacion de similitudes en series de letras y palabras del lenguaje humano o en analisis de datos financieros Entre los algoritmos mas populares basados en la comparacion de estructuras primarias de proteinas se deben destacar el algoritmo Needleman Wunch el algoritmo Smith Waterman BLAST y FASTASecuencias muy cortas o muy similares pueden alinearse manualmente Aun asi los problemas mas interesantes necesitan alinear secuencias largas muy variables y extremadamente numerosas que no pueden ser alineadas por humanos El conocimiento humano se aplica principalmente en la construccion de algoritmos que produzcan alineamientos de alta calidad y ocasionalmente ajustando el resultado final para representar patrones que son dificiles de introducir en algoritmos especialmente en el caso de secuencias de nucleotidos Las aproximaciones computacionales al alineamiento de secuencias se dividen en dos categorias alineamiento global y alineamiento local Calcular un alineamiento global es una forma de optimizacion global que fuerza al alineamiento a ocupar la longitud total de todas las secuencias introducidas secuencias problema Comparativamente los alineamientos locales identifican regiones similares dentro de largas secuencias que normalmente son muy divergentes entre si A menudo se prefieren los alineamientos locales pero pueden ser mas dificiles de calcular porque se anade el desafio de identificar las regiones de mayor similitud Se aplican gran variedad de algoritmos computacionales al problema de alineamiento de secuencias como metodos lentos pero de optimizacion como la programacion dinamica y metodos heuristicos o probabilisticos eficientes pero no exhautivos disenados para busqueda a gran escala en bases de datos Indice 1 Representaciones 2 Alineamientos locales y globales 3 Alineamiento de pares 3 1 Metodos de matriz de puntos 3 2 Programacion dinamica 3 3 Metodos de palabra corta 4 Alineamiento multiple de secuencias 4 1 Programacion dinamica 4 2 Metodos progresivos 4 3 Metodos iterativos 4 4 Descubrimiento de motivos 4 5 Tecnicas inspiradas por las ciencias de la computacion 5 Alineamiento estructural 5 1 DALI 5 2 SSAP 5 3 Extension combinatoria 6 Analisis filogenetico 7 Valoracion de su significacion 7 1 Funciones de puntuacion 8 Usos no biologicos 9 Software 10 Vease tambien 11 ReferenciasRepresentaciones EditarLos alineamientos se representan normalmente con un formato grafico y de texto En casi todas las representaciones de alineamientos las secuencias se escriben en filas de forma que los residuos alineados aparecen en columnas sucesivas En los formatos de texto las columnas alineadas contienen caracteres identicos o similares estos ultimos indicados con sistema de simbolos de conservados En la imagen superior se utiliza el asterisco para mostrar identidad entre dos columnas Otros simbolos menos comunes son la coma para sustituciones conservativas y el punto para sustituciones semiconservativas Muchos programas de visualizacion de secuencias utilizan tambien esquemas coloreados para mostrar informacion de las propiedades de los elementos secuencia individuales en secuencias de ADN y ARN significa asignar a cada base su propio color En alineamientos de proteinas como el de la imagen superior los colores se utilizan para indicar propiedades de los aminoacidos para ayudar en la caracterizacion de conservacion o en una sustitucion aminoacidica dada Cuando se introducen multiples secuencias la ultima fila de cada columna suele representar la secuencia consenso determinada por el alineamiento Tambien suele representarse la secuencia consenso en un formato grafico bajo un logo de secuencias en el que el tamano de la letra de cada nucleotido o aminoacido es proporcional a su grado de conservacion 1 Los alineamientos de secuencias pueden almacenarse en una amplia variedad de formatos de archivo de texto muchos de los cuales han sido desarrollados a la vez que un programa o implementacion de alineamiento La mayoria de las herramientas web permiten varios formatos de entrada y salida como el formato FASTA y GenBank La utilizacion de herramientas especificas en cada laboratorio de investigacion puede complicarse por la baja compatibilidad Existen programas de conversion generica en SEQRET EMBOSS o en DNA Baser Alineamientos locales y globales Editar Los alineamientos globales que intentan alinear cada residuo de cada secuencia son mas utiles cuando las secuencias problema iniciales son similares y aproximadamente del mismo tamano no quiere decir que los alineamientos globales no puedan terminar en huecos Una estrategia general de alineamiento global es el algoritmo Needleman Wunsch basado en programacion dinamica Los alineamientos locales son mas utiles para secuencias diferenciadas en las que se sospecha que existen regiones muy similares o motivos de secuencias similares dentro de un contexto mayor El algoritmo Smith Waterman es un metodo general de alineamiento local basado en programacion dinamica Con secuencias suficientemente similares no existe diferencia entre alineamientos globales y locales Los metodos hibridos conocidos como semiglobales o metodos glocales intentan encontrar el mejor alineamiento posible que incluya el inicio y el final de una u otra secuencia Puede ser especialmente util cuando la parte corriente arriba de una secuencia se solapa con la parte corriente abajo de la otra En este caso ni el alineamiento global ni el local son completamente adecuados un alineamiento global intentara forzar a la alineacion a extenderse mas alla de la region de solapamiento mientras que el alineamiento local no cubrira totalmente la region solapada 2 3 Alineamiento de pares EditarLos metodos de alineamiento de pares o emparejamientos se utilizan para encontrar la mejor coincidencia en bloque local o alineamiento global de dos secuencias Los alineamientos de pares solo pueden utilizarse con dos secuencias a la vez pero son eficientes de calcular y son utilizados a menudo en metodos que no requieren precision extrema como la busqueda en bases de datos de secuencias con alta homologia de secuencia con respecto a una peticion Los tres metodos principales de generar alineamientos de pares son los de matriz de puntos los de programacion dinamica y los de busqueda de palabra 4 aunque la mayoria de metodos de alineacion multiple de secuencias pueden funcionar con solo dos secuencias Aunque cada metodo tiene sus propios puntos fuertes y debiles todos ellos tienen problemas para alinear secuencias repetitivas con bajo contenido en informacion especialmente cuando el numero de repeticiones puede ser diferente en las dos secuencias que se alinean Una manera de cuantificar la utilidad de un alineamiento de pares determinado es la maxima coincidencia individual o la mayor subsecuencia que se da en ambas secuencias en estudio En general cuanto mayor sea tal subsecuencia mas cercana sera su relacion Metodos de matriz de puntos Editar Una matriz de puntos de ADN del factor de transcripcion dedo de zinc en el ser humano GenBank ID NM 002383 mostrando autosimilitud regional La diagonal principal representa el alineamiento de la secuencia consigo misma las lineas fuera de esta diagonal representan patrones similares o repetitivos dentro de la secuencia Es un ejemplo tipico de grafica recurrente El enfoque de matriz de puntos o matrix dot que implicitamente produce una familia de alineamientos para regiones individuales de la secuencia es cualitativo y simple a pesar de que consume mucho tiempo para analisis a gran escala Es facil identificar visualmente determinadas caracteristicas de la secuencia tales como inserciones borrados repeticiones o repeticiones invertidas en una grafica de matriz de puntos Para construir una grafica de matriz de puntos las dos secuencias se colocan a lo largo de la fila superior y de la columna que esta mas a la izquierda de la matriz de dos dimensiones y se coloca un punto en cualquier lugar en el que los caracteres en las columnas correspondientes coincidan esta es una tipica grafica recurrente Algunas implementaciones varian el tamano o la intensidad de los puntos en funcion del grado de similitud de los dos caracteres para dar cabida a las sustituciones conservadas La grafica de puntos de secuencias muy estrechamente relacionadas aparece como una unica linea a lo largo de la diagonal principal de la matriz Las graficas de puntos tambien pueden utilizarse para evaluar repetitividad en una sola secuencia una secuencia se grafica contra si misma y las regiones que comparten similitudes significativas apareceran como lineas fuera de la diagonal principal Este efecto puede ocurrir cuando una proteina consta de multiples dominios estructurales similares Programacion dinamica Editar La tecnica de programacion dinamica puede aplicarse para producir alineamientos globales mediante el algoritmo de Needleman Wunsch asi como alineamientos locales mediante el algoritmo de Smith Waterman En una utilizacion habitual en los alineamientos de proteinas se utiliza una matriz de sustitucion para asignar puntuaciones a las coincidencias y a las diferencias entre aminoacidos y una penalizacion por gap literalmente hueco aunque en buena parte de la literatura en castellano se utiliza el vocablo ingles al hacer coincidir un aminoacido de una secuencia con un hueco en otra En alineamientos de ADN y ARN puede usarse una matriz de puntuaciones pero en la practica a menudo se asigna simplemente una puntuacion positiva a las coincidencias una negativa a las diferencias y otra penalizacion negativa a los gaps En la programacion dinamica estandar la puntuacion de la posicion de cada aminoacido es independiente de la identidad de sus vecinos por lo que los efectos del apilamiento de bases no se toman en cuenta Sin embargo es posible hacerlo modificando el algoritmo La programacion dinamica puede ser util en el alineamiento de nucleotidos con secuencias de proteinas una tarea complicada por la necesidad de tomar en consideracion las mutaciones con cambio inserciones o borrados normalmente La busqueda del marco abierto de lectura proporciona una serie de alineamientos de pares locales o globales entre una secuencia de nucleotidos a investigar secuencia problema y un conjunto de busqueda de secuencias de proteinas o viceversa A pesar de que el metodo es muy lento su habilidad para evaluar la compensacion de los marcos de lectura para un numero arbitrario de nucleotidos lo convierte en util para secuencias que contengan un buen numero de indels los cuales pueden ser muy dificiles de alinear con metodos heuristicos mas eficientes En la practica el metodo requiere una buena cantidad de potencia de computo o un sistema cuya arquitectura este especializada en programacion dinamica Las suites BLAST y EMBOSS proporcionan herramientas basicas para crear alineamientos adaptados aunque alguno de estos enfoques saca ventaja de los efectos laterales de la capacidad de busqueda de secuencias de las herramientas Se consiguen metodos mas generales tanto de fuentes comerciales como FrameSearch distribuido como parte del paquete Accelrys GCG como de software de codigo abierto como Genewise El metodo de programacion dinamica garantiza encontrar un alineamiento optimo dada una funcion de puntuacion en particular sin embargo identificar una buena funcion de puntuacion es usualmente mas una cuestion empirica que teorica A pesar de que la programacion dinamica es extensible a mas de dos secuencias es prohibitivamente lenta para un alto numero de secuencias extremadamente largas Metodos de palabra corta Editar Los metodos de palabra corta tambien conocidos como metodos de k tuplas son metodos heuristicos que no garantizan encontrar una solucion de alineamiento optima pero son significativamente mas eficientes que la programacion dinamica Estos metodos son especialmente utiles en busquedas sobre bases de datos a gran escala donde se asume que una larga proporcion de las secuencias candidatas no tendran coincidencias significativas con la secuencia problema Los metodos de palabra corta son mas conocidos por su implementacion en las herramientas de busqueda en bases de datos FASTA y la familia BLAST 4 Estos metodos identifican en la secuencia problema una serie de subsecuencias cortas que no se solapan palabras y que se contrastan contra las secuencias de la base de datos Las posiciones relativas de la palabra en las dos secuencias a comparar se restan para obtener un valor de desplazamiento se manifestara asi una region de alineamiento si varias palabras diferentes producen el mismo desplazamiento Solo si esta region es detectada estos metodos aplicaran criterios de alineamiento mas sensibles De esta forma se eliminan muchas comparaciones innecesarias entre secuencias de similitud inapreciable En el metodo FASTA el usuario define un valor k para definir la longitud de la palabra con la cual buscar en la base de datos El metodo es mas lento pero mas sensible para valores bajos de k que tambien son preferibles para busquedas que impliquen una secuencia problema muy corta La familia BLAST de metodos de busqueda proporciona varios algoritmos optimizados para tipos particulares de problemas tales como la busqueda de coincidencias entre secuencias escasamente relacionadas BLAST fue desarrollado para proporcionar una alternativa mas rapida a FASTA sin sacrificar demasiada precision Como FASTA BLAST utiliza una palabra de busqueda de longitud k pero solo evalua las coincidencias mas significativas de las palabras en lugar de cada coincidencia como hace FASTA La mayoria de las implementaciones de BLAST usan una longitud de palabra fijada por defecto que se optimiza para el problema y el tipo de base de datos y que se cambia solo bajo circunstancias especificas tales como busquedas con secuencias problema repetitivas o muy cortas Pueden encontrarse implementaciones a traves de varios portales web como EMBL FASTA y NCBI BLAST Alineamiento multiple de secuencias EditarArticulo principal Alineamiento multiple de secuencias Alineamiento de 27 secuencias de la proteina hemaglutinina de la gripe aviaria coloreado segun la conservacion de residuos mas oscuro cuanta mayor conservacion arriba y sus propiedades quimicas abajo El alineamiento multiple de secuencias es una extension del alineamiento de pares que incorpora mas de dos secuencias al mismo tiempo Los metodos de alineamiento multiple intentan alinear todas las secuencias de un conjunto dado Los alineamientos multiples son usados a menudos en la identificacion de regiones conservadas en un grupo de secuencias que hipoteticamente estan relacionadas evolutivamente Estos motivos conservados pueden ser usados en conjunto con la estructura y con informacion mecanistica para localizar sitios activos cataliticos de las enzimas Los alineamientos son tambien utilizados para ayudar al establecimiento de relaciones evolutivas mediante la construccion de arboles filogeneticos Los alineamientos multiples de secuencias son computacionalmente dificiles de producir y la mayoria de las formulaciones del problema conducen a problemas de optimizacion combinatorial NP completos 5 Sin embargo la utilidad de estos alineamientos en la bioinformatica ha dado lugar al desarrollo de una variedad de metodos adecuados para la alineacion de tres o mas secuencias Programacion dinamica Editar La tecnica de programacion dinamica es teoricamente aplicable a cualquier numero de secuencias sin embargo y puesto que es computacionalmente costosa tanto en tiempo como en memoria raramente se usa en su forma mas basica para mas de tres o cuatro secuencias Este metodo requiere la construccion de un equivalente n dimensional a la matriz formada por dos secuencias donde n es el numero de secuencias problema La programacion dinamica estandar se usa primero en todos los emparejamientos entre las secuencias problema por lo que el espacio de alineamiento se rellena considerando posibles coincidencias o huecos en las posiciones intermedias construyendo finalmente y en esencia un alineamiento entre cada alineamiento de dos secuencias Aunque esta tecnica es computacionalmente costosa su garantia de una solucion global optima es util en casos donde solo unas cuantas secuencias necesitan ser alineadas con precision Un metodo para reducir las demandas computacionales de programacion dinamica que depende de la funcion objetivo suma de pares ha sido implementado en el paquete de software MSA 6 Metodos progresivos Editar Los metodo progresivos jerarquicos o por arbol generan un alineamiento multiple de secuencias alineando primero las secuencias mas similares para ir anadiendo sucesivamente al alineamiento secuencias o grupos menos relacionados hasta que el conjunto problema completo ha sido incorporado a la solucion El arbol inicial describiendo el parentesco de las secuencias se basa en comparaciones de emparejamientos que podrian incluir metodos de emparejamiento heuristico para alineamientos similares a FASTA Los resultados del alineamiento progresivo dependen de la eleccion de las secuencias mas relacionadas por lo que pueden ser sensibles a imprecisiones en los alineamientos de emparejamientos iniciales La mayoria de los metodos progresivos de alineamiento multiple de secuencias ponderan adicionalmente las secuencias en el conjunto problema de acuerdo a su parentesco lo que reduce la probabilidad de efectuar una pobre eleccion de las secuencias iniciales y asi se mejora la precision del alineamiento Un buen numero de variaciones de la implementacion progresiva de Clustal 7 8 9 se utilizan para alineamientos multiples de secuencias construccion de arboles filogeneticos y como entrada para la prediccion de estructura de proteinas Una variante del metodo progresivo mas lenta pero mas precisa se conoce como T Coffee Tree based Consistency Objective Function For alignment Evaluation 10 de la que pueden encontrarse implementaciones en ClustalW y T Coffee Metodos iterativos Editar Los metodos iterativos intentan mejorar el punto debil de los metodos progresivos su fuerte dependencia de la precision de los alineamientos de los emparejamientos iniciales Los metodos iterativos optimizan una funcion objetivo basada en un metodo seleccionado de puntuacion de alineamiento mediante la asignacion de un alineamiento global inicial y el posterior realineamiento de subconjuntos de secuencias Los subconjuntos realineados son entonces alineados consigo mismos para producir la siguiente iteracion de alineamiento multiple de secuencias Se encuentran bajo analisis varias formas de seleccion de los subgrupos de secuencias y de la funcion objetivo 11 Descubrimiento de motivos Editar Para el descubrimiento de motivos o analisis de perfiles se construyen alineamientos multiples globales de secuencias que intentan alinear secuencias motivo cortas conservadas entre las secuencias del conjunto problema Se hace usualmente construyendo primero un alineamiento multiple de secuencias global tras el cual las regiones altamente conservadas se identifican y se utilizan para construir un conjunto de matrices de perfil tambien denominadas matrices ponderadas o matrices de pesos La matriz del perfil de cada region conservada se dispone como una matriz de puntuacion pero sus cifras de frecuencia para cada aminoacido o nucleotido en cada posicion se derivan de la distribucion de los caracteres de la region conservada en lugar de una distribucion empirica mas general Las matrices de perfil se usan para buscar ocurrencias del motivo que caracterizan en otras secuencias En los casos en los que el conjunto de datos original contenga un pequeno numero de secuencias o solo secuencias muy relacionadas se anaden pseudocontadores para normalizar las distribuciones de caracteres representadas en el motivo Tecnicas inspiradas por las ciencias de la computacion Editar Una variedad de algoritmos generales de optimizacion usados comunmente en ciencias de la computacion se han aplicado tambien al problema del alineamiento de secuencias Los modelos ocultos de Markov se han utilizado para producir registros de probabilidades para una familia de posibles alineamientos multiples de secuencias sobre un conjunto problema dado Aunque los primeros metodos basados en estos modelos eran de rendimiento poco brillante aplicaciones posteriores los han encontrado especialmente efectivos para detectar secuencias remotamente relacionadas puesto que son menos susceptibles al ruido creado por sustituciones conservativas o semiconservativas 12 Los algoritmos geneticos y el simulated annealing se han usado para optimizar las puntuaciones de alineamientos multiples de secuencias valorandolos mediante una funcion de puntuacion como la del metodo de suma de pares Alineamiento estructural EditarArticulo principal Alineamiento estructural Los alineamientos estructurales que son especificos de las proteinas y algunas veces de secuencias de ARN usan informacion sobre la estructura secundaria y terciaria de la proteina o molecula de ARN como ayuda para alinear las secuencias Estos metodos pueden usarse para dos o mas secuencias y producen tipicamente alineamientos locales Sin embargo y puesto que dependen de la disponibilidad de informacion estructural solo pueden ser usados para secuencias cuyas correspondientes estructuras sean conocidas a traves normalmente de cristalografia de rayos X o espectroscopia de resonancia magnetica nuclear Puesto que la estructura tanto de proteinas como de ARN esta mas conservada evolutivamente que su secuencia 13 los alineamientos estructurales pueden ser mas fidedignos entre secuencias que esten muy lejanamente relacionadas y que hayan divergido tan extensamente que la comparacion de las secuencias no pueda detectar fehacientemente su similitud Los alineamientos estructurales se usan como el patron oro para evaluar alineamientos en la prediccion de estructura de proteinas basada en homologia 14 ya que explicitamente alinean regiones de la secuencia de la proteina que son estructuralmente similares en lugar de depender exclusivamente en la informacion derivada de la secuencia No obstante los alineamientos estructurales no pueden usarse en la prediccion de la estructura puesto que al menos una secuencia en el conjunto problema es el objetivo a modelar para el cual la estructura se desconoce Se ha demostrado que dado el alineamiento estructural entre un objetivo y una secuencia molde se pueden producir modelos altamente precisos de la proteina objetivo Un importante obstaculo en la prediccion de la estructura basada en homologia es la produccion de alineamientos estructuralmente precisos dada solo informacion de la secuencia 14 DALI Editar El metodo DALI del ingles Distance matrix ALIgnment alineamiento de matriz de distancias es un metodo fragmentario para construir alineamientos estructurales basados en contactar patrones de similitud entre sucesivos hexapeptidos en las secuencias problema 15 Puede generar emparejamientos o alineamientos multiples e identificar los vecinos estructurales de una secuencia problema en el Protein Data Bank PDB Se ha usado para construir la base de datos de alineamientos estructurales FSSP del ingles Families of Structurally Similar Proteins familias de proteinas estructuralmente similares Puede accederse a un servidor web de DALI en base de datos DALI y la FSSP se localiza en la SSAP Editar SSAP del ingles Sequential Structure Alignment Program programa de alineamiento de estructura secuencial es un metodo de alineamiento estructural basado en programacion dinamica que usa vectores atomo a atomo en el espacio de la estructura como puntos a comparar Se ha extendido desde su descripcion original para incluir tanto alineamientos multiples como emparejamientos 16 y se ha usado en la construccion del CATH del ingles Class Architecture Topology Homology clase arquitectura topologia homologia base de datos jerarquica de clasificacion de plegamientos de proteinas 17 La base de datos CATH puede accederse en la Clasificacion de Estructura de Proteinas CATH Extension combinatoria Editar El metodo de extension combinatoria para alineamiento estructural genera un alineamiento estructural de pares usando geometria local para alinear fragmentos cortos de las dos proteinas a analizar y juntar entonces estos fragmentos en un alineamiento mayor 18 Basado en medidas tales como la raiz del error cuadratico medio en superposicion de proteinas como solidos rigidos distancias entre residuos estructura secundaria local y caracteristicas medioambientales circundantes tales como la hidrofobicidad de los residuos vecinos se generan alineamientos locales llamados pares de fragmentos alineados que se usan para construir una matriz de similitud representando todos los alineamientos estructurales posibles dentro de un criterio de corte predefinido Se traza entonces una trayectoria desde un estado de la estructura de una proteina a otro a traves de la matriz extendiendo el creciente alineamiento un fragmento cada vez La trayectoria optima define el alineamiento por extension combinatoria Un servidor web que implementa el metodo y proporciona una base de datos de emparejamientos de estructura en el Protein Data Bank se localiza en el sitio de Combinatorial Extension Analisis filogenetico EditarArticulo principal Filogenetica computacional La filogenia y el alineamiento de secuencias son campos intimamente relacionados debido a su necesidad compartida de evaluar el parentesco entre secuencias La filogenia hace un uso extensivo de los alineamientos de secuencias en la construccion e interpretacion de arboles filogeneticos que se usan para clasificar las relaciones evolutivas entre genes homologos representados en el genoma de especies divergentes El grado en el que las secuencias de un conjunto problema difieren esta relacionado cualitativamente con la distancia evolutiva entre ellas De forma simplificada una alta identidad de secuencias sugiere que tienen un comparativamente joven ancestro comun mas reciente mientras que una baja identidad sugiere que la divergencia es mas remota Esta aproximacion que refleja la hipotesis de reloj molecular hipotesis que asume un ritmo aproximadamente constante de cambio evolutivo que puede utilizarse para extrapolar el tiempo transcurrido desde la primera divergencia de dos genes o tiempo de coalescencia asume que los efectos de la mutacion y de la seleccion natural son constantes a lo largo de linajes de secuencias No toma en cuenta por lo tanto posibles diferencias entre organismos o especies en los ritmos de reparacion del ADN o la posible conservacion funcional de regiones especificas en una secuencia En el caso de secuencias de nucleotidos la hipotesis de reloj molecular en su forma mas basica tambien deja de lado la diferencia en las tasas de aceptacion entre mutaciones silenciosas que no alteran el significado de un determinado codon y otras mutaciones que resultan en la incorporacion de un aminoacido diferente en la proteina Metodos con mayor precision estadistica permiten variar el ritmo evolutivo en cada rama del arbol filogenetico produciendo asi mejores estimaciones de los tiempos de coalescencia de los genes Las tecnicas de alineamiento multiple progresivo producen un arbol filogenetico necesariamente ya que van incorporando secuencias en el creciente alineamiento segun su orden de parentesco Otras tecnicas que reunen alineamientos multiples de secuencias y arboles filogeneticos puntuan y ordenan los arboles en primer lugar y calculan despues un alineamiento multiple de secuencias a partir del arbol de mayor puntuacion Los metodos comunes de construccion de arboles filogeneticos son principalmente heuristicos puesto que el problema de seleccionar el arbol optimo al igual que el problema de seleccionar el alineamiento multiple de secuencias optimo es NP complejo 19 Valoracion de su significacion EditarLos alineamientos de secuencias son utiles en bioinformatica para identificar similitudes entre secuencias producir arboles filogeneticos y desarrollar modelos de homologia sobre estructuras de proteinas Sin embargo la relevancia biologica de los alineamientos no siempre es clara Se asume a menudo que los alineamientos reflejan un grado de cambio evolutivo entre secuencias que descienden de un ancestro comun pero es formalmente posible que la convergencia evolutiva pueda darse para producir similitudes aparentes entre proteinas que no esten evolutivamente relacionadas pero que lleven a cabo funciones similares y tengan parecidas estructuras En busquedas en bases de datos como con BLAST los metodos estadisticos pueden determinar la probabilidad de un alineamiento particular casual entre secuencias o regiones de secuencias dado el tamano y la composicion de la base de datos en cuestion Estos valores pueden variar significativamente dependiendo del espacio de busqueda En particular la probabilidad de encontrar por casualidad un alineamiento dado se incrementa si la base de datos consiste solo en secuencias del mismo organismo que la secuencia problema Secuencias repetitivas en la base de datos o en la consulta tambien pueden distorsionar tanto la busqueda de resultados y la valoracion de su significacion estadistica BLAST filtra automaticamente tales secuencias repetitivas en la consulta para evitar exitos aparentes que correspondan a artefactos estadisticos Funciones de puntuacion Editar Para producir buenos alineamientos es importante la eleccion de una funcion de puntuacion que refleje observaciones biologicas o estadisticas sobre secuencias conocidas Las secuencias de proteinas son alineadas usando frecuentemente matrices de sustitucion que reflejan las probabilidades de particulares sustituciones caracter por caracter Una serie de matrices denominadas matrices PAM del ingles Point Accepted Mutation mutacion puntual aceptada originalmente definidas por Margaret Dayhoff por lo que a veces se denominan matrices Dayhoff codifican explicitamente las aproximaciones evolutivas considerando las frecuencias y probabilidades de mutaciones particulares de aminoacidos Otra serie comun de matrices de puntuacion conocidas como BLOSUM del ingles Blocks Substitution Matrix matriz de sustitucion de bloques codifica probabilidades de sustitucion derivadas empiricamente Se utilizan variantes de ambos tipos de matrices para detectar secuencias con diferentes niveles de divergencia permitiendo asi a los usuarios de BLAST o FASTA restringir sus busquedas a coincidencias mas cercanamente relacionadas o extenderlas para detectar secuencias mas divergentes Las penalizaciones por gaps representan la introduccion de huecos en el modelo evolutivo una mutacion por insercion o borrado en secuencias tanto de nucleotidos como de proteinas y estos valores de penalizacion por lo tanto deberian ser proporcionales a la frecuencia esperada de tales mutaciones La calidad de los alineamientos producidos depende en consecuencia de la calidad de la funcion de puntuacion Puede resultar muy util e instructivo intentar el mismo alineamiento diferentes veces con diferentes elecciones de matrices de puntuacion y o diferentes valores de penalizacion por huecos y comparar los resultados Las regiones donde la solucion sea poco consistente o no sea unica pueden ser identificadas a menudo observando que regiones del alineamiento son robustas a variaciones en los parametros de alineacion Usos no biologicos EditarLos metodos usados para alineamientos de secuencias biologicas pueden tambien encontrar aplicaciones en otros campos y muy notablemente en el procesamiento de lenguajes naturales Las tecnicas que generan el conjunto de elementos desde el que las palabras se seleccionaran en los algoritmos de generacion de lenguajes naturales han pedido prestadas tecnicas de alineamiento de secuencias a la bioinformatica para producir versiones linguisticas de pruebas matematicas generadas por ordenador 20 En el campo de linguistica historica y comparativa se ha usado el alineamiento de secuencias para automatizar parcialmente el metodo comparativo por el que tradicionalmente los linguistas reconstruyen lenguajes 21 Tambien se han aplicado tecnicas de alineamiento de secuencias en la investigacion de negocios y marketing analizando series temporales de compras 22 Software EditarArticulo principal Anexo Software para alineamiento de secuencias Articulo principal Anexo Software para alineamiento estructural Las herramientas software comunes usadas para tareas generales de alineamiento de secuencias incluyen ClustalW y T coffee para el alineamiento y BLAST para busquedas en bases de datos Una lista mucho mas completa de software disponible categorizado por algoritmo y tipo de alineamiento puede encontrarse en el Anexo Software para alineamiento de secuencias Los algoritmos de alineamiento y el software pueden ser contrastados directamente usando un conjunto estandarizado de benchmark de referencia para alineamientos multiples de secuencias denominado BAliBASE 23 El conjunto de datos consiste en alineamientos estructurales que pueden ser considerados como un estandar contra el cual se comparan los metodos basados en secuencias Ha sido tabulado el rendimiento relativo de bastantes metodos comunes de alineamiento encontrados frecuentemente en problemas de alineacion y los resultados mas significativos se han publicado en linea en BAliBASE 24 En el banco de trabajo de proteinas STRAP puede computarse una detallada lista de puntuaciones de BAliBASE para varias herramientas diferentes de alineamiento Vease tambien EditarAlgoritmo Needleman Wunsch Algoritmo Smith Waterman Alineamiento multiple de secuencias BLAST Clustal FASTAReferencias Editar Schneider TD Stephens RM 1990 Sequence logos a new way to display consensus sequences Nucleic Acids Res 18 6097 6100 PMID 2172928 doi 10 1093 nar 18 20 6097 Brudno M Malde S Poliakov A Do CB Couronne O Dubchak I Batzoglou S 2003 Glocal alignment finding rearrangements during alignment Bioinformatics 19 Suppl 1 i54 62 PMID 12855437 doi 10 1093 bioinformatics btg1005 Brudno M Poliakov A Salamov A Cooper GM Sidow A Rubin EM Solovyev V Batzoglou S Dubchak I 2004 Automate whole genome multiple alignment of rat mouse and human Genome Research 14 685 692 doi 10 1101 gr 2067704 a b Mount DM 2004 Bioinformatics Sequence and Genome Analysis 2nd ed Cold Spring Harbor Laboratory Press Cold Spring Harbor NY ISBN 0 87969 608 7 Wang L Jiang T 1994 On the complexity of multiple sequence alignment J Comput Biol 1 337 48 PMID 8790475 Lipman DJ Altschul SF Kececioglu JD 1989 A tool for multiple sequence alignment Proc Natl Acad Sci U S A 86 4412 5 PMID 2734293 doi 10 1073 pnas 86 12 4412 Higgins DG Sharp PM 1988 CLUSTAL a package for performing multiple sequence alignment on a microcomputer Gene 73 1 237 44 PMID 3243435 doi 10 1016 0378 1119 88 90330 7 Thompson JD Higgins DG Gibson TJ 1994 CLUSTAL W improving the sensitivity of progressive multiple sequence alignment through sequence weighting position specific gap penalties and weight matrix choice Nucleic Acids Res 22 4673 80 PMID 7984417 doi 10 1093 nar 22 22 4673 Chenna R Sugawara H Koike T Lopez R Gibson TJ Higgins DG Thompson JD 2003 Multiple sequence alignment with the Clustal series of programs Nucleic Acids Res 31 3497 500 PMID 12824352 doi 10 1093 nar gkg500 Notredame C Higgins DG Heringa J 2000 T Coffee A novel method for fast and accurate multiple sequence alignment J Mol Biol 302 1 205 17 PMID 10964570 doi 10 1006 jmbi 2000 4042 Hirosawa M Totoki Y Hoshida M Ishikawa M 1995 Comprehensive study on iterative algorithms of multiple sequence alignment Comput Appl Biosci 11 13 8 PMID 7796270 doi 10 1093 bioinformatics 11 1 13 Karplus K Barrett C Hughey R 1998 Hidden Markov models for detecting remote protein homologies Bioinformatics 14 10 846 856 PMID 9927713 doi 10 1093 bioinformatics 14 10 846 Chothia C Lesk AM 1986 The relation between the divergence of sequence and structure in proteins EMBO J 5 4 823 6 PMID 3709526 a b Zhang Y Skolnick J 2005 The protein structure prediction problem could be solved using the current PDB library Proc Natl Acad Sci U S A 102 1029 34 PMID 15653774 doi 10 1073 pnas 0407152101 Holm L Sander C 1996 Mapping the protein universe Science 273 595 603 PMID 8662544 Taylor WR Flores TP Orengo CA 1994 Multiple protein structure alignment Protein Sci 3 1858 70 PMID 7849601 Orengo CA Michie AD Jones S Jones DT Swindells MB Thornton JM 1997 CATH a hierarchic classification of protein domain structures Structure 5 1093 108 PMID 9309224 doi 10 1016 S0969 2126 97 00260 8 Shindyalov IN Bourne PE 1998 Protein structure alignment by incremental combinatorial extension CE of the optimal path Protein Eng 11 739 47 PMID 9796821 doi 10 1093 protein 11 9 739 Felsenstein J 2004 Inferring Phylogenies Sinauer Associates Sunderland MA ISBN 0 87893 177 5 Barzilay R Lee L 2002 Bootstrapping Lexical Choice via Multiple Sequence Alignment Proceedings of the Conference on Empirical Methods in Natural Language Processing EMNLP 164 171 Kondrak Grzegorz 2002 Algorithms for Language Reconstruction PDF University of Toronto Ontario Archivado desde el original el 17 de diciembre de 2008 Consultado el 21 de enero de 2007 Prinzie A D Van den Poel 2006 Incorporating sequential information into traditional classification models by using an element position sensitive SAM Decision Support Systems 42 2 508 526 doi 10 1016 j dss 2005 02 004 See also Prinzie and Van den Poel s paper Predicting home appliance acquisition sequences Markov Markov for Discrimination and survival analysis for modeling sequential information in NPTB models Decision Support Systems 44 1 28 45 2007 doi 10 1016 j dss 2007 02 008 Thompson JD Plewniak F Poch O 1999 BAliBASE a benchmark alignment database for the evaluation of multiple alignment programs Bioinformatics 15 87 8 PMID 10068696 doi 10 1093 bioinformatics 15 1 87 Thompson JD Plewniak F Poch O 1999 A comprehensive comparison of multiple sequence alignment programs Nucleic Acids Res 27 2682 90 PMID 10373585 doi 10 1093 nar 27 13 2682 Datos Q827246 Multimedia Sequence alignmentObtenido de https es wikipedia org w index php title Alineamiento de secuencias amp oldid 132172385, wikipedia, wiki, leyendo, leer, libro, biblioteca,

español

, española, descargar, gratis, descargar gratis, mp3, video, mp4, 3gp, jpg, jpeg, gif, png, imagen, música, canción, película, libro, juego, juegos