fbpx
Wikipedia

Motivo de secuencia

En biología molecular, un motivo de secuencia es una secuencia corta de nucleótidos que se presume que desempeña una función biológica concreta, puesto que está altamente conservada entre especies. Estas secuencias pueden ser codificantes o no codificantes, y suelen estar implicadas en la regulación de procesos biológicos como la transcripción, el procesamiento del ARN mensajero y la traducción a proteína.[1]

Logo secuencia del motivo aceptor de splicing 3'.

Con frecuencia, el mecanismo por el cual los motivos de secuencia regulan funciones biológicas es modulando la unión específica de proteínas y complejos proteicos a ácidos nucleicos, tales como enzimas nucleasas y factores de transcripción.[2]

Los motivos de secuencia encapsulan funciones biológicas esenciales para la vida. Su estudio es especialmente relevante tanto para la clasificación de familias de proteínas y generación de relaciones filogenéticas robustas, como para entender en profundidad los procesos moleculares que permiten la vida en la tierra.

Tipos de motivos

En análisis de secuencias, el término "motivo" se utiliza para describir la conservación de sub-regiones dentro de secuencias de mayor tamaño. Además de los motivos de secuencia, encontramos otros tipos de motivos de dimensiones mayores denominados motivos estructurales, cuyo objeto de estudio son aquellas estructuras tridimensionales cuya conformación espacial está altamente conservada. En este sentido, cabe distinguir los motivos de secuencia de los estructurales: [3]

  • Motivos de secuencia: consisten en secuencias lineales cortas de elementos adyacentes que han evolucionado principalmente de forma independiente al contexto molecular que los rodea. Son especialmente comunes en ácidos nucleicos; algunos ejemplos de motivos de secuencia son: caja TATA, señal de N-glicosilación y sitios de reconocimiento de splicing.[3]
  • Motivos estructurales: estructuras tridimensionales formadas esencialmente por elementos no adyacentes que se han conservado junto a su contexto molecular, dado que su funcionalidad depende directamente de su correcto plegamiento espacial. Tanto las proteínas como los ácidos nucleicos forman supra-estructuras tridimensionales. Ejemplos de motivos estructurales son: las hélice alfa, las regiones transmembrana y los bucles omega.[3]
Motivo Objeto de estudio Ejemplos
Motivo de secuencia
  • Secuencias lineales cortas de nucleótidos adyacentes.
  • Más independdientes del contexo estructural.
Motivo estructural
  • Estructuras tridimensionales conservadas.
  • Dependientes del contexto molecular.

Descubrimiento

El descubrimiento de motivos de secuencia fue posible en la década de 1970 debido al desarrollo en técnicas de secuenciación de ácidos nucleicos. En el año 1975, David Pribnow realizó experimentos aislando un fragmento protegido de la RNA polimerasa del bacteriófago T7.[4]​ Este fragmento contenía el punto de iniciación de una molécula de ARN mensajero de T7.  Con estos experimentos, Pribnow descubrió una secuencia específica dentro de los promotores que participaba en la unión de la ADN polimerasa y que estaba conservada entre especies. El descubrimiento de esta secuencia fue un hito en la biología molecular del momento. Los descubrimientos de Pribnow siguen teniendo validez en la actualidad. La secuencia descrita en un principio fue bautizada como caja de Pribnow, y luego pasaría a ser conocida como caja TATA.

A partir de entonces, el descubrimiento de motivos de secuencia ha estado en ascenso, en especial a desde la década de 1990. En particular, la mayoría de las investigaciones de descubrimiento de motivos existentes se centran en motivos de ADN. Con los avances en la secuenciación de alto rendimiento, estos problemas de descubrimiento de los motivos se ven desafiados tanto por los problemas de degeneración del patrón de secuencia como por los problemas de escalabilidad computacional de uso intensivo de datos.

Formas de representación

Los motivos de secuencia se suelen representar de dos formas alternativas: usando expresiones regulares o bien mediante matrices de pesos posicionales.

Expresiones regulares

Las expresiones regulares son grafías una amplían el alfabeto original de ADN formado por A, C, T y G útiles para representar que en una determinada posición del genoma, se produce una co-ocurrencia de nucleótidos. Estas formas de representar variación de pares de bases son especialmente útiles para representar motivos, puesto que a veces no todos los nucleótidos de una secuencia motivo están igual de conservados. En ocasiones los nucleótidos de algunas posiciones se mantienen constantes entre especies, mientras que otras posiciones presentan variaciones. Estas variaciones permiten modular la afinidad con la que se unen complejos proteicos y demás proteínas reguladoras, y otorgan de esta manera versatilidad a los procesos biológicos.

Las expresiones regulares más utilizadas en la representación de secuencias de ADN son las letras mayúsculas " Y " y " R " , que se utilizan para representar posiciones en las que se encuentran 2 nucleótidos distintos. La " Y " simboliza la co-ocurrencia de pirimidinas C y T, mientras que la " R " representa que en esa posición del genoma suelen aparecer los nucleótidos A y G alternativamente. Asimismo, existen expresiones regulares para indicar que en una determinada posición puede aparecer cualquiera de los 4 nucleótidos canónicos, representado con un punto " . ".

Asimismo, existen expresiones regulares para representar aminoácidos en secuencias de proteínas. La colección más grande y completa de motivos de secuencia de la que disponemos hasta el momento se encuentra en la base de datos PROSITE. En esta encontramos una notación que lleva el mismo nombre (notación PROSITE) y que se caracteriza por utilizar los códigos de una letra de establecidos por la IUPAC. Este sistema de grafía incorpora distintas letras del alfabeto para nombrar aminoácidos y utiliza el guion ' - ' como símbolo de concatenación. Entre las características de la sintaxis PROSITE, destacan las siguientes reglas:

  • La letra minúscula " x " se puede utilizar como elemento de patrón para indicar cualquier aminoácido.
  • Una cadena de caracteres extraídos del alfabeto y encerrados entre paréntesis denota cualquier aminoácido excepto los de la cadena. Por ejemplo, {ST} indica cualquier aminoácido distinto de S o T'.
  • Si un patrón está restringido al N-terminal de una secuencia, el patrón tiene el prefijo ' < '.
  • Si un patrón está restringido al C-terminal de una secuencia, el patrón tiene el sufijo ' > '.
  • El carácter ' > ' también puede aparecer dentro de un patrón de corchetes de terminación, de modo que S[T > ] coincida con " ST " y " S > ".
  • Si e es un elemento de patrón, y m y n son dos números enteros decimales con m <= n, entonces:
    • e(m) es equivalente a la repetición de e exactamente m veces; por ejemplo x(3) es equivalente a xxx .
    • e(m,n) es equivalente a la repetición de e exactamente k veces para cualquier entero k satisfaga: m <= k <= n . Un ejemplo de ello sería x(2,4), que indicaría cualquier secuencia que coincida con x-x , x-x-x o bien con x-x-x-x.


Un ejemplo de motivo relevante en la familia de proteínas de unión a ADN llamadas dedos de zinc de tipo C2H2 siguiendo la nomenclatura PROSITE sería la siguiente:

C-x(2,4)-C-x(3)-[LIVMFYWC]-x(8)-H-x(3,5)-H

La principal limitación de las expresiones regulares se debe a su naturaleza reduccionista. Al condensar la información de variación de nucleótidos en una representación lineal de caracteres, se pierde la información referente a en qué proporciones aparece cada posible nucleótido. Para capturar esta información a la hora de representar motivos de secuencia, es necesario utilizar matrices de pesos posicionales.

Matrices de pesos posicionales

Una matriz de números que contiene puntuaciones para cada residuo o nucleótido en cada posición de un motivo de longitud fija. Hay dos tipos de matrices de peso.

  • Una matriz de frecuencia de posición (PFM) registra la frecuencia dependiente de la posición de cada residuo o nucleótido. Los PFM se pueden determinar experimentalmente a partir de experimentos SELEX o se pueden descubrir computacionalmente mediante herramientas como MEME utilizando modelos ocultos de Markov.
  • Una matriz de ponderación de posición o matriz de pesos posicionales (PWM) contiene ponderaciones de probabilidades de registro para calcular una puntuación de coincidencia. Se necesita un límite para especificar si una secuencia de entrada coincide con el motivo o no. Los PWM se calculan a partir de PFM.

Para crear una matriz de ponderación de posición (PWM), el primer paso sería crear una matriz de frecuencia de posición básica (PFM), contando cuántas apariciones ha tenido cada nucleótido en cada posición. A partir del PFM, se creará una matriz de probabilidad de posición (PPM), realizando la división entre el recuento de nucleótidos anterior de cada posición, entre el número de secuencias. Esto nos permitirá normalizar los valores.

Dado un conjunto X de N secuencias alineadas de longitud I, los elementos de la matriz M se calculan:

 

donde i   (1,...,N), j   (1,...,l), k es una de las letras del alfabeto (A,C,T,G) e I(a=k) es una función indicatriz en la cual I(a=k) es 1 si a=k; y 0 en caso contrario.

Dadas las siguientes secuencias de ADN:

GAGGTAAAC
TCCGTAAGT
CAGGTTGGA
ACAGTCAGT
TAGGTCATT
TAGGTACTG
ATGGTAACT
CAGGTATAC
TGTGTGAGT
AAGGTAAGT

La correspondiente PFM es:

 

A continuación, la matriz de ponderación de posición (PPM) es:[5]

 

Tanto los PPM como los PWM asumen independencia estadística entre las posiciones del patrón. Esto es debido a que las probabilidades para cada posición se calculan independientemente de otras posiciones. De esta manera facilitamos el cálculo de la probabilidad de una secuencia dada una PPM; y esto se realiza multiplicando las probabilidades relevantes en cada posición.

Por ejemplo, la probabilidad de la secuencia S = GAGGTAAAC dado el PPM M anterior se puede calcular:

 

La mayoría de las veces, los elementos de las matrices de pesos posicionales (PWM) se calculan como probabilidades logarítmicas. Se utiliza la matriz de frecuencias relativas obtenida anteriormente y se normalizan sus valores según las frecuencias esperadas.

 

Ante una secuencia de nucleótidos, se asume que la probabilidad esperada de obtener un nucleótido al azar es de 0.25. Al aplicar esta transformación, la matriz obtenida es la siguiente.

 

Cuando se obtienen los resultados del a PWM mediante el uso de probabilidades logarítmicas, la puntuación de la secuencia se obtiene sumando (y no multiplicando) los valores relevantes en cada posición en el PWM.

La puntuación nos dirá cómo se ha de considerar una secuencia en cuanto a su aleatoriedad. Si la puntuación es 0, la secuencia tiene la misma probabilidad de ser un lugar aleatorio que funcional. Si es mayor a 0, tiene más probabilidad de ser un lugar funcional que aleatorio. Si por contra, la puntuación es menor a 0, tendrá más probabilidades de ser un lugar aleatorio que funcional.


 
Logo secuencia del motivo dador de splicing 5'.

Las probabilidades observadas pueden ser representadas gráficamente utilizando logos de secuencias. Este es un tipo de representación cuantitativa de la variabilidad observada entre los elementos de un motivo. Consiste en representar para cada posición del motivo, las letras de los nucleótidos que aparecen. En el eje abcisas (de las x) se representan las diferentes posiciones, mientras que el eje de ordenadas (eje y) recoge la probabilidad de ocurrencia en una escala de 0 a 2 bits, siendo 0 la probabilidad mínima de ocurrencia y 2 la máxima. Se usa un sistema de 2 bits porque es más adecuado para recoger la ocurrencia de letras del alfabeto genético, de 4 letras en total. El tamaño de cada letra es proporcional a la frecuencia de aparición de ese nucleótido en esa posición concreta, tal y como se observa en la figura de al lado. El uso de logos de secuencia está ampliamente extendido en la actualidad dado que representan datos cuantitativos de una manera sencilla de interpretar.

Otra alternativa sería definir los patrones en plazos de un modelo probabilístico, como es el caso de los modelos ocultos de Márkov.

Identificación de secuencias motivo

La importancia en el descubrimiento de motivos nace del crecimiento de las bases de datos de motivos, como TRANSFAC y JASPAR para motivos de ADN; o PROSITE y BLOCKS para motivos proteicos. Aun así, quedan muchos más motivos por descubrir.

Para identificar nuevos motivos, se utilizan cuatro enfoques distintos: [2]

  1. Centrado: Mediante la reunión de un conjunto pequeño de secuencias de ADN no alineado o bien de secuencias proteicas, se buscan patrones sobrerrepresentados en las secuencias respecto a un modelo. Es el enfoque más predominante.
  2. Discriminativo: Se realiza la reunión de dos conjuntos de secuencias y se buscan patrones relativamente sobrerrepresentados en una sola de las entradas.
  3. Filogenético: Se utiliza la información en la conservación de secuencias sobre las secuencias en un solo conjunto de entrada.
  4. Genoma completo: Busca sobrerrepresentaciones y patrones conservados en alineamientos múltiples de dos o más especies.

Ejemplos

 
Logo de secuecia que representa la frecuencia de aparición de los nucleótidos T y A en el motivo Caja TATA que indica el inicio de la transcripción.

Caja TATA

La caja TATA (o TATA box en inglés) es una secuencia de ADN que se sitúa en la región promotora de los genes que indica el lugar de inicio de transcripción. El nombre de esta secuencia fue asignado en reconocimiento a sus descubridores, David Pribnow y Heinz Schaller, en 1975.[6]

Se encuentra casi inalterada en los 3 dominios de la biología (arqueas, bacterias y eucariotas), siendo una de las secuencias de ADN más conservadas en la historia de la evolución.[7]​ Es precisamente debido a su conservación evolutiva que se puede establecer un logo de secuencia para describir los nucleótidos más frecuentes que la conforman, siendo su secuencia canónica: 5'-TATAAA-3'.[8]

Este motivo de secuencia se encuentra entre 25 y 35 pares de bases antes del lugar del inicio de la transcripción. Sirve como sitio de unión tanto a factores de transcripción como a histonas, y requiere de la unión a ARN Polimerasa II para empezar a transcribir.

En lo que respecta al humano, la caja TATA se encuentra presente en un 35% de los genes transcritos con ARN Pol II, es decir, un tercio de los genes humanos requieren de este motivo de secuencia para ser transcritos.[9]

 
Logos de secuencias de motivos de los sitios dador (5') y aceptor (3') de splicing en eucariotas.

Sitios de splicing

El splicing es un proceso que ocurre después de la transcripción del ADN y forma parte de un conjunto de modificaciones que se dan de forma secuencial conocidas como maduración del ARN mensajero, que consisten en la eliminación de ciertos fragmentos para dar lugar al ARN mensajero definitivo que se va a traducir.

Este proceso es muy común en eucariotas, pudiéndose dar en cualquier tipo de ARN (ARNt, ARNr, etc.) aunque es más típico en el ARNm, y también se ha descrito en procariotas y bacteriófagos. [10]

Normalmente, el splicing consiste en descartar los intrones (regiones no codificantes) del ARN inmaduro y unir los exones (regiones codificantes), pero también existe un proceso mediante el cual se pueden descartar exones (splicing alternativo).[11]​ Estos procesos de descarte y unión son posibles gracias a reacciones catalizadas por un complejo molecular llamado espliceosoma, que realiza dos reacciones de transesterificación secuenciales.[12]​ Para que sucedan estas reacciones, es necesario que los intrones empiecen y acaben con unos nucleótidos concretos, con lo cual se han podido describir 2 secuencias consenso: 5'-GT-3' y 5'-AG-3' para el extremo 5' (sitio dador de splicing 5')[13]​ y 3' (sitio aceptor de splicing 3')[14]​ respectivamente.

 
Logo de secuencia del motivo de unión del ribosoma: el codón ATG.

Motivo de inicio de la traducción

El codón de inicio de la traducción hace referencia a una secuencia de ácido nucleico formada por tres nucleótidos (también denominado codón), que sirve como punto de partida para la formación de proteínas. Esto constituye un motivo de secuencia que en el ADN se compone de 5'-ATG-3', aunque es más frecuente verlo escrito en forma de ARN como 5'-AUG-3'. [15]

Este codón no sólo es usado por la célula como señal para empezar la traducción, sino que además es el primer codón traducido, por lo que formará parte del extremo amino terminal de las proteínas eucariotas hasta su procesamiento proteolítico como el aminoácido metionina. En cambio, los procariotas tienen N-formilmetionina en su lugar, consitituyendo una diferencia fundamental entre los códigos genéticos de ambos dominios biológicos. Si bien es cierto que los organismos procariotas suelen contar con más variabilidad en cuanto a los motivos de secuencia del inicio de la traducción, en el caso concreto de Escherichia coli (bacteria de la familia Enterobacteriaceae) se usa en un 83% de los casos el codón 5'-ATG-3', en un 14% el codón 5'-GTG-3' y en un 3% el codón 5'-TTG-3', siendo el primero el más usado con diferencia.[16]


N-glicosilación

La N-glicosilación proteica es un proceso muy conservado en la evolución. Se basa en la modificación de los residuos de Asparagina (Asn) de proteínas con estructuras de oligosacáridos, influyendo así en sus propiedades y actividad. Los lugares de N-glicosilación presentan un patrón de consenso: Asn, seguida por cualquier aminoácido excepto Pro, seguida por Ser o Thr, seguida por cualquier aminoácido excepto Pro, donde las abreviaturas de las letras siguen las nomenclaturas convencionales. Este patrón puede escribirse como:

N - {P} - [ST] - {P}

donde N es el lugar de glicosilación.[17]​ Cabe destacar que la presencia del tripéptido consenso no es suficiente para concluir que un residuo de asparagina está glicosilado, ya que el plegamiento de la proteína juega un papel importante en la regulación de la N-glicosilación. [18][19]

Referencias

  1. D'haeseleer, Patrik (2006-04). «What are DNA sequence motifs?». Nature Biotechnology (en inglés) 24 (4): 423-425. ISSN 1546-1696. doi:10.1038/nbt0406-423. Consultado el 20 de diciembre de 2020. 
  2. Keith, Jonathan M., ed. (2008). Bioinformatics. Methods in Molecular Biology™ 452. Humana Press. ISBN 978-1-58829-707-5. doi:10.1007/978-1-60327-159-2. Consultado el 20 de diciembre de 2020. 
  3. Bork, Peer; Koonin, Eugene V (1 de junio de 1996). «Protein sequence motifs». Current Opinion in Structural Biology (en inglés) 6 (3): 366-376. ISSN 0959-440X. doi:10.1016/S0959-440X(96)80057-1. Consultado el 20 de diciembre de 2020. 
  4. Pribnow, D. (1 de marzo de 1975). «Nucleotide sequence of an RNA polymerase binding site at an early T7 promoter.». Proceedings of the National Academy of Sciences 72 (3): 784-788. ISSN 0027-8424. doi:10.1073/pnas.72.3.784. Consultado el 20 de diciembre de 2020. 
  5. Guigo, Roderic. «An Introduction to Position Specific Scoring Matrices». bioinformatica.upf.edu. Consultado el 12 November 2013. 
  6. Pribnow, D. (1975-03). «Nucleotide sequence of an RNA polymerase binding site at an early T7 promoter». Proceedings of the National Academy of Sciences of the United States of America 72 (3): 784-788. ISSN 0027-8424. PMID 1093168. doi:10.1073/pnas.72.3.784. Consultado el 20 de diciembre de 2020. 
  7. Patikoglou, Georgia A.; Kim, Joseph L.; Sun, Liping; Yang, Sang-Hwa; Kodadek, Thomas; Burley, Stephen K. (15 de diciembre de 1999). «TATA element recognition by the TATA box-binding protein has been conserved throughout evolution». Genes & Development 13 (24): 3217-3230. ISSN 0890-9369. PMID 10617571. Consultado el 20 de diciembre de 2020. 
  8. Stewart, J. J.; Stargell, L. A. (10 de agosto de 2001). «The stability of the TFIIA-TBP-DNA complex is dependent on the sequence of the TATAAA element». The Journal of Biological Chemistry 276 (32): 30078-30084. ISSN 0021-9258. PMID 11402056. doi:10.1074/jbc.M105276200. Consultado el 20 de diciembre de 2020. 
  9. Granados-Riveron, Javier T.; Aquino-Jarquin, Guillermo (1 de abril de 2015). «The TATA-box motif and its impact on transcriptional gene regulation by miRNAs». Biomolecular Concepts (en inglés) 6 (2): 157-161. ISSN 1868-5021. doi:10.1515/bmc-2015-0004. Consultado el 20 de diciembre de 2020. 
  10. Apirion, D.; Miczak, A. (1993-02). «RNA processing in prokaryotic cells». BioEssays: News and Reviews in Molecular, Cellular and Developmental Biology 15 (2): 113-120. ISSN 0265-9247. PMID 7682412. doi:10.1002/bies.950150207. Consultado el 20 de diciembre de 2020. 
  11. Bush, Stephen J.; Chen, Lu; Tovar-Corona, Jaime M.; Urrutia, Araxi O. (02 05, 2017). «Alternative splicing and the evolution of phenotypic novelty». Philosophical Transactions of the Royal Society of London. Series B, Biological Sciences 372 (1713). ISSN 1471-2970. PMC 5182408. PMID 27994117. doi:10.1098/rstb.2015.0474. Consultado el 20 de diciembre de 2020. 
  12. Fica, Sebastian M.; Tuttle, Nicole; Novak, Thaddeus; Li, Nan-Sheng; Lu, Jun; Koodathingal, Prakash; Dai, Qing; Staley, Jonathan P. et al. (2013-11). «RNA catalyses nuclear pre-mRNA splicing». Nature (en inglés) 503 (7475): 229-234. ISSN 1476-4687. doi:10.1038/nature12734. Consultado el 20 de diciembre de 2020. 
  13. Erkelenz, Steffen; Theiss, Stephan; Kaisers, Wolfgang; Ptok, Johannes; Walotka, Lara; Müller, Lisa; Hillebrand, Frank; Brillen, Anna-Lena et al. (12 2018). «Ranking noncanonical 5' splice site usage by genome-wide RNA-seq analysis and splicing reporter assays». Genome Research 28 (12): 1826-1840. ISSN 1549-5469. PMC 6280755. PMID 30355602. doi:10.1101/gr.235861.118. Consultado el 20 de diciembre de 2020. 
  14. Hujová, Pavla; Grodecká, Lucie; Souček, Přemysl; Freiberger, Tomáš (2019-06). «Impact of acceptor splice site NAGTAG motif on exon recognition». Molecular Biology Reports 46 (3): 2877-2884. ISSN 1573-4978. PMID 30840204. doi:10.1007/s11033-019-04734-6. Consultado el 20 de diciembre de 2020. 
  15. Hinnebusch, Alan G. (08 2017). «Structural Insights into the Mechanism of Scanning and Start Codon Recognition in Eukaryotic Translation Initiation». Trends in Biochemical Sciences 42 (8): 589-611. ISSN 0968-0004. PMID 28442192. doi:10.1016/j.tibs.2017.03.004. Consultado el 20 de diciembre de 2020. 
  16. Blattner, F. R.; Plunkett, G.; Bloch, C. A.; Perna, N. T.; Burland, V.; Riley, M.; Collado-Vides, J.; Glasner, J. D. et al. (5 de septiembre de 1997). «The complete genome sequence of Escherichia coli K-12». Science (New York, N.Y.) 277 (5331): 1453-1462. ISSN 0036-8075. PMID 9278503. doi:10.1126/science.277.5331.1453. Consultado el 20 de diciembre de 2020. 
  17. «PROSITE». prosite.expasy.org (en inglés estadounidense). Consultado el 20 de diciembre de 2020. 
  18. «PROSITE». prosite.expasy.org (en inglés estadounidense). Consultado el 20 de diciembre de 2020. 
  19. Kukuruzinska, M. A.; Lennon, K. (1998). «Protein N-glycosylation: molecular genetics and functional significance». Critical Reviews in Oral Biology and Medicine: An Official Publication of the American Association of Oral Biologists 9 (4): 415-448. ISSN 1045-4411. PMID 9825220. doi:10.1177/10454411980090040301. Consultado el 20 de diciembre de 2020. 

motivo, secuencia, biología, molecular, motivo, secuencia, secuencia, corta, nucleótidos, presume, desempeña, función, biológica, concreta, puesto, está, altamente, conservada, entre, especies, estas, secuencias, pueden, codificantes, codificantes, suelen, est. En biologia molecular un motivo de secuencia es una secuencia corta de nucleotidos que se presume que desempena una funcion biologica concreta puesto que esta altamente conservada entre especies Estas secuencias pueden ser codificantes o no codificantes y suelen estar implicadas en la regulacion de procesos biologicos como la transcripcion el procesamiento del ARN mensajero y la traduccion a proteina 1 Logo secuencia del motivo aceptor de splicing 3 Con frecuencia el mecanismo por el cual los motivos de secuencia regulan funciones biologicas es modulando la union especifica de proteinas y complejos proteicos a acidos nucleicos tales como enzimas nucleasas y factores de transcripcion 2 Los motivos de secuencia encapsulan funciones biologicas esenciales para la vida Su estudio es especialmente relevante tanto para la clasificacion de familias de proteinas y generacion de relaciones filogeneticas robustas como para entender en profundidad los procesos moleculares que permiten la vida en la tierra Indice 1 Tipos de motivos 2 Descubrimiento 3 Formas de representacion 3 1 Expresiones regulares 3 2 Matrices de pesos posicionales 4 Identificacion de secuencias motivo 5 Ejemplos 5 1 Caja TATA 5 2 Sitios de splicing 5 3 Motivo de inicio de la traduccion 5 4 N glicosilacion 6 ReferenciasTipos de motivos EditarEn analisis de secuencias el termino motivo se utiliza para describir la conservacion de sub regiones dentro de secuencias de mayor tamano Ademas de los motivos de secuencia encontramos otros tipos de motivos de dimensiones mayores denominados motivos estructurales cuyo objeto de estudio son aquellas estructuras tridimensionales cuya conformacion espacial esta altamente conservada En este sentido cabe distinguir los motivos de secuencia de los estructurales 3 Motivos de secuencia consisten en secuencias lineales cortas de elementos adyacentes que han evolucionado principalmente de forma independiente al contexto molecular que los rodea Son especialmente comunes en acidos nucleicos algunos ejemplos de motivos de secuencia son caja TATA senal de N glicosilacion y sitios de reconocimiento de splicing 3 Motivos estructurales estructuras tridimensionales formadas esencialmente por elementos no adyacentes que se han conservado junto a su contexto molecular dado que su funcionalidad depende directamente de su correcto plegamiento espacial Tanto las proteinas como los acidos nucleicos forman supra estructuras tridimensionales Ejemplos de motivos estructurales son las helice alfa las regiones transmembrana y los bucles omega 3 Motivo Objeto de estudio EjemplosMotivo de secuencia Secuencias lineales cortas de nucleotidos adyacentes Mas independdientes del contexo estructural Caja TATA N glicosilacion Sitios de splicingMotivo estructural Estructuras tridimensionales conservadas Dependientes del contexto molecular Helice alfa Bucle omega Region transmembranaDescubrimiento EditarEl descubrimiento de motivos de secuencia fue posible en la decada de 1970 debido al desarrollo en tecnicas de secuenciacion de acidos nucleicos En el ano 1975 David Pribnow realizo experimentos aislando un fragmento protegido de la RNA polimerasa del bacteriofago T7 4 Este fragmento contenia el punto de iniciacion de una molecula de ARN mensajero de T7 Con estos experimentos Pribnow descubrio una secuencia especifica dentro de los promotores que participaba en la union de la ADN polimerasa y que estaba conservada entre especies El descubrimiento de esta secuencia fue un hito en la biologia molecular del momento Los descubrimientos de Pribnow siguen teniendo validez en la actualidad La secuencia descrita en un principio fue bautizada como caja de Pribnow y luego pasaria a ser conocida como caja TATA A partir de entonces el descubrimiento de motivos de secuencia ha estado en ascenso en especial a desde la decada de 1990 En particular la mayoria de las investigaciones de descubrimiento de motivos existentes se centran en motivos de ADN Con los avances en la secuenciacion de alto rendimiento estos problemas de descubrimiento de los motivos se ven desafiados tanto por los problemas de degeneracion del patron de secuencia como por los problemas de escalabilidad computacional de uso intensivo de datos Formas de representacion EditarLos motivos de secuencia se suelen representar de dos formas alternativas usando expresiones regulares o bien mediante matrices de pesos posicionales Expresiones regulares Editar Las expresiones regulares son grafias una amplian el alfabeto original de ADN formado por A C T y G utiles para representar que en una determinada posicion del genoma se produce una co ocurrencia de nucleotidos Estas formas de representar variacion de pares de bases son especialmente utiles para representar motivos puesto que a veces no todos los nucleotidos de una secuencia motivo estan igual de conservados En ocasiones los nucleotidos de algunas posiciones se mantienen constantes entre especies mientras que otras posiciones presentan variaciones Estas variaciones permiten modular la afinidad con la que se unen complejos proteicos y demas proteinas reguladoras y otorgan de esta manera versatilidad a los procesos biologicos Las expresiones regulares mas utilizadas en la representacion de secuencias de ADN son las letras mayusculas Y y R que se utilizan para representar posiciones en las que se encuentran 2 nucleotidos distintos La Y simboliza la co ocurrencia de pirimidinas C y T mientras que la R representa que en esa posicion del genoma suelen aparecer los nucleotidos A y G alternativamente Asimismo existen expresiones regulares para indicar que en una determinada posicion puede aparecer cualquiera de los 4 nucleotidos canonicos representado con un punto Asimismo existen expresiones regulares para representar aminoacidos en secuencias de proteinas La coleccion mas grande y completa de motivos de secuencia de la que disponemos hasta el momento se encuentra en la base de datos PROSITE En esta encontramos una notacion que lleva el mismo nombre notacion PROSITE y que se caracteriza por utilizar los codigos de una letra de establecidos por la IUPAC Este sistema de grafia incorpora distintas letras del alfabeto para nombrar aminoacidos y utiliza el guion como simbolo de concatenacion Entre las caracteristicas de la sintaxis PROSITE destacan las siguientes reglas La letra minuscula x se puede utilizar como elemento de patron para indicar cualquier aminoacido Una cadena de caracteres extraidos del alfabeto y encerrados entre parentesis denota cualquier aminoacido excepto los de la cadena Por ejemplo ST indica cualquier aminoacido distinto de S o T Si un patron esta restringido al N terminal de una secuencia el patron tiene el prefijo lt Si un patron esta restringido al C terminal de una secuencia el patron tiene el sufijo gt El caracter gt tambien puede aparecer dentro de un patron de corchetes de terminacion de modo que S T gt coincida con ST y S gt Si e es un elemento de patron y m y n son dos numeros enteros decimales con m lt n entonces e m es equivalente a la repeticion de e exactamente m veces por ejemplo x 3 es equivalente a xxx e m n es equivalente a la repeticion de e exactamente k veces para cualquier entero k satisfaga m lt k lt n Un ejemplo de ello seria x 2 4 que indicaria cualquier secuencia que coincida con x x x x x o bien con x x x x Un ejemplo de motivo relevante en la familia de proteinas de union a ADN llamadas dedos de zinc de tipo C2H2 siguiendo la nomenclatura PROSITE seria la siguiente C x 2 4 C x 3 LIVMFYWC x 8 H x 3 5 HLa principal limitacion de las expresiones regulares se debe a su naturaleza reduccionista Al condensar la informacion de variacion de nucleotidos en una representacion lineal de caracteres se pierde la informacion referente a en que proporciones aparece cada posible nucleotido Para capturar esta informacion a la hora de representar motivos de secuencia es necesario utilizar matrices de pesos posicionales Matrices de pesos posicionales Editar Una matriz de numeros que contiene puntuaciones para cada residuo o nucleotido en cada posicion de un motivo de longitud fija Hay dos tipos de matrices de peso Una matriz de frecuencia de posicion PFM registra la frecuencia dependiente de la posicion de cada residuo o nucleotido Los PFM se pueden determinar experimentalmente a partir de experimentos SELEX o se pueden descubrir computacionalmente mediante herramientas como MEME utilizando modelos ocultos de Markov Una matriz de ponderacion de posicion o matriz de pesos posicionales PWM contiene ponderaciones de probabilidades de registro para calcular una puntuacion de coincidencia Se necesita un limite para especificar si una secuencia de entrada coincide con el motivo o no Los PWM se calculan a partir de PFM Para crear una matriz de ponderacion de posicion PWM el primer paso seria crear una matriz de frecuencia de posicion basica PFM contando cuantas apariciones ha tenido cada nucleotido en cada posicion A partir del PFM se creara una matriz de probabilidad de posicion PPM realizando la division entre el recuento de nucleotidos anterior de cada posicion entre el numero de secuencias Esto nos permitira normalizar los valores Dado un conjunto X de N secuencias alineadas de longitud I los elementos de la matriz M se calculan M k j 1 N i 1 N I X i j k displaystyle M k j frac 1 N sum i 1 N I X i j k donde i displaystyle in 1 N j displaystyle in 1 l k es una de las letras del alfabeto A C T G e I a k es una funcion indicatriz en la cual I a k es 1 si a k y 0 en caso contrario Dadas las siguientes secuencias de ADN GAGGTAAACTCCGTAAGTCAGGTTGGAACAGTCAGTTAGGTCATTTAGGTACTGATGGTAACTCAGGTATACTGTGTGAGTAAGGTAAGTLa correspondiente PFM es M A C G T 3 6 1 0 0 6 7 2 1 2 2 1 0 0 2 1 1 2 1 1 7 10 0 1 1 5 1 4 1 1 0 10 1 1 2 6 displaystyle M begin matrix A C G T end matrix begin bmatrix 3 amp 6 amp 1 amp 0 amp 0 amp 6 amp 7 amp 2 amp 1 2 amp 2 amp 1 amp 0 amp 0 amp 2 amp 1 amp 1 amp 2 1 amp 1 amp 7 amp 10 amp 0 amp 1 amp 1 amp 5 amp 1 4 amp 1 amp 1 amp 0 amp 10 amp 1 amp 1 amp 2 amp 6 end bmatrix A continuacion la matriz de ponderacion de posicion PPM es 5 M A C G T 0 3 0 6 0 1 0 0 0 0 0 6 0 7 0 2 0 1 0 2 0 2 0 1 0 0 0 0 0 2 0 1 0 1 0 2 0 1 0 1 0 7 1 0 0 0 0 1 0 1 0 5 0 1 0 4 0 1 0 1 0 0 1 0 0 1 0 1 0 2 0 6 displaystyle M begin matrix A C G T end matrix begin bmatrix 0 3 amp 0 6 amp 0 1 amp 0 0 amp 0 0 amp 0 6 amp 0 7 amp 0 2 amp 0 1 0 2 amp 0 2 amp 0 1 amp 0 0 amp 0 0 amp 0 2 amp 0 1 amp 0 1 amp 0 2 0 1 amp 0 1 amp 0 7 amp 1 0 amp 0 0 amp 0 1 amp 0 1 amp 0 5 amp 0 1 0 4 amp 0 1 amp 0 1 amp 0 0 amp 1 0 amp 0 1 amp 0 1 amp 0 2 amp 0 6 end bmatrix Tanto los PPM como los PWM asumen independencia estadistica entre las posiciones del patron Esto es debido a que las probabilidades para cada posicion se calculan independientemente de otras posiciones De esta manera facilitamos el calculo de la probabilidad de una secuencia dada una PPM y esto se realiza multiplicando las probabilidades relevantes en cada posicion Por ejemplo la probabilidad de la secuencia S GAGGTAAAC dado el PPM M anterior se puede calcular p S M 0 1 0 6 0 7 1 0 1 0 0 6 0 7 0 2 0 2 0 0007056 displaystyle p S vert M 0 1 times 0 6 times 0 7 times 1 0 times 1 0 times 0 6 times 0 7 times 0 2 times 0 2 0 0007056 La mayoria de las veces los elementos de las matrices de pesos posicionales PWM se calculan como probabilidades logaritmicas Se utiliza la matriz de frecuencias relativas obtenida anteriormente y se normalizan sus valores segun las frecuencias esperadas M k j l o g 2 M k j b k displaystyle M k j mathrm log 2 M k j b k Ante una secuencia de nucleotidos se asume que la probabilidad esperada de obtener un nucleotido al azar es de 0 25 Al aplicar esta transformacion la matriz obtenida es la siguiente M A C G T 0 26 1 26 1 32 1 26 1 49 0 32 1 32 0 32 0 32 1 32 0 32 1 32 1 32 0 32 1 32 1 32 1 49 2 0 1 32 1 32 1 0 1 32 0 68 1 32 1 32 2 0 1 32 1 32 0 32 1 26 displaystyle M begin matrix A C G T end matrix begin bmatrix 0 26 amp 1 26 amp 1 32 amp infty amp infty amp 1 26 amp 1 49 amp 0 32 amp 1 32 0 32 amp 0 32 amp 1 32 amp infty amp infty amp 0 32 amp 1 32 amp 1 32 amp 0 32 1 32 amp 1 32 amp 1 49 amp 2 0 amp infty amp 1 32 amp 1 32 amp 1 0 amp 1 32 0 68 amp 1 32 amp 1 32 amp infty amp 2 0 amp 1 32 amp 1 32 amp 0 32 amp 1 26 end bmatrix Cuando se obtienen los resultados del a PWM mediante el uso de probabilidades logaritmicas la puntuacion de la secuencia se obtiene sumando y no multiplicando los valores relevantes en cada posicion en el PWM La puntuacion nos dira como se ha de considerar una secuencia en cuanto a su aleatoriedad Si la puntuacion es 0 la secuencia tiene la misma probabilidad de ser un lugar aleatorio que funcional Si es mayor a 0 tiene mas probabilidad de ser un lugar funcional que aleatorio Si por contra la puntuacion es menor a 0 tendra mas probabilidades de ser un lugar aleatorio que funcional Logo secuencia del motivo dador de splicing 5 Las probabilidades observadas pueden ser representadas graficamente utilizando logos de secuencias Este es un tipo de representacion cuantitativa de la variabilidad observada entre los elementos de un motivo Consiste en representar para cada posicion del motivo las letras de los nucleotidos que aparecen En el eje abcisas de las x se representan las diferentes posiciones mientras que el eje de ordenadas eje y recoge la probabilidad de ocurrencia en una escala de 0 a 2 bits siendo 0 la probabilidad minima de ocurrencia y 2 la maxima Se usa un sistema de 2 bits porque es mas adecuado para recoger la ocurrencia de letras del alfabeto genetico de 4 letras en total El tamano de cada letra es proporcional a la frecuencia de aparicion de ese nucleotido en esa posicion concreta tal y como se observa en la figura de al lado El uso de logos de secuencia esta ampliamente extendido en la actualidad dado que representan datos cuantitativos de una manera sencilla de interpretar Otra alternativa seria definir los patrones en plazos de un modelo probabilistico como es el caso de los modelos ocultos de Markov Identificacion de secuencias motivo EditarLa importancia en el descubrimiento de motivos nace del crecimiento de las bases de datos de motivos como TRANSFAC y JASPAR para motivos de ADN o PROSITE y BLOCKS para motivos proteicos Aun asi quedan muchos mas motivos por descubrir Para identificar nuevos motivos se utilizan cuatro enfoques distintos 2 Centrado Mediante la reunion de un conjunto pequeno de secuencias de ADN no alineado o bien de secuencias proteicas se buscan patrones sobrerrepresentados en las secuencias respecto a un modelo Es el enfoque mas predominante Discriminativo Se realiza la reunion de dos conjuntos de secuencias y se buscan patrones relativamente sobrerrepresentados en una sola de las entradas Filogenetico Se utiliza la informacion en la conservacion de secuencias sobre las secuencias en un solo conjunto de entrada Genoma completo Busca sobrerrepresentaciones y patrones conservados en alineamientos multiples de dos o mas especies Ejemplos Editar Logo de secuecia que representa la frecuencia de aparicion de los nucleotidos T y A en el motivo Caja TATA que indica el inicio de la transcripcion Caja TATA Editar La caja TATA o TATA box en ingles es una secuencia de ADN que se situa en la region promotora de los genes que indica el lugar de inicio de transcripcion El nombre de esta secuencia fue asignado en reconocimiento a sus descubridores David Pribnow y Heinz Schaller en 1975 6 Se encuentra casi inalterada en los 3 dominios de la biologia arqueas bacterias y eucariotas siendo una de las secuencias de ADN mas conservadas en la historia de la evolucion 7 Es precisamente debido a su conservacion evolutiva que se puede establecer un logo de secuencia para describir los nucleotidos mas frecuentes que la conforman siendo su secuencia canonica 5 TATAAA 3 8 Este motivo de secuencia se encuentra entre 25 y 35 pares de bases antes del lugar del inicio de la transcripcion Sirve como sitio de union tanto a factores de transcripcion como a histonas y requiere de la union a ARN Polimerasa II para empezar a transcribir En lo que respecta al humano la caja TATA se encuentra presente en un 35 de los genes transcritos con ARN Pol II es decir un tercio de los genes humanos requieren de este motivo de secuencia para ser transcritos 9 Logos de secuencias de motivos de los sitios dador 5 y aceptor 3 de splicing en eucariotas Sitios de splicing Editar El splicing es un proceso que ocurre despues de la transcripcion del ADN y forma parte de un conjunto de modificaciones que se dan de forma secuencial conocidas como maduracion del ARN mensajero que consisten en la eliminacion de ciertos fragmentos para dar lugar al ARN mensajero definitivo que se va a traducir Este proceso es muy comun en eucariotas pudiendose dar en cualquier tipo de ARN ARNt ARNr etc aunque es mas tipico en el ARNm y tambien se ha descrito en procariotas y bacteriofagos 10 Normalmente el splicing consiste en descartar los intrones regiones no codificantes del ARN inmaduro y unir los exones regiones codificantes pero tambien existe un proceso mediante el cual se pueden descartar exones splicing alternativo 11 Estos procesos de descarte y union son posibles gracias a reacciones catalizadas por un complejo molecular llamado espliceosoma que realiza dos reacciones de transesterificacion secuenciales 12 Para que sucedan estas reacciones es necesario que los intrones empiecen y acaben con unos nucleotidos concretos con lo cual se han podido describir 2 secuencias consenso 5 GT 3 y 5 AG 3 para el extremo 5 sitio dador de splicing 5 13 y 3 sitio aceptor de splicing 3 14 respectivamente Logo de secuencia del motivo de union del ribosoma el codon ATG Motivo de inicio de la traduccion Editar El codon de inicio de la traduccion hace referencia a una secuencia de acido nucleico formada por tres nucleotidos tambien denominado codon que sirve como punto de partida para la formacion de proteinas Esto constituye un motivo de secuencia que en el ADN se compone de 5 ATG 3 aunque es mas frecuente verlo escrito en forma de ARN como 5 AUG 3 15 Este codon no solo es usado por la celula como senal para empezar la traduccion sino que ademas es el primer codon traducido por lo que formara parte del extremo amino terminal de las proteinas eucariotas hasta su procesamiento proteolitico como el aminoacido metionina En cambio los procariotas tienen N formilmetionina en su lugar consitituyendo una diferencia fundamental entre los codigos geneticos de ambos dominios biologicos Si bien es cierto que los organismos procariotas suelen contar con mas variabilidad en cuanto a los motivos de secuencia del inicio de la traduccion en el caso concreto de Escherichia coli bacteria de la familia Enterobacteriaceae se usa en un 83 de los casos el codon 5 ATG 3 en un 14 el codon 5 GTG 3 y en un 3 el codon 5 TTG 3 siendo el primero el mas usado con diferencia 16 N glicosilacion Editar La N glicosilacion proteica es un proceso muy conservado en la evolucion Se basa en la modificacion de los residuos de Asparagina Asn de proteinas con estructuras de oligosacaridos influyendo asi en sus propiedades y actividad Los lugares de N glicosilacion presentan un patron de consenso Asn seguida por cualquier aminoacido excepto Pro seguida por Ser o Thr seguida por cualquier aminoacido excepto Pro donde las abreviaturas de las letras siguen las nomenclaturas convencionales Este patron puede escribirse como N P ST P donde N es el lugar de glicosilacion 17 Cabe destacar que la presencia del tripeptido consenso no es suficiente para concluir que un residuo de asparagina esta glicosilado ya que el plegamiento de la proteina juega un papel importante en la regulacion de la N glicosilacion 18 19 Referencias Editar D haeseleer Patrik 2006 04 What are DNA sequence motifs Nature Biotechnology en ingles 24 4 423 425 ISSN 1546 1696 doi 10 1038 nbt0406 423 Consultado el 20 de diciembre de 2020 a b Keith Jonathan M ed 2008 Bioinformatics Methods in Molecular Biology 452 Humana Press ISBN 978 1 58829 707 5 doi 10 1007 978 1 60327 159 2 Consultado el 20 de diciembre de 2020 a b c Bork Peer Koonin Eugene V 1 de junio de 1996 Protein sequence motifs Current Opinion in Structural Biology en ingles 6 3 366 376 ISSN 0959 440X doi 10 1016 S0959 440X 96 80057 1 Consultado el 20 de diciembre de 2020 Pribnow D 1 de marzo de 1975 Nucleotide sequence of an RNA polymerase binding site at an early T7 promoter Proceedings of the National Academy of Sciences 72 3 784 788 ISSN 0027 8424 doi 10 1073 pnas 72 3 784 Consultado el 20 de diciembre de 2020 Guigo Roderic An Introduction to Position Specific Scoring Matrices bioinformatica upf edu Consultado el 12 November 2013 Pribnow D 1975 03 Nucleotide sequence of an RNA polymerase binding site at an early T7 promoter Proceedings of the National Academy of Sciences of the United States of America 72 3 784 788 ISSN 0027 8424 PMID 1093168 doi 10 1073 pnas 72 3 784 Consultado el 20 de diciembre de 2020 Patikoglou Georgia A Kim Joseph L Sun Liping Yang Sang Hwa Kodadek Thomas Burley Stephen K 15 de diciembre de 1999 TATA element recognition by the TATA box binding protein has been conserved throughout evolution Genes amp Development 13 24 3217 3230 ISSN 0890 9369 PMID 10617571 Consultado el 20 de diciembre de 2020 Stewart J J Stargell L A 10 de agosto de 2001 The stability of the TFIIA TBP DNA complex is dependent on the sequence of the TATAAA element The Journal of Biological Chemistry 276 32 30078 30084 ISSN 0021 9258 PMID 11402056 doi 10 1074 jbc M105276200 Consultado el 20 de diciembre de 2020 Granados Riveron Javier T Aquino Jarquin Guillermo 1 de abril de 2015 The TATA box motif and its impact on transcriptional gene regulation by miRNAs Biomolecular Concepts en ingles 6 2 157 161 ISSN 1868 5021 doi 10 1515 bmc 2015 0004 Consultado el 20 de diciembre de 2020 Apirion D Miczak A 1993 02 RNA processing in prokaryotic cells BioEssays News and Reviews in Molecular Cellular and Developmental Biology 15 2 113 120 ISSN 0265 9247 PMID 7682412 doi 10 1002 bies 950150207 Consultado el 20 de diciembre de 2020 Bush Stephen J Chen Lu Tovar Corona Jaime M Urrutia Araxi O 02 05 2017 Alternative splicing and the evolution of phenotypic novelty Philosophical Transactions of the Royal Society of London Series B Biological Sciences 372 1713 ISSN 1471 2970 PMC 5182408 PMID 27994117 doi 10 1098 rstb 2015 0474 Consultado el 20 de diciembre de 2020 Fica Sebastian M Tuttle Nicole Novak Thaddeus Li Nan Sheng Lu Jun Koodathingal Prakash Dai Qing Staley Jonathan P et al 2013 11 RNA catalyses nuclear pre mRNA splicing Nature en ingles 503 7475 229 234 ISSN 1476 4687 doi 10 1038 nature12734 Consultado el 20 de diciembre de 2020 Se sugiere usar numero autores ayuda Erkelenz Steffen Theiss Stephan Kaisers Wolfgang Ptok Johannes Walotka Lara Muller Lisa Hillebrand Frank Brillen Anna Lena et al 12 2018 Ranking noncanonical 5 splice site usage by genome wide RNA seq analysis and splicing reporter assays Genome Research 28 12 1826 1840 ISSN 1549 5469 PMC 6280755 PMID 30355602 doi 10 1101 gr 235861 118 Consultado el 20 de diciembre de 2020 Se sugiere usar numero autores ayuda Hujova Pavla Grodecka Lucie Soucek Premysl Freiberger Tomas 2019 06 Impact of acceptor splice site NAGTAG motif on exon recognition Molecular Biology Reports 46 3 2877 2884 ISSN 1573 4978 PMID 30840204 doi 10 1007 s11033 019 04734 6 Consultado el 20 de diciembre de 2020 Hinnebusch Alan G 08 2017 Structural Insights into the Mechanism of Scanning and Start Codon Recognition in Eukaryotic Translation Initiation Trends in Biochemical Sciences 42 8 589 611 ISSN 0968 0004 PMID 28442192 doi 10 1016 j tibs 2017 03 004 Consultado el 20 de diciembre de 2020 Blattner F R Plunkett G Bloch C A Perna N T Burland V Riley M Collado Vides J Glasner J D et al 5 de septiembre de 1997 The complete genome sequence of Escherichia coli K 12 Science New York N Y 277 5331 1453 1462 ISSN 0036 8075 PMID 9278503 doi 10 1126 science 277 5331 1453 Consultado el 20 de diciembre de 2020 Se sugiere usar numero autores ayuda PROSITE prosite expasy org en ingles estadounidense Consultado el 20 de diciembre de 2020 PROSITE prosite expasy org en ingles estadounidense Consultado el 20 de diciembre de 2020 Kukuruzinska M A Lennon K 1998 Protein N glycosylation molecular genetics and functional significance Critical Reviews in Oral Biology and Medicine An Official Publication of the American Association of Oral Biologists 9 4 415 448 ISSN 1045 4411 PMID 9825220 doi 10 1177 10454411980090040301 Consultado el 20 de diciembre de 2020 Obtenido de https es wikipedia org w index php title Motivo de secuencia amp oldid 141313034, wikipedia, wiki, leyendo, leer, libro, biblioteca,

español

, española, descargar, gratis, descargar gratis, mp3, video, mp4, 3gp, jpg, jpeg, gif, png, imagen, música, canción, película, libro, juego, juegos