fbpx
Wikipedia

Formato FASTA

En bioinformática, el formato FASTA es un formato de fichero informático basado en texto, utilizado para representar secuencias bien de ácidos nucleicos, bien de péptido, y en el que los pares de bases o los aminoácidos se representan usando códigos de una única letra. El formato también permite incluir nombres de secuencias y comentarios que preceden a las secuencias en sí.[1]

Formato FASTA
Desarrollador
David J. Lipman y William Raymond Pearson
Información general
Extensión de archivo .fasta, .fna, .ffn, .faa, .frn}
Tipo de MIME text/x-fasta
Formato abierto ?

La simplicidad del formato FASTA hace fácil el manipular y analizar secuencias usando herramientas de procesado de textos y lenguajes de guion como Python y PERL.

Formato

Una secuencia bajo formato FASTA comienza con una descripción en una única línea (línea de cabecera), seguida por líneas de datos de secuencia. La línea de descripción se distingue de los datos de secuencia por un símbolo '>' (mayor que) en la primera columna. La palabra siguiente a este símbolo es el identificador de la secuencia, y el resto de la línea es la descripción (ambos son opcionales). No debería existir espacio entre el '>' y la primera letra del identificador. Se recomienda que todas las líneas de texto sean menores de 80 caracteres. La secuencia termina si aparece otra línea comenzando con el símbolo '>'; esto indica el comienzo de otra secuencia. Un ejemplo simple de una secuencia en el formato FASTA puede ser:

>gi|5524211|gb|AAD44166.1| cytochrome b [Elephas maximus maximus] LCLYTHIGRNIYYGSYLYSETWNTGIMLLLITMATAFMGYVLPWGQMSFWGATVITNLFSAIPYIGTNLV EWIWGGFSVDKATLNRFFAFHFILPFTMVALAGVHLTFLHETGSNNPLGLTSDSDKIPFHPYYTIKDFLG LLILILLLLLLALLSPDMLGDPDNHMPADPLNTPLHIKPEWYFLFAYAILRSVPNKLGGVLALFLSIVIL GLMPFLHTSKHRSMMLRPLSQALFWTLTMDLLTLTWIGSQPVEYPYTIIGQMASILYFSIILAFLPIAGX IENY 

Convertidores de formato

Los archivos FASTA pueden ser convertidos por lotes a, o desde, el formato MultiFASTA usando herramientas libres como FASTA to multi-FASTA converter y multi-FASTA to FASTA converter. También pueden conseguirse otras herramientas libres para conversión por lotes desde formatos de cromatogramas (ABI/SCF) a FASTA: ABI2FASTA converter y Chromatogram explorer.

Línea de cabecera

La línea de cabecera, que comienza con '>', proporciona un nombre y/o un identificador único a la secuencia, y a menudo bastante información adicional. Muy diferentes bases de datos de secuencias usan cabeceras estandarizadas, lo que ayuda a la extracción automática de información desde la cabecera. La línea de cabecera puede contener más de una cabecera, separadas por un carácter ^A (Control-A, tal y como se encuentra en [1]).

En el formato FASTA Pearson original, uno o más comentarios, distinguidos por un carácter ';' (punto y coma) al comienzo de la línea, podían aparecer tras la cabecera. La mayoría de las bases de datos y aplicaciones bioinformáticas no reconocen tales comentarios y siguen la especificación FASTA del NCBI. Un ejemplo de archivo con una secuencia múltiple bajo FASTA podría ser:

>SEQUENCE_1 MTEITAAMVKELRESTGAGMMDCKNALSETNGDFDKAVQLLREKGLGKAAKKADRLAAEG LVSVKVSDDFTIAAMRPSYLSYEDLDMTFVENEYKALVAELEKENEERRRLKDPNKPEHK IPQFASRKQLSDAILKEAEEKIKEELKAQGKPEKIWDNIIPGKMNSFIADNSQLDSKLTL MGQFYVMDDKKTVEQVIAEKEKEFGGKIKIVEFICFEVGEGLEKKTEDFAAEVAAQL >SEQUENCE_2 SATVSEINSETDFVAKNDQFIALTKDTTAHIQSNSLQSVEELHSSTINGVKFEEYLKSQI ATIGENLVVRRFATLKAGANGVVNGYIHTNGRVGVVIAAACDSAEVASKSRDLLRQICMH 

Representación de la secuencia

Tras la línea de cabecera y los comentarios, una o más líneas pueden seguir para describir la secuencia: cada línea de una secuencia debería tener algo menos de 80 caracteres. Las secuencia pueden corresponder a secuencias de proteínas (estructura primaria de las proteínas) o de ácidos nucleicos, y pueden contener huecos (o gaps) o caracteres de alineamiento. Normalmente se espera que las secuencias se representen en los códigos estándar IUB/IUPAC para aminoácidos y ácidos nucléicos, con las siguientes excepciones: se aceptan letras minúsculas y se mapean a mayúsculas; un único guion o raya puede usarse para representar un hueco; y en secuencias de aminoácidos, 'U' y '*' son caracteres aceptables (ver más abajo). No se admiten dígitos numéricos, pero se utilizan en algunas bases de datos para indicar la posición en la secuencia.

Los códigos de ácidos nucléicos soportados son:

Código de ácido nucleico Significado
A Adenosina
C Citosina
G Guanina
T Timidina
U Uracilo
R G A (puRina)
Y T C (pirimidina/pYrimidine)
K G T (cetona/Ketone)
M A C (grupo aMino)
S G C (interacción fuerte/Strong interaction)
W A T (interacción débil/Weak interaction)
B G T C (no A) (B viene tras la A)
D G A T (no C) (D viene tras la C)
H A C T (no G) (H viene tras la G)
V G C A (no T, no U) (V viene tras la U)
N A G C T (cualquiera/aNy)
X máscara
- hueco (gap) de longitud indeterminada

Los códigos de aminoácidos soportados son:

Código de aminoácido Significado
A Alanina
B Ácido aspártico o Asparagina
C Cisteína
D Ácido aspártico
E Ácido glutámico
F Fenilalanina
G Glicina
H Histidina
I Isoleucina
K Lisina
L Leucina
M Metionina
N Asparagina
O Pirrolisina
P Prolina
Q Glutamina
R Arginina
S Serina
T Treonina
U Selenocisteína
V Valina
W Triptófano
Y Tirosina
Z Ácido glutámico o Glutamina
X cualquiera
* parada de traducción
- hueco (gap) de longitud indeterminada

Identificadores de secuencia

El NCBI definió un estándar para el identificador único usado para las secuencias (SeqID) en la línea de cabecera. La página man (manual de algunas aplicaciones o comandos bajo Unix) de la herramienta software formatdb comenta lo siguiente sobre el asunto: "formatdb analizará automáticamente el SeqID y creará índices, pero los identificadores de la base de datos en la línea de definición FASTA deben seguir las convenciones del FASTA Defline Format (formato FASTA de definición de línea)".

Sin embargo, no se da una descripción definitiva del formato defline de FASTA. Se ofrece a continuación un intento de tal formato:[cita requerida]

 GenBank   gi|gi-number|gb|accesión|locus EMBL Data Library  gi|gi-number|emb|accesión|locus DDBJ, DNA Database of Japan gi|gi-number|dbj|accesión|locus NBRF PIR   pir||entrada Protein Research Foundation prf||nombre SWISS-PROT  sp|accesión|nombre Brookhaven Protein Data Bank (1) pdb|entry|chain Brookhaven Protein Data Bank (2) entry:chain|PDBID|CADENA|SECUENCIA Patentes   pat|país|número GenInfo Backbone Id  bbs|número Identificador general base datos gnl|base de datos|identificador NCBI Reference Sequence  ref|accesión|locus Local Sequence identifier lcl|identificador 

Las barras verticales en la lista de arriba no son separadores en el sentido de la Backus-Naur form, sino que son parte del formato.

Extensiones de archivo

No hay una extensión de archivo estándar para un fichero de texto conteniendo secuencias formateadas bajo FASTA. Los ficheros de este formato tienen a menudo extensiones como .fa, .mpfa, .fna, .fsa, .fas o .fasta.

Formato HUPO-PSI

Este formato pretende resolver bastantes problemas del formato tradicional FASTA:

  • Las líneas de definición varían ampliamente sin una buena razón. Esto causa problemas a los usuarios finales que quieren usar estos archivos con herramientas de identificación de proteínas. Los creadores de estas herramientas se enfrentan a un desafío importante: o bien soportar todas estas variaciones, o bien permitir al usuario hacer frente a las mismas.
  • La misma base de datos es procesada en diferentes motores de búsqueda -> identificadores diferentes -> dificultades para mapear (P00761 vs. ALBU_HUMAN).
  • La misma proteína en diferentes bases de datos puede tener identificadores muy diferentes (P00761 vs gi|3446572|sp|p00761 vs. IPI:12345678).
  • La información extraída de los formatos FASTA es heterogénea, lo que provoca problemas de análisis sintáctico.
  • Descripción y disponibilidad de la taxonomía (nombres lationos, nombres comunes, TaxID del NCBI=

Bloque de cabecera

Incluye información sobre la/s base/s de datos incluida/s. Todas las líneas del bloque empiezan con el carácter '#'. Un término de cabecera de la lista siguiente por línea:

Términos para la cabecera Descripción Valor
#\DbComponent= Incremento en la cuenta Entero
#\Name= Nombre de la base de datos CV según proveedor de la base de datos (UniprotKnowledgeBase)
#\PrimaryIdentifierType= Identificador para ser usado como prefijo para entradas de proteínas individuales CV
#\Decoy= ¿Es una base de datos señuelo? ?: true/false or description
#\Version= Versión de la base de datos, de acuerdo a su proveedor De acuerdo al proveedor de la base de datosAccording to the database provider
#\ReleaseDate= Fecha de la base de datos fuente
#\NumberOfEntries= Número de entradas Entero
#\Sequence_type= Tipo de secuencia DNA (ADN), AA, RNA (ARN), EST, etc.

Ejemplo de bloque cabecera:

#\Dbcomponent=1 #\Name=UniProt_SwissProt #\PrimaryIdentifierType=sp_ac #\Version=52.3 #\ReleaseDate=20070425 #\NumberOfEntries=248942 #\Sequence_type=Protein_sequence #\Dbcomponent=2 #\Name=ENSEMBL #\PrimaryIdentifierType=sp_ac #\Version=12.45.3.2 #\ReleaseDate=20070425 #\NumberOfEntries=1234567 #\Sequence_type=Protein_sequence 

Línea de cabecera de secuencia

Descripción de la línea de cabecera de la entrada individual Ejemplo
La cabecera empieza con >, seguido por la AC primaria, precedida con el prefijo de la base de datos (útil si hay concatenadas más de una base de datos). Campo obligatorio. >sp_ac|P000761
Descripción de toda la información aparte de la secuencia \term=valor (los términosterms son descriptores de vocabulario controlado) \ID=ALBU_HUMAN
El orden de los campos adicionales no es importante
Valor puede ser una lista. Los elementos de la lista son representado como (valor_1)(valor_2) \ALTERNATE_AC=(P00786)(Q22222)
Valor puede estar entre " ", si es necesario \DE="Human serum albumin"
' puede usarse como separador para todos los campos individuales \MODRES=(1|Acetyl)
¿Ctrl-A como separador para entradas multi-cabecera? (Caso de uso NCBInr) (Caso de uso NCBInr)
Término de campo cabecera Definición Formato
ALT_AC AC alternativa
ID SwissProt_ID
DE Descripción de la proteína
ALT_DE Descripción alternativa
NCBITAXID Identificador de taxonomía NCBI (9606) Entero
TAX_LATIN Taxonomía con nombre en latín (Homo sapiens)
TAX_COM Taxonomía en formato de nombre común (human)
MODRES Residuo modificado (PTM) (posición|modificación) (PSI_MOD)
VARIANT Mutación de residuo (posición|residuo original|residuo final)

Ejemplo de entrada de proteína:

>sp_ac|P02769_WOSIG0 \ID=ALBU_BOVIN \DE="Serum albumin precursor (Allergen Bos d 6) (BSA)"\NCBITAXID=9913 \MODRES=(1|Acetyl) \VARIANT=(196|A|T) \LENGTH=589 RGVFRRDTHKSEIAHRFKDLGEEHFKGLVLIAFSQYLQQCPFDEHVKLVNELTEFAKTCV ADESHAGCEKSLHTLFGDELCKVASLRETYGDMADCCEKQEPERNECFLSHKDDSPDLPK LKPDPNTLCDEFKADEKKFWGKYLYEIARRHPYFYAPELLYYANKYNGVFQECCQAEDKG ACLLPKIETMREKVLASSARQRLRCASIQKFGERALKAWSVARLSQKFPKAEFVEVTKLV TDLTKVHKECCHGDLLECADDRADLAKYICDNQDTISSKLKECCDKPLLEKSHCIAEVEK DAIPENLPPLTADFAEDKDVCKNYQEAKDAFLGSFLYEYSRRHPEYAVSVLLRLAKEYEA TLEECCAKDDPHACYSTVFDKLKHLVDEPQNLIKQNCDQFEKLGEYGFQNALIVRYTRKV PQVSTPTLVEVSRSLGKVGTRCCTKPESERMPCTEDYLSLILNRLCVLHEKTPVSEKVTK CCTESLVNRRPCFSALTPDETYVPKAFDEKLFTFHADICTLPDTEKQIKKQTALVELLKH KPKATEEQLKTVMENFVAFVDKCCAADDKEACFAVEGPKLVVSTQTALA 

Referencias

  1. «What is FASTA Format?». zhanglab.ccmb.med.umich.edu.  explains the FASTA format
  • Mount, David W. Bioinformatics: Sequence and Genome Analysis, 2ª ed. Spring Harbor Press, 2004. ISBN 0-87969-712-1. Págs. 45 y siguientes.
  • Descripción del formato FASTA del NCBI.

Véase también

Enlaces externos

  • Convertidor Multi-FASTA a FASTA(Freeware)
  • Convertidor FASTA a multi-FASTA(Freeware)
  • , describe otro formato FASTA según propuso el Human Proteome Organisation's Proteomics Standards Initiative.
  • Readseq, para convertir formatos de secuencia a to FASTA. No se actualiza desde 1999. Necesita Java.
  • Readseq en línea en IUBio --
  • . Necesita Java
  • Convertidor GenBank a Fasta el 9 de mayo de 2008 en Wayback Machine.. Pobremente documentado.
  • Conversor de secuencia entre 16 formatos diferentes.
  •   Datos: Q1593782

formato, fasta, este, artículo, sección, necesita, wikificado, favor, edítalo, para, cumpla, convenciones, estilo, este, aviso, puesto, diciembre, 2017, bioinformática, formato, fasta, formato, fichero, informático, basado, texto, utilizado, para, representar,. Este articulo o seccion necesita ser wikificado por favor editalo para que cumpla con las convenciones de estilo Este aviso fue puesto el 12 de diciembre de 2017 En bioinformatica el formato FASTA es un formato de fichero informatico basado en texto utilizado para representar secuencias bien de acidos nucleicos bien de peptido y en el que los pares de bases o los aminoacidos se representan usando codigos de una unica letra El formato tambien permite incluir nombres de secuencias y comentarios que preceden a las secuencias en si 1 Formato FASTADesarrolladorDavid J Lipman y William Raymond PearsonInformacion generalExtension de archivo fasta fna ffn faa frn Tipo de MIME code class mw highlight mw highlight lang text mw content ltr id style dir ltr text x fasta code Formato abierto editar datos en Wikidata La simplicidad del formato FASTA hace facil el manipular y analizar secuencias usando herramientas de procesado de textos y lenguajes de guion como Python y PERL Indice 1 Formato 1 1 Convertidores de formato 1 2 Linea de cabecera 1 3 Representacion de la secuencia 1 4 Identificadores de secuencia 1 5 Extensiones de archivo 2 Formato HUPO PSI 2 1 Bloque de cabecera 2 2 Linea de cabecera de secuencia 3 Referencias 4 Vease tambien 5 Enlaces externosFormato EditarUna secuencia bajo formato FASTA comienza con una descripcion en una unica linea linea de cabecera seguida por lineas de datos de secuencia La linea de descripcion se distingue de los datos de secuencia por un simbolo gt mayor que en la primera columna La palabra siguiente a este simbolo es el identificador de la secuencia y el resto de la linea es la descripcion ambos son opcionales No deberia existir espacio entre el gt y la primera letra del identificador Se recomienda que todas las lineas de texto sean menores de 80 caracteres La secuencia termina si aparece otra linea comenzando con el simbolo gt esto indica el comienzo de otra secuencia Un ejemplo simple de una secuencia en el formato FASTA puede ser gt gi 5524211 gb AAD44166 1 cytochrome b Elephas maximus maximus LCLYTHIGRNIYYGSYLYSETWNTGIMLLLITMATAFMGYVLPWGQMSFWGATVITNLFSAIPYIGTNLV EWIWGGFSVDKATLNRFFAFHFILPFTMVALAGVHLTFLHETGSNNPLGLTSDSDKIPFHPYYTIKDFLG LLILILLLLLLALLSPDMLGDPDNHMPADPLNTPLHIKPEWYFLFAYAILRSVPNKLGGVLALFLSIVIL GLMPFLHTSKHRSMMLRPLSQALFWTLTMDLLTLTWIGSQPVEYPYTIIGQMASILYFSIILAFLPIAGX IENY Convertidores de formato Editar Los archivos FASTA pueden ser convertidos por lotes a o desde el formato MultiFASTA usando herramientas libres como FASTA to multi FASTA converter y multi FASTA to FASTA converter Tambien pueden conseguirse otras herramientas libres para conversion por lotes desde formatos de cromatogramas ABI SCF a FASTA ABI2FASTA converter y Chromatogram explorer Linea de cabecera Editar La linea de cabecera que comienza con gt proporciona un nombre y o un identificador unico a la secuencia y a menudo bastante informacion adicional Muy diferentes bases de datos de secuencias usan cabeceras estandarizadas lo que ayuda a la extraccion automatica de informacion desde la cabecera La linea de cabecera puede contener mas de una cabecera separadas por un caracter A Control A tal y como se encuentra en 1 En el formato FASTA Pearson original uno o mas comentarios distinguidos por un caracter punto y coma al comienzo de la linea podian aparecer tras la cabecera La mayoria de las bases de datos y aplicaciones bioinformaticas no reconocen tales comentarios y siguen la especificacion FASTA del NCBI Un ejemplo de archivo con una secuencia multiple bajo FASTA podria ser gt SEQUENCE 1 MTEITAAMVKELRESTGAGMMDCKNALSETNGDFDKAVQLLREKGLGKAAKKADRLAAEG LVSVKVSDDFTIAAMRPSYLSYEDLDMTFVENEYKALVAELEKENEERRRLKDPNKPEHK IPQFASRKQLSDAILKEAEEKIKEELKAQGKPEKIWDNIIPGKMNSFIADNSQLDSKLTL MGQFYVMDDKKTVEQVIAEKEKEFGGKIKIVEFICFEVGEGLEKKTEDFAAEVAAQL gt SEQUENCE 2 SATVSEINSETDFVAKNDQFIALTKDTTAHIQSNSLQSVEELHSSTINGVKFEEYLKSQI ATIGENLVVRRFATLKAGANGVVNGYIHTNGRVGVVIAAACDSAEVASKSRDLLRQICMH Representacion de la secuencia Editar Tras la linea de cabecera y los comentarios una o mas lineas pueden seguir para describir la secuencia cada linea de una secuencia deberia tener algo menos de 80 caracteres Las secuencia pueden corresponder a secuencias de proteinas estructura primaria de las proteinas o de acidos nucleicos y pueden contener huecos o gaps o caracteres de alineamiento Normalmente se espera que las secuencias se representen en los codigos estandar IUB IUPAC para aminoacidos y acidos nucleicos con las siguientes excepciones se aceptan letras minusculas y se mapean a mayusculas un unico guion o raya puede usarse para representar un hueco y en secuencias de aminoacidos U y son caracteres aceptables ver mas abajo No se admiten digitos numericos pero se utilizan en algunas bases de datos para indicar la posicion en la secuencia Los codigos de acidos nucleicos soportados son Codigo de acido nucleico SignificadoA AdenosinaC CitosinaG GuaninaT TimidinaU UraciloR G A puRina Y T C pirimidina pYrimidine K G T cetona Ketone M A C grupo aMino S G C interaccion fuerte Strong interaction W A T interaccion debil Weak interaction B G T C no A B viene tras la A D G A T no C D viene tras la C H A C T no G H viene tras la G V G C A no T no U V viene tras la U N A G C T cualquiera aNy X mascara hueco gap de longitud indeterminadaLos codigos de aminoacidos soportados son Codigo de aminoacido SignificadoA AlaninaB Acido aspartico o AsparaginaC CisteinaD Acido asparticoE Acido glutamicoF FenilalaninaG GlicinaH HistidinaI IsoleucinaK LisinaL LeucinaM MetioninaN AsparaginaO PirrolisinaP ProlinaQ GlutaminaR ArgininaS SerinaT TreoninaU SelenocisteinaV ValinaW TriptofanoY TirosinaZ Acido glutamico o GlutaminaX cualquiera parada de traduccion hueco gap de longitud indeterminadaIdentificadores de secuencia Editar El NCBI definio un estandar para el identificador unico usado para las secuencias SeqID en la linea de cabecera La pagina man manual de algunas aplicaciones o comandos bajo Unix de la herramienta software formatdb comenta lo siguiente sobre el asunto formatdb analizara automaticamente el SeqID y creara indices pero los identificadores de la base de datos en la linea de definicion FASTA deben seguir las convenciones del FASTA Defline Format formato FASTA de definicion de linea Sin embargo no se da una descripcion definitiva del formato defline de FASTA Se ofrece a continuacion un intento de tal formato cita requerida GenBank gi gi number gb accesion locus EMBL Data Library gi gi number emb accesion locus DDBJ DNA Database of Japan gi gi number dbj accesion locus NBRF PIR pir entrada Protein Research Foundation prf nombre SWISS PROT sp accesion nombre Brookhaven Protein Data Bank 1 pdb entry chain Brookhaven Protein Data Bank 2 entry chain PDBID CADENA SECUENCIA Patentes pat pais numero GenInfo Backbone Id bbs numero Identificador general base datos gnl base de datos identificador NCBI Reference Sequence ref accesion locus Local Sequence identifier lcl identificador Las barras verticales en la lista de arriba no son separadores en el sentido de la Backus Naur form sino que son parte del formato Extensiones de archivo Editar No hay una extension de archivo estandar para un fichero de texto conteniendo secuencias formateadas bajo FASTA Los ficheros de este formato tienen a menudo extensiones como fa mpfa fna fsa fas o fasta Formato HUPO PSI EditarEste formato pretende resolver bastantes problemas del formato tradicional FASTA Las lineas de definicion varian ampliamente sin una buena razon Esto causa problemas a los usuarios finales que quieren usar estos archivos con herramientas de identificacion de proteinas Los creadores de estas herramientas se enfrentan a un desafio importante o bien soportar todas estas variaciones o bien permitir al usuario hacer frente a las mismas La misma base de datos es procesada en diferentes motores de busqueda gt identificadores diferentes gt dificultades para mapear P00761 vs ALBU HUMAN La misma proteina en diferentes bases de datos puede tener identificadores muy diferentes P00761 vs gi 3446572 sp p00761 vs IPI 12345678 La informacion extraida de los formatos FASTA es heterogenea lo que provoca problemas de analisis sintactico Descripcion y disponibilidad de la taxonomia nombres lationos nombres comunes TaxID del NCBI Bloque de cabecera Editar Incluye informacion sobre la s base s de datos incluida s Todas las lineas del bloque empiezan con el caracter Un termino de cabecera de la lista siguiente por linea Terminos para la cabecera Descripcion Valor DbComponent Incremento en la cuenta Entero Name Nombre de la base de datos CV segun proveedor de la base de datos UniprotKnowledgeBase PrimaryIdentifierType Identificador para ser usado como prefijo para entradas de proteinas individuales CV Decoy Es una base de datos senuelo true false or description Version Version de la base de datos de acuerdo a su proveedor De acuerdo al proveedor de la base de datosAccording to the database provider ReleaseDate Fecha de la base de datos fuente NumberOfEntries Numero de entradas Entero Sequence type Tipo de secuencia DNA ADN AA RNA ARN EST etc Ejemplo de bloque cabecera Dbcomponent 1 Name UniProt SwissProt PrimaryIdentifierType sp ac Version 52 3 ReleaseDate 20070425 NumberOfEntries 248942 Sequence type Protein sequence Dbcomponent 2 Name ENSEMBL PrimaryIdentifierType sp ac Version 12 45 3 2 ReleaseDate 20070425 NumberOfEntries 1234567 Sequence type Protein sequence Linea de cabecera de secuencia Editar Descripcion de la linea de cabecera de la entrada individual EjemploLa cabecera empieza con gt seguido por la AC primaria precedida con el prefijo de la base de datos util si hay concatenadas mas de una base de datos Campo obligatorio gt sp ac P000761Descripcion de toda la informacion aparte de la secuencia term valor los terminosterms son descriptores de vocabulario controlado ID ALBU HUMANEl orden de los campos adicionales no es importanteValor puede ser una lista Los elementos de la lista son representado como valor 1 valor 2 ALTERNATE AC P00786 Q22222 Valor puede estar entre si es necesario DE Human serum albumin puede usarse como separador para todos los campos individuales MODRES 1 Acetyl Ctrl A como separador para entradas multi cabecera Caso de uso NCBInr Caso de uso NCBInr Termino de campo cabecera Definicion FormatoALT AC AC alternativaID SwissProt IDDE Descripcion de la proteinaALT DE Descripcion alternativaNCBITAXID Identificador de taxonomia NCBI 9606 EnteroTAX LATIN Taxonomia con nombre en latin Homo sapiens TAX COM Taxonomia en formato de nombre comun human MODRES Residuo modificado PTM posicion modificacion PSI MOD VARIANT Mutacion de residuo posicion residuo original residuo final Ejemplo de entrada de proteina gt sp ac P02769 WOSIG0 ID ALBU BOVIN DE Serum albumin precursor Allergen Bos d 6 BSA NCBITAXID 9913 MODRES 1 Acetyl VARIANT 196 A T LENGTH 589 RGVFRRDTHKSEIAHRFKDLGEEHFKGLVLIAFSQYLQQCPFDEHVKLVNELTEFAKTCV ADESHAGCEKSLHTLFGDELCKVASLRETYGDMADCCEKQEPERNECFLSHKDDSPDLPK LKPDPNTLCDEFKADEKKFWGKYLYEIARRHPYFYAPELLYYANKYNGVFQECCQAEDKG ACLLPKIETMREKVLASSARQRLRCASIQKFGERALKAWSVARLSQKFPKAEFVEVTKLV TDLTKVHKECCHGDLLECADDRADLAKYICDNQDTISSKLKECCDKPLLEKSHCIAEVEK DAIPENLPPLTADFAEDKDVCKNYQEAKDAFLGSFLYEYSRRHPEYAVSVLLRLAKEYEA TLEECCAKDDPHACYSTVFDKLKHLVDEPQNLIKQNCDQFEKLGEYGFQNALIVRYTRKV PQVSTPTLVEVSRSLGKVGTRCCTKPESERMPCTEDYLSLILNRLCVLHEKTPVSEKVTK CCTESLVNRRPCFSALTPDETYVPKAFDEKLFTFHADICTLPDTEKQIKKQTALVELLKH KPKATEEQLKTVMENFVAFVDKCCAADDKEACFAVEGPKLVVSTQTALAReferencias Editar What is FASTA Format zhanglab ccmb med umich edu explains the FASTA format Mount David W Bioinformatics Sequence and Genome Analysis 2ª ed Spring Harbor Press 2004 ISBN 0 87969 712 1 Pags 45 y siguientes Descripcion del formato FASTA del NCBI Vease tambien EditarFASTAEnlaces externos EditarConvertidor Multi FASTA a FASTA Freeware Convertidor FASTA a multi FASTA Freeware HUPO PSI formato estandar FASTA describe otro formato FASTA segun propuso el Human Proteome Organisation s Proteomics Standards Initiative Readseq para convertir formatos de secuencia a to FASTA No se actualiza desde 1999 Necesita Java Readseq en linea en IUBio Readseq en linea en BCM Convertidor Nexus a Fasta Necesita Java Convertidor GenBank a Fasta Archivado el 9 de mayo de 2008 en Wayback Machine Pobremente documentado Conversor de secuencia Conversor de secuencia entre 16 formatos diferentes Datos Q1593782Obtenido de https es wikipedia org w index php title Formato FASTA amp oldid 129782689, wikipedia, wiki, leyendo, leer, libro, biblioteca,

español

, española, descargar, gratis, descargar gratis, mp3, video, mp4, 3gp, jpg, jpeg, gif, png, imagen, música, canción, película, libro, juego, juegos