fbpx
Wikipedia

Bioinformática

La bioinformática puede definirse, de manera general, como la aplicación de tecnologías computacionales y la estadística a la gestión y análisis de datos biológicos.[1]​ Los términos bioinformática, biología computacional, informática biológica y, en ocasiones, biocomputación, son utilizados en muchas situaciones como sinónimos,[2][3]​ y hacen referencia a campos de estudios interdisciplinares muy vinculados que requieren el uso o el desarrollo de diferentes técnicas estudiadas universitariamente en la Ingeniería Informática como ciencia aplicada de la disciplina informática.[4]​ Entre estas pueden destacarse las siguientes: matemática aplicada,[5]estadística,[6]ciencias de la computación,[7]inteligencia artificial,[8]química[9]​ y bioquímica[10]​ con las que el Ingeniero Informático soluciona problemas al analizar datos, o simular sistemas o mecanismos, todos ellos de índole biológica, y usualmente (pero no de forma exclusiva) en el nivel molecular.[11]​ El núcleo principal de estas técnicas se encuentra en la utilización de recursos computacionales para solucionar o investigar problemas sobre escalas de tal magnitud que sobrepasan el discernimiento humano. La investigación en biología computacional se solapa a menudo con la biología de sistemas.[12]

Los principales esfuerzos de investigación en estos campos incluyen el alineamiento de secuencias, la predicción de genes, montaje del genoma, alineamiento estructural de proteínas, predicción de estructura de proteínas, predicción de la expresión génica, interacciones proteína-proteína, y modelado de la evolución.[13]

Una constante en proyectos de bioinformática y biología computacional es el uso de herramientas matemáticas para extraer información útil de datos producidos por técnicas biológicas de alta productividad, como la secuenciación del genoma. En particular, el montaje o ensamblado de secuencias genómicas de alta calidad desde fragmentos obtenidos tras la secuenciación del ADN a gran escala es un área de alto interés.[13][14]​ Otros objetivos incluyen el estudio de la regulación genética para interpretar perfiles de expresión génica utilizando datos de chips de ADN o espectrometría de masas.[15]

Alineamiento de diferentes proteínas de hemoglobina, realizado con el servicio web para ClustalW implementado en el Instituto Europeo de Bioinformática. El alineamiento de secuencias biológicas es una de las herramientas básicas de la bioinformática.

Conceptos y alcance

Como se ha avanzado en la introducción, los términos bioinformática, biología computacional y biocomputación son utilizados a menudo como sinónimos, apareciendo con frecuencia en la literatura básica de forma indiferenciada en sus usos comunes. Sin embargo, hay conformadas áreas de aplicación propias de cada término. El NIH (National Institutes of Health, Institutos Nacionales de la Salud de los Estados Unidos), por ejemplo, aún reconociendo previamente que ninguna definición podría eliminar completamente el solapamiento entre actividades de las diferentes técnicas, define explícitamente los términos bioinformática y biología computacional:[16]

De esta forma, la bioinformática tendría más que ver con la información, mientras que la biología computacional lo haría con las hipótesis. Por otra parte, el término biocomputación suele enmarcarse en las actuales investigaciones con biocomputadores y, por ejemplo, T. Kaminuma lo define de la siguiente forma:

  • Biocomputación es la construcción y uso de computadores que contienen componentes biológicos o funcionan como organismos vivos.[17]

Aparte de las definiciones formales de organismos o instituciones de referencia, los manuales de esta materia aportan sus propias definiciones operativas, lógicamente vinculadas en mayor o menor medida con las ya vistas. Como ejemplo, David W. Mount, en su difundido texto sobre bioinformática,[18]​ precisa que:

…la bioinformática se centra más en el desarrollo de herramientas prácticas para la gestión de datos y el análisis (por ejemplo, la presentación de información genómica y análisis secuencial), pero con menor énfasis en la eficiencia y en la precisión.

Por otra parte, y según el mismo autor:

…la biología computacional generalmente se relaciona con el desarrollo de algoritmos nuevos y eficientes, que se puede demostrar funcionan sobre un problema difícil, tales como el alineamiento múltiple de secuencias o el montaje (o ensamblado) de fragmentos de genoma.

Por último, se encuentra en ocasiones una categorización explícita de estos conceptos según la cual la bioinformática es una subcategoría de la biología computacional. Por ejemplo, la bióloga Cynthia Gibas anota que:[19]

La bioinformática es la ciencia del uso de la información para entender la biología. (...) Hablando estrictamente, la bioinformática es un subconjunto del campo mayor de la biología computacional, (siendo esta última) la aplicación de técnicas analíticas cuantitativas en el modelado de sistemas biológicos.

No obstante, y refiriéndose a su propio texto (Developing Bioinformatics Computer Skills, desarrollo de habilidades computacionales para bioinformática), enseguida pasa a aclarar que:

...pasaremos de bioinformática a biología computacional y viceversa. Las distinciones entre las dos no son importantes para nuestro propósito aquí.

En muchas ocasiones, por lo tanto, los términos serán intercambiables y, salvo en contextos de cierta especialización, el significado último se mantendrá claro utilizando cualquiera de ellos.

Historia

En lo que sigue, y además de los hechos relevantes directamente relacionados con el desarrollo de la bioinformática, se mencionarán algunos hitos científicos y tecnológicos que servirán para poner en un contexto adecuado tal desarrollo.[20]

Arrancaremos esta breve historia en la década de los 50 del pasado siglo XX, años en los que Watson y Crick proponen la estructura de doble hélice del ADN (1953),[21]​ se secuencia la primera proteína (insulina bovina) por F. Sanger (1955),[22]​ o se construye el primer circuito integrado por Jack Kilby en los laboratorios de Texas Instruments (1958).[23]

Las primeras décadas: años 60 y 70 del siglo XX

En los años 60, L. Pauling elabora su teoría sobre evolución molecular (1962),[24]​ y Margaret Dayhoff, una de las pioneras de la bioinformática, publica el primero de los Atlas of Protein Sequences (1965), que tendrá continuidad en años posteriores, se convertirá en una obra básica en el desarrollo estadístico, algunos años más tarde, de las matrices de sustitución PAM, y será precursor de las actuales bases de datos de proteínas.[25]​ En el área de la tecnología de computadores, se presentan en el ARPA (Advanced Research Projects Agency, agencia de proyectos de investigación avanzados) los protocolos de conmutación de paquetes de datos sobre redes de ordenadores (1968), que permitirán enlazar poco después varios ordenadores de diferentes universidades en EE. UU.:[26]​ había nacido ARPANET (1969), embrión de lo que posteriormente será Internet.

En 1970 se publica el algoritmo Needleman-Wunsch para alineamiento de secuencias;[27]​ se establece el Brookhaven Protein Data Bank (1971),[28]​ se crea la primera molécula de ADN recombinante (Paul Berg, 1972),[29]​ E. M. Southern desarrolla la técnica Southern blot de localización de secuencias específicas de ADN (1976),[30]​ comienza la secuenciación de ADN y el desarrollo de software para analizarlo (F. Sanger, software de R. Staden, 1977),[31][32]​ y se publica en 1978 la primera secuencia de genes completa de un organismo, el fago Φ-X174 (5.386 pares de bases que codifican 9 proteínas).[33]​ En ámbitos tecnológicos vinculados, en estos años se asiste al nacimiento del correo electrónico (Ray Tomlinson, BBN, 1971),[34]​ al desarrollo de Ethernet (protocolo de comunicaciones que facilitará la interconexión de ordenadores, principalmente en redes de ámbito local) por Robert Metcalfe (1973),[35]​ y al desarrollo del protocolo TCP (Transmission Control Protocol, protocolo de control de transmisión) por Vinton Cerf y Robert Kahn (1974), uno de los protocolos básicos para Internet.[36]

Años 80

En la década de los 80 se asiste, en diversas áreas, a importantes avances:

 
Niveles de estructura de las proteínas. En los primeros ochenta se publica cómo investigar la estructura terciaria mediante RMN; en la siguiente década se desarrollarán métodos para predecir de novo algunas estructuras secundarias.
  • Científicos: tras la secuenciación del fago Φ-X174 a finales de la década de los 70, en 1982 F. Sanger consigue la secuenciación del genoma del fago λ (fago lambda) utilizando una nueva técnica, la secuenciación shotgun (secuenciación por perdigonada), desarrollada por él mismo;[37]​ también entre 1981 y 1982 K. Wüthrich publica el método de utilización de la RMN (Resonancia Magnética Nuclear) para determinar estructuras de proteínas;[38]​ Ford Doolittle trabaja con el concepto de secuencia motivo (similitudes supervivientes, según las denomina en el resumen de su artículo) en 1981;[39]​ el descubrimiento en 1983 de la PCR (Polymerase Chain Reaction, reacción en cadena de la polimerasa) lleva a la multiplicación de muestras de ADN, lo que permitirá su análisis;[40]​ en 1987, D. T. Burke et al. describen el uso de cromosomas artificiales de levadura (YAC, Yeast Artificial Chromosome),[41]​ y Kulesh et al. sientan las bases de los chips de ADN.[42]
  • Bioinformáticos: por lo que se refiere al desarrollo de algoritmos, métodos y programas, aparece el algoritmo Smith-Waterman (1981),[43]​ el algoritmo de búsqueda en bases de datos de secuencias (Wilbur-Lipman, 1983),[44]​ FASTP/FASTN (búsqueda rápida de similitudes entre secuencias, 1985),[45]​ el algoritmo FASTA para comparación de secuencias (Pearson y Lipman, 1988),[46]​ y comienzan a utilizarse modelos ocultos de Márkov para analizar patrones y composición de las secuencias (Churchill, 1989),[47]​ lo que permitirá más adelante localizar genes[48]​ y predecir estructuras proteicas;[49]​ aparecen importantes bases de datos biológicas (GenBank en 1982, Swiss-Prot en 1986),[50][51]​ redes que las interconectan (EMBnet en 1988),[52]​ y se potencian o se crean diferentes organismos e instituciones (EMBL se constituye en 1974 pero se desarrolla durante la década de los 80, NCBI en 1988);[53][54]​ también en estos años empieza a estudiarse la viabilidad de la Human Genome Initiative (First Santa Fe Conference, 1985), que será anunciada un año después por el DoE (Department of Energy, departamento de energía del gobierno de los EE. UU.) y que pondrá en marcha proyectos piloto para desarrollar recursos y tecnologías críticas; en 1987 el NIH (National Institutes of Health, institutos nacionales de la salud de EE. UU.) comienza aportar fondos a proyectos genoma, mientras que en 1988 arranca la Human Genome Initiative, más conocida finalmente como Human Genome Project (Proyecto Genoma Humano).[14][55]
  • Tecnológicos: 1983 verá la aparición del estándar Compact Disc (CD) en su versión para ser leído por un ordenador (Yellow Book);[56]​ Jon Postel y Paul Mockapetris desarrollan en 1984 el sistema de nombres de dominio DNS, necesario para un direccionamiento correcto y ágil en Internet;[57]​ en 1987 Larry Wall desarrolla el lenguaje de programación PERL, de amplio uso posterior en bioinformática;[58]​ y a finales de la década se verán las primeras compañías privadas importantes con actividades vinculadas al genoma, proteínas, bioquímica, etc. (Genetics Computer Group – GCG, Oxford Molecular Group, Ltd.), y que, en general, experimentarán importantes transformaciones años más tarde.[59]

Años 1990

En los años 1990 asistimos a los siguientes eventos:

  • Tecnológicos: Tim Berners-Lee inventa la World Wide Web (1990) mediante aplicación de protocolos de red que explotan las características del hipertexto;[76]​ en 1991 aparecen los protocolos definitivos de Internet (CERN)[77]​ y la primera versión del sistema operativo Linux,[78]​ muy utilizado posteriormente en aplicaciones científicas; en 1998 Craig Venter funda Celera, compañía que perfeccionará la secuenciación por perdigonada de F. Sanger y analizará los resultados con software propio.[79]

Primeros años del siglo XXI

A destacar que en los años 2000 están culminando múltiples proyectos de secuenciación de genomas de diferentes organismos: en 2000 se publican, entre otros, el genoma de Arabidopsis thaliana (100 Mb)[80]​ y el de Drosophila melanogaster (180 Mbp).[81]​ Tras un borrador operativo de la secuencia de ADN del genoma humano del año 2000,[82]​ en 2001 aparece publicado el genoma humano (3 Gbp).[83]​ Poco después, en 2003, y con dos años de adelanto sobre lo previsto, se completa el Human Genome Project.[84]​ Por mencionar algunos de los genomas analizados en los años siguientes, anotaremos que en 2004 aparece el borrador del genoma de Rattus norvegicus (rata),[85]​ en 2005 el del chimpancé,[86]​ en 2006 el del macaco rhesus,[87]​ en 2007 el del gato doméstico,[88]​ y en 2008 se secuencia por primera vez el genoma de una mujer.[89]​ Gracias al desarrollo de las técnicas adecuadas, asistimos actualmente a un aluvión de secuenciaciones de genomas de todo tipo de organismos.

En 2003 se funda en España el Instituto Nacional de Bioinformática,[90]​ soportado por la Fundación Genoma España (fundada, a su vez, un año antes y que pretende constituirse en instrumento del estado para potenciar la investigación en este campo).[91]​ En 2004, la estadounidense FDA (Food and Drug Administration, agencia para la administración de alimentos y fármacos) autoriza el uso de un chip de ADN por primera vez.[92]​ En 2005 se completa el proyecto HapMap (catalogación de variaciones genéticas en el ser humano).[93]​ En 2008 UniProt presenta el primer borrador del proteoma completo del ser humano, con más de veinte mil entradas.[94]

Poco a poco, los primeros programas bioinformáticos se van perfeccionando, y vemos versiones más completas como la 2.0 de ClustalW (reescrito en C++ en 2007).[95]

Principales áreas de investigación

Análisis de secuencias

Desde que el fago Φ-X174 fue secuenciado en 1977 (secuencia provisional: un año más tarde se publicaría la secuencia completa definitiva),[33]​ las secuencias de ADN de cientos de organismos han sido decodificadas y guardadas en bases de datos. Esos datos son analizados para determinar los genes que codifican para ciertas proteínas, así como también secuencias reguladoras. Una comparación de genes en una especie o entre especies puede mostrar similitudes entre funciones de proteínas, o relaciones entre especies (uso de filogenética molecular para construir árboles filogenéticos).[96]

Con la creciente cantidad de datos, desde hace mucho se ha vuelto poco práctico analizar secuencias de ADN manualmente. Hoy se usan programas de computadora para estudiar el genoma de miles de organismos, conteniendo miles de millones de nucleótidos. Estos programas pueden compensar mutaciones (con bases intercambiadas, borradas o insertadas) en la secuencia de ADN, para identificar secuencias que están relacionadas, pero que no son idénticas.[39]​ Una variante de este alineamiento de secuencias se usa en el proceso de secuenciación.

La secuenciación conocida como "shotgun" (o por perdigonada: fue usada, por ejemplo, por el Instituto de Investigación Genómica -The Institute for Genomic Research, TIGR, hoy J. Craig Venter Institute- para secuenciar el primer genoma de bacteria, el Haemophilus influenzae)[62]​ no da una lista secuencial de nucleótidos, pero en cambio nos ofrece las secuencias de miles de pequeños fragmentos de ADN (cada uno de aproximadamente 600 a 800 nucleótidos de largo). Las terminaciones de estos fragmentos se superponen y, cuando son alineados de la manera correcta, constituyen el genoma completo del organismo en cuestión.[97]

El secuenciamiento shotgun proporciona datos de secuencia rápidamente, pero la tarea de ensamblar los fragmentos puede ser bastante complicada para genomas muy grandes. En el caso del Proyecto Genoma Humano, llevó varios meses de tiempo de procesador (en una estación DEC Alpha de alrededor del 2000) para ensamblar los fragmentos. El shotgun sequencing es el método de elección para todos los genomas secuenciados hoy en día y los algoritmos de ensamblado genómico son un área crítica de la investigación en bioinformática.

Otro aspecto de la bioinformática en análisis de secuencias es la búsqueda automática de genes y secuencias reguladoras dentro de un genoma.[98]​ No todos los nucleótidos dentro de un genoma son genes. Dentro del genoma de organismos más avanzados, grandes partes del ADN no sirven a ningún propósito obvio. Este ADN, conocido como "ADN basura", puede, sin embargo, contener elementos funcionales todavía no reconocidos.[99]​ La bioinformática sirve para estrechar la brecha entre los proyectos de genoma y proteoma (por ejemplo, en el uso de secuencias de ADN para identificación de proteínas).

 
Mapa del cromosoma X del ser humano (extraído de la página web del NCBI). La transcripción del genoma humano es uno de los mayores logros de la bioinformática.

Anotación de genomas

En el contexto de la genómica, anotación es el proceso de marcado de los genes y otras características biológicas de la secuencia de ADN.[100]​ El primer sistema software de anotación de genomas fue diseñado en 1995 por Owen White, quien fue miembro del equipo que secuenció y analizó el primer genoma en ser descodificado de un organismo independiente, la bacteria Haemophilus influenzae. White construyó un software para localizar los genes (lugares en la secuencia de DNA que codifican una proteína), el ARN de transferencia, y otras características, así como para realizar las primeras atribuciones de función a esos genes.[62]​ La mayoría de los actuales sistemas de anotación genómica trabajan de forma similar, pero los programas disponibles para el análisis del genoma se encuentran en continuo cambio y mejora.

Biología evolutiva computacional

La Biología evolutiva es el estudio del origen ancestral de las especies, así como de su cambio a través del tiempo.[101]​ La informática ha apoyado a los biólogos evolutivos en diferentes campos clave. Ha permitido a los investigadores:

  • Seguir la evolución de un alto número de organismos midiendo cambios en su ADN, en lugar de hacerlo exclusivamente mediante su taxonomía física u observaciones fisiológicas.[39]
  • Más recientemente, comparar genomas completos, lo que permite el estudio de eventos evolutivos más complejos, tales como la duplicación de genes, la transferencia horizontal de genes, o la predicción de factores significativos en la especiación bacteriana.[102]
  • Construir modelos computacionales complejos de poblaciones para predecir el resultado del sistema a través del tiempo.[103]
  • Seguir y compartir información sobre un amplio y creciente número de especies y organismos.

Los esfuerzos futuros se centrarán en reconstruir el cada vez más complejo árbol filogenético de la vida.[104]​ El área de investigación de las ciencias de la computación denominada computación evolutiva se confunde ocasionalmente con la Biología evolutiva computacional, pero ambas áreas no guardan relación. Dicho campo se centra en el desarrollo de algoritmos genéticos y otras estrategias de resolución de problemas con una marcada inspiración evolutiva y genética.

Medición de la biodiversidad

La biodiversidad de un ecosistema puede definirse como el conjunto genómico completo de todas las especies presentes en un medio ambiente particular,[105]​ sea este una biopelícula en una mina abandonada, una gota de agua de mar, un puñado de tierra, o la biosfera completa del planeta Tierra. Se utilizan bases de datos para recoger los nombres de las especies, así como de sus descripciones, distribuciones, información genética, estado y tamaños de las poblaciones, necesidades de su hábitat, y cómo cada organismo interactúa con otras especies. Se usa software especializado para encontrar, visualizar y analizar la información; y, lo que es más importante, para compartirla con otros interesados.[106]​ La simulación computacional puede modelar cosas tales como dinámica poblacional, o calcular la mejora del acervo genético de una variedad (en agricultura), o la población amenazada (en biología de la conservación). Un potencial muy excitante en este campo es la posibilidad de preservar las secuencias completas del ADN, o genomas, de especies amenazadas de extinción, permitiendo registrar los resultados de la experimentación genética de la Naturaleza in silico para su posible reutilización futura, aún si tales especies fueran finalmente perdidas.[107]

Pueden citarse, como ejemplos significativos, los proyectos Species 2000 o uBio.

Análisis de la expresión génica

La expresión génica de muchos genes puede determinarse por la medición de niveles de mRNA mediante múltiples técnicas, incluyendo microarrays de ADN, secuenciación de EST ( Expressed Sequence Tag), análisis en serie de la expresión génica (Serial Analysis of Gene Expression - SAGE), MPSS (Massively Parallel Signature Sequencing), o diversas aplicaciones de hibridación in situ. Todas estas técnicas son extremadamente propensas al ruido y/o sujetas a sesgos en la medición biológica, y una de las principales áreas de investigación en la biología computacional trata del desarrollo de herramientas estadísticas para separar la señal del ruido en los estudios de expresión génica con alto volumen de procesamiento.[108]​ Estos estudios se usan a menudo para determinar los genes implicados en un desorden: podrían, por ejemplo, compararse datos de microarrays de células epiteliales cancerosas con datos de células no cancerosas para determinar las transcripciones que son activadas o reprimidas en una población particular de células cancerosas.[109]

Análisis de la regulación

La regulación génica es la compleja orquestación de eventos que comienzan con una señal extracelular tal como una hormona, que conducen a un incremento o decremento en la actividad de una o más proteínas.[110]​ Se han aplicado técnicas bioinformáticas para explorar varios pasos en este proceso. Por ejemplo, el análisis del promotor de un gen implica la identificación y estudio de las secuencias motivo en los alrededores del ADN de la región codificante de un gen.[111]​ Estos motivos influyen en el alcance según el cual esa región se transcribe en ARNm. Los datos de expresión pueden usarse para inferir la regulación génica: podrían compararse datos de microarrays provenientes de una amplia variedad de estados de un organismo para formular hipótesis sobre los genes involucrados en cada estado. En un organismo unicelular, podrían compararse etapas del ciclo celular a lo largo de variadas condiciones de estrés (choque de calor, inanición, etc.). Podrían aplicarse, entonces, algoritmos de agrupamiento (algoritmos de clustering, o análisis de cluster) a esa información de expresión para determinar qué genes son expresados simultáneamente.[112]​ Por ejemplo, los promotores de estos genes se pueden buscar según la abundancia de secuencias o elementos regulatorios.

Análisis de la expresión de proteínas

Los microarrays de proteínas y la espectrometría de masas de alto rendimiento pueden proporcionar una instantánea de las proteínas presentes en una muestra biológica. La bioinformática está muy comprometida en dar soporte a ambos procedimientos. La aproximación a los microarrays de proteínas encara similares problemas a los existentes para microarrays destinados a ARNm,[113]​ mientras que para la espectrometría de masas el problema es casar grandes cantidades de datos de masa contra masas predichas por bases de datos de secuencias de proteínas, además del complicado análisis estadístico de muestras donde se detectan múltiples, pero incompletos, péptidos de cada proteína.[114]

Análisis de mutaciones en el cáncer

En el cáncer, los genomas de las células afectadas son reordenados en complejas y/o aún impredecibles maneras. Se realizan esfuerzos masivos de secuenciación para identificar sustituciones individuales de bases (o puntos de mutación de nucleótidos) todavía desconocidos en una variedad de genes en el cáncer.[115]​ Los bioinformáticos continúan produciendo sistemas automatizados para gestionar el importante volumen de datos de secuencias obtenido, y crean nuevos algoritmos y software para comparar los resultados de secuenciación con la creciente colección de secuencias del genoma humano y de los polimorfismos de la línea germinal. Se están utilizando nuevas tecnologías de detección física, como los microarrays de oligonucleótidos para identificar pérdidas y ganancias cromosómicas (técnica denominada hibridación genómica comparativa),[116]​ y los arrays de polimorfismos de nucleótido simple para detectar puntos de mutación conocidos.[117]​ Estos métodos de detección miden simultáneamente bastantes cientos de miles de posiciones a lo largo del genoma, y cuando se usan con una alta productividad para analizar miles de muestras, generan terabytes de datos por experimento. De esta forma las masivas cantidades y nuevos tipos de datos proporcionan nuevas oportunidades para los bioinformáticos. A menudo se encuentra en los datos una considerable variabilidad, o ruido, por lo que métodos como el de los modelos ocultos de Márkov y el análisis de puntos de cambio están siendo desarrollados para inferir cambios reales en el número de copias de los genes (número de copias de un gen particular en el genotipo de un individuo, cuya magnitud puede ser elevada en células cancerígenas).[118][119]

Otro tipo de datos que requiere novedosos desarrollos informáticos es el análisis de las lesiones encontradas de forma recurrente en buen número de tumores, principalmente por análisis automatizado de imagen clínica.

Predicción de la estructura de las proteínas

 
Alineamiento estructural de tiorredoxinas del ser humano y de la mosca Drosophila melanogaster. Las proteínas se muestran como cintas, con la proteína humana en rojo y la de la mosca en amarillo. Generado con PDB 3TRX y 1XWC.

La predicción de la estructura de las proteínas es otra importante aplicación de la bioinformática. La secuencia de aminoácidos de una proteína, también llamada estructura primaria, puede ser determinada fácilmente desde la secuencia de nucleótidos sobre el gen que la codifica.[120]​ En la inmensa mayoría de los casos, esta estructura primaria determina únicamente una estructura de la proteína en su ambiente nativo. (Hay, por supuesto, excepciones, como la encefalopatía espongiforme bovina, o "mal de las vacas locas"; ver, también, prion.) El conocimiento de esta estructura es vital para entender la función de la proteína.[121]​ En ausencia de mejores términos, la información estructural de las proteínas se clasifica usualmente como estructura secundaria, terciaria y cuaternaria. Una solución general viable para la predicción de tales estructuras permanece todavía como problema abierto. Por ahora, la mayoría de los esfuerzos han sido dirigidos hacia heurísticas que funcionan la mayoría de las veces.[122]

Una de las ideas clave en bioinformática es la noción de homología. En la rama genómica de la bioinformática, se usa la homología para predecir la función de un gen: si la secuencia de gen A, cuya función es conocida, es homóloga a la secuencia de gen B, cuya función es desconocida, puede inferirse que B podría compartir la función de A.[123]​ En la rama estructural de la bioinformática, la homología se usa para determinar qué partes de una proteína son importantes en la formación de la estructura y en la interacción con otras proteínas. En la técnica denominada modelado por homología, esta información se usa para predecir la estructura de una proteína una vez conocida la estructura de una proteína homóloga.[124]​ Esta es, actualmente, la única vía para predecir estructuras de proteínas de una manera fiable.

Un ejemplo de lo anterior es la similar homología proteica entre la hemoglobina en humanos y la hemoglobina en las legumbres (leghemoglobina). Ambas sirven al mismo propósito de transportar oxígeno en el organismo. Aunque las dos tienen una secuencia de aminoácidos completamente diferente, sus estructuras son virtualmente idénticas, lo que refleja sus prácticamente idénticos propósitos.[125]

Otras técnicas para predecir la estructura de las proteínas incluyen el enhebrado de proteínas (protein threading)[126]​ y el modelado de novo (desde cero), basado en las características físicas y químicas.[127]

Al respecto, pueden verse también motivo estructural (structural motif) y dominio estructural (structural domain).

Genómica comparativa

El núcleo del análisis comparativo del genoma es el establecimiento de la correspondencia entre genes (análisis ortólogo) o entre otras características genómicas de diferentes organismos. Estos mapas intergenómicos son los que hacen posible rastrear los procesos evolutivos responsables de la divergencia entre dos genomas. Una multitud de eventos evolutivos actuando a diferentes niveles organizativos conforman la evolución del genoma.[128]​ Al nivel más bajo, las mutaciones puntuales afectan a nucleótidos individuales. Al mayor nivel, amplios segmentos cromosómicos experimentan duplicación, transferencia horizontal, inversión, transposición, borrado e inserción. Finalmente, los genomas enteros están involucrados en procesos de hibridación, poliploidía y endosimbiosis, conduciendo a menudo a una súbita especiación.

La complejidad de la evolución del genoma plantea muchos desafíos excitantes a desarrolladores de modelos matemáticos y algoritmos, quienes deben recurrir a un espectro de técnicas algorítmicas, estadísticas y matemáticas que se extienden desde exactas, heurísticas, con parámetros fijados, y mediante algoritmos de aproximación para problemas basados en modelos de parsimonia, hasta algoritmos "Márkov Chain Monte Carlo" para análisis Bayesiano de problemas basados en modelos probabilísticos.[129]

Muchos de estos estudios están basados en la detección de homología y la computación de familias de proteínas.

Modelado de sistemas biológicos

La biología de sistemas implica el uso de simulaciones por ordenador de subsistemas celulares (tales como redes de metabolitos y enzimas que comprenden el metabolismo, caminos de transducción de señales, y redes de regulación genética), tanto para analizar como para visualizar las complejas conexiones de estos procesos celulares.[130]​ La vida artificial o la evolución virtual tratan de entender los procesos evolutivos por medio de la simulación por ordenador de sencillas formas de vida (artificial).[131]

Análisis de imagen de alto rendimiento

Se están usando tecnologías de computación para acelerar o automatizar completamente el procesamiento, cuantificación y análisis de grandes cantidades de imágenes biomédicas con alto contenido en información. Los modernos sistemas de análisis de imagen incrementan la habilidad del observador para realizar análisis sobre un amplio o complejo conjunto de imágenes, mejorando la precisión, la objetividad (independencia de los resultados según el observador), o la rapidez. Un sistema de análisis totalmente desarrollado podría reemplazar completamente al observador. Aunque estos sistemas no son exclusivos del campo de las imágenes biomédicas, cada vez son más importantes tanto para el diagnóstico como para la investigación. Algunos ejemplos:

  • Cuantificación y localización subcelular con alta productividad y precisión (high-content screening, citohistopatología).[132]
  • Morfometría.[133]
  • Análisis y visualización de imágenes clínicas.[134]
  • Determinación de patrones en el flujo del aire en tiempo real de la respiración pulmonar de animales vivos.
  • Cuantificación del tamaño de la oclusión a través de imágenes en tiempo real, tanto por desarrollo como por recuperación, de lesiones arteriales.[135]
  • Realización de observaciones conductuales basadas en prolongadas grabaciones en vídeo de animales de laboratorio.
  • Observaciones en infrarrojo (espectroscopia infrarroja) para la determinación de la actividad metabólica.[136]

Acoplamiento proteína-proteína

En las últimas dos décadas, decenas de miles de estructuras tridimensionales de proteínas han sido determinadas por cristalografía de rayos X y espectroscopia mediante resonancia magnética nuclear de proteínas (RMN de proteínas). Una cuestión central para los científicos es si resulta viable la predicción de posibles interacciones proteína-proteína solamente basados en esas formas 3D, sin realizar experimentos identificativos de estas interacciones. Se han desarrollado una variedad de métodos para enfrentarse al problema del acoplamiento proteína-proteína, aunque parece que queda todavía mucho trabajo en este campo.[137]


Ontologías e integración de datos

Las ontologías biológicas son gráfos acíclicos dirigidos de vocabularios controlados/lenguajes des indización. Están diseñados para capturar conceptos y descripciones biológicas de una manera que se puede categorizar y analizar fácilmente con computadoras. Cuando se categoriza de esta manera, es posible obtener un valor agregado del análisis holístico e integrado.

El consorcio OBO Foundry fue un esfuerzo por estandarizar ciertas ontologías. Una de las más extendidas es la ontología génica que describe la función de los genes. También hay ontologías que describen fenotipos.

Herramientas de software

Las herramientas de software para bioinformática van desde simples herramientas de línea de comandos hasta mucho más complejos programas gráficos y servicios web autónomos situados en compañías de bioinformática o instituciones públicas. La más conocida herramienta de biología computacional entre los biólogos es, probablemente, BLAST, un algoritmo para determinar la similitud de secuencias arbitrarias con otras secuencias,[68]​ probablemente residentes en bases de datos de proteínas o de secuencias de ADN. El NCBI (National Center for Biotechnology Information, EE. UU.), por ejemplo, proporciona una implementación muy utilizada, basada en web, y que trabaja sobre sus bases de datos.[138]

Para alineamientos múltiples de secuencias, el clásico ClustalW,[70]​ actualmente en su versión 2, es el software de referencia. Puede trabajarse con una implementación del mismo en el EBI (Instituto Europeo de Bioinformática).[139]

BLAST y ClustalW son sólo dos ejemplos de los muchos programas de alineamiento de secuencias disponibles. Existe, por otra parte, multitud de software bioinformático con otros objetivos: alineamiento estructural de proteínas, predicción de genes y otros motivos, predicción de estructura de proteínas, predicción de acoplamiento proteína-proteína, o modelado de sistemas biológicos, entre otros. En Anexo:Software para alineamiento de secuencias y Anexo:Software para alineamiento estructural pueden encontrarse sendas relaciones de programas o servicios web adecuados para cada uno de estos dos objetivos en particular.

Software libre en bioinformática

Muchas herramientas de software libre existen y continúan apareciendo desde los década de 1980s.[140]​ La necesidad de nuevos algoritmos para el análisis the nuevos datos de origen biológico, en combinación con el potencial para experimentos innovadores in silico y la disponibilidad de repositorios gratuitos para software libre han ayudado a crear oportunidades para que grupos de investigación realicen aportes a la bioinformatica y al código libre disponible, independientemente de sus fuentes de financiamiento. Las herramientas de código abierto a menudo actúan como incubadoras de ideas, o como complemento en aplicaciones comerciales. Pueden también proveer estándares de facto y modelos o estructuras que aportan al desafío de la integración en bioinformática.

La Lista de software libre en bioinformatica incluye títulos como Bioconductor, BioPerl, Biopython, BioJava, BioJS, BioRuby, Bioclipse, EMBOSS, .NET Bio, Orange con sus agregados bioinformaticos, Apache Taverna, UGENE y GenoCAD. Para mantener esta tradición y crear nuevas oportunidades la organización sin fines de lucro Open Bioinformatics Foundation[140]​ a patrocinado anualmente la Bioinformatics Open Source Conference (BOSC) desde el año 2000.[141]

Un método alternativo para construir bases de datos públicas es usar el software para wikis MediaWiki con la extension WikiOpener. Este sistema permite el acceso y actualización de la base de datos a todos los expertos en el campo.[142]

Servicios web en bioinformática

Se han desarrollado interfaces basadas en SOAP y en REST (Representational State Transfer, transferencia de estado representacional) para una amplia variedad de aplicaciones bioinformáticas, permitiendo que una aplicación, corriendo en un ordenador de cualquier parte del mundo, pueda usar algoritmos, datos y recursos de computación alojados en servidores en cualesquiera otras partes del planeta. Las principales ventajas radican en que el usuario final se despreocupa de actualizaciones y modificaciones en el software o en las bases de datos.[143]​ Los servicios bioinformáticos básicos, de acuerdo a la clasificación implícita del EBI, solían clasificarse en:[144]

Desde 2009 los servicios bioinformaticos básicos son clasificados por el EBI en tres categorías[145]​ :

La disponibilidad de estos servicios web basados en SOAP a través de sistemas tales como los servicios de registro,[146]​ (servicios de distribución y descubrimiento de datos a través de servicios web) demuestra la aplicabilidad de soluciones bioinformáticas basadas en web. Estas herramientas varían desde una colección de herramientas autónomas con un formato de datos común, y bajo una única interface autónoma o basada en web, hasta sistemas integradores y extensibles para la gestión del flujo de trabajo bioinformático.

Sistemas de gestión de flujo de trabajo de bioinformática

Un Sistema de gestión de flujo de trabajo de bioinformática es una forma especializada de Sistema de gestión de flujo de trabajo diseñado específicamente para componer y ejecutar una serie de pasos computacionales o de manipulación de datos, o un flujo de trabajo, en una aplicación de Bioinformática. Tales sistemas están diseñados para:

  • Proporcionar un entorno fácil de usar para que los propios científicos de aplicaciones individuales creen sus propios flujos de trabajo.
  • proporcionar herramientas interactivas para los científicos que les permitan ejecutar sus flujos de trabajo y ver sus resultados en tiempo real,
  • simplificar el proceso de compartir y reutilizar flujos de trabajo entre los científicos
  • permite a los científicos rastrear el origen de los resultados de la ejecución del flujo de trabajo y los pasos de creación del mismo.

Algunas de las plataformas que ofrecen este servicio: Galaxy, Kepler, Taverna, UGENE, Anduril, HIVE.

"BioCompute" y "BioCompute Objects(BCO)"

En 2014, la Administración de Alimentos y Medicamentos de los EE. UU. Patrocinó una conferencia celebrada en los [Institutos Nacionales de la Salud] en el Campus de Bethesda para hablar sobre la reproducibilidad en bioinformática. [147]​ Durante los siguientes tres años (2014 - 2017), un consorcio de partes interesadas se reunió regularmente para discutir lo que se convertiría en el paradigma de BioCompute. [148]​ Estas partes interesadas incluían representantes del gobierno, la industria y entidades académicas. Los líderes de la sesión representaron a numerosas sucursales de los Institutos y Centros de la FDA y los NIH, entidades sin fines de lucro, como Proyecto Varioma Humano y Federación Europea de Informática Médica, e instituciones de investigación como Stanford, el New York Genome Center, y George Washington University.

Se decidió que el paradigma de BioCompute sería en forma de "cuadernos de laboratorio digitales" que permiten la reproducibilidad, replicación, revisión y reutilización de los protocolos de bioinformática. Esto se propuso para permitir una mayor continuidad dentro de un grupo de investigación en el transcurso del flujo de personal normal al mismo tiempo que se fomenta el intercambio de ideas entre grupos. La FDA de los EE. UU. Financió este trabajo para que la información sobre tuberías sea más transparente y accesible para su personal regulador. [149]

En 2016, el grupo volvió a reunirse en el NIH en Bethesda y discutió el potencial de un BioCompute Object, una instancia del paradigma BioCompute. Este trabajo se copió como un documento de "uso de prueba estándar" y un manuscrito de preimpresión cargado en bioRxiv.[150]

Los objetos BioCompute permiten que los registros se compartan entre empleados, colaboradores y reguladores.[151][152]

Referencias

Notas

  1. European Bioinformatics Institute (2006). «What is Bioinformatics?» (en inglés). Consultado el 3 de septiembre de 2008. 
  2. Un ejemplo de la utilización como sinónimos entre bioinformática y biología computacional se encuentra en el propio sitio del Human Genome Project el 15 de marzo de 2008 en Wayback Machine., donde en su glosario el 21 de septiembre de 2008 en Wayback Machine. redirigen al término Bioinformatics la definición de Computational biology.
  3. Un ejemplo de la utilización como sinónimos entre biocomputación y bioinformática se encuentra en el sitio de la del Centro Nacional de Biotecnología, centro científico español dependiente del CSIC
  4. Bajic, V. B., et al. (2003). «From informatics to bioinformatics». Proceedings of the first Asia–Pacific bioinformatics conference on bioinformatics, Adelaide. 
  5. Lander, Eric S.; Waterman, Michael S. (1995). http://www.nap.edu/catalog.php?record_id=2121 |urlcapítulo= sin título (ayuda). Calculating the Secrets of Life: Contributions of the Mathematical Sciences to Molecular Biology. National Academy Press. ISBN 0-309-07502-5. 
  6. Woon, Wei Lee (2003). «Core statistics for bioinformatics» (pdf) (en inglés). Consultado el 1 de septiembre de 2008. 
  7. Ver, por ejemplo, los workshops anuales WABI (Workshop on Algorithms in Bioinformatics, taller sobre algoritmos bioinformáticos); en septiembre de 2008, del último WABI realizado puede encontrarse información en http://www.wabi07.org/, mientras que de WABI 2008 puede encontrarse información previa en http://algo2008.org/doku.php/wabi el 30 de junio de 2015 en Wayback Machine.
  8. Frasconi, P.; Shamir, R (agosto de 2003). NATO Science, ed. Artificial Intelligence and Heuristic Methods in Bioinformatics. IOS Press. ISBN 1586032941. 
  9. Murray-Rust, P., et al. (2005). «Chemistry in Bioinformatics» (pdf). Consultado el 1 de septiembre de 2008. 
  10. Ibba, M. (2002). . Trends in Biochemical Sciences 27 (2). Archivado desde el original el 2 de diciembre de 2008. Consultado el 1 de septiembre de 2008. 
  11. Russ B. Altman (2006). (en inglés). Archivado desde el original el 13 de mayo de 2008. Consultado el 28 de agosto de 2008. «The definition of bioinformatics is not univerally agreed upon. Generally speaking, we define it as the creation and development of advanced information and computational technologies for problems in biology, most commonly molecular biology (but increasingly in other areas of biology).». 
  12. Werner, E. (2005). «The Future and Limits of Systems Biology». Science Signaling 2005 (278). ISSN 1525-8882. 
  13. Kanehisa, M; Bork, P. (2003). «Bioinformatics in the post-sequence era». Nature Genetics 33. 
  14. U.S. Department of Energy Genome Research Programs (2008). «PRIMER: Genomics and Its Impact on Science and Society: The Human Genome Project and Beyond» (pdf) (en inglés). Consultado el 1 de septiembre de 2008. 
  15. Genevestigator es un completo ejemplo de aplicación (basada en web, en este caso) orientada al estudio de la expresión y regulación de los genes.
  16. Huerta, M et al. (17 de julio de 2000). (pdf) (en inglés). Archivado desde el original el 5 de septiembre de 2012. Consultado el 21 de agosto de 2008. 
  17. Kaminuma, T; Matsumoto, G (1991). Biocomputers. Chapman and Hall. ISBN 978-0412357701. 
  18. Mount, David W. (2004). Bioinformatics. Sequence and Genome Analysis (2ª edición). Cold Spring Harbor Laboratory Press. ISBN 0-87969-712-1. 
  19. Gibas, Cynthia (2001). Developing Bioinformatics Computer Skills. O'Reilly. ISBN 1-56592-664-1. 
  20. Attwood T.K., Gisel A., Eriksson N-E. and Bongcam-Rudloff E. (2011). «Concepts, Historical Milestones and the Central Place of Bioinformatics in Modern Biology: A European Perspective». Bioinformatics - Trends and Methodologies. InTech. Consultado el 8 de enero de 2012. 
  21. Watson, J.D. y Crick, F.H.C. (1953). «A Structure for Deoxyribose Nucleic Acid». Nature 171: 737-738. PMID 13054692. doi:10.1038/171737a0. Consultado el 5 de septiembre de 2008. 
  22. Shampo, M. A. y Kyle, R. A. (2002). (en inglés). Mayo Clinic Proceedings. Archivado desde el original el 16 de enero de 2009. Consultado el 5 de septiembre de 2008. 
  23. Texas Instruments. «The Chip that Jack Built» (en inglés). Consultado el 5 de septiembre de 2008. 
  24. Pauling, L. y Zuckerkandl, E. (1962). «Molecular disease, evolution, and genic heterogeneity». Horizons in Biochemistry. Academic Press. 978-0124004504. 
  25. Guigó, R. (2003). . Boletín electrónico de la Sociedad Española de Genética (17). Archivado desde el original el 11 de agosto de 2011. 
  26. Hauben, M. (1998). . Behind the Net: The Untold Story of the ARPANET and Computer Science (en inglés). Archivado desde el original el 13 de septiembre de 2008. Consultado el 5 de septiembre de 2008. 
  27. Needleman, S. y Wunsch, C. (1970). «A general method applicable to the search for similarities in the amino acid sequence of two proteins». Journal of Molecular Biology 48 (63). 
  28. Bernstein, F. C., et al. (1977). «The Protein Data Bank. A Computer-Based Archival File for Macromolecular Structures». European Journal of Biochemistry 80 (2). 
  29. Berg, P., et al. (1972). «Biochemical Method for Inserting New Genetic Information into DNA of Simian Virus 40: Circular SV40 DNA Molecules Containing Lambda Phage Genes and the Galactose Operon of Escherichia coli». Proceedings of the National Academy of Sciences 69 (10). 
  30. Southern, E. M. (1975). «Detection of specific sequences among DNA fragments separated by gel electrophoresis». Journal of Molecular Biology 98 (3). 
  31. Sanger, F., et al. (1977). «DNA sequencing with chain-terminating inhibitors». Proceedings of National Academy of Sciences 74 (12). 
  32. Staden, R. (1977). «Sequence data handling by computer». Nucleic Acids Research 4 (11): 4037-4051. 
  33. Sanger, F., et al. (1978). . Journal of Molecular Biology 125 (2). Archivado desde el original el 2 de diciembre de 2008. Consultado el 6 de septiembre de 2008. 
  34. Tomlinson, R. «The First Network Email» (en inglés). BBN Technologies. Consultado el 6 de septiembre de 2008. 
  35. Alfred, R. (2008). «May 22, 1973: Enter Ethernet». WIRED. Archivado desde el original el 12 de abril de 2013. 
  36. Cerf, V., Kahn, R., et al. (2003). «A Brief History of the Internet» (en inglés). Internet Society. Consultado el 6 de septiembre de 2008. 
  37. Sanger, F., et al. (1982). . Journal of Molecular Biology 162 (4). Archivado desde el original el 2 de diciembre de 2008. Consultado el 6 de septiembre de 2008. 
  38. Wüthrich, K., et al. (1982). . Journal of Molecular Biology (155). Archivado desde el original el 3 de octubre de 2006. 
  39. Doolittle, R. F. (1981). «Similar amino acid sequences: chance or common ancestry?». Science 214 (4517). 
  40. Bartlett, J. M. S., Stirling, D. (2003). «A Short History of the Polymerase Chain Reaction». Methods in Molecular Biology 226. 
  41. Burke, D. T., el al. (1987). . Science 236 (4803). Archivado desde el original el 9 de noviembre de 2004. 
  42. Kulesh, D. A., et al. (1987). «Identification of interferon-modulated proliferation-related cDNA sequences». Proceedings of the National Academy of Sciences 84 (23). 
  43. Smith T. F., Waterman M. S. (1981). «Identification of Common Molecular Subsequences». Journal of Molecular Biology 147. doi:10.1016/0022-2836(81)90087-5. 
  44. Wilbur, W. J., Lipman, D. J. (1983). «Rapid similarity searches of nucleic acid and protein data banks». Proceedings of the National Academy of Sciences 80. 
  45. Lipman, D. J., Pearson, W. R. (1985). «Rapid and Sensitive Protein Similarity Searches». Science 227 (4693). 
  46. Lipman, D. J., Pearson, W. R. (1988). «Improved tools for biological sequence comparison.». Proceedings of the National Academy of Sciences 85 (8). 
  47. Churchill, G. A. (1989). «Stochastic models for heterogeneous DNA sequences». Bulletin of Mathematical Biology 51 (1). 
  48. Un ejemplo de artículo de predicción de genes en E. coli aplicando HMM lo encontramos en Krogh, A., et al. (1993) A Hidden Markov Model that finds genes in E. coli DNA
  49. Un ejemplo de artículo de predicción de estructuras en proteínas lo encontramos en Sonnhammer, E. L. L. (1998) A hidden Markov model for predicting transmembrane helices in protein sequences
  50. Cravedi, K (2008). «GenBank celebrates 25 years of service» (en inglés). AAAS (EurekAlert). Consultado el 7 de septiembre de 2008. 
  51. Bairoch, A., Boeckmann, B. (1994). «The SWISS-PROT protein sequence data bank: current status». Nucleic Acids Research 22 (17). 
  52. Un buen recurso de introducción a EMBnet es la página What is EMBnet? el 7 de septiembre de 2008 en Wayback Machine. de la propia web de la organización, a partir de la cual puede explorarse la misma con facilidad
  53. Office of Information and Public Affairs (EMBL) (2008). (en inglés). EMBL. Archivado desde el original el 24 de julio de 2008. Consultado el 7 de septiembre de 2008. 
  54. National Center for Biotechnology Information (2004). «NCBI at a Glance: Our Mission» (en inglés). NCBI. Consultado el 7 de septiembre de 2008. 
  55. U. S. Human Genome Project (2008). (en inglés). Office of Science - U. S. Dpt. of Energy. Archivado desde el original el 6 de septiembre de 2008. Consultado el 7 de septiembre de 2008. 
  56. Davidson, M. W. (2003). «History of the Compact Disc» (en inglés). Florida State University. Consultado el 7 de septiembre de 2008. 
  57. Robles, O. (2003). . Boletín de Política Informática (Instituto Nacional de Estadística y Geografía, gobierno de México) (1). Archivado desde el original el 18 de noviembre de 2008. 
  58. Mount, D. W. (2004). «Bioinformatics Programming Using Perl and Perl Modules». Bioinformatics: Sequence and Genome Analysis - 2nd ed. New York: Cold Spring Harbor Laboratory Press. ISBN 0-87969-712-1. 
  59. Accelrys Software Inc. (en inglés). Archivado desde el original el 9 de enero de 2010. Consultado el 7 de septiembre de 2008. 
  60. Adams, M. D., et al. (1991). «Complementary DNA sequencing: expressed sequence tags and human genome project». Science 252 (5013). 
  61. Weissenbach, J., et al. (1992). «A second-generation linkage map of the human genome». Nature 359 (6398). 
  62. Fleischmann, R. D., et al. (1995). «Whole-genome random sequencing and assembly of Haemophilus influenzae Rd.». Science 269 (5223). 
  63. Fraser, C. M., et al. (1995). «The Minimal Gene Complement of Mycoplasma genitalium». Science 270 (5235). 
  64. National Human Genome Research Institute - NIH (1996). «International Team Completes DNA Sequence of Yeast» (en inglés). Consultado el 9 de septiembre de 2008. 
  65. Blattner, F. R. (1997). «The complete genome sequence of Escherichia coli K-12». Science 277 (5331). 
  66. C. elegans Sequencing Consortium (1998). «Genome sequence of the nematode C. elegans: a platform for investigating biology». Science 282 (5396). 
  67. Dunham, I., et al. (1999). «The DNA sequence of human chromosome 22». Nature 402 (402): 489-495. ISSN 0028-0836. 
  68. Altschul, S. F. (1990). . Journal of Molecular Biology 215 (3). Archivado desde el original el 13 de octubre de 2010. 
  69. Attwood, T. K.; Beck, M. E. (1994). «PRINTS–a protein motif fingerprint database». Protein Engineering 7 (7): 841-848. ISSN 1741-0134. 
  70. Thompson, J. D., et al. (1994). «CLUSTAL W: improving the sensitivity of progressive multiple sequence alignment through sequence weighting, position-specific gap penalties and weight matrix choice». Nucleic Acids Research 22 (22): 4673-80. 
  71. Altschul, S. F., et al. (1997). . Nucleic Acids Research 25 (17): 3389-402. Archivado desde el original el 11 de mayo de 2008. Consultado el 9 de septiembre de 2008. 
  72. Notredame, C. (2000). «T-Coffee: A novel method for fast and accurate multiple sequence alignment». Journal of Molecular Biology 302 (1): 205-217. 
  73. Roberts, L. (2001). . Science 291 (5507): 1195. Archivado desde el original el 6 de octubre de 2008. 
  74. Sanger Institute (2008). «Introduction to the Sanger Institute: General Information» (en inglés). Consultado el 10 de septiembre de 2008. 
  75. European Bioinformatics Institute (2006). «About the EMBL-EBI» (en inglés). Consultado el 10 de septiembre de 2008. 
  76. CERN (2008). «Welcome to info.cern.ch: The website of the world's first-ever web server» (en inglés). Consultado el 10 de septiembre de 2008. 
  77. Berners-Lee, T., et al. (1992). «World-Wide Web: An Information Infrastructure for High-Energy Physics». Proceedings of the Workshop on Software Engineering, Artificial Intelligence and Expert Systems for High Energy and Nuclear Physics. 
  78. Linux Online! (1994-2008). (en inglés). linux.org. Archivado desde el original el 1 de noviembre de 2008. Consultado el 10 de septiembre de 2008. 
  79. Celera (2008). (en inglés). Archivado desde el original el 14 de mayo de 2008. Consultado el 10 de septiembre de 2008. 
  80. The Arabidopsis Initiative (2000). «Analysis of the genome sequence of the flowering plant Arabidopsis thaliana». Nature 408: 796-815. 
  81. Adams, M. D., et al. (2000). «The Genome Sequence of Drosophila melanogaster». Science 287 (5461): 2185-2195. 
  82. Thompson, A. (junio de 2000). (en inglés). National Human Genome Research Institute - NHGRI (NIH). Archivado desde el original el 25 de junio de 2009. Consultado el 13 de septiembre de 2008. 
  83. Venter, J. C., et al. (2001). «The Sequence of the Human Genome». Science 291 (5507): 1304-1351. 
  84. Human Genome Project (2003). . Human Genome Project Information (en inglés). Office of Science (DoE). Archivado desde el original el 24 de septiembre de 2008. Consultado el 13 de septiembre de 2008. 
  85. National Human Genome Research Institute - NHGRI (NIH) (marzo de 2004). «Scientists Compare Rat Genome With Human, Mouse» (en inglés). NHGRI. Consultado el 13 de septiembre de 2008. 
  86. Chimpanzee Sequencing and Analysis Consortium (2005). «Initial sequence of the chimpanzee genome and comparison with the human genome». Nature 437 (7055): 69-87. 
  87. National Institutes of Health (NIH) (febrero de 2006). «Researchers Assemble Second Non-Human Primate Genome». NIH News (en inglés). NIH. Consultado el 13 de septiembre de 2008. 
  88. ScienceDaily (noviembre de 2007). «Domestic Cat Genome Sequenced» (en inglés). ScienceDaily. Consultado el 13 de septiembre de 2008. 
  89. Enserink, M. (junio de 2008). «GENOMICS: Read All About It--The First Female Genome! Or Is It?» (en inglés). Science. Consultado el 13 de septiembre de 2008. 
  90. Fundación Genoma España (2008). . Fundación Genoma España. Archivado desde el original el 7 de diciembre de 2008. Consultado el 13 de septiembre de 2008. 
  91. Fundación Genoma España (2008). . Fundación Genoma España - Información Corporativa. Archivado desde el original el 7 de diciembre de 2008. Consultado el 13 de septiembre de 2008. 
  92. U. S. Food and Drug Administration - FDA (diciembre de 2004). . FDA News (en inglés). FDA. Archivado desde el original el 17 de septiembre de 2008. Consultado el 13 de septiembre de 2008. 
  93. The International HapMap Consortium (2005). «A haplotype map of the human genome». Nature 437: 1299-1320. 
  94. UniProt Consortium (septiembre de 2008). «First draft of the complete human proteome available in UniProtKB/Swiss-Prot». UniProt News (en inglés). Consultado el 21 de septiembre de 2008. 
  95. Larkin, M. A., et al. (2007). «Clustal W and Clustal X version 2.0». Bioinformatics 23 (21): 2947-2948. 
  96. Li, Wen-Hsiung (2006). Molecular Evolution. Sinauer Associates Inc. ISBN 978-0878934805. 
  97. Pop, M. (2004). . Advances in Computers 60: 193-248. ISSN 0065-2458. Archivado desde el original el 4 de julio de 2008. 
  98. Center for Bioinformatics and Computational Biology - CBCB (2006). (en inglés). CBCB. Archivado desde el original el 18 de diciembre de 2008. Consultado el 14 de septiembre de 2008. 
  99. The ENCODE Project Consortium (2007). «Identification and analysis of functional elements in 1% of the human genome by the ENCODE pilot project». Nature 447 (NÚMERO): 799-816. ISSN 0028-0836. 
  100. Abascal, F. (2003). (pdf). Archivado desde el original el 9 de agosto de 2011. Consultado el 14 de septiembre de 2008. 
  101. Futuyma (1997). Evolutionary Biology (3ª edición). Sinauer Associates. ISBN 0878931899.  Texto «Douglas J. » ignorado (ayuda)
  102. Human Genome Project Information (2008). (en inglés). U. S. Doe - Office of Science. Archivado desde el original el 20 de septiembre de 2008. Consultado el 15 de septiembre de 2008. 
  103. Levin, S. A. (1997). «Mathematical and Computational Challenges in Population Biology and Ecosystems Science». Science 275 (5298): 334-343. ISSN 0036-8075. 
  104. PhyLoTA Project. (en inglés). Univ. of Arizona. Archivado desde el original el 26 de febrero de 2009. Consultado el 16 de septiembre de 2008. 
  105. United Nations Environment Programme - UNEP, et al. (1992). . Global Biodiversity Strategy: Guidelines for action to save, study and use Earth's biotic wealth sustainably and equitably (en inglés). World Resources Institute (por la edición en web). Archivado desde el original el 23 de septiembre de 2008. Consultado el 16 de septiembre de 2008. 
  106. Bisby, F. A. (2000). «The Quiet Revolution: Biodiversity Informatics and the Internet». Science 289 (5488): 2309-2312. ISSN 0036-8075. 
  107. Ryder, O. A., et al. (2000). «DNA Banks for Endangered Animal Species». Science 288 (5464): 275-277. ISSN 0036-8075. 
  108. Wirta, V. (2006). (pdf) (en inglés). Royal Institute of Technology, School of Biotechnology (Estocolmo). Archivado desde el original el 11 de septiembre de 2008. Consultado el 18 de septiembre de 2008. 
  109. Buhler, J. (2002). «Anatomy of a Comparative Gene Expression Study» (en inglés). Washington University in St. Louis - Dpt. of Computer Science & Engineering. Consultado el 18 de septiembre de 2008. 
  110. King, M. W. (2008). «Control of Gene Expression». The Medical Biochemistry Page (en inglés). Consultado el 19 de septiembre de 2008. 
  111. Pedersen, A. G., et al. (1999). «The Biology of Eukaryotic Promoter Prediction—a Review». Computers & Chemistry 23 (3-4): 191-207. 
  112. Moreau, Y. (2002). «Functional bioinformatics of microarray data: from expression to regulation». Proceedings of the IEEE 90 (11): 1722-1743. 
  113. Poetz, O., et al. (2005). «Protein microarrays: catching the proteome». Mechanisms of Ageing and Development 126 (1): 161-170. 
  114. Cristoni, S.; Bernardi, L. R. (2004). «Bioinformatics in mass spectrometry data analysis for proteomics studies». Expert Review of Proteomics 1 (4): 469-483. 
  115. American Association for Cancer Research (2008). (en inglés). Archivado desde el original el 24 de septiembre de 2008. Consultado el 3 de octubre de 2008. 
  116. Pinkel, D.; Albertson, D. G. (2005). «Array comparative genomic hybridization and its applications in cancer». Nature Genetics 37: S11-S17. 
  117. Zhao, X., et al. (2004). «An Integrated View of Copy Number and Allelic Alterations in the Cancer Genome Using Single Nucleotide Polymorphism Arrays». Cancer Research 64: 3060-3071. 
  118. Lai, W. R., et al. (2005). «Comparative analysis of algorithms for identifying amplifications and deletions in array CGH data». Bioinformatics 21 (19): 3763-3770. ISSN 1460-2059. 
  119. Olshen, A. B.; Venkatraman, E. S. (2002). «Change-point analysis of array-based comparative genomic hybridization data». American Statistical Association Proceedings of the Joint Statistical Meetings, American Statistical Association, Alexandria, VA: 2530-2535. 
  120. Nirenberg, M. (2008). «The genetic code» (pdf). Nobel Lecture (en inglés). nobelprize.org. Consultado el 25 de septiembre de 2008. 
  121. Hegyi, H.; Gerstein, M. (1999). «The relationship between protein structure and function: a comprehensive survey with application to the yeast genome». Journal of Molecular Biology 228 (1): 147-164. 
  122. Moult, J. (2005). «A decade of CASP: progress, bottlenecks and prognosis in protein structure prediction». Current Opinion in Structural Biology 15 (3): 285-289. 
  123. Pellegrini, M., et al. (1999). «Assigning protein functions by comparative genome analysis: Protein phylogenetic profiles». Proceedings of the National Academy of Sciences (EE.UU.) 96 (8). 4285-4288. 
  124. Martí-Renom, M. A., et al. (2000). «Comparative Protein Structure Modeling of Genes and Genomes». Annual Review of Biophysics and Biomolecular Structure 29: 291-325. 
  125. Berg, J. M., et al. (2002). «7 - Exploring Evolution». Biochemistry (5ª edición). W. H. Freeman and Co. (edición papel); NCBI Bookshelf (edición electrónica). ISBN 0716730510. «Because three-dimensional structure is much more closely associated with function than is sequence, tertiary structure is more evolutionarily conserved than is primary structure. This conservation is apparent in the tertiary structures of the globins (...), which are extremely similar even though the similarity between (...) human hemoglobin (α chain) and lupine leghemoglobin is not statistically significant (15.6% identity).» 
  126. Bowie, J. U., et al. (1991). «A Method to Identify Protein Sequences That Fold into a Known Three-Dimensional Stucture». Science 253 (5016): 164-170. ISSN 0036-8075. 
  127. Baker, D.; Sali, A. (2001). «Protein Structure Prediction and Structural Genomics». Science 294 (5540): 93-96. ISSN 0036-8075. 
  128. Hardison, R. C. (2003). «Comparative Genomics». PLoS Biology 1 (2): 156-160. 
  129. Eriksen, N. (2003). «Combinatorial methods in comparative genomics» (pdf) (en inglés). Royal Institute of Technology - Department of Mathematics (Estocolmo). Consultado el 24 de septiembre de 2008. 
  130. Kitano, H. (2002). «Systems Biology: A Brief Overview». Science 295 (5560): 1662-1664. ISSN 0036-8075. 
  131. Bedau, M. A. (2003). «Artificial life: organization, adaptation and complexity from the bottom up». TRENDS in Cognitive Sciences 7 (11): 505-512. 
  132. Jones, T. R., et al. (2006). . Proceedings of the Workshop on Microscopic Image Analysis with Applications in Biology held in association with MICCAI06 (Medical Image Computing and Computer-Assisted Intervention) - Copenhague, 5 octubre 2006: 65-72. Archivado desde el original el 4 de septiembre de 2008. 
  133. Zelditch, M., et al. (2004). http://books.google.com/books?id=ralLerKaNycC |urlcapítulo= sin título (ayuda). Geometric Morphometrics for Biologists: A Primer. Academic Press. ISBN 0127784608. 
  134. Meijer, G. A., et al. (1997). «Origins of... Image analysis in clinical pathology». Journal of Clinical Pathology 50 (5): 365-370. 
  135. Craiem, D. et al. (2008). «New Assessment of Endothelium-Dependent Flow-Mediated Vasodilation to Characterize Endothelium Dysfunction». American Journal of Therapeutics 15 (4): 340-344. 
  136. Ellis, D. I.; Goodacre, R. (2006). «Metabolic fingerprinting in disease diagnosis: biomedical applications of infrared and Raman spectroscopy». The Analyst 131: 875-885. 
  137. Russell, R. B., et al. (2004). . Current Opinion in Structural Biology 14: 313-324. Archivado desde el original el 16 de agosto de 2011. 
  138. National Center for Biotechnology Information - NCBI. «NCBI/BLAST Home» (en inglés). Consultado el 14 de septiembre de 2008. 
  139. Instituto Europeo de Bioinformática - EBI (2008). «EMBL-EBI: ClustalW2» (en inglés). Consultado el 14 de septiembre de 2008. 
  140. «Open Bioinformatics Foundation: About us». Official website. Open Bioinformatics Foundation. Consultado el 10 de mayo de 2011. 
  141. «Open Bioinformatics Foundation: BOSC». Official website. Open Bioinformatics Foundation. Consultado el 10 de mayo de 2011. 
  142. Brohée, Sylvain; Barriot, Roland; Moreau, Yves (2010). «Biological knowledge bases using Wikis: combining the flexibility of Wikis with the structure of databases». Bioinformatics 26 (17): 2210-2211. PMID 20591906. doi:10.1093/bioinformatics/btq348. Consultado el 5 de mayo de 2015. 
  143. European Bioinformatics Institute (2006). «EBI Web Services» (en inglés). Consultado el 3 de septiembre de 2008. 
  144. European Bioinformatics Institute (2006). «Web Services at the EBI» (en inglés). Consultado el 3 de septiembre de 2008. 
  145. Nisbet, Robert (14 de mayo de 2009). «BIOINFORMATICS». Handbook of Statistical Analysis and Data Mining Applications. John Elder IV, Gary Miner. Academic Press. p. 328. ISBN 9780080912035. Consultado el 9 de mayo de 2014. 
  146. , usado por, entre otros, el Instituto Nacional de Bioinformática el 28 de junio de 2015 en Wayback Machine. español, es un ejemplo de tales servicios de registro. Genera una infraestructura para la distribución y el descubrimiento de datos biológicos a través de servicios web.
  147. Commissioner, Office of the. «Advancing Regulatory Science - Sept. 24-25, 2014 Public Workshop: Next Generation Sequencing Standards». www.fda.gov (en inglés). Consultado el 30 de noviembre de 2017. 
  148. Simonyan, Vahan; Goecks, Jeremy; Mazumder, Raja (2017). «Biocompute Objects—A Step towards Evaluation and Validation of Biomedical Scientific Computations». PDA Journal of Pharmaceutical Science and Technology 71 (2): 136-146. ISSN 1079-7440. PMC 5510742. PMID 27974626. doi:10.5731/pdajpst.2016.006734. 
  149. Commissioner, Office of the. «Advancing Regulatory Science - Community-based development of HTS standards for validating data and computation and encouraging interoperability». www.fda.gov (en inglés). Consultado el 30 de noviembre de 2017. 
  150. https://www.biorxiv.org/
  151. Plantilla:Cite biorxiv
  152. BioCompute Object (BCO) project is a collaborative and community-driven framework to standardize HTS computational data. 1. BCO Specification Document: user manual for understanding and creating B., biocompute-objects, 3 de septiembre de 2017, consultado el 30 de noviembre de 2017 .

Bibliografía

  • Isea, R. (2015). The present-day meaning of the word bioinformatics (en inglés). Consultado el 21 de septiembre de 2015. 
  • Ilzins, O., Isea, R. and Hoebeke, J. (2015). Can Bioinformatics Be Considered as an Experimental Biological Science? (en inglés). Consultado el 21 de septiembre de 2015. 
  • Attwood, T.K., y Parry-Smith, D.J (2002). Introducción a la Bioinformática. Prentice Hall. ISBN 84-205-3551-6. 
  • Aluru, Srinivas, ed. (2006). Handbook of Computational Molecular Biology (en inglés). Computer and Information Science Series. Chapman & Hall/Crc. ISBN 1-58488-406-1. 
  • Baldi, P and Brunak, S (2001). Bioinformatics: The Machine Learning Approach (en inglés) (2nd edition edición). MIT Press. ISBN 0-262-02506-X. 
  • Barnes, M.R. and Gray, I.C., eds. (2003). Bioinformatics for Geneticists (en inglés) (first edition edición). Wiley. ISBN 0-470-84394-2. 
  • Baxevanis, A.D. and Ouellette, B.F.F., eds. (2005). Bioinformatics: A Practical Guide to the Analysis of Genes and Proteins (en inglés) (third edition edición). Wiley. ISBN 0-471-47878-4. 
  • Baxevanis, A.D., Petsko, G.A., Stein, L.D., and Stormo, G.D., eds. (2007). Current Protocols in Bioinformatics (en inglés). Wiley. ISBN 0-471-25093-7. 
  • Cristianini, N. and Hahn, M. (2006). Introduction to Computational Genomics (en inglés). Cambridge University Press. ISBN 978-0-521-67191-0 y 0-521-67191-4 |isbn= incorrecto (ayuda). Consultado el 13 de junio de 2010. 
  • Durbin, R., S. Eddy, A. Krogh and G. Mitchison (1998). Biological sequence analysis (en inglés). Cambridge University Press. ISBN 0-521-62971-3. 
  • Michael S. Waterman (1995). Introduction to Computational Biology: Sequences, Maps and Genomes (en inglés). CRC Press. ISBN 0-412-99391-0. 
  • Mount, David W. (2004). Bioinformatics: Sequence and Genome Analysis (en inglés) (2ª ed. edición). Spring Harbor Press. ISBN 0-87969-712-1. 
  • Pevzner, Pavel A. (2000). Computational Molecular Biology: An Algorithmic Approach (en inglés). The MIT Press. ISBN 0-262-16197-4. Consultado el 13 de junio de 2010. 

Bibliografía complementaria

  • Claverie, J.M. and C. Notredame (2003). Bioinformatics for Dummies (en inglés). Wiley. ISBN 0-7645-1696-5. Consultado el 13 de junio de 2010. 
  • Gibas, Cynthia, and Per Jambeck (2001). Developing Bioinformatics Computer Skills (en inglés). O'Reilly. ISBN 1-56592-664-1. Consultado el 13 de junio de 2010. 
  • Keedwell, E. (2005). Intelligent Bioinformatics: The Application of Artificial Intelligence Techniques to Bioinformatics Problems (en inglés). Wiley. ISBN 0-470-02175-6. 
  • Kohane, et al. (2002). Microarrays for an Integrative Genomics (en inglés). The MIT Press. ISBN 0-262-11271-X. 
  • Lund, O. et al. (2005). Immunological Bioinformatics (en inglés). The MIT Press. ISBN 0-262-12280-4. 
  • Pachter, Lior and Sturmfels, Bernd (2005). Algebraic Statistics for Computational Biology (en inglés). Cambridge University Press. ISBN 0-521-85700-7. 
  • Tisdall, James (2001). Beginning Perl for Bioinformatics (en inglés). O'Reilly & Assoc. ISBN 0-596-00080-4. Consultado el 13 de junio de 2010. 
  • Bassi, Sebastián (2009). Python for Bioinformatics (en inglés). CRC Press. ISBN 978-1-58488-929-8. 

Bibliografía en línea

  • Achuthsankar S Nair Computational Biology & Bioinformatics - A gentle Overview, Communications of Computer Society of India, enero de 2007
  • Edición especial de Philosophical Transactions B sobre bioinformática, accesible libremente
  • Catalyzing Inquiry at the Interface of Computing and Biology (2005) CSTB report
  • Calculating the Secrets of Life: Contributions of the Mathematical Sciences and computing to Molecular Biology (1995)

MIT OCW

  • Algorithms for Computational Biology MIT Course

Véase también

Enlaces externos

  •   Wikiversidad alberga proyectos de aprendizaje sobre Bioinformática.

Proyectos de Software

  • Bioinformatics software resources. Gilbert, D. Briefings in Bioinformatics, 2004 5(3):300-304. Recursos software para bioinformática.
  • BioPerl
  • BioPHP
  • BioRuby
  • BioPython
  • Bioconductor

Organizaciones

  • EMBnet: European Molecular Biology Network
  • Instituto Nacional de Bioinformática
  • Instituto Europeo de Bioinformática
  • National Center for Biotechnology Information
  • Fundación Bioinformática Abierta: organización "non-profit" para Bio* projects, Bioperl etc.
  • Folding at home: Proyecto de computación distribuida para la comprensión del plegado de las proteínas
  • Bioinformatics.org

Empresas

  • Biotechvana
  • Celeromics

Publicaciones especializadas

  • Bioinformatics
  • Algorithms in Molecular Biology
  • BMC Bioinformatics
  • Briefings in Bioinformatics
  • Evolutionary Bioinformatics
  • Genome Research
  • Cancer Informatics el 18 de abril de 2016 en Wayback Machine.
  • Molecular Systems Biology
  • International Journal of Bioinformatics Research and Applications
  • EMBnet.News en EMBnet.org
  • EMBnet.Journal en EMBnet.org

Otros recursos en español

  • Universidad de los Andes
  • Bioinformáticos Noticias sobre bioinformática para el área latinoamericana
  • Curso de programación en Perl para bioinformáticos en línea Plataforma de Bioinformática de la UAB

Otros

  • Proyecto Genoma Humano y Bioinformática; reseñas, ahora históricas, de la bioinformática en el desarrollo del Proyecto Genoma Humano
  •   Datos: Q128570
  •   Multimedia: Bioinformatics

bioinformática, bioinformática, puede, definirse, manera, general, como, aplicación, tecnologías, computacionales, estadística, gestión, análisis, datos, biológicos, términos, bioinformática, biología, computacional, informática, biológica, ocasiones, biocompu. La bioinformatica puede definirse de manera general como la aplicacion de tecnologias computacionales y la estadistica a la gestion y analisis de datos biologicos 1 Los terminos bioinformatica biologia computacional informatica biologica y en ocasiones biocomputacion son utilizados en muchas situaciones como sinonimos 2 3 y hacen referencia a campos de estudios interdisciplinares muy vinculados que requieren el uso o el desarrollo de diferentes tecnicas estudiadas universitariamente en la Ingenieria Informatica como ciencia aplicada de la disciplina informatica 4 Entre estas pueden destacarse las siguientes matematica aplicada 5 estadistica 6 ciencias de la computacion 7 inteligencia artificial 8 quimica 9 y bioquimica 10 con las que el Ingeniero Informatico soluciona problemas al analizar datos o simular sistemas o mecanismos todos ellos de indole biologica y usualmente pero no de forma exclusiva en el nivel molecular 11 El nucleo principal de estas tecnicas se encuentra en la utilizacion de recursos computacionales para solucionar o investigar problemas sobre escalas de tal magnitud que sobrepasan el discernimiento humano La investigacion en biologia computacional se solapa a menudo con la biologia de sistemas 12 Los principales esfuerzos de investigacion en estos campos incluyen el alineamiento de secuencias la prediccion de genes montaje del genoma alineamiento estructural de proteinas prediccion de estructura de proteinas prediccion de la expresion genica interacciones proteina proteina y modelado de la evolucion 13 Una constante en proyectos de bioinformatica y biologia computacional es el uso de herramientas matematicas para extraer informacion util de datos producidos por tecnicas biologicas de alta productividad como la secuenciacion del genoma En particular el montaje o ensamblado de secuencias genomicas de alta calidad desde fragmentos obtenidos tras la secuenciacion del ADN a gran escala es un area de alto interes 13 14 Otros objetivos incluyen el estudio de la regulacion genetica para interpretar perfiles de expresion genica utilizando datos de chips de ADN o espectrometria de masas 15 Alineamiento de diferentes proteinas de hemoglobina realizado con el servicio web para ClustalW implementado en el Instituto Europeo de Bioinformatica El alineamiento de secuencias biologicas es una de las herramientas basicas de la bioinformatica Indice 1 Conceptos y alcance 2 Historia 2 1 Las primeras decadas anos 60 y 70 del siglo XX 2 2 Anos 80 2 3 Anos 1990 2 4 Primeros anos del siglo XXI 3 Principales areas de investigacion 3 1 Analisis de secuencias 3 2 Anotacion de genomas 3 3 Biologia evolutiva computacional 3 4 Medicion de la biodiversidad 3 5 Analisis de la expresion genica 3 6 Analisis de la regulacion 3 7 Analisis de la expresion de proteinas 3 8 Analisis de mutaciones en el cancer 3 9 Prediccion de la estructura de las proteinas 3 10 Genomica comparativa 3 11 Modelado de sistemas biologicos 3 12 Analisis de imagen de alto rendimiento 3 13 Acoplamiento proteina proteina 3 14 Ontologias e integracion de datos 4 Herramientas de software 4 1 Software libre en bioinformatica 4 2 Servicios web en bioinformatica 4 3 Sistemas de gestion de flujo de trabajo de bioinformatica 4 4 BioCompute y BioCompute Objects BCO 5 Referencias 5 1 Notas 5 2 Bibliografia 5 3 Bibliografia complementaria 5 4 Bibliografia en linea 5 4 1 MIT OCW 6 Vease tambien 7 Enlaces externos 7 1 Proyectos de Software 7 2 Organizaciones 7 3 Empresas 7 4 Publicaciones especializadas 7 5 Otros recursos en espanol 7 6 OtrosConceptos y alcance EditarComo se ha avanzado en la introduccion los terminos bioinformatica biologia computacional y biocomputacion son utilizados a menudo como sinonimos apareciendo con frecuencia en la literatura basica de forma indiferenciada en sus usos comunes Sin embargo hay conformadas areas de aplicacion propias de cada termino El NIH National Institutes of Health Institutos Nacionales de la Salud de los Estados Unidos por ejemplo aun reconociendo previamente que ninguna definicion podria eliminar completamente el solapamiento entre actividades de las diferentes tecnicas define explicitamente los terminos bioinformatica y biologia computacional 16 Bioinformatica es la investigacion desarrollo o aplicacion de herramientas computacionales y aproximaciones para la expansion del uso de datos biologicos medicos conductuales o de salud incluyendo aquellas herramientas que sirvan para adquirir almacenar organizar analizar o visualizar tales datos Biologia computacional seria el desarrollo y aplicacion de metodos teoricos y de analisis de datos modelado matematico y tecnicas de simulacion computacional al estudio de sistemas biologicos conductuales y sociales De esta forma la bioinformatica tendria mas que ver con la informacion mientras que la biologia computacional lo haria con las hipotesis Por otra parte el termino biocomputacion suele enmarcarse en las actuales investigaciones con biocomputadores y por ejemplo T Kaminuma lo define de la siguiente forma Biocomputacion es la construccion y uso de computadores que contienen componentes biologicos o funcionan como organismos vivos 17 Aparte de las definiciones formales de organismos o instituciones de referencia los manuales de esta materia aportan sus propias definiciones operativas logicamente vinculadas en mayor o menor medida con las ya vistas Como ejemplo David W Mount en su difundido texto sobre bioinformatica 18 precisa que la bioinformatica se centra mas en el desarrollo de herramientas practicas para la gestion de datos y el analisis por ejemplo la presentacion de informacion genomica y analisis secuencial pero con menor enfasis en la eficiencia y en la precision Por otra parte y segun el mismo autor la biologia computacional generalmente se relaciona con el desarrollo de algoritmos nuevos y eficientes que se puede demostrar funcionan sobre un problema dificil tales como el alineamiento multiple de secuencias o el montaje o ensamblado de fragmentos de genoma Por ultimo se encuentra en ocasiones una categorizacion explicita de estos conceptos segun la cual la bioinformatica es una subcategoria de la biologia computacional Por ejemplo la biologa Cynthia Gibas anota que 19 La bioinformatica es la ciencia del uso de la informacion para entender la biologia Hablando estrictamente la bioinformatica es un subconjunto del campo mayor de la biologia computacional siendo esta ultima la aplicacion de tecnicas analiticas cuantitativas en el modelado de sistemas biologicos No obstante y refiriendose a su propio texto Developing Bioinformatics Computer Skills desarrollo de habilidades computacionales para bioinformatica enseguida pasa a aclarar que pasaremos de bioinformatica a biologia computacional y viceversa Las distinciones entre las dos no son importantes para nuestro proposito aqui En muchas ocasiones por lo tanto los terminos seran intercambiables y salvo en contextos de cierta especializacion el significado ultimo se mantendra claro utilizando cualquiera de ellos Historia EditarEn lo que sigue y ademas de los hechos relevantes directamente relacionados con el desarrollo de la bioinformatica se mencionaran algunos hitos cientificos y tecnologicos que serviran para poner en un contexto adecuado tal desarrollo 20 Arrancaremos esta breve historia en la decada de los 50 del pasado siglo XX anos en los que Watson y Crick proponen la estructura de doble helice del ADN 1953 21 se secuencia la primera proteina insulina bovina por F Sanger 1955 22 o se construye el primer circuito integrado por Jack Kilby en los laboratorios de Texas Instruments 1958 23 Las primeras decadas anos 60 y 70 del siglo XX Editar En los anos 60 L Pauling elabora su teoria sobre evolucion molecular 1962 24 y Margaret Dayhoff una de las pioneras de la bioinformatica publica el primero de los Atlas of Protein Sequences 1965 que tendra continuidad en anos posteriores se convertira en una obra basica en el desarrollo estadistico algunos anos mas tarde de las matrices de sustitucion PAM y sera precursor de las actuales bases de datos de proteinas 25 En el area de la tecnologia de computadores se presentan en el ARPA Advanced Research Projects Agency agencia de proyectos de investigacion avanzados los protocolos de conmutacion de paquetes de datos sobre redes de ordenadores 1968 que permitiran enlazar poco despues varios ordenadores de diferentes universidades en EE UU 26 habia nacido ARPANET 1969 embrion de lo que posteriormente sera Internet En 1970 se publica el algoritmo Needleman Wunsch para alineamiento de secuencias 27 se establece el Brookhaven Protein Data Bank 1971 28 se crea la primera molecula de ADN recombinante Paul Berg 1972 29 E M Southern desarrolla la tecnica Southern blot de localizacion de secuencias especificas de ADN 1976 30 comienza la secuenciacion de ADN y el desarrollo de software para analizarlo F Sanger software de R Staden 1977 31 32 y se publica en 1978 la primera secuencia de genes completa de un organismo el fago F X174 5 386 pares de bases que codifican 9 proteinas 33 En ambitos tecnologicos vinculados en estos anos se asiste al nacimiento del correo electronico Ray Tomlinson BBN 1971 34 al desarrollo de Ethernet protocolo de comunicaciones que facilitara la interconexion de ordenadores principalmente en redes de ambito local por Robert Metcalfe 1973 35 y al desarrollo del protocolo TCP Transmission Control Protocol protocolo de control de transmision por Vinton Cerf y Robert Kahn 1974 uno de los protocolos basicos para Internet 36 Anos 80 Editar En la decada de los 80 se asiste en diversas areas a importantes avances Niveles de estructura de las proteinas En los primeros ochenta se publica como investigar la estructura terciaria mediante RMN en la siguiente decada se desarrollaran metodos para predecir de novo algunas estructuras secundarias Cientificos tras la secuenciacion del fago F X174 a finales de la decada de los 70 en 1982 F Sanger consigue la secuenciacion del genoma del fago l fago lambda utilizando una nueva tecnica la secuenciacion shotgun secuenciacion por perdigonada desarrollada por el mismo 37 tambien entre 1981 y 1982 K Wuthrich publica el metodo de utilizacion de la RMN Resonancia Magnetica Nuclear para determinar estructuras de proteinas 38 Ford Doolittle trabaja con el concepto de secuencia motivo similitudes supervivientes segun las denomina en el resumen de su articulo en 1981 39 el descubrimiento en 1983 de la PCR Polymerase Chain Reaction reaccion en cadena de la polimerasa lleva a la multiplicacion de muestras de ADN lo que permitira su analisis 40 en 1987 D T Burke et al describen el uso de cromosomas artificiales de levadura YAC Yeast Artificial Chromosome 41 y Kulesh et al sientan las bases de los chips de ADN 42 Bioinformaticos por lo que se refiere al desarrollo de algoritmos metodos y programas aparece el algoritmo Smith Waterman 1981 43 el algoritmo de busqueda en bases de datos de secuencias Wilbur Lipman 1983 44 FASTP FASTN busqueda rapida de similitudes entre secuencias 1985 45 el algoritmo FASTA para comparacion de secuencias Pearson y Lipman 1988 46 y comienzan a utilizarse modelos ocultos de Markov para analizar patrones y composicion de las secuencias Churchill 1989 47 lo que permitira mas adelante localizar genes 48 y predecir estructuras proteicas 49 aparecen importantes bases de datos biologicas GenBank en 1982 Swiss Prot en 1986 50 51 redes que las interconectan EMBnet en 1988 52 y se potencian o se crean diferentes organismos e instituciones EMBL se constituye en 1974 pero se desarrolla durante la decada de los 80 NCBI en 1988 53 54 tambien en estos anos empieza a estudiarse la viabilidad de la Human Genome Initiative First Santa Fe Conference 1985 que sera anunciada un ano despues por el DoE Department of Energy departamento de energia del gobierno de los EE UU y que pondra en marcha proyectos piloto para desarrollar recursos y tecnologias criticas en 1987 el NIH National Institutes of Health institutos nacionales de la salud de EE UU comienza aportar fondos a proyectos genoma mientras que en 1988 arranca la Human Genome Initiative mas conocida finalmente como Human Genome Project Proyecto Genoma Humano 14 55 Tecnologicos 1983 vera la aparicion del estandar Compact Disc CD en su version para ser leido por un ordenador Yellow Book 56 Jon Postel y Paul Mockapetris desarrollan en 1984 el sistema de nombres de dominio DNS necesario para un direccionamiento correcto y agil en Internet 57 en 1987 Larry Wall desarrolla el lenguaje de programacion PERL de amplio uso posterior en bioinformatica 58 y a finales de la decada se veran las primeras companias privadas importantes con actividades vinculadas al genoma proteinas bioquimica etc Genetics Computer Group GCG Oxford Molecular Group Ltd y que en general experimentaran importantes transformaciones anos mas tarde 59 Anos 1990 Editar En los anos 1990 asistimos a los siguientes eventos Cientificos en 1991 comienza la secuenciacion con EST Expressed Sequence Tags marcaje de secuencias expresadas 60 al ano siguiente es publicado el mapa de ligamiento genetico en baja resolucion del genoma humano completo 61 en 1995 se consigue secuenciar completamente los primeros genomas de bacterias Haemophilus influenzae Mycoplasma genitalium de 1 8 millones de pares de bases Mbps y 0 58 Mbps respectivamente 62 63 en 1996 y en diferentes pasos por cromosoma se hace lo propio con el primer genoma eucariota el de la levadura Saccharomyces cerevisiae con 12 Mbps 64 asi como en 1997 con el genoma de Escherichia coli 4 7 Mbps 65 en 1998 con el primer genoma de un organismo multicelular 97 Mbp del Caenorhabditis elegans 66 para terminar la decada con el primer cromosoma humano el 22 completamente secuenciado en 1999 33 4 Mbps 67 Bioinformaticos busqueda rapida de similitudes entre secuencias con BLAST 1990 68 base de datos de huellas de proteinas PRINTS de Attwood y Beck 1994 69 ClustalW orientado al alineamiento multiple de secuencias en 1994 70 y PSI BLAST en 1997 71 a finales de la decada se desarrolla T Coffee que se publica en 2000 72 Por lo que se refiere a actividades institucionales y nuevos organismos tenemos la presentacion por parte del DoE y NIH al Congreso de los EE UU en 1990 de un plan de esfuerzos conjuntos en el Human Genome Project para cinco anos 73 se crean el Sanger Centre Hinxton UK 1993 ahora Sanger Institute y el European Bioinformatics Institute EBI Hinxton UK 1992 1995 74 75 Tecnologicos Tim Berners Lee inventa la World Wide Web 1990 mediante aplicacion de protocolos de red que explotan las caracteristicas del hipertexto 76 en 1991 aparecen los protocolos definitivos de Internet CERN 77 y la primera version del sistema operativo Linux 78 muy utilizado posteriormente en aplicaciones cientificas en 1998 Craig Venter funda Celera compania que perfeccionara la secuenciacion por perdigonada de F Sanger y analizara los resultados con software propio 79 Primeros anos del siglo XXI Editar A destacar que en los anos 2000 estan culminando multiples proyectos de secuenciacion de genomas de diferentes organismos en 2000 se publican entre otros el genoma de Arabidopsis thaliana 100 Mb 80 y el de Drosophila melanogaster 180 Mbp 81 Tras un borrador operativo de la secuencia de ADN del genoma humano del ano 2000 82 en 2001 aparece publicado el genoma humano 3 Gbp 83 Poco despues en 2003 y con dos anos de adelanto sobre lo previsto se completa el Human Genome Project 84 Por mencionar algunos de los genomas analizados en los anos siguientes anotaremos que en 2004 aparece el borrador del genoma de Rattus norvegicus rata 85 en 2005 el del chimpance 86 en 2006 el del macaco rhesus 87 en 2007 el del gato domestico 88 y en 2008 se secuencia por primera vez el genoma de una mujer 89 Gracias al desarrollo de las tecnicas adecuadas asistimos actualmente a un aluvion de secuenciaciones de genomas de todo tipo de organismos En 2003 se funda en Espana el Instituto Nacional de Bioinformatica 90 soportado por la Fundacion Genoma Espana fundada a su vez un ano antes y que pretende constituirse en instrumento del estado para potenciar la investigacion en este campo 91 En 2004 la estadounidense FDA Food and Drug Administration agencia para la administracion de alimentos y farmacos autoriza el uso de un chip de ADN por primera vez 92 En 2005 se completa el proyecto HapMap catalogacion de variaciones geneticas en el ser humano 93 En 2008 UniProt presenta el primer borrador del proteoma completo del ser humano con mas de veinte mil entradas 94 Poco a poco los primeros programas bioinformaticos se van perfeccionando y vemos versiones mas completas como la 2 0 de ClustalW reescrito en C en 2007 95 Principales areas de investigacion EditarAnalisis de secuencias Editar Articulo principal Base de datos biologica Articulo principal Alineamiento de secuencias Desde que el fago F X174 fue secuenciado en 1977 secuencia provisional un ano mas tarde se publicaria la secuencia completa definitiva 33 las secuencias de ADN de cientos de organismos han sido decodificadas y guardadas en bases de datos Esos datos son analizados para determinar los genes que codifican para ciertas proteinas asi como tambien secuencias reguladoras Una comparacion de genes en una especie o entre especies puede mostrar similitudes entre funciones de proteinas o relaciones entre especies uso de filogenetica molecular para construir arboles filogeneticos 96 Con la creciente cantidad de datos desde hace mucho se ha vuelto poco practico analizar secuencias de ADN manualmente Hoy se usan programas de computadora para estudiar el genoma de miles de organismos conteniendo miles de millones de nucleotidos Estos programas pueden compensar mutaciones con bases intercambiadas borradas o insertadas en la secuencia de ADN para identificar secuencias que estan relacionadas pero que no son identicas 39 Una variante de este alineamiento de secuencias se usa en el proceso de secuenciacion La secuenciacion conocida como shotgun o por perdigonada fue usada por ejemplo por el Instituto de Investigacion Genomica The Institute for Genomic Research TIGR hoy J Craig Venter Institute para secuenciar el primer genoma de bacteria el Haemophilus influenzae 62 no da una lista secuencial de nucleotidos pero en cambio nos ofrece las secuencias de miles de pequenos fragmentos de ADN cada uno de aproximadamente 600 a 800 nucleotidos de largo Las terminaciones de estos fragmentos se superponen y cuando son alineados de la manera correcta constituyen el genoma completo del organismo en cuestion 97 El secuenciamiento shotgun proporciona datos de secuencia rapidamente pero la tarea de ensamblar los fragmentos puede ser bastante complicada para genomas muy grandes En el caso del Proyecto Genoma Humano llevo varios meses de tiempo de procesador en una estacion DEC Alpha de alrededor del 2000 para ensamblar los fragmentos El shotgun sequencing es el metodo de eleccion para todos los genomas secuenciados hoy en dia y los algoritmos de ensamblado genomico son un area critica de la investigacion en bioinformatica Otro aspecto de la bioinformatica en analisis de secuencias es la busqueda automatica de genes y secuencias reguladoras dentro de un genoma 98 No todos los nucleotidos dentro de un genoma son genes Dentro del genoma de organismos mas avanzados grandes partes del ADN no sirven a ningun proposito obvio Este ADN conocido como ADN basura puede sin embargo contener elementos funcionales todavia no reconocidos 99 La bioinformatica sirve para estrechar la brecha entre los proyectos de genoma y proteoma por ejemplo en el uso de secuencias de ADN para identificacion de proteinas Mapa del cromosoma X del ser humano extraido de la pagina web del NCBI La transcripcion del genoma humano es uno de los mayores logros de la bioinformatica Anotacion de genomas Editar Articulo principal Prediccion de genes En el contexto de la genomica anotacion es el proceso de marcado de los genes y otras caracteristicas biologicas de la secuencia de ADN 100 El primer sistema software de anotacion de genomas fue disenado en 1995 por Owen White quien fue miembro del equipo que secuencio y analizo el primer genoma en ser descodificado de un organismo independiente la bacteria Haemophilus influenzae White construyo un software para localizar los genes lugares en la secuencia de DNA que codifican una proteina el ARN de transferencia y otras caracteristicas asi como para realizar las primeras atribuciones de funcion a esos genes 62 La mayoria de los actuales sistemas de anotacion genomica trabajan de forma similar pero los programas disponibles para el analisis del genoma se encuentran en continuo cambio y mejora Biologia evolutiva computacional Editar La Biologia evolutiva es el estudio del origen ancestral de las especies asi como de su cambio a traves del tiempo 101 La informatica ha apoyado a los biologos evolutivos en diferentes campos clave Ha permitido a los investigadores Seguir la evolucion de un alto numero de organismos midiendo cambios en su ADN en lugar de hacerlo exclusivamente mediante su taxonomia fisica u observaciones fisiologicas 39 Mas recientemente comparar genomas completos lo que permite el estudio de eventos evolutivos mas complejos tales como la duplicacion de genes la transferencia horizontal de genes o la prediccion de factores significativos en la especiacion bacteriana 102 Construir modelos computacionales complejos de poblaciones para predecir el resultado del sistema a traves del tiempo 103 Seguir y compartir informacion sobre un amplio y creciente numero de especies y organismos Los esfuerzos futuros se centraran en reconstruir el cada vez mas complejo arbol filogenetico de la vida 104 El area de investigacion de las ciencias de la computacion denominada computacion evolutiva se confunde ocasionalmente con la Biologia evolutiva computacional pero ambas areas no guardan relacion Dicho campo se centra en el desarrollo de algoritmos geneticos y otras estrategias de resolucion de problemas con una marcada inspiracion evolutiva y genetica Medicion de la biodiversidad Editar Vease tambien Biodiversidad La evaluacion de la biodiversidad La biodiversidad de un ecosistema puede definirse como el conjunto genomico completo de todas las especies presentes en un medio ambiente particular 105 sea este una biopelicula en una mina abandonada una gota de agua de mar un punado de tierra o la biosfera completa del planeta Tierra Se utilizan bases de datos para recoger los nombres de las especies asi como de sus descripciones distribuciones informacion genetica estado y tamanos de las poblaciones necesidades de su habitat y como cada organismo interactua con otras especies Se usa software especializado para encontrar visualizar y analizar la informacion y lo que es mas importante para compartirla con otros interesados 106 La simulacion computacional puede modelar cosas tales como dinamica poblacional o calcular la mejora del acervo genetico de una variedad en agricultura o la poblacion amenazada en biologia de la conservacion Un potencial muy excitante en este campo es la posibilidad de preservar las secuencias completas del ADN o genomas de especies amenazadas de extincion permitiendo registrar los resultados de la experimentacion genetica de la Naturaleza in silico para su posible reutilizacion futura aun si tales especies fueran finalmente perdidas 107 Pueden citarse como ejemplos significativos los proyectos Species 2000 o uBio Analisis de la expresion genica Editar La expresion genica de muchos genes puede determinarse por la medicion de niveles de mRNA mediante multiples tecnicas incluyendo microarrays de ADN secuenciacion de EST Expressed Sequence Tag analisis en serie de la expresion genica Serial Analysis of Gene Expression SAGE MPSS Massively Parallel Signature Sequencing o diversas aplicaciones de hibridacion in situ Todas estas tecnicas son extremadamente propensas al ruido y o sujetas a sesgos en la medicion biologica y una de las principales areas de investigacion en la biologia computacional trata del desarrollo de herramientas estadisticas para separar la senal del ruido en los estudios de expresion genica con alto volumen de procesamiento 108 Estos estudios se usan a menudo para determinar los genes implicados en un desorden podrian por ejemplo compararse datos de microarrays de celulas epiteliales cancerosas con datos de celulas no cancerosas para determinar las transcripciones que son activadas o reprimidas en una poblacion particular de celulas cancerosas 109 Analisis de la regulacion Editar La regulacion genica es la compleja orquestacion de eventos que comienzan con una senal extracelular tal como una hormona que conducen a un incremento o decremento en la actividad de una o mas proteinas 110 Se han aplicado tecnicas bioinformaticas para explorar varios pasos en este proceso Por ejemplo el analisis del promotor de un gen implica la identificacion y estudio de las secuencias motivo en los alrededores del ADN de la region codificante de un gen 111 Estos motivos influyen en el alcance segun el cual esa region se transcribe en ARNm Los datos de expresion pueden usarse para inferir la regulacion genica podrian compararse datos de microarrays provenientes de una amplia variedad de estados de un organismo para formular hipotesis sobre los genes involucrados en cada estado En un organismo unicelular podrian compararse etapas del ciclo celular a lo largo de variadas condiciones de estres choque de calor inanicion etc Podrian aplicarse entonces algoritmos de agrupamiento algoritmos de clustering o analisis de cluster a esa informacion de expresion para determinar que genes son expresados simultaneamente 112 Por ejemplo los promotores de estos genes se pueden buscar segun la abundancia de secuencias o elementos regulatorios Analisis de la expresion de proteinas Editar Vease tambien Expresion genica Los microarrays de proteinas y la espectrometria de masas de alto rendimiento pueden proporcionar una instantanea de las proteinas presentes en una muestra biologica La bioinformatica esta muy comprometida en dar soporte a ambos procedimientos La aproximacion a los microarrays de proteinas encara similares problemas a los existentes para microarrays destinados a ARNm 113 mientras que para la espectrometria de masas el problema es casar grandes cantidades de datos de masa contra masas predichas por bases de datos de secuencias de proteinas ademas del complicado analisis estadistico de muestras donde se detectan multiples pero incompletos peptidos de cada proteina 114 Analisis de mutaciones en el cancer Editar En el cancer los genomas de las celulas afectadas son reordenados en complejas y o aun impredecibles maneras Se realizan esfuerzos masivos de secuenciacion para identificar sustituciones individuales de bases o puntos de mutacion de nucleotidos todavia desconocidos en una variedad de genes en el cancer 115 Los bioinformaticos continuan produciendo sistemas automatizados para gestionar el importante volumen de datos de secuencias obtenido y crean nuevos algoritmos y software para comparar los resultados de secuenciacion con la creciente coleccion de secuencias del genoma humano y de los polimorfismos de la linea germinal Se estan utilizando nuevas tecnologias de deteccion fisica como los microarrays de oligonucleotidos para identificar perdidas y ganancias cromosomicas tecnica denominada hibridacion genomica comparativa 116 y los arrays de polimorfismos de nucleotido simple para detectar puntos de mutacion conocidos 117 Estos metodos de deteccion miden simultaneamente bastantes cientos de miles de posiciones a lo largo del genoma y cuando se usan con una alta productividad para analizar miles de muestras generan terabytes de datos por experimento De esta forma las masivas cantidades y nuevos tipos de datos proporcionan nuevas oportunidades para los bioinformaticos A menudo se encuentra en los datos una considerable variabilidad o ruido por lo que metodos como el de los modelos ocultos de Markov y el analisis de puntos de cambio estan siendo desarrollados para inferir cambios reales en el numero de copias de los genes numero de copias de un gen particular en el genotipo de un individuo cuya magnitud puede ser elevada en celulas cancerigenas 118 119 Otro tipo de datos que requiere novedosos desarrollos informaticos es el analisis de las lesiones encontradas de forma recurrente en buen numero de tumores principalmente por analisis automatizado de imagen clinica Prediccion de la estructura de las proteinas Editar Articulo principal Prediccion de estructura de proteinas Articulo principal Alineamiento estructural Alineamiento estructural de tiorredoxinas del ser humano y de la mosca Drosophila melanogaster Las proteinas se muestran como cintas con la proteina humana en rojo y la de la mosca en amarillo Generado con PDB 3TRX y 1XWC La prediccion de la estructura de las proteinas es otra importante aplicacion de la bioinformatica La secuencia de aminoacidos de una proteina tambien llamada estructura primaria puede ser determinada facilmente desde la secuencia de nucleotidos sobre el gen que la codifica 120 En la inmensa mayoria de los casos esta estructura primaria determina unicamente una estructura de la proteina en su ambiente nativo Hay por supuesto excepciones como la encefalopatia espongiforme bovina o mal de las vacas locas ver tambien prion El conocimiento de esta estructura es vital para entender la funcion de la proteina 121 En ausencia de mejores terminos la informacion estructural de las proteinas se clasifica usualmente como estructura secundaria terciaria y cuaternaria Una solucion general viable para la prediccion de tales estructuras permanece todavia como problema abierto Por ahora la mayoria de los esfuerzos han sido dirigidos hacia heuristicas que funcionan la mayoria de las veces 122 Una de las ideas clave en bioinformatica es la nocion de homologia En la rama genomica de la bioinformatica se usa la homologia para predecir la funcion de un gen si la secuencia de gen A cuya funcion es conocida es homologa a la secuencia de gen B cuya funcion es desconocida puede inferirse que B podria compartir la funcion de A 123 En la rama estructural de la bioinformatica la homologia se usa para determinar que partes de una proteina son importantes en la formacion de la estructura y en la interaccion con otras proteinas En la tecnica denominada modelado por homologia esta informacion se usa para predecir la estructura de una proteina una vez conocida la estructura de una proteina homologa 124 Esta es actualmente la unica via para predecir estructuras de proteinas de una manera fiable Un ejemplo de lo anterior es la similar homologia proteica entre la hemoglobina en humanos y la hemoglobina en las legumbres leghemoglobina Ambas sirven al mismo proposito de transportar oxigeno en el organismo Aunque las dos tienen una secuencia de aminoacidos completamente diferente sus estructuras son virtualmente identicas lo que refleja sus practicamente identicos propositos 125 Otras tecnicas para predecir la estructura de las proteinas incluyen el enhebrado de proteinas protein threading 126 y el modelado de novo desde cero basado en las caracteristicas fisicas y quimicas 127 Al respecto pueden verse tambien motivo estructural structural motif y dominio estructural structural domain Genomica comparativa Editar Articulo principal Genomica comparativa El nucleo del analisis comparativo del genoma es el establecimiento de la correspondencia entre genes analisis ortologo o entre otras caracteristicas genomicas de diferentes organismos Estos mapas intergenomicos son los que hacen posible rastrear los procesos evolutivos responsables de la divergencia entre dos genomas Una multitud de eventos evolutivos actuando a diferentes niveles organizativos conforman la evolucion del genoma 128 Al nivel mas bajo las mutaciones puntuales afectan a nucleotidos individuales Al mayor nivel amplios segmentos cromosomicos experimentan duplicacion transferencia horizontal inversion transposicion borrado e insercion Finalmente los genomas enteros estan involucrados en procesos de hibridacion poliploidia y endosimbiosis conduciendo a menudo a una subita especiacion La complejidad de la evolucion del genoma plantea muchos desafios excitantes a desarrolladores de modelos matematicos y algoritmos quienes deben recurrir a un espectro de tecnicas algoritmicas estadisticas y matematicas que se extienden desde exactas heuristicas con parametros fijados y mediante algoritmos de aproximacion para problemas basados en modelos de parsimonia hasta algoritmos Markov Chain Monte Carlo para analisis Bayesiano de problemas basados en modelos probabilisticos 129 Muchos de estos estudios estan basados en la deteccion de homologia y la computacion de familias de proteinas Modelado de sistemas biologicos Editar Articulo principal Biologia de sistemas La biologia de sistemas implica el uso de simulaciones por ordenador de subsistemas celulares tales como redes de metabolitos y enzimas que comprenden el metabolismo caminos de transduccion de senales y redes de regulacion genetica tanto para analizar como para visualizar las complejas conexiones de estos procesos celulares 130 La vida artificial o la evolucion virtual tratan de entender los procesos evolutivos por medio de la simulacion por ordenador de sencillas formas de vida artificial 131 Analisis de imagen de alto rendimiento Editar Se estan usando tecnologias de computacion para acelerar o automatizar completamente el procesamiento cuantificacion y analisis de grandes cantidades de imagenes biomedicas con alto contenido en informacion Los modernos sistemas de analisis de imagen incrementan la habilidad del observador para realizar analisis sobre un amplio o complejo conjunto de imagenes mejorando la precision la objetividad independencia de los resultados segun el observador o la rapidez Un sistema de analisis totalmente desarrollado podria reemplazar completamente al observador Aunque estos sistemas no son exclusivos del campo de las imagenes biomedicas cada vez son mas importantes tanto para el diagnostico como para la investigacion Algunos ejemplos Cuantificacion y localizacion subcelular con alta productividad y precision high content screening citohistopatologia 132 Morfometria 133 Analisis y visualizacion de imagenes clinicas 134 Determinacion de patrones en el flujo del aire en tiempo real de la respiracion pulmonar de animales vivos Cuantificacion del tamano de la oclusion a traves de imagenes en tiempo real tanto por desarrollo como por recuperacion de lesiones arteriales 135 Realizacion de observaciones conductuales basadas en prolongadas grabaciones en video de animales de laboratorio Observaciones en infrarrojo espectroscopia infrarroja para la determinacion de la actividad metabolica 136 Acoplamiento proteina proteina Editar Articulo principal Acoplamiento proteina proteina En las ultimas dos decadas decenas de miles de estructuras tridimensionales de proteinas han sido determinadas por cristalografia de rayos X y espectroscopia mediante resonancia magnetica nuclear de proteinas RMN de proteinas Una cuestion central para los cientificos es si resulta viable la prediccion de posibles interacciones proteina proteina solamente basados en esas formas 3D sin realizar experimentos identificativos de estas interacciones Se han desarrollado una variedad de metodos para enfrentarse al problema del acoplamiento proteina proteina aunque parece que queda todavia mucho trabajo en este campo 137 Ontologias e integracion de datos Editar Las ontologias biologicas son grafos aciclicos dirigidos de vocabularios controlados lenguajes des indizacion Estan disenados para capturar conceptos y descripciones biologicas de una manera que se puede categorizar y analizar facilmente con computadoras Cuando se categoriza de esta manera es posible obtener un valor agregado del analisis holistico e integrado El consorcio OBO Foundry fue un esfuerzo por estandarizar ciertas ontologias Una de las mas extendidas es la ontologia genica que describe la funcion de los genes Tambien hay ontologias que describen fenotipos Herramientas de software EditarVease tambien Anexo Software para alineamiento de secuencias Vease tambien Anexo Software para alineamiento estructural Las herramientas de software para bioinformatica van desde simples herramientas de linea de comandos hasta mucho mas complejos programas graficos y servicios web autonomos situados en companias de bioinformatica o instituciones publicas La mas conocida herramienta de biologia computacional entre los biologos es probablemente BLAST un algoritmo para determinar la similitud de secuencias arbitrarias con otras secuencias 68 probablemente residentes en bases de datos de proteinas o de secuencias de ADN El NCBI National Center for Biotechnology Information EE UU por ejemplo proporciona una implementacion muy utilizada basada en web y que trabaja sobre sus bases de datos 138 Para alineamientos multiples de secuencias el clasico ClustalW 70 actualmente en su version 2 es el software de referencia Puede trabajarse con una implementacion del mismo en el EBI Instituto Europeo de Bioinformatica 139 BLAST y ClustalW son solo dos ejemplos de los muchos programas de alineamiento de secuencias disponibles Existe por otra parte multitud de software bioinformatico con otros objetivos alineamiento estructural de proteinas prediccion de genes y otros motivos prediccion de estructura de proteinas prediccion de acoplamiento proteina proteina o modelado de sistemas biologicos entre otros En Anexo Software para alineamiento de secuencias y Anexo Software para alineamiento estructural pueden encontrarse sendas relaciones de programas o servicios web adecuados para cada uno de estos dos objetivos en particular Software libre en bioinformatica Editar Muchas herramientas de software libre existen y continuan apareciendo desde los decada de 1980s 140 La necesidad de nuevos algoritmos para el analisis the nuevos datos de origen biologico en combinacion con el potencial para experimentos innovadores in silico y la disponibilidad de repositorios gratuitos para software libre han ayudado a crear oportunidades para que grupos de investigacion realicen aportes a la bioinformatica y al codigo libre disponible independientemente de sus fuentes de financiamiento Las herramientas de codigo abierto a menudo actuan como incubadoras de ideas o como complemento en aplicaciones comerciales Pueden tambien proveer estandares de facto y modelos o estructuras que aportan al desafio de la integracion en bioinformatica La Lista de software libre en bioinformatica incluye titulos como Bioconductor BioPerl Biopython BioJava BioJS BioRuby Bioclipse EMBOSS NET Bio Orange con sus agregados bioinformaticos Apache Taverna UGENE y GenoCAD Para mantener esta tradicion y crear nuevas oportunidades la organizacion sin fines de lucro Open Bioinformatics Foundation 140 a patrocinado anualmente la Bioinformatics Open Source Conference BOSC desde el ano 2000 141 Un metodo alternativo para construir bases de datos publicas es usar el software para wikis MediaWiki con la extension WikiOpener Este sistema permite el acceso y actualizacion de la base de datos a todos los expertos en el campo 142 Servicios web en bioinformatica Editar Se han desarrollado interfaces basadas en SOAP y en REST Representational State Transfer transferencia de estado representacional para una amplia variedad de aplicaciones bioinformaticas permitiendo que una aplicacion corriendo en un ordenador de cualquier parte del mundo pueda usar algoritmos datos y recursos de computacion alojados en servidores en cualesquiera otras partes del planeta Las principales ventajas radican en que el usuario final se despreocupa de actualizaciones y modificaciones en el software o en las bases de datos 143 Los servicios bioinformaticos basicos de acuerdo a la clasificacion implicita del EBI solian clasificarse en 144 Servicios de obtencion de informacion en linea consultas a bases de datos por ejemplo Herramientas de analisis por ejemplo servicios que den acceso a EMBOSS Busquedas de similitudes entre secuencias servicios de acceso a FASTA o BLAST por ejemplo Alineamientos multiples de secuencias acceso a ClustalW o T Coffee Analisis estructural acceso a servicios de alineamiento estructural de proteinas por ejemplo Servicios de acceso a literatura especializada y ontologias Desde 2009 los servicios bioinformaticos basicos son clasificados por el EBI en tres categorias 145 similitudes entre secuencias SSS Alineamientos multiples de secuencias MSA analisis de secuencia bioinformatico BSA La disponibilidad de estos servicios web basados en SOAP a traves de sistemas tales como los servicios de registro 146 servicios de distribucion y descubrimiento de datos a traves de servicios web demuestra la aplicabilidad de soluciones bioinformaticas basadas en web Estas herramientas varian desde una coleccion de herramientas autonomas con un formato de datos comun y bajo una unica interface autonoma o basada en web hasta sistemas integradores y extensibles para la gestion del flujo de trabajo bioinformatico Sistemas de gestion de flujo de trabajo de bioinformatica Editar Articulo principal Sistema de gestion de flujo de trabajo de bioinformatica Un Sistema de gestion de flujo de trabajo de bioinformatica es una forma especializada de Sistema de gestion de flujo de trabajo disenado especificamente para componer y ejecutar una serie de pasos computacionales o de manipulacion de datos o un flujo de trabajo en una aplicacion de Bioinformatica Tales sistemas estan disenados para Proporcionar un entorno facil de usar para que los propios cientificos de aplicaciones individuales creen sus propios flujos de trabajo proporcionar herramientas interactivas para los cientificos que les permitan ejecutar sus flujos de trabajo y ver sus resultados en tiempo real simplificar el proceso de compartir y reutilizar flujos de trabajo entre los cientificos permite a los cientificos rastrear el origen de los resultados de la ejecucion del flujo de trabajo y los pasos de creacion del mismo Algunas de las plataformas que ofrecen este servicio Galaxy Kepler Taverna UGENE Anduril HIVE BioCompute y BioCompute Objects BCO Editar En 2014 la Administracion de Alimentos y Medicamentos de los EE UU Patrocino una conferencia celebrada en los Institutos Nacionales de la Salud en el Campus de Bethesda para hablar sobre la reproducibilidad en bioinformatica 147 Durante los siguientes tres anos 2014 2017 un consorcio de partes interesadas se reunio regularmente para discutir lo que se convertiria en el paradigma de BioCompute 148 Estas partes interesadas incluian representantes del gobierno la industria y entidades academicas Los lideres de la sesion representaron a numerosas sucursales de los Institutos y Centros de la FDA y los NIH entidades sin fines de lucro como Proyecto Varioma Humano y Federacion Europea de Informatica Medica e instituciones de investigacion como Stanford el New York Genome Center y George Washington University Se decidio que el paradigma de BioCompute seria en forma de cuadernos de laboratorio digitales que permiten la reproducibilidad replicacion revision y reutilizacion de los protocolos de bioinformatica Esto se propuso para permitir una mayor continuidad dentro de un grupo de investigacion en el transcurso del flujo de personal normal al mismo tiempo que se fomenta el intercambio de ideas entre grupos La FDA de los EE UU Financio este trabajo para que la informacion sobre tuberias sea mas transparente y accesible para su personal regulador 149 En 2016 el grupo volvio a reunirse en el NIH en Bethesda y discutio el potencial de un BioCompute Object una instancia del paradigma BioCompute Este trabajo se copio como un documento de uso de prueba estandar y un manuscrito de preimpresion cargado en bioRxiv 150 Los objetos BioCompute permiten que los registros se compartan entre empleados colaboradores y reguladores 151 152 Referencias EditarNotas Editar European Bioinformatics Institute 2006 What is Bioinformatics en ingles Consultado el 3 de septiembre de 2008 Un ejemplo de la utilizacion como sinonimos entre bioinformatica y biologia computacional se encuentra en el propio sitio del Human Genome Project Archivado el 15 de marzo de 2008 en Wayback Machine donde en su glosario Archivado el 21 de septiembre de 2008 en Wayback Machine redirigen al termino Bioinformatics la definicion de Computational biology Un ejemplo de la utilizacion como sinonimos entre biocomputacion y bioinformatica se encuentra en el sitio de la Biocomputing Unit del Centro Nacional de Biotecnologia centro cientifico espanol dependiente del CSIC Bajic V B et al 2003 From informatics to bioinformatics Proceedings of the first Asia Pacific bioinformatics conference on bioinformatics Adelaide Lander Eric S Waterman Michael S 1995 http www nap edu catalog php record id 2121 urlcapitulo sin titulo ayuda Calculating the Secrets of Life Contributions of the Mathematical Sciences to Molecular Biology National Academy Press ISBN 0 309 07502 5 La referencia utiliza el parametro obsoleto coautores ayuda Woon Wei Lee 2003 Core statistics for bioinformatics pdf en ingles Consultado el 1 de septiembre de 2008 Ver por ejemplo los workshops anuales WABI Workshop on Algorithms in Bioinformatics taller sobre algoritmos bioinformaticos en septiembre de 2008 del ultimo WABI realizado puede encontrarse informacion en http www wabi07 org mientras que de WABI 2008 puede encontrarse informacion previa en http algo2008 org doku php wabi Archivado el 30 de junio de 2015 en Wayback Machine Frasconi P Shamir R agosto de 2003 NATO Science ed Artificial Intelligence and Heuristic Methods in Bioinformatics IOS Press ISBN 1586032941 La referencia utiliza el parametro obsoleto mes ayuda La referencia utiliza el parametro obsoleto coautores ayuda Murray Rust P et al 2005 Chemistry in Bioinformatics pdf Consultado el 1 de septiembre de 2008 Ibba M 2002 Biochemistry and bioinformatics when worlds collide Trends in Biochemical Sciences 27 2 Archivado desde el original el 2 de diciembre de 2008 Consultado el 1 de septiembre de 2008 Russ B Altman 2006 Guide to Bioinformatics at Stanford University en ingles Archivado desde el original el 13 de mayo de 2008 Consultado el 28 de agosto de 2008 The definition of bioinformatics is not univerally agreed upon Generally speaking we define it as the creation and development of advanced information and computational technologies for problems in biology most commonly molecular biology but increasingly in other areas of biology Werner E 2005 The Future and Limits of Systems Biology Science Signaling 2005 278 ISSN 1525 8882 a b Kanehisa M Bork P 2003 Bioinformatics in the post sequence era Nature Genetics 33 a b U S Department of Energy Genome Research Programs 2008 PRIMER Genomics and Its Impact on Science and Society The Human Genome Project and Beyond pdf en ingles Consultado el 1 de septiembre de 2008 Genevestigator es un completo ejemplo de aplicacion basada en web en este caso orientada al estudio de la expresion y regulacion de los genes Huerta M et al 17 de julio de 2000 NIH working definition of bioinformatics and computational biology pdf en ingles Archivado desde el original el 5 de septiembre de 2012 Consultado el 21 de agosto de 2008 Kaminuma T Matsumoto G 1991 Biocomputers Chapman and Hall ISBN 978 0412357701 La referencia utiliza el parametro obsoleto coautores ayuda Mount David W 2004 Bioinformatics Sequence and Genome Analysis 2ª edicion Cold Spring Harbor Laboratory Press ISBN 0 87969 712 1 Gibas Cynthia 2001 Developing Bioinformatics Computer Skills O Reilly ISBN 1 56592 664 1 Attwood T K Gisel A Eriksson N E and Bongcam Rudloff E 2011 Concepts Historical Milestones and the Central Place of Bioinformatics in Modern Biology A European Perspective Bioinformatics Trends and Methodologies InTech Consultado el 8 de enero de 2012 Watson J D y Crick F H C 1953 A Structure for Deoxyribose Nucleic Acid Nature 171 737 738 PMID 13054692 doi 10 1038 171737a0 Consultado el 5 de septiembre de 2008 Shampo M A y Kyle R A 2002 Frederick Sanger Winner of 2 Nobel Prizes en ingles Mayo Clinic Proceedings Archivado desde el original el 16 de enero de 2009 Consultado el 5 de septiembre de 2008 Texas Instruments The Chip that Jack Built en ingles Consultado el 5 de septiembre de 2008 Pauling L y Zuckerkandl E 1962 Molecular disease evolution and genic heterogeneity Horizons in Biochemistry Academic Press 978 0124004504 Guigo R 2003 Bioinformatica La creciente interconexion entre biologia y computacion Boletin electronico de la Sociedad Espanola de Genetica 17 Archivado desde el original el 11 de agosto de 2011 Hauben M 1998 History of ARPANET Behind the Net The Untold Story of the ARPANET and Computer Science en ingles Archivado desde el original el 13 de septiembre de 2008 Consultado el 5 de septiembre de 2008 Needleman S y Wunsch C 1970 A general method applicable to the search for similarities in the amino acid sequence of two proteins Journal of Molecular Biology 48 63 Bernstein F C et al 1977 The Protein Data Bank A Computer Based Archival File for Macromolecular Structures European Journal of Biochemistry 80 2 Berg P et al 1972 Biochemical Method for Inserting New Genetic Information into DNA of Simian Virus 40 Circular SV40 DNA Molecules Containing Lambda Phage Genes and the Galactose Operon of Escherichia coli Proceedings of the National Academy of Sciences 69 10 Southern E M 1975 Detection of specific sequences among DNA fragments separated by gel electrophoresis Journal of Molecular Biology 98 3 Sanger F et al 1977 DNA sequencing with chain terminating inhibitors Proceedings of National Academy of Sciences 74 12 Staden R 1977 Sequence data handling by computer Nucleic Acids Research 4 11 4037 4051 a b Sanger F et al 1978 The nucleotide sequence of bacteriophage fX174 Journal of Molecular Biology 125 2 Archivado desde el original el 2 de diciembre de 2008 Consultado el 6 de septiembre de 2008 Tomlinson R The First Network Email en ingles BBN Technologies Consultado el 6 de septiembre de 2008 Alfred R 2008 May 22 1973 Enter Ethernet WIRED Archivado desde el original el 12 de abril de 2013 Cerf V Kahn R et al 2003 A Brief History of the Internet en ingles Internet Society Consultado el 6 de septiembre de 2008 Sanger F et al 1982 Nucleotide sequence of bacteriophage l DNA Journal of Molecular Biology 162 4 Archivado desde el original el 2 de diciembre de 2008 Consultado el 6 de septiembre de 2008 Wuthrich K et al 1982 Sequential Resonance Assignments as a Basis for Determination of Spatial Protein Structures by High Resolution Proton Nuclear Magnetic Resonance Journal of Molecular Biology 155 Archivado desde el original el 3 de octubre de 2006 a b c Doolittle R F 1981 Similar amino acid sequences chance or common ancestry Science 214 4517 Bartlett J M S Stirling D 2003 A Short History of the Polymerase Chain Reaction Methods in Molecular Biology 226 Burke D T el al 1987 Cloning of Large Segments of Exogenous DNA into Yeast by Means of Artificial Chromosome Vectors Science 236 4803 Archivado desde el original el 9 de noviembre de 2004 Kulesh D A et al 1987 Identification of interferon modulated proliferation related cDNA sequences Proceedings of the National Academy of Sciences 84 23 Smith T F Waterman M S 1981 Identification of Common Molecular Subsequences Journal of Molecular Biology 147 doi 10 1016 0022 2836 81 90087 5 Wilbur W J Lipman D J 1983 Rapid similarity searches of nucleic acid and protein data banks Proceedings of the National Academy of Sciences 80 Lipman D J Pearson W R 1985 Rapid and Sensitive Protein Similarity Searches Science 227 4693 Lipman D J Pearson W R 1988 Improved tools for biological sequence comparison Proceedings of the National Academy of Sciences 85 8 Churchill G A 1989 Stochastic models for heterogeneous DNA sequences Bulletin of Mathematical Biology 51 1 Un ejemplo de articulo de prediccion de genes en E coli aplicando HMM lo encontramos en Krogh A et al 1993 A Hidden Markov Model that finds genes in E coli DNA Un ejemplo de articulo de prediccion de estructuras en proteinas lo encontramos en Sonnhammer E L L 1998 A hidden Markov model for predicting transmembrane helices in protein sequences Cravedi K 2008 GenBank celebrates 25 years of service en ingles AAAS EurekAlert Consultado el 7 de septiembre de 2008 Bairoch A Boeckmann B 1994 The SWISS PROT protein sequence data bank current status Nucleic Acids Research 22 17 Un buen recurso de introduccion a EMBnet es la pagina What is EMBnet Archivado el 7 de septiembre de 2008 en Wayback Machine de la propia web de la organizacion a partir de la cual puede explorarse la misma con facilidad Office of Information and Public Affairs EMBL 2008 Brief History en ingles EMBL Archivado desde el original el 24 de julio de 2008 Consultado el 7 de septiembre de 2008 National Center for Biotechnology Information 2004 NCBI at a Glance Our Mission en ingles NCBI Consultado el 7 de septiembre de 2008 U S Human Genome Project 2008 Major Events in the U S Human Genome Project and Related Projects en ingles Office of Science U S Dpt of Energy Archivado desde el original el 6 de septiembre de 2008 Consultado el 7 de septiembre de 2008 Davidson M W 2003 History of the Compact Disc en ingles Florida State University Consultado el 7 de septiembre de 2008 Robles O 2003 Que es el DNS Boletin de Politica Informatica Instituto Nacional de Estadistica y Geografia gobierno de Mexico 1 Archivado desde el original el 18 de noviembre de 2008 Mount D W 2004 Bioinformatics Programming Using Perl and Perl Modules Bioinformatics Sequence and Genome Analysis 2nd ed New York Cold Spring Harbor Laboratory Press ISBN 0 87969 712 1 Accelrys Software Inc About Accelrys en ingles Archivado desde el original el 9 de enero de 2010 Consultado el 7 de septiembre de 2008 Adams M D et al 1991 Complementary DNA sequencing expressed sequence tags and human genome project Science 252 5013 Weissenbach J et al 1992 A second generation linkage map of the human genome Nature 359 6398 a b c Fleischmann R D et al 1995 Whole genome random sequencing and assembly of Haemophilus influenzae Rd Science 269 5223 Fraser C M et al 1995 The Minimal Gene Complement of Mycoplasma genitalium Science 270 5235 National Human Genome Research Institute NIH 1996 International Team Completes DNA Sequence of Yeast en ingles Consultado el 9 de septiembre de 2008 Blattner F R 1997 The complete genome sequence of Escherichia coli K 12 Science 277 5331 C elegans Sequencing Consortium 1998 Genome sequence of the nematode C elegans a platform for investigating biology Science 282 5396 Dunham I et al 1999 The DNA sequence of human chromosome 22 Nature 402 402 489 495 ISSN 0028 0836 a b Altschul S F 1990 Basic Local Alignment Search Tool Journal of Molecular Biology 215 3 Archivado desde el original el 13 de octubre de 2010 Attwood T K Beck M E 1994 PRINTS a protein motif fingerprint database Protein Engineering 7 7 841 848 ISSN 1741 0134 a b Thompson J D et al 1994 CLUSTAL W improving the sensitivity of progressive multiple sequence alignment through sequence weighting position specific gap penalties and weight matrix choice Nucleic Acids Research 22 22 4673 80 Altschul S F et al 1997 Gapped BLAST and PSI BLAST a new generation of protein database search programs Nucleic Acids Research 25 17 3389 402 Archivado desde el original el 11 de mayo de 2008 Consultado el 9 de septiembre de 2008 Notredame C 2000 T Coffee A novel method for fast and accurate multiple sequence alignment Journal of Molecular Biology 302 1 205 217 Roberts L 2001 A History of the Human Genome Project Science 291 5507 1195 Archivado desde el original el 6 de octubre de 2008 Sanger Institute 2008 Introduction to the Sanger Institute General Information en ingles Consultado el 10 de septiembre de 2008 European Bioinformatics Institute 2006 About the EMBL EBI en ingles Consultado el 10 de septiembre de 2008 CERN 2008 Welcome to info cern ch The website of the world s first ever web server en ingles Consultado el 10 de septiembre de 2008 Berners Lee T et al 1992 World Wide Web An Information Infrastructure for High Energy Physics Proceedings of the Workshop on Software Engineering Artificial Intelligence and Expert Systems for High Energy and Nuclear Physics Linux Online 1994 2008 The History of Linux en ingles linux org Archivado desde el original el 1 de noviembre de 2008 Consultado el 10 de septiembre de 2008 Celera 2008 Celera Our History en ingles Archivado desde el original el 14 de mayo de 2008 Consultado el 10 de septiembre de 2008 The Arabidopsis Initiative 2000 Analysis of the genome sequence of the flowering plant Arabidopsis thaliana Nature 408 796 815 Adams M D et al 2000 The Genome Sequence of Drosophila melanogaster Science 287 5461 2185 2195 Thompson A junio de 2000 International Human Genome Sequencing Consortium Announces Working Draft of Human Genome en ingles National Human Genome Research Institute NHGRI NIH Archivado desde el original el 25 de junio de 2009 Consultado el 13 de septiembre de 2008 La referencia utiliza el parametro obsoleto mes ayuda Venter J C et al 2001 The Sequence of the Human Genome Science 291 5507 1304 1351 Human Genome Project 2003 International Consortium Completes Human Genome Project Human Genome Project Information en ingles Office of Science DoE Archivado desde el original el 24 de septiembre de 2008 Consultado el 13 de septiembre de 2008 National Human Genome Research Institute NHGRI NIH marzo de 2004 Scientists Compare Rat Genome With Human Mouse en ingles NHGRI Consultado el 13 de septiembre de 2008 La referencia utiliza el parametro obsoleto mes ayuda Chimpanzee Sequencing and Analysis Consortium 2005 Initial sequence of the chimpanzee genome and comparison with the human genome Nature 437 7055 69 87 National Institutes of Health NIH febrero de 2006 Researchers Assemble Second Non Human Primate Genome NIH News en ingles NIH Consultado el 13 de septiembre de 2008 La referencia utiliza el parametro obsoleto mes ayuda ScienceDaily noviembre de 2007 Domestic Cat Genome Sequenced en ingles ScienceDaily Consultado el 13 de septiembre de 2008 La referencia utiliza el parametro obsoleto mes ayuda Enserink M junio de 2008 GENOMICS Read All About It The First Female Genome Or Is It en ingles Science Consultado el 13 de septiembre de 2008 La referencia utiliza el parametro obsoleto mes ayuda Fundacion Genoma Espana 2008 Instituto Nacional de Bioinformatica Que es Fundacion Genoma Espana Archivado desde el original el 7 de diciembre de 2008 Consultado el 13 de septiembre de 2008 Fundacion Genoma Espana 2008 Fundacion Genoma Espana Historia Fundacion Genoma Espana Informacion Corporativa Archivado desde el original el 7 de diciembre de 2008 Consultado el 13 de septiembre de 2008 U S Food and Drug Administration FDA diciembre de 2004 FDA Clears First of Kind Genetic Lab Test FDA News en ingles FDA Archivado desde el original el 17 de septiembre de 2008 Consultado el 13 de septiembre de 2008 La referencia utiliza el parametro obsoleto mes ayuda The International HapMap Consortium 2005 A haplotype map of the human genome Nature 437 1299 1320 UniProt Consortium septiembre de 2008 First draft of the complete human proteome available in UniProtKB Swiss Prot UniProt News en ingles Consultado el 21 de septiembre de 2008 La referencia utiliza el parametro obsoleto mes ayuda Larkin M A et al 2007 Clustal W and Clustal X version 2 0 Bioinformatics 23 21 2947 2948 Li Wen Hsiung 2006 Molecular Evolution Sinauer Associates Inc ISBN 978 0878934805 Pop M 2004 Shotgun Sequence Assembly Advances in Computers 60 193 248 ISSN 0065 2458 Archivado desde el original el 4 de julio de 2008 Center for Bioinformatics and Computational Biology CBCB 2006 Gene Finding Tools y otros recursos en ingles CBCB Archivado desde el original el 18 de diciembre de 2008 Consultado el 14 de septiembre de 2008 The ENCODE Project Consortium 2007 Identification and analysis of functional elements in 1 of the human genome by the ENCODE pilot project Nature 447 NUMERO 799 816 ISSN 0028 0836 Abascal F 2003 Analisis de genomas Metodos para la prediccion y anotacion de la funcion de las proteinas pdf Archivado desde el original el 9 de agosto de 2011 Consultado el 14 de septiembre de 2008 Futuyma 1997 Evolutionary Biology 3ª edicion Sinauer Associates ISBN 0878931899 Texto Douglas J ignorado ayuda Human Genome Project Information 2008 Functional and Comparative Genomics Fact Sheet en ingles U S Doe Office of Science Archivado desde el original el 20 de septiembre de 2008 Consultado el 15 de septiembre de 2008 Levin S A 1997 Mathematical and Computational Challenges in Population Biology and Ecosystems Science Science 275 5298 334 343 ISSN 0036 8075 PhyLoTA Project PhyLoTA project web site Tools to build the tree of life from sequence databases en ingles Univ of Arizona Archivado desde el original el 26 de febrero de 2009 Consultado el 16 de septiembre de 2008 United Nations Environment Programme UNEP et al 1992 The diversity of life Global Biodiversity Strategy Guidelines for action to save study and use Earth s biotic wealth sustainably and equitably en ingles World Resources Institute por la edicion en web Archivado desde el original el 23 de septiembre de 2008 Consultado el 16 de septiembre de 2008 Bisby F A 2000 The Quiet Revolution Biodiversity Informatics and the Internet Science 289 5488 2309 2312 ISSN 0036 8075 Ryder O A et al 2000 DNA Banks for Endangered Animal Species Science 288 5464 275 277 ISSN 0036 8075 Wirta V 2006 Mining the transcriptome methods and applications pdf en ingles Royal Institute of Technology School of Biotechnology Estocolmo Archivado desde el original el 11 de septiembre de 2008 Consultado el 18 de septiembre de 2008 Buhler J 2002 Anatomy of a Comparative Gene Expression Study en ingles Washington University in St Louis Dpt of Computer Science amp Engineering Consultado el 18 de septiembre de 2008 King M W 2008 Control of Gene Expression The Medical Biochemistry Page en ingles Consultado el 19 de septiembre de 2008 Pedersen A G et al 1999 The Biology of Eukaryotic Promoter Prediction a Review Computers amp Chemistry 23 3 4 191 207 Moreau Y 2002 Functional bioinformatics of microarray data from expression to regulation Proceedings of the IEEE 90 11 1722 1743 Poetz O et al 2005 Protein microarrays catching the proteome Mechanisms of Ageing and Development 126 1 161 170 Cristoni S Bernardi L R 2004 Bioinformatics in mass spectrometry data analysis for proteomics studies Expert Review of Proteomics 1 4 469 483 American Association for Cancer Research 2008 Cancer Concepts SNPs en ingles Archivado desde el original el 24 de septiembre de 2008 Consultado el 3 de octubre de 2008 Pinkel D Albertson D G 2005 Array comparative genomic hybridization and its applications in cancer Nature Genetics 37 S11 S17 Zhao X et al 2004 An Integrated View of Copy Number and Allelic Alterations in the Cancer Genome Using Single Nucleotide Polymorphism Arrays Cancer Research 64 3060 3071 Lai W R et al 2005 Comparative analysis of algorithms for identifying amplifications and deletions in array CGH data Bioinformatics 21 19 3763 3770 ISSN 1460 2059 Olshen A B Venkatraman E S 2002 Change point analysis of array based comparative genomic hybridization data American Statistical Association Proceedings of the Joint Statistical Meetings American Statistical Association Alexandria VA 2530 2535 Nirenberg M 2008 The genetic code pdf Nobel Lecture en ingles nobelprize org Consultado el 25 de septiembre de 2008 Hegyi H Gerstein M 1999 The relationship between protein structure and function a comprehensive survey with application to the yeast genome Journal of Molecular Biology 228 1 147 164 Moult J 2005 A decade of CASP progress bottlenecks and prognosis in protein structure prediction Current Opinion in Structural Biology 15 3 285 289 Pellegrini M et al 1999 Assigning protein functions by comparative genome analysis Protein phylogenetic profiles Proceedings of the National Academy of Sciences EE UU 96 8 4285 4288 Marti Renom M A et al 2000 Comparative Protein Structure Modeling of Genes and Genomes Annual Review of Biophysics and Biomolecular Structure 29 291 325 Berg J M et al 2002 7 Exploring Evolution Biochemistry 5ª edicion W H Freeman and Co edicion papel NCBI Bookshelf edicion electronica ISBN 0716730510 Because three dimensional structure is much more closely associated with function than is sequence tertiary structure is more evolutionarily conserved than is primary structure This conservation is apparent in the tertiary structures of the globins which are extremely similar even though the similarity between human hemoglobin a chain and lupine leghemoglobin is not statistically significant 15 6 identity Bowie J U et al 1991 A Method to Identify Protein Sequences That Fold into a Known Three Dimensional Stucture Science 253 5016 164 170 ISSN 0036 8075 Baker D Sali A 2001 Protein Structure Prediction and Structural Genomics Science 294 5540 93 96 ISSN 0036 8075 Hardison R C 2003 Comparative Genomics PLoS Biology 1 2 156 160 Eriksen N 2003 Combinatorial methods in comparative genomics pdf en ingles Royal Institute of Technology Department of Mathematics Estocolmo Consultado el 24 de septiembre de 2008 Kitano H 2002 Systems Biology A Brief Overview Science 295 5560 1662 1664 ISSN 0036 8075 Bedau M A 2003 Artificial life organization adaptation and complexity from the bottom up TRENDS in Cognitive Sciences 7 11 505 512 Jones T R et al 2006 Methods for High Content High Throughput Image Based Cell Screening Proceedings of the Workshop on Microscopic Image Analysis with Applications in Biology held in association with MICCAI06 Medical Image Computing and Computer Assisted Intervention Copenhague 5 octubre 2006 65 72 Archivado desde el original el 4 de septiembre de 2008 Zelditch M et al 2004 http books google com books id ralLerKaNycC urlcapitulo sin titulo ayuda Geometric Morphometrics for Biologists A Primer Academic Press ISBN 0127784608 Meijer G A et al 1997 Origins of Image analysis in clinical pathology Journal of Clinical Pathology 50 5 365 370 Craiem D et al 2008 New Assessment of Endothelium Dependent Flow Mediated Vasodilation to Characterize Endothelium Dysfunction American Journal of Therapeutics 15 4 340 344 Ellis D I Goodacre R 2006 Metabolic fingerprinting in disease diagnosis biomedical applications of infrared and Raman spectroscopy The Analyst 131 875 885 Russell R B et al 2004 A structural perspective on protein protein interactions Current Opinion in Structural Biology 14 313 324 Archivado desde el original el 16 de agosto de 2011 National Center for Biotechnology Information NCBI NCBI BLAST Home en ingles Consultado el 14 de septiembre de 2008 Instituto Europeo de Bioinformatica EBI 2008 EMBL EBI ClustalW2 en ingles Consultado el 14 de septiembre de 2008 a b Open Bioinformatics Foundation About us Official website Open Bioinformatics Foundation Consultado el 10 de mayo de 2011 Open Bioinformatics Foundation BOSC Official website Open Bioinformatics Foundation Consultado el 10 de mayo de 2011 Brohee Sylvain Barriot Roland Moreau Yves 2010 Biological knowledge bases using Wikis combining the flexibility of Wikis with the structure of databases Bioinformatics 26 17 2210 2211 PMID 20591906 doi 10 1093 bioinformatics btq348 Consultado el 5 de mayo de 2015 European Bioinformatics Institute 2006 EBI Web Services en ingles Consultado el 3 de septiembre de 2008 European Bioinformatics Institute 2006 Web Services at the EBI en ingles Consultado el 3 de septiembre de 2008 Nisbet Robert 14 de mayo de 2009 BIOINFORMATICS Handbook of Statistical Analysis and Data Mining Applications John Elder IV Gary Miner Academic Press p 328 ISBN 9780080912035 Consultado el 9 de mayo de 2014 BioMoby usado por entre otros el Instituto Nacional de Bioinformatica Archivado el 28 de junio de 2015 en Wayback Machine espanol es un ejemplo de tales servicios de registro Genera una infraestructura para la distribucion y el descubrimiento de datos biologicos a traves de servicios web Commissioner Office of the Advancing Regulatory Science Sept 24 25 2014 Public Workshop Next Generation Sequencing Standards www fda gov en ingles Consultado el 30 de noviembre de 2017 Simonyan Vahan Goecks Jeremy Mazumder Raja 2017 Biocompute Objects A Step towards Evaluation and Validation of Biomedical Scientific Computations PDA Journal of Pharmaceutical Science and Technology 71 2 136 146 ISSN 1079 7440 PMC 5510742 PMID 27974626 doi 10 5731 pdajpst 2016 006734 Commissioner Office of the Advancing Regulatory Science Community based development of HTS standards for validating data and computation and encouraging interoperability www fda gov en ingles Consultado el 30 de noviembre de 2017 https www biorxiv org Plantilla Cite biorxiv BioCompute Object BCO project is a collaborative and community driven framework to standardize HTS computational data 1 BCO Specification Document user manual for understanding and creating B biocompute objects 3 de septiembre de 2017 consultado el 30 de noviembre de 2017 Bibliografia Editar Isea R 2015 The present day meaning of the word bioinformatics en ingles Consultado el 21 de septiembre de 2015 Ilzins O Isea R and Hoebeke J 2015 Can Bioinformatics Be Considered as an Experimental Biological Science en ingles Consultado el 21 de septiembre de 2015 Attwood T K y Parry Smith D J 2002 Introduccion a la Bioinformatica Prentice Hall ISBN 84 205 3551 6 fechaacceso requiere url ayuda Aluru Srinivas ed 2006 Handbook of Computational Molecular Biology en ingles Computer and Information Science Series Chapman amp Hall Crc ISBN 1 58488 406 1 fechaacceso requiere url ayuda Baldi P and Brunak S 2001 Bioinformatics The Machine Learning Approach en ingles 2nd edition edicion MIT Press ISBN 0 262 02506 X fechaacceso requiere url ayuda Barnes M R and Gray I C eds 2003 Bioinformatics for Geneticists en ingles first edition edicion Wiley ISBN 0 470 84394 2 fechaacceso requiere url ayuda Baxevanis A D and Ouellette B F F eds 2005 Bioinformatics A Practical Guide to the Analysis of Genes and Proteins en ingles third edition edicion Wiley ISBN 0 471 47878 4 fechaacceso requiere url ayuda Baxevanis A D Petsko G A Stein L D and Stormo G D eds 2007 Current Protocols in Bioinformatics en ingles Wiley ISBN 0 471 25093 7 fechaacceso requiere url ayuda Cristianini N and Hahn M 2006 Introduction to Computational Genomics en ingles Cambridge University Press ISBN 978 0 521 67191 0 y 0 521 67191 4 isbn incorrecto ayuda Consultado el 13 de junio de 2010 Durbin R S Eddy A Krogh and G Mitchison 1998 Biological sequence analysis en ingles Cambridge University Press ISBN 0 521 62971 3 fechaacceso requiere url ayuda Michael S Waterman 1995 Introduction to Computational Biology Sequences Maps and Genomes en ingles CRC Press ISBN 0 412 99391 0 fechaacceso requiere url ayuda Mount David W 2004 Bioinformatics Sequence and Genome Analysis en ingles 2ª ed edicion Spring Harbor Press ISBN 0 87969 712 1 fechaacceso requiere url ayuda Pevzner Pavel A 2000 Computational Molecular Biology An Algorithmic Approach en ingles The MIT Press ISBN 0 262 16197 4 Consultado el 13 de junio de 2010 Bibliografia complementaria Editar Claverie J M and C Notredame 2003 Bioinformatics for Dummies en ingles Wiley ISBN 0 7645 1696 5 Consultado el 13 de junio de 2010 Gibas Cynthia and Per Jambeck 2001 Developing Bioinformatics Computer Skills en ingles O Reilly ISBN 1 56592 664 1 Consultado el 13 de junio de 2010 Keedwell E 2005 Intelligent Bioinformatics The Application of Artificial Intelligence Techniques to Bioinformatics Problems en ingles Wiley ISBN 0 470 02175 6 fechaacceso requiere url ayuda Kohane et al 2002 Microarrays for an Integrative Genomics en ingles The MIT Press ISBN 0 262 11271 X fechaacceso requiere url ayuda Lund O et al 2005 Immunological Bioinformatics en ingles The MIT Press ISBN 0 262 12280 4 fechaacceso requiere url ayuda Pachter Lior and Sturmfels Bernd 2005 Algebraic Statistics for Computational Biology en ingles Cambridge University Press ISBN 0 521 85700 7 fechaacceso requiere url ayuda Tisdall James 2001 Beginning Perl for Bioinformatics en ingles O Reilly amp Assoc ISBN 0 596 00080 4 Consultado el 13 de junio de 2010 Bassi Sebastian 2009 Python for Bioinformatics en ingles CRC Press ISBN 978 1 58488 929 8 fechaacceso requiere url ayuda Bibliografia en linea Editar Achuthsankar S Nair Computational Biology amp Bioinformatics A gentle Overview Communications of Computer Society of India enero de 2007 Edicion especial de Philosophical Transactions B sobre bioinformatica accesible libremente Catalyzing Inquiry at the Interface of Computing and Biology 2005 CSTB report Calculating the Secrets of Life Contributions of the Mathematical Sciences and computing to Molecular Biology 1995 MIT OCW Editar Foundations of Computational and Systems Biology MIT Course Computational Biology Genomes Networks Evolution MIT Course Algorithms for Computational Biology MIT CourseVease tambien Editar Portal Biotecnologia Contenido relacionado con Biotecnologia Portal Informatica Contenido relacionado con Informatica Portal Biologia Contenido relacionado con Biologia Algoritmo Smith Waterman Biologia matematica Biopython BLAST Clustal Glosario relacionado con genoma Homologia de secuencias Informatica en salud Logo de secuencias Marco abierto de lectura Matriz de sustitucion Medicina genomica Modelo oculto de Markov Montaje de secuencias Proyecto Genoma Humano Huella filogenetica Scalable Vector Graphics Secuenciacion del ADNEnlaces externos Editar Wikiversidad alberga proyectos de aprendizaje sobre Bioinformatica Proyectos de Software Editar Bioinformatics software resources Gilbert D Briefings in Bioinformatics 2004 5 3 300 304 Recursos software para bioinformatica BioPerl BioPHP BioRuby BioPython BioJava BioLisp BioClipse BioconductorOrganizaciones Editar Asociacion Argentina de Bioinformatica y Biologia Computacional EMBnet European Molecular Biology Network Instituto Nacional de Bioinformatica Instituto Europeo de Bioinformatica National Center for Biotechnology Information Fundacion Bioinformatica Abierta organizacion non profit para Bio projects Bioperl etc Folding at home Proyecto de computacion distribuida para la comprension del plegado de las proteinas Bioinformatics orgEmpresas Editar Biotechvana CeleromicsPublicaciones especializadas Editar Bioinformatics Algorithms in Molecular Biology BMC Bioinformatics Briefings in Bioinformatics Evolutionary Bioinformatics Genome Research The International Journal of Biostatistics Journal of Computational Biology Cancer Informatics Archivado el 18 de abril de 2016 en Wayback Machine Journal of the Royal Society Interface Molecular Systems Biology PLoS Computational Biology Statistical Applications in Genetic and Molecular Biology Transactions on Computational Biology and Bioinformatics IEEE ACM International Journal of Bioinformatics Research and Applications EMBnet News en EMBnet org EMBnet Journal en EMBnet orgOtros recursos en espanol Editar Red Iberoamericana de Bioinformatica Universidad de los Andes Bioinformaticos Noticias sobre bioinformatica para el area latinoamericana Curso de programacion en Perl para bioinformaticos en linea Plataforma de Bioinformatica de la UABOtros Editar Human Genome Project Information Bioinformatics Proyecto Genoma Humano y Bioinformatica resenas ahora historicas de la bioinformatica en el desarrollo del Proyecto Genoma Humano Datos Q128570 Multimedia BioinformaticsObtenido de https es wikipedia org w index php title Bioinformatica amp oldid 135093097, wikipedia, wiki, leyendo, leer, libro, biblioteca,

español

, española, descargar, gratis, descargar gratis, mp3, video, mp4, 3gp, jpg, jpeg, gif, png, imagen, música, canción, película, libro, juego, juegos