fbpx
Wikipedia

Teoría de la secuenciación de ADN

La teoría de la secuenciación de ADN es el amplio cuerpo de trabajo que intenta sentar las bases analíticas para determinar el orden de nucleótidos específicos en una secuencia de ADN, también conocida como secuenciación de ADN. Los aspectos prácticos giran en torno al diseño y la optimización de proyectos de secuenciación (conocidos como "genómica estratégica"), la predicción del rendimiento del proyecto, la resolución de problemas de los resultados experimentales, la caracterización de factores como el sesgo de secuencia y los efectos de los algoritmos de procesamiento de software y la comparación de varios métodos de secuenciación entre sí. En este sentido, podría considerarse una rama de la ingeniería de sistemas o la investigación de operaciones. El archivo permanente de trabajo es principalmente matemático, aunque a menudo también se realizan cálculos numéricos para problemas particulares. La teoría de la secuenciación del ADN aborda los procesos físicos relacionados con la secuenciación del ADN y no debe confundirse con las teorías del análisis de secuencias de ADN resultantes, por ejemplo, alineación de secuencias. Las publicaciones[1]​ veces no hacen una distinción cuidadosa, pero estas últimas se ocupan principalmente de cuestiones algorítmicas. La teoría de la secuenciación se basa en elementos de las matemáticas, la biología y la ingeniería de sistemas, por lo que es altamente interdisciplinaria. El tema puede estudiarse en el contexto de la biología computacional.

Teoría y estrategias de secuenciación

Secuenciación como problema de cobertura

Todos los métodos principales de secuenciación de ADN se basan en la lectura de pequeños fragmentos de ADN y, posteriormente, en la reconstrucción de estos datos para inferir el ADN objetivo original, ya sea mediante ensamblaje o alineación con una referencia. La abstracción común a estos métodos es la de un problema matemático de cobertura.[2]​ Por ejemplo, uno puede imaginar un segmento de línea que represente el objetivo y un proceso posterior en el que se "suelten" segmentos más pequeños en ubicaciones aleatorias del objetivo. El objetivo se considera "secuenciado" cuando se acumula una cobertura adecuada (por ejemplo, cuando no quedan espacios).

Las propiedades abstractas del recubrimiento han sido estudiadas por matemáticos durante más de un siglo. [3]​ Sin embargo, la aplicación directa de estos resultados generalmente no ha sido posible. Las soluciones matemáticas de forma cerrada, especialmente para distribuciones de probabilidad, a menudo no se pueden evaluar fácilmente. Es decir, implican cantidades excesivamente grandes de tiempo de computadora para parámetros característicos de la secuenciación del ADN. La configuración de Stevens es un ejemplo. [4]​ Los resultados obtenidos desde la perspectiva de las matemáticas puras tampoco tienen en cuenta factores que son realmente importantes en la secuenciación, por ejemplo, superposición detectable en fragmentos de secuenciación, doble hebra, efectos de borde y multiplicidad de objetivos. En consecuencia, el desarrollo de la teoría de la secuenciación ha avanzado más de acuerdo con la filosofía de las matemáticas aplicadas. En particular, se ha centrado en problemas y hace un uso conveniente de aproximaciones, simulaciones, etc.

Usos tempranos derivados de la teoría de probabilidad elemental

El resultado más temprano puede obtenerse directamente de la teoría de probabilidad elemental. Supongamos que modelamos el proceso anterior tomando  y  como la longitud del fragmento y la longitud objetivo, respectivamente. La probabilidad de "cubrir" cualquier ubicación dada en el objetivo con un fragmento en particular es entonces . (Esto supone , que es válido a menudo, pero no para todos los casos del mundo real.) La probabilidad de que un solo fragmento no cubra una ubicación determinada en el objetivo es, por tanto,  y  para  fragmentos. Por tanto, la probabilidad de cubrir una ubicación determinada del objetivo con al menos un fragmento es

 

Esta ecuación se utilizó por primera vez para caracterizar bibliotecas de plásmidos [5]​ pero puede aparecer en una forma modificada. Para la mayoría de proyectos  , de modo que, en un buen grado de aproximación

 

donde   se llama redundancia. Tenga en cuenta la importancia de la redundancia como representación del número promedio de veces que una posición se cubre con fragmentos. Tenga en cuenta también que al considerar el proceso de cobertura en todas las posiciones en el objetivo, esta probabilidad es idéntica al valor esperado de la variable aleatoria  , la fracción de la cobertura objetivo. El resultado final,

 

sigue siendo de uso generalizado como un estimador de "reverso del sobre" y predice que la cobertura para todos los proyectos evoluciona a lo largo de una curva universal que es una función solo de la redundancia.

Teoría de Lander-Waterman

En 1988, Eric Lander y Michael Waterman [6]​ examinaron el problema de la cobertura desde el punto de vista de las lagunas. Aunque se centraron en el problema del mapeo, la abstracción de la secuenciación es muy parecida. Proporcionaron una serie de resultados útiles que se adoptaron como teoría estándar desde los primeros días de la secuenciación del genoma "a gran escala".enoma Humano y continúa desempeñando un papel importante en la secuenciación del ADN.

En última instancia, el objetivo principal de un proyecto de secuenciación es cerrar todas las brechas, por lo que la "perspectiva de la brecha" fue una base lógica para desarrollar un modelo de secuenciación. Uno de los resultados de este modelo más utilizados es el número esperado de cóntigos, dado el número de fragmentos secuenciados. Si uno descuida la cantidad de secuencia que es esencialmente "desperdiciada" al tener que detectar superposiciones, su teoría cede

 

En 1995, Roach [7]​ publicó mejoras a esta teoría, lo que le permitió aplicarla a proyectos de secuenciación en los que el objetivo era secuenciar completamente un genoma objetivo. Michael Wendl y Bob Waterston [8]​ confirmaron, basándose en el método de Stevens,[4]​ que ambos modelos produjeron resultados similares cuando el número de contigs era sustancial, como en proyectos de secuenciación o mapeo de baja cobertura. A medida que los proyectos de secuenciación se intensificaron en la década de 1990 y los proyectos se acercaban a su finalización, las aproximaciones de baja cobertura se volvieron inadecuadas y se necesitaba el modelo exacto de Roach. Sin embargo, a medida que disminuyó el costo de la secuenciación, los parámetros de los proyectos de secuenciación se volvieron más fáciles de probar directamente de manera empírica y el interés y la financiación de la genómica estratégica disminuyeron.

Las ideas básicas de la teoría de Lander-Waterman llevaron a una serie de resultados adicionales para variaciones particulares en las técnicas de mapeo.[9][10][11]​ Sin embargo, los avances tecnológicos han hecho que las teorías cartográficas sean en gran medida obsoletas, excepto en organismos distintos de los organismos modelo altamente estudiados (por ejemplo, levaduras, moscas, ratones y humanos).

Estrategia de estacionamiento

La estrategia de estacionamiento para secuenciar se asemeja al proceso de estacionar autos a lo largo de una acera. Cada coche es un clon secuenciado y la acera es el objetivo genómico.[12]​ Cada clon secuenciado se criba para asegurar que los clones secuenciados posteriormente no se solapen con ningún clon secuenciado previamente. Ningún esfuerzo de secuenciación es redundante en esta estrategia. Sin embargo, al igual que los espacios entre autos estacionados, los espacios no secuenciados menores que la longitud de un clon se acumulan entre los clones secuenciados. Puede haber un costo considerable para cerrar esas brechas.

Secuenciación final por pares

En 1995,[13]​ se propuso y demostró mediante simulaciones una generalización de un conjunto de estrategias exploradas anteriormente.[14]​ Este método de secuenciación del genoma completo se hizo inmensamente popular. Hoy en día, la mayoría de los proyectos de secuenciación emplean esta estrategia, a menudo denominada secuenciación de extremos emparejados.

Avances posteriores al Proyecto Genoma Humano

Los procesos físicos y los protocolos de secuenciación del ADN han seguido evolucionando, impulsados en gran medida por los avances en los métodos bioquímicos, la instrumentación y las técnicas de automatización. En la actualidad, existe una amplia gama de problemas en los que la secuenciación de ADN se ha abierto camino, incluida la metagenómica y la secuenciación médica (cáncer). Hay factores importantes en estos escenarios que la teoría clásica no tiene en cuenta. El trabajo reciente ha comenzado a centrarse en resolver los efectos de algunos de estos problemas. El nivel de matemáticas se vuelve proporcionalmente más sofisticado.

Varios artefactos de secuenciación de insertos grandes

Los biólogos han desarrollado métodos para filtrar regiones de genomas altamente repetitivas y esencialmente no secuenciables. Estos procedimientos son importantes para organismos cuyos genomas consisten principalmente en dicho ADN, por ejemplo, maíz. Producen multitud de pequeñas islas de productos de ADN secuenciables. Wendl y Barbazuk[15]​ propusieron una extensión de la teoría de Lander-Waterman para tener en cuenta las "brechas" en el objetivo debido al filtrado y el llamado "efecto de borde". Este último es un sesgo de muestreo específico de la posición, por ejemplo, la posición base del terminal tiene solo una   posibilidad de ser cubierto, a diferencia de   para posiciones interiores. Para  , la teoría clásica de Lander-Waterman todavía ofrece buenas predicciones, pero la dinámica cambia para obtener redundancias más altas.

Los métodos de secuenciación modernos suelen secuenciar ambos extremos de un fragmento más grande, lo que proporciona información de enlace para el ensamblaje de novo y mejores probabilidades de alineación con la secuencia de referencia. Los investigadores generalmente creen que las longitudes de datos más largas (longitudes de lectura) mejoran el rendimiento de los objetivos de ADN muy grandes, una idea coherente con las predicciones de los modelos de distribución.[16]​ Sin embargo, Wendl[17]​ mostró que los fragmentos más pequeños proporcionan una mejor cobertura en objetivos lineales pequeños porque reducen el efecto de borde en moléculas lineales. Estos hallazgos tienen implicaciones para la secuenciación de los productos de los procedimientos de filtrado de ADN. El emparejamiento de lecturas y el tamaño de los fragmentos tienen evidentemente una influencia insignificante para los objetivos de clase grandes de genoma completo.

Secuenciación individual y poblacional

La secuenciación está emergiendo como una herramienta importante en medicina, por ejemplo en la investigación del cáncer. Aquí, la capacidad de detectar mutaciones heterocigotas es importante y esto solo se puede hacer si se obtiene la secuencia del genoma diploide. En los esfuerzos pioneros para secuenciar individuos, Levy et al.[18]​ y Wheeler et al.,[19]​ quien secuenció a Craig Venter y Jim Watson, respectivamente, describió modelos para cubrir ambos alelos en un genoma. Wendl y Wilson[20]​ siguieron con una teoría más general que permitía un número arbitrario de cubiertas de cada alelo y una ploidía arbitraria. Estos resultados apuntan a la conclusión general de que la cantidad de datos necesarios para tales proyectos es significativamente mayor que la de los proyectos haploides tradicionales. Generalmente, ahora es estándar una redundancia de al menos 30 veces, es decir, cada nucleótido abarcado por un promedio de 30 lecturas de secuencia.[21]​ Sin embargo, los requisitos pueden ser incluso mayores, dependiendo de los tipos de eventos genómicos que se encuentren. Por ejemplo, en el llamado "método de pares de lectura discordantes", se pueden inferir inserciones de ADN si la distancia entre pares de lectura es mayor de lo esperado. Los cálculos muestran que se necesita una redundancia de alrededor de 50 veces para evitar errores de falso positivo en un umbral del 1%.[22]

El advenimiento de la secuenciación de próxima generación también ha hecho factible la secuenciación de poblaciones a gran escala, por ejemplo, el Proyecto 1000 Genomas para caracterizar la variación en grupos de población humana. Si bien la variación común se captura fácilmente, la variación rara plantea un desafío de diseño: muy pocas muestras con una redundancia de secuencia significativa corre el riesgo de no tener una variante en el grupo de muestra, pero las muestras grandes con una redundancia leve no capturan una variante en el conjunto de lectura que realmente está en el grupo de muestra. Wendl y Wilson[23]​ informan de un conjunto simple de reglas de optimización que maximizan la probabilidad de descubrimiento para un conjunto dado de parámetros. Por ejemplo, para observar un alelo raro al menos dos veces (para eliminar la posibilidad es única de un individuo), se debe usar una redundancia de un poco menos de 4 veces, independientemente del tamaño de la muestra.

Secuenciación metagenómica

Los instrumentos de próxima generación ahora también permiten la secuenciación de comunidades metagenómicas no cultivadas enteras. El escenario de secuenciación es más complicado aquí y hay varias formas de enmarcar las teorías de diseño para un proyecto dado. Por ejemplo, Stanhope[24]​ desarrolló un modelo probabilístico para la cantidad de secuencia necesaria para obtener al menos un contig de un tamaño dado de cada organismo nuevo de la comunidad, mientras que Wendl et al. informó un análisis para el tamaño medio del contig o la probabilidad de recuperar completamente un organismo nuevo para una rareza determinada dentro de la comunidad.[25]​ Por el contrario, Hooper et al. proponen un modelo semi-empírico basado en la distribución gamma.[26]

Limitaciones

Las teorías de secuenciación del ADN a menudo invocan la suposición de que ciertas variables aleatorias en un modelo son independientes y están distribuidas de manera idéntica. Por ejemplo, en la teoría de Lander-Waterman, se supone que un fragmento secuenciado tiene la misma probabilidad de cubrir cada región de un genoma y se supone que todos los fragmentos son independientes entre sí. En realidad, los proyectos de secuenciación están sujetos a varios tipos de sesgos, incluidas las diferencias de qué tan bien se pueden clonar las regiones, las anomalías de secuenciación, los sesgos en la secuencia objetivo (que no es aleatoria) y los errores y sesgos que dependen del software. En general, la teoría concordará bien con la observación hasta el punto en que se hayan generado suficientes datos para exponer sesgos latentes. [20]​ Los tipos de sesgos relacionados con la secuencia objetivo subyacente son particularmente difíciles de modelar, ya que la secuencia en sí puede no ser conocida a priori. Esto presenta un tipo de problema Catch-22 (lógico).

Véase también

Referencias

  1. Waterman, Michael S. (1995). Introduction to Computational Biology. Boca Raton: Chapman and Hall/CRC. ISBN 978-0-412-99391-6. 
  2. Hall, P. (1988). Introduction to the Theory of Coverage Processes. New York: Wiley. ISBN 978-0-471-85702-0. 
  3. Solomon, H. (1978). Geometric Probability. Philadelphia: Society for Industrial and Applied Mathematics. ISBN 978-0-898-71025-0. 
  4. Stevens WL (1939). «Solution to a Geometrical Problem in Probability». Annals of Eugenics 9 (4): 315-320. doi:10.1111/j.1469-1809.1939.tb02216.x. 
  5. «A colony bank containing synthetic Col-El hybrid plasmids representative of the entire E. coli genome». Cell 9 (1): 91-99. 1976. PMID 788919. doi:10.1016/0092-8674(76)90055-6. 
  6. Lander ES, Waterman MS (1988). «Genomic mapping by fingerprinting random clones: a mathematical analysis». Genomics 2 (3): 231-239. PMID 3294162. doi:10.1016/0888-7543(88)90007-9. 
  7. Roach JC (1995). «Random subcloning». Genome Research 5 (5): 464-473. PMID 8808467. doi:10.1101/gr.5.5.464. 
  8. Wendl MC, Waterston RH (2002). «Generalized gap model for bacterial artificial chromosome clone fingerprint mapping and shotgun sequencing». Genome Research 12 (12): 1943-1949. PMC 187573. PMID 12466299. doi:10.1101/gr.655102. 
  9. Arratia R (1991). «Genomic mapping by anchoring random clones: a mathematical analysis». Genomics 11 (4): 806-827. PMID 1783390. doi:10.1016/0888-7543(91)90004-X. 
  10. Port E (1995). «Genomic mapping by end-characterized random clones: a mathematical analysis». Genomics 26 (1): 84-100. PMID 7782090. doi:10.1016/0888-7543(95)80086-2. 
  11. «Genome mapping by nonrandom anchoring: a discrete theoretical analysis». Proceedings of the National Academy of Sciences 90 (2): 600-604. 1993. Bibcode:1993PNAS...90..600Z. PMC 45711. PMID 8421694. doi:10.1073/pnas.90.2.600. 
  12. Roach JC (2000). «Parking strategies for genome sequencing». Genome Research 10 (7): 1020-1030. PMC 310895. PMID 10899151. doi:10.1101/gr.10.7.1020. 
  13. Roach JC, Boysen C, Wang K, Hood L (1995). «Pairwise end sequencing: a unified approach to genomic mapping and sequencing». Genomics 26 (2): 345-353. PMID 7601461. doi:10.1016/0888-7543(95)80219-C. 
  14. Edwards, A.; Caskey, T. (1991). Closure strategies for random DNA sequencing 3. A Companion to Methods in Enzymology. pp. 41-47. 
  15. Wendl MC, Barbazuk WB (2005). «Extension of Lander–Waterman Theory for sequencing filtered DNA libraries». BMC Bioinformatics 6: article 245. PMC 1280921. PMID 16216129. doi:10.1186/1471-2105-6-245. 
  16. Wendl MC (2006). «Occupancy modeling of coverage distribution for whole genome shotgun DNA sequencing». Bulletin of Mathematical Biology 68 (1): 179-196. PMID 16794926. doi:10.1007/s11538-005-9021-4. 
  17. Wendl MC (2006). «A general coverage theory for shotgun DNA sequencing». Journal of Computational Biology 13 (6): 1177-1196. PMID 16901236. doi:10.1089/cmb.2006.13.1177. 
  18. Levy S (2007). «The diploid genome sequence of an individual human». PLOS Biology 5 (10): article e254. PMC 1964779. PMID 17803354. doi:10.1371/journal.pbio.0050254. 
  19. Wheeler DA (2008). «The complete genome of an individual by massively parallel DNA sequencing». Nature 452 (7189): 872-876. Bibcode:2008Natur.452..872W. PMID 18421352. doi:10.1038/nature06884. 
  20. Wendl MC, Wilson RK (2008). «Aspects of coverage in medical DNA sequencing». BMC Bioinformatics 9: article 239. PMC 2430974. PMID 18485222. doi:10.1186/1471-2105-9-239. 
  21. Ley TJ (2008). «DNA sequencing of a cytogenetically normal acute myeloid leukaemia genome». Nature 456 (7218): 66-72. Bibcode:2008Natur.456...66L. PMC 2603574. PMID 18987736. doi:10.1038/nature07485. 
  22. Wendl MC, Wilson RK (2009). «Statistical aspects of discerning indel-type structural variation via DNA sequence alignment». BMC Genomics 10: article 359. PMC 2748092. PMID 19656394. doi:10.1186/1471-2164-10-359. 
  23. Wendl MC, Wilson RK (2009). «The theory of discovering rare variants via DNA sequencing». BMC Genomics 10: article 485. PMC 2778663. PMID 19843339. doi:10.1186/1471-2164-10-485. 
  24. Stanhope SA (2010). «Occupancy modeling maximum contig size probabilities and designing metagenomics experiments». PLOS ONE 5 (7): article e11652. Bibcode:2010PLoSO...511652S. PMC 2912229. PMID 20686599. doi:10.1371/journal.pone.0011652. 
  25. Wendl MC (2012). «Coverage theories for metagenomic DNA sequencing based on a generalization of Stevens' theorem». Journal of Mathematical Biology 67 (5): 1141-1161. PMC 3795925. PMID 22965653. doi:10.1007/s00285-012-0586-x. 
  26. Hooper SD (2010). «Estimating DNA coverage and abundance in metagenomes using a gamma approximation». Bioinformatics 26 (3): 295-301. PMC 2815663. PMID 20008478. doi:10.1093/bioinformatics/btp687. 
  •   Datos: Q5205771

teoría, secuenciación, teoría, secuenciación, amplio, cuerpo, trabajo, intenta, sentar, bases, analíticas, para, determinar, orden, nucleótidos, específicos, secuencia, también, conocida, como, secuenciación, aspectos, prácticos, giran, torno, diseño, optimiza. La teoria de la secuenciacion de ADN es el amplio cuerpo de trabajo que intenta sentar las bases analiticas para determinar el orden de nucleotidos especificos en una secuencia de ADN tambien conocida como secuenciacion de ADN Los aspectos practicos giran en torno al diseno y la optimizacion de proyectos de secuenciacion conocidos como genomica estrategica la prediccion del rendimiento del proyecto la resolucion de problemas de los resultados experimentales la caracterizacion de factores como el sesgo de secuencia y los efectos de los algoritmos de procesamiento de software y la comparacion de varios metodos de secuenciacion entre si En este sentido podria considerarse una rama de la ingenieria de sistemas o la investigacion de operaciones El archivo permanente de trabajo es principalmente matematico aunque a menudo tambien se realizan calculos numericos para problemas particulares La teoria de la secuenciacion del ADN aborda los procesos fisicos relacionados con la secuenciacion del ADN y no debe confundirse con las teorias del analisis de secuencias de ADN resultantes por ejemplo alineacion de secuencias Las publicaciones 1 veces no hacen una distincion cuidadosa pero estas ultimas se ocupan principalmente de cuestiones algoritmicas La teoria de la secuenciacion se basa en elementos de las matematicas la biologia y la ingenieria de sistemas por lo que es altamente interdisciplinaria El tema puede estudiarse en el contexto de la biologia computacional Indice 1 Teoria y estrategias de secuenciacion 1 1 Secuenciacion como problema de cobertura 1 2 Usos tempranos derivados de la teoria de probabilidad elemental 1 3 Teoria de Lander Waterman 1 4 Estrategia de estacionamiento 1 5 Secuenciacion final por pares 2 Avances posteriores al Proyecto Genoma Humano 2 1 Varios artefactos de secuenciacion de insertos grandes 2 2 Secuenciacion individual y poblacional 2 3 Secuenciacion metagenomica 3 Limitaciones 4 Vease tambien 5 ReferenciasTeoria y estrategias de secuenciacion EditarSecuenciacion como problema de cobertura Editar Todos los metodos principales de secuenciacion de ADN se basan en la lectura de pequenos fragmentos de ADN y posteriormente en la reconstruccion de estos datos para inferir el ADN objetivo original ya sea mediante ensamblaje o alineacion con una referencia La abstraccion comun a estos metodos es la de un problema matematico de cobertura 2 Por ejemplo uno puede imaginar un segmento de linea que represente el objetivo y un proceso posterior en el que se suelten segmentos mas pequenos en ubicaciones aleatorias del objetivo El objetivo se considera secuenciado cuando se acumula una cobertura adecuada por ejemplo cuando no quedan espacios Las propiedades abstractas del recubrimiento han sido estudiadas por matematicos durante mas de un siglo 3 Sin embargo la aplicacion directa de estos resultados generalmente no ha sido posible Las soluciones matematicas de forma cerrada especialmente para distribuciones de probabilidad a menudo no se pueden evaluar facilmente Es decir implican cantidades excesivamente grandes de tiempo de computadora para parametros caracteristicos de la secuenciacion del ADN La configuracion de Stevens es un ejemplo 4 Los resultados obtenidos desde la perspectiva de las matematicas puras tampoco tienen en cuenta factores que son realmente importantes en la secuenciacion por ejemplo superposicion detectable en fragmentos de secuenciacion doble hebra efectos de borde y multiplicidad de objetivos En consecuencia el desarrollo de la teoria de la secuenciacion ha avanzado mas de acuerdo con la filosofia de las matematicas aplicadas En particular se ha centrado en problemas y hace un uso conveniente de aproximaciones simulaciones etc Usos tempranos derivados de la teoria de probabilidad elemental Editar El resultado mas temprano puede obtenerse directamente de la teoria de probabilidad elemental Supongamos que modelamos el proceso anterior tomandoL displaystyle L yG displaystyle G como la longitud del fragmento y la longitud objetivo respectivamente La probabilidad de cubrir cualquier ubicacion dada en el objetivo con un fragmento en particular es entoncesL G displaystyle L G Esto suponeL G displaystyle L ll G que es valido a menudo pero no para todos los casos del mundo real La probabilidad de que un solo fragmento no cubra una ubicacion determinada en el objetivo es por tanto 1 L G displaystyle 1 L G y 1 L G N displaystyle left 1 L G right N paraN displaystyle N fragmentos Por tanto la probabilidad de cubrir una ubicacion determinada del objetivo con al menos un fragmento es P 1 1 L G N displaystyle P 1 left 1 frac L G right N Esta ecuacion se utilizo por primera vez para caracterizar bibliotecas de plasmidos 5 pero puede aparecer en una forma modificada Para la mayoria de proyectos N 1 displaystyle N gg 1 de modo que en un buen grado de aproximacion 1 L G N exp N L G displaystyle left 1 frac L G right N sim exp NL G donde R N L G displaystyle R NL G se llama redundancia Tenga en cuenta la importancia de la redundancia como representacion del numero promedio de veces que una posicion se cubre con fragmentos Tenga en cuenta tambien que al considerar el proceso de cobertura en todas las posiciones en el objetivo esta probabilidad es identica al valor esperado de la variable aleatoria C displaystyle C la fraccion de la cobertura objetivo El resultado final E C 1 e R displaystyle E langle C rangle 1 e R sigue siendo de uso generalizado como un estimador de reverso del sobre y predice que la cobertura para todos los proyectos evoluciona a lo largo de una curva universal que es una funcion solo de la redundancia Teoria de Lander Waterman Editar En 1988 Eric Lander y Michael Waterman 6 examinaron el problema de la cobertura desde el punto de vista de las lagunas Aunque se centraron en el problema del mapeo la abstraccion de la secuenciacion es muy parecida Proporcionaron una serie de resultados utiles que se adoptaron como teoria estandar desde los primeros dias de la secuenciacion del genoma a gran escala enoma Humano y continua desempenando un papel importante en la secuenciacion del ADN En ultima instancia el objetivo principal de un proyecto de secuenciacion es cerrar todas las brechas por lo que la perspectiva de la brecha fue una base logica para desarrollar un modelo de secuenciacion Uno de los resultados de este modelo mas utilizados es el numero esperado de contigos dado el numero de fragmentos secuenciados Si uno descuida la cantidad de secuencia que es esencialmente desperdiciada al tener que detectar superposiciones su teoria cede E c o n t i g s N e R displaystyle E langle contigs rangle Ne R En 1995 Roach 7 publico mejoras a esta teoria lo que le permitio aplicarla a proyectos de secuenciacion en los que el objetivo era secuenciar completamente un genoma objetivo Michael Wendl y Bob Waterston 8 confirmaron basandose en el metodo de Stevens 4 que ambos modelos produjeron resultados similares cuando el numero de contigs era sustancial como en proyectos de secuenciacion o mapeo de baja cobertura A medida que los proyectos de secuenciacion se intensificaron en la decada de 1990 y los proyectos se acercaban a su finalizacion las aproximaciones de baja cobertura se volvieron inadecuadas y se necesitaba el modelo exacto de Roach Sin embargo a medida que disminuyo el costo de la secuenciacion los parametros de los proyectos de secuenciacion se volvieron mas faciles de probar directamente de manera empirica y el interes y la financiacion de la genomica estrategica disminuyeron Las ideas basicas de la teoria de Lander Waterman llevaron a una serie de resultados adicionales para variaciones particulares en las tecnicas de mapeo 9 10 11 Sin embargo los avances tecnologicos han hecho que las teorias cartograficas sean en gran medida obsoletas excepto en organismos distintos de los organismos modelo altamente estudiados por ejemplo levaduras moscas ratones y humanos Estrategia de estacionamiento Editar La estrategia de estacionamiento para secuenciar se asemeja al proceso de estacionar autos a lo largo de una acera Cada coche es un clon secuenciado y la acera es el objetivo genomico 12 Cada clon secuenciado se criba para asegurar que los clones secuenciados posteriormente no se solapen con ningun clon secuenciado previamente Ningun esfuerzo de secuenciacion es redundante en esta estrategia Sin embargo al igual que los espacios entre autos estacionados los espacios no secuenciados menores que la longitud de un clon se acumulan entre los clones secuenciados Puede haber un costo considerable para cerrar esas brechas Secuenciacion final por pares Editar En 1995 13 se propuso y demostro mediante simulaciones una generalizacion de un conjunto de estrategias exploradas anteriormente 14 Este metodo de secuenciacion del genoma completo se hizo inmensamente popular Hoy en dia la mayoria de los proyectos de secuenciacion emplean esta estrategia a menudo denominada secuenciacion de extremos emparejados Avances posteriores al Proyecto Genoma Humano EditarLos procesos fisicos y los protocolos de secuenciacion del ADN han seguido evolucionando impulsados en gran medida por los avances en los metodos bioquimicos la instrumentacion y las tecnicas de automatizacion En la actualidad existe una amplia gama de problemas en los que la secuenciacion de ADN se ha abierto camino incluida la metagenomica y la secuenciacion medica cancer Hay factores importantes en estos escenarios que la teoria clasica no tiene en cuenta El trabajo reciente ha comenzado a centrarse en resolver los efectos de algunos de estos problemas El nivel de matematicas se vuelve proporcionalmente mas sofisticado Varios artefactos de secuenciacion de insertos grandes Editar Los biologos han desarrollado metodos para filtrar regiones de genomas altamente repetitivas y esencialmente no secuenciables Estos procedimientos son importantes para organismos cuyos genomas consisten principalmente en dicho ADN por ejemplo maiz Producen multitud de pequenas islas de productos de ADN secuenciables Wendl y Barbazuk 15 propusieron una extension de la teoria de Lander Waterman para tener en cuenta las brechas en el objetivo debido al filtrado y el llamado efecto de borde Este ultimo es un sesgo de muestreo especifico de la posicion por ejemplo la posicion base del terminal tiene solo una 1 G displaystyle 1 G posibilidad de ser cubierto a diferencia de L G displaystyle L G para posiciones interiores Para R lt 1 displaystyle R lt 1 la teoria clasica de Lander Waterman todavia ofrece buenas predicciones pero la dinamica cambia para obtener redundancias mas altas Los metodos de secuenciacion modernos suelen secuenciar ambos extremos de un fragmento mas grande lo que proporciona informacion de enlace para el ensamblaje de novo y mejores probabilidades de alineacion con la secuencia de referencia Los investigadores generalmente creen que las longitudes de datos mas largas longitudes de lectura mejoran el rendimiento de los objetivos de ADN muy grandes una idea coherente con las predicciones de los modelos de distribucion 16 Sin embargo Wendl 17 mostro que los fragmentos mas pequenos proporcionan una mejor cobertura en objetivos lineales pequenos porque reducen el efecto de borde en moleculas lineales Estos hallazgos tienen implicaciones para la secuenciacion de los productos de los procedimientos de filtrado de ADN El emparejamiento de lecturas y el tamano de los fragmentos tienen evidentemente una influencia insignificante para los objetivos de clase grandes de genoma completo Secuenciacion individual y poblacional Editar La secuenciacion esta emergiendo como una herramienta importante en medicina por ejemplo en la investigacion del cancer Aqui la capacidad de detectar mutaciones heterocigotas es importante y esto solo se puede hacer si se obtiene la secuencia del genoma diploide En los esfuerzos pioneros para secuenciar individuos Levy et al 18 y Wheeler et al 19 quien secuencio a Craig Venter y Jim Watson respectivamente describio modelos para cubrir ambos alelos en un genoma Wendl y Wilson 20 siguieron con una teoria mas general que permitia un numero arbitrario de cubiertas de cada alelo y una ploidia arbitraria Estos resultados apuntan a la conclusion general de que la cantidad de datos necesarios para tales proyectos es significativamente mayor que la de los proyectos haploides tradicionales Generalmente ahora es estandar una redundancia de al menos 30 veces es decir cada nucleotido abarcado por un promedio de 30 lecturas de secuencia 21 Sin embargo los requisitos pueden ser incluso mayores dependiendo de los tipos de eventos genomicos que se encuentren Por ejemplo en el llamado metodo de pares de lectura discordantes se pueden inferir inserciones de ADN si la distancia entre pares de lectura es mayor de lo esperado Los calculos muestran que se necesita una redundancia de alrededor de 50 veces para evitar errores de falso positivo en un umbral del 1 22 El advenimiento de la secuenciacion de proxima generacion tambien ha hecho factible la secuenciacion de poblaciones a gran escala por ejemplo el Proyecto 1000 Genomas para caracterizar la variacion en grupos de poblacion humana Si bien la variacion comun se captura facilmente la variacion rara plantea un desafio de diseno muy pocas muestras con una redundancia de secuencia significativa corre el riesgo de no tener una variante en el grupo de muestra pero las muestras grandes con una redundancia leve no capturan una variante en el conjunto de lectura que realmente esta en el grupo de muestra Wendl y Wilson 23 informan de un conjunto simple de reglas de optimizacion que maximizan la probabilidad de descubrimiento para un conjunto dado de parametros Por ejemplo para observar un alelo raro al menos dos veces para eliminar la posibilidad es unica de un individuo se debe usar una redundancia de un poco menos de 4 veces independientemente del tamano de la muestra Secuenciacion metagenomica Editar Los instrumentos de proxima generacion ahora tambien permiten la secuenciacion de comunidades metagenomicas no cultivadas enteras El escenario de secuenciacion es mas complicado aqui y hay varias formas de enmarcar las teorias de diseno para un proyecto dado Por ejemplo Stanhope 24 desarrollo un modelo probabilistico para la cantidad de secuencia necesaria para obtener al menos un contig de un tamano dado de cada organismo nuevo de la comunidad mientras que Wendl et al informo un analisis para el tamano medio del contig o la probabilidad de recuperar completamente un organismo nuevo para una rareza determinada dentro de la comunidad 25 Por el contrario Hooper et al proponen un modelo semi empirico basado en la distribucion gamma 26 Limitaciones EditarLas teorias de secuenciacion del ADN a menudo invocan la suposicion de que ciertas variables aleatorias en un modelo son independientes y estan distribuidas de manera identica Por ejemplo en la teoria de Lander Waterman se supone que un fragmento secuenciado tiene la misma probabilidad de cubrir cada region de un genoma y se supone que todos los fragmentos son independientes entre si En realidad los proyectos de secuenciacion estan sujetos a varios tipos de sesgos incluidas las diferencias de que tan bien se pueden clonar las regiones las anomalias de secuenciacion los sesgos en la secuencia objetivo que no es aleatoria y los errores y sesgos que dependen del software En general la teoria concordara bien con la observacion hasta el punto en que se hayan generado suficientes datos para exponer sesgos latentes 20 Los tipos de sesgos relacionados con la secuencia objetivo subyacente son particularmente dificiles de modelar ya que la secuencia en si puede no ser conocida a priori Esto presenta un tipo de problema Catch 22 logico Vease tambien EditarBiologia Computacional Bioinformatica Biologia matematica Puntuacion de SulstonReferencias Editar Waterman Michael S 1995 Introduction to Computational Biology Boca Raton Chapman and Hall CRC ISBN 978 0 412 99391 6 Hall P 1988 Introduction to the Theory of Coverage Processes New York Wiley ISBN 978 0 471 85702 0 Solomon H 1978 Geometric Probability Philadelphia Society for Industrial and Applied Mathematics ISBN 978 0 898 71025 0 a b Stevens WL 1939 Solution to a Geometrical Problem in Probability Annals of Eugenics 9 4 315 320 doi 10 1111 j 1469 1809 1939 tb02216 x A colony bank containing synthetic Col El hybrid plasmids representative of the entire E coli genome Cell 9 1 91 99 1976 PMID 788919 doi 10 1016 0092 8674 76 90055 6 Lander ES Waterman MS 1988 Genomic mapping by fingerprinting random clones a mathematical analysis Genomics 2 3 231 239 PMID 3294162 doi 10 1016 0888 7543 88 90007 9 Roach JC 1995 Random subcloning Genome Research 5 5 464 473 PMID 8808467 doi 10 1101 gr 5 5 464 Wendl MC Waterston RH 2002 Generalized gap model for bacterial artificial chromosome clone fingerprint mapping and shotgun sequencing Genome Research 12 12 1943 1949 PMC 187573 PMID 12466299 doi 10 1101 gr 655102 Arratia R 1991 Genomic mapping by anchoring random clones a mathematical analysis Genomics 11 4 806 827 PMID 1783390 doi 10 1016 0888 7543 91 90004 X Port E 1995 Genomic mapping by end characterized random clones a mathematical analysis Genomics 26 1 84 100 PMID 7782090 doi 10 1016 0888 7543 95 80086 2 Genome mapping by nonrandom anchoring a discrete theoretical analysis Proceedings of the National Academy of Sciences 90 2 600 604 1993 Bibcode 1993PNAS 90 600Z PMC 45711 PMID 8421694 doi 10 1073 pnas 90 2 600 Roach JC 2000 Parking strategies for genome sequencing Genome Research 10 7 1020 1030 PMC 310895 PMID 10899151 doi 10 1101 gr 10 7 1020 Roach JC Boysen C Wang K Hood L 1995 Pairwise end sequencing a unified approach to genomic mapping and sequencing Genomics 26 2 345 353 PMID 7601461 doi 10 1016 0888 7543 95 80219 C Edwards A Caskey T 1991 Closure strategies for random DNA sequencing 3 A Companion to Methods in Enzymology pp 41 47 Wendl MC Barbazuk WB 2005 Extension of Lander Waterman Theory for sequencing filtered DNA libraries BMC Bioinformatics 6 article 245 PMC 1280921 PMID 16216129 doi 10 1186 1471 2105 6 245 Wendl MC 2006 Occupancy modeling of coverage distribution for whole genome shotgun DNA sequencing Bulletin of Mathematical Biology 68 1 179 196 PMID 16794926 doi 10 1007 s11538 005 9021 4 Wendl MC 2006 A general coverage theory for shotgun DNA sequencing Journal of Computational Biology 13 6 1177 1196 PMID 16901236 doi 10 1089 cmb 2006 13 1177 Levy S 2007 The diploid genome sequence of an individual human PLOS Biology 5 10 article e254 PMC 1964779 PMID 17803354 doi 10 1371 journal pbio 0050254 Wheeler DA 2008 The complete genome of an individual by massively parallel DNA sequencing Nature 452 7189 872 876 Bibcode 2008Natur 452 872W PMID 18421352 doi 10 1038 nature06884 a b Wendl MC Wilson RK 2008 Aspects of coverage in medical DNA sequencing BMC Bioinformatics 9 article 239 PMC 2430974 PMID 18485222 doi 10 1186 1471 2105 9 239 Ley TJ 2008 DNA sequencing of a cytogenetically normal acute myeloid leukaemia genome Nature 456 7218 66 72 Bibcode 2008Natur 456 66L PMC 2603574 PMID 18987736 doi 10 1038 nature07485 Wendl MC Wilson RK 2009 Statistical aspects of discerning indel type structural variation via DNA sequence alignment BMC Genomics 10 article 359 PMC 2748092 PMID 19656394 doi 10 1186 1471 2164 10 359 Wendl MC Wilson RK 2009 The theory of discovering rare variants via DNA sequencing BMC Genomics 10 article 485 PMC 2778663 PMID 19843339 doi 10 1186 1471 2164 10 485 Stanhope SA 2010 Occupancy modeling maximum contig size probabilities and designing metagenomics experiments PLOS ONE 5 7 article e11652 Bibcode 2010PLoSO 511652S PMC 2912229 PMID 20686599 doi 10 1371 journal pone 0011652 Wendl MC 2012 Coverage theories for metagenomic DNA sequencing based on a generalization of Stevens theorem Journal of Mathematical Biology 67 5 1141 1161 PMC 3795925 PMID 22965653 doi 10 1007 s00285 012 0586 x Hooper SD 2010 Estimating DNA coverage and abundance in metagenomes using a gamma approximation Bioinformatics 26 3 295 301 PMC 2815663 PMID 20008478 doi 10 1093 bioinformatics btp687 Datos Q5205771 Obtenido de https es wikipedia org w index php title Teoria de la secuenciacion de ADN amp oldid 144028197, wikipedia, wiki, leyendo, leer, libro, biblioteca,

español

, española, descargar, gratis, descargar gratis, mp3, video, mp4, 3gp, jpg, jpeg, gif, png, imagen, música, canción, película, libro, juego, juegos