fbpx
Wikipedia

Matriz de pesos posicionales

Una matriz de pesos posicionales o MPP (en inglés, position weight matrix (PWM), position-specific weight matrix (PSWM) o position-specific scoring matrix (PSSM)) es una forma de representación y predicción de motivos o patrones en secuencias biológicas (compuestas por nucleótidos o aminoácidos) que tiene como objetivo describir las variaciones intrínsecas en sus patrones.

Por este motivo, estas matrices derivan normalmente de un conjunto de secuencias alineadas que se sospecha que se encuentran funcionalmente relacionadas.

Desde su creación, las MPP se han ido adaptando a distintos tipos de secuencias y se han desarrollado múltiples aproximaciones para determinar los parámetros necesarios,[1]​ con lo que han terminado por constituir una parte muy importante de muchas herramientas de software para el descubrimiento de patrones.

Contexto editar

La matriz de pesos posicionales fue introducida por el genetista americano Gary Stormo en colaboración con sus compañeros en el año 1982,[1][2]​ como alternativa a las secuencias consenso.

 
Gary Stormo dando su discurso de apertura de la ISCB en ISMB/ECCB 2013.

Estas secuencias habían sido empleadas anteriormente para representar patrones en las secuencias biológicas, aunque poseían problemas en la predicción de nuevas ocurrencias de estos patrones.

Las MPP se usan comúnmente para el modelaje de las interacciones específicas entre el ADN y las proteínas.[1]​ Sin embargo, la primera vez que se emplearon estas matrices fue con secuencias de ARN de E. coli, donde se describieron distintos lugares que funcionan como dominios de iniciación de la traducción.[3]

En su creación, el matemático Andrzej Ehrenfeucht propuso el algoritmo perceptrón para que las matrices fueran capaces de diferenciar entre las regiones reales de unión, de aquellas no funcionales que poseen secuencias similares. Se llevó a cabo un entrenamiento del perceptrón con dos conjuntos de regiones que resultó en una matriz y un límite capaz de distinguir entre ambos conjuntos.[2][3]

El uso de la matriz para escanear nuevas secuencias que no forman parte del entrenamiento ha demostrado que este método resulta más sensitivo y preciso que la mejor secuencia consenso existente.[3]

Las ventajas del empleo de las matrices de pesos posicionales sobre las secuencias consenso han hecho de ellas un método popular para representar patrones en secuencias biológicas y un componente esencial en los algoritmos modernos en el descubrimiento de motivos.[4]

Cálculo de la matriz de pesos posicionales (MPP) editar

Las matrices de pesos posicionales expresan los patrones inherentes a una alineación de secuencias múltiples de un conjunto de secuencias homólogas.

El objetivo es encontrar coincidencias dichas secuencias alineadas y las secuencias de la base de datos, asignando un peso mayor a aquellas posiciones que se encuentran conservadas respecto a aquellas que son variables.[5]

Obtención de matrices de frecuencias editar

La matriz de pesos posicionales se calcula a partir del conjunto de secuencias homólogas alineadas y tiene una fila por cada símbolo del alfabeto (4 filas para nucleótidos en secuencias de ADN o 20 filas para aminoácidos en secuencias de proteínas) y una columna para cada posición del patrón.

En el siguiente ejemplo, se observan N=10 secuencias alineadas de ADN, con L=9 nucleótidos cada una, para las cuales queremos describir un patrón:[6]

GAGGTAAAC
TCCGTAAGT
CAGGTTGGA
ACAGTCAGT
TAGGTCATT
TAGGTACTG
ATGGTAACT
CAGGTATAC
TGTGTGAGT
AAGGTAAGT

Matriz de frecuencias absolutas editar

El primer paso para construir una matriz de pesos posicionales es crear una matriz de frecuencias absolutas (F). Esta matriz se construye contando las ocurrencias observadas de cada nucleótido en cada posición concreta.

Como se puede observar en el ejemplo, en la posición 1  se han encontrado 3A, 2C,  1G y 4T. Si se realiza el mismo contaje para todas las posiciones se obtendrá la siguiente matriz F de un tamaño de 4x9:

 [6]

 : El número de filas es 4, porque solo existen 4 nucleótidos posibles (A,G,C,T) para cada posición y el número de columnas es 9 porque la longitud de las secuencias utilizadas es de 9 nucleótidos.

Matriz de frecuencias relativas o probabilidades editar

Para poder interpretar los coeficientes de la matriz como probabilidades, se divide cada frecuencia absoluta entre el número total de secuencias (N) para la obtención de la matriz de frecuencias relativas o probabilidades(P).  

Por ejemplo, para calcular la probabilidad de encontrar una A en la posición 1, se divide la cantidad de A observadas en esa posición (3) entre el número de secuencias totales (10): 3/10 = 0,3 . Este cálculo se realiza para todos los valores de la matriz F y se obtiene la siguiente matriz P:

 [6]

Esta matriz permite calcular, para una secuencia determinada, la probabilidad de encontrar dicha secuencia en la región funcional descrita por la matriz.

Dada la secuencia S = GAGGTAAAC se realiza el siguiente cálculo:

 

Se multiplican los coeficientes de la matriz correspondientes a cada nucleótido de cada posición de la secuencia S. El resultado obtenido se interpreta como que existe una probabilidad de un 0.07% de que la secuencia S se encuentre en un lugar funcional real.

Definición matemática editar

Cada elemento de la matriz de probabilidad   es igual a la probabilidad de encontrar una letra   en la posición   del patrón. Dado un conjunto de   secuencias alineadas de longitud  , los elementos de la matriz   se calculan como:

 

donde:

  es el número total de secuencias alineadas

 :   hace referencia a dichas secuencias, y toma valores de 1 hasta  

 :   hace referencia a las posiciones dentro de las secuencias, y toma valores desde 1 hasta  .

 :   es una de las letras del alfabeto, en este caso A, C, T o G

  es la probabilidad de encontrar la letra   en la posición  .

  es una función indicatriz en la cual   es la letra correspondiente a la posición   en la secuencia  , y sigue la fórmula:

 , es decir, la función   toma el valor de 1 cuando   es equivalente al valor de  , y el valor de 0 cuando   es diferente de  .

Obtención de la matriz de pesos posicionales editar

En la mayoría de los casos, los valores de la matriz de pesos posicionales M se calculan mediante logaritmo de la razón de verosimilitud.

Una vez obtenida la matriz de frecuencias relativas o probabilidades, los valores se normalizan según las frecuencias esperadas o probabilidad a priori de   ( ) y se obtiene la razón de verosimilitud. Finalmente esta razón de verosimilitud se transforma a escala logarítmica.

De este modo, los valores que se obtienen representan cómo de frecuente es cada nucleótido en cada posición respecto al azar. Valores superiores a 0 indican una frecuencia mayor a la esperada por azar, mientras que valores inferiores a 0 indican una frecuencia inferior a la esperada por azar.

Para la conversión del valor de A en la primera posición, se debe dividir el elemento de A en la posición 1 de la matriz de frecuencias relativas (0,3) entre la probabilidad a priori de A (0,25): 0,3/0,25=1,2  y posteriormente se transforma mediante el logaritmo neperiano: ln(1,2)=0.18.

Este cálculo se realiza para todos los valores de la matriz F y se obtiene la siguiente matriz M:

 [6]

Comentario: los valores entre paréntesis son negativos, aunque es posible que no se observen debido a un error de visualización.

Dado que se trata de una secuencia de nucleótidos, se asume que la probabilidad esperada al azar es de 0,25. Sin embargo, no siempre existe una distribución uniforme en las unidades de k; por ejemplo, cuando se estudian organismos con una alta composición de CG: en este caso, las probabilidades de C y G serán mayores que las de A y T.

Los valores resultantes de esta matriz permiten calcular una puntuación para una secuencia determinada. Esta puntuación será 0 cuando sea igual de probable encontrar dicha secuencia en la región funcional descrita por la matriz que en cualquier región aleatoria del genoma, mayor que 0 cuando sea más probable encontrar la secuencia en la región funcional que en una región aleatoria y menor que 0 cuando sea más probable encontrar la secuencia en una región aleatoria que en la región funcional.[6]

Dada la secuencia S = GAGGTAAAC, su puntuación se calcularía del siguiente modo:

 

Se suman los coeficientes de la MPP correspondientes a cada nucleótido de cada posición de la secuencia dada. El resultado obtenido es mayor que 0, por lo que es más probable encontrar la secuencia S en un lugar funcional real que en un lugar aleatorio del genoma.

Definición matemática editar

 

donde   es la matriz de pesos posicionales,   es la matriz de frecuencias relativas o probabilidades y   representa la probabilidad a priori o frecuencias esperadas de las unidades de   (0,25 para la secuencia de nucleótidos y 0,05 para la secuencia de aminoácidos si asumimos una distribución uniforme).

Independencia estadística editar

Hay que tener en cuenta que todas las matrices asumen una independencia estadística entre las posiciones del patrón, ya que los valores por cada posición se han calculado independientemente del resto de posiciones. Esto puede resultar una limitación en algunos casos[7]​ y se podría rectificar mediante la construcción de matrices más complejas añadiendo dimensiones adicionales que tengan en cuenta las posiciones adyacentes.

Pseudocálculos editar

Si partimos de una muestra muy pequeña de secuencias, es muy común que aparezcan 0 en la matriz de frecuencias absolutas, lo cual nos lleva a 0 en la matriz de probabilidades y a   en la MPP.

Hay dos razones principales por las que podemos querer evitar estos valores.  Por un lado, el hecho de que en una muestra pequeña algunos nucleótidos no aparezcan en algunas posiciones puede ser debido al azar, y asignarles una probabilidad de 0 puede resultar demasiado severo. Por otro lado, al usar estas matrices en algoritmos informáticos, los valores   pueden resultar problemáticos.

Un modo de evitar estas situaciones es mediante el uso de pseudocálculos. Estos se añaden en el paso de la matriz de frecuencias absolutas a la matriz de frecuencias relativas. Por cada valor de frecuencia absoluta, se obtiene el valor de frecuencia relativa mediante la aplicación de la siguiente fórmula:

 

en la cual   corresponde al valor de la matriz de frecuencias relativas o probabilidades,   corresponde al valor de la matriz de frecuencias absolutas,   corresponde al número de secuencias y   corresponde al valor del pseudocálculo.

No hay un consenso sobre cómo escoger el valor de pseudocálculo más adecuado. Algunos de los métodos más empleados son la regla de Laplace, el uso de distribuciones de Dirichlet o el cálculo de la raíz cuadrada del número de secuencias en la muestra. Por otro lado, el estudio de Nishida et al. concluyó que para el estudio de regiones de unión para factores de transcripción, los pseudocálculos óptimos eran aquellos cercanos a 1 o menores que 1.[8]

 
Ejemplo de un logo de secuencias

Representación gráfica editar

Las matrices de pesos posicionales pueden representarse en forma de logos de secuencias, los cuales se calculan empleando la fórmula de Shannon. Esta fórmula calcula la informatividad, es decir, la cantidad de información contenida en cada posición.[9]

Usos editar

Las MPP se emplean de forma muy amplia para el análisis de secuencias de nucleótidos en ADN y ARN, y de aminoácidos en proteínas.[5]

Estos análisis incluyen el modelaje o predicción de los lugares de unión de las proteínas y factores de transcripción en el ADN, las regiones de iniciación de la transcripción, las regiones de splicing,  la identificación de unidades transcripcionales en todo el genoma e incluso la medición de sesgos en el uso de codones.[5][10]

También se pueden utilizar en la discriminación de proteínas con distintos tipos de plegamiento, identificación de sus distintas regiones funcionales y de los diferentes lugares de unión, entre otros.[10]

Las MPP ofrecen muchas ventajas, como por ejemplo, permiten una mayor precisión a la hora de comparar secuencias lejanas alineadas y gracias a los patrones descritos por estas matrices se pueden identificar otras secuencias homólogas y clasificarlas en subfamilias. Además, muchos métodos predictivos de secuencias resultan más fiables si están basados en un alineamiento múltiple de secuencias (como es el caso de las MPP).[5]

Algoritmos y bases de datos editar

MATCHTM editar

MatchTM es una herramienta basada en matrices de pesos posicionales para la búsqueda de posibles regiones de unión para factores de transcripción en secuencias de DNA. Esta herramienta emplea la librería de matrices coleccionada en la base de datos TRANSFAC®, de forma que permite la búsqueda de una variedad elevada de diferentes regiones de unión de factores de transcripción.

Adicionalmente, se han implementado diversos conjuntos con valores límites optimizados en el sistema para proveer una variedad ampliada en la rigurosidad de los modos de búsqueda.[11]

ModuleMaster editar

ModuleMaster es un programa avanzado para encontrar patrones cis-regulatorios en conjuntos de genes co-expresados. Es capaz de recuperar secuencias, realizar escaneos matriciales de estas secuencias y finalmente, buscar dichos patrones de regulación cis.

Este programa es capaz de analizar secuencias regulatorias empleando bases de datos como Ensembl.

En este programa se ha implementado, además,  el algoritmo de escaneo MatchTM.[12]

JASPAR editar

JASPAR es una base de datos que posee perfiles de unión de factores de transcripción (FT) no redundantes guardados en matrices de frecuencias relativas de múltiples especies eucariotas en 6 grupos taxonómicos. Se encuentra en su octava actualización donde se ha expandido el número de datos en un 18%.[13]

PROSITE editar

PROSITE es una base de datos que contiene entradas donde se describen dominios, familias y regiones funcionales de las proteínas, junto con patrones y perfiles asociados para su identificación. Esta base se complementa con ProRule, que contiene una colección de reglas que permite incrementar el poder discriminatorio mediante la aportación de información adicional de la funcionalidad y estructura de distintos aminoácidos.

Ambas bases de datos se emplean para la anotación de dominios y características de las entradas de UniProtKB/Swiss-Prot.[14]

MEME Suite editar

MEME Suite no es una base de datos, sino que se trata de un conjunto de herramientas de software para realizar análisis de secuencias basadas en motivos en proteínas, ADN y ARN. El centro de este conjunto de herramientas es el algoritmo MEME que permite encontrar motivos en colecciones de secuencias no alineadas. Desde su descubrimiento en 1994, ha ido creciendo hasta ser empleado en más de 9800 estudios publicados.[15]

Referencias editar

  1. Stormo, Gary D. (1 de junio de 2013). «Modeling the specificity of protein-DNA interactions». Quantitative Biology (en inglés) 1 (2): 115-130. ISSN 2095-4697. PMC 4101922. PMID 25045190. doi:10.1007/s40484-013-0012-4. Consultado el 19 de diciembre de 2020. 
  2. Stormo, Gary D.; Schneider, Thomas D.; Gold, Larry; Ehrenfeucht, Andrzej (11 de mayo de 1982). «Use of the ‘Perceptron’ algorithm to distinguish translational initiation sites in E. coli». Nucleic Acids Research (en inglés) 10 (9): 2997-3011. ISSN 0305-1048. PMC 320670. PMID 7048259. doi:10.1093/nar/10.9.2997. Consultado el 19 de diciembre de 2020. 
  3. Stormo, G. D. (1 de enero de 2000). «DNA binding sites: representation and discovery». Bioinformatics (en inglés) 16 (1): 16-23. ISSN 1367-4803. PMID 10812473. doi:10.1093/bioinformatics/16.1.16. Consultado el 19 de diciembre de 2020. 
  4. Sinha, S. (15 de julio de 2006). «On counting position weight matrix matches in a sequence, with application to discriminative motif finding». Bioinformatics 22 (14): e454-e463. ISSN 1367-4803. doi:10.1093/bioinformatics/btl227. Consultado el 20 de diciembre de 2020. 
  5. Gromiha, M. Michael (2010). Protein Bioinformatics (en inglés). Elsevier. pp. 29-62. ISBN 978-81-312-2297-3. doi:10.1016/b978-8-1312-2297-3.50002-3. Consultado el 19 de diciembre de 2020. 
  6. Guigó, Roderic. «An Introduction to Position Specific Scoring Matrices». bioinformaticaupf.crg.eu. Consultado el 19 de diciembre de 2020. 
  7. Stormo, Gary D. (2015-09). «DNA Motif Databases and Their Uses». Current Protocols in Bioinformatics (en inglés) 51 (1). ISSN 1934-3396. doi:10.1002/0471250953.bi0215s51. Consultado el 20 de diciembre de 2020. 
  8. Nishida, Keishin; Frith, Martin C.; Nakai, Kenta (1 de febrero de 2009). «Pseudocounts for transcription factor binding sites». Nucleic Acids Research (en inglés) 37 (3): 939-944. ISSN 0305-1048. PMC 2647310. PMID 19106141. doi:10.1093/nar/gkn1019. Consultado el 20 de diciembre de 2020. 
  9. Schneider, Thomas D.; Stephens, R. Michael (25 de octubre de 1990). «Sequence logos: a new way to display consensus sequences». Nucleic Acids Research (en inglés) 18 (20): 6097-6100. ISSN 0305-1048. PMC 332411. PMID 2172928. doi:10.1093/nar/18.20.6097. Consultado el 20 de diciembre de 2020. 
  10. Xia, Xuhua (20 de noviembre de 2012). «Position Weight Matrix, Gibbs Sampler, and the Associated Significance Tests in Motif Characterization and Prediction». Scientifica (en inglés). doi:10.6064/2012/917540. Consultado el 20 de diciembre de 2020. 
  11. Kel, A. E.; Gößling, E.; Reuter, I.; Cheremushkin, E.; Kel-Margoulis, O. V.; Wingender, E. (1 de julio de 2003). «MATCHTM: a tool for searching transcription factor binding sites in DNA sequences». Nucleic Acids Research (en inglés) 31 (13): 3576-3579. ISSN 0305-1048. PMC 169193. PMID 12824369. doi:10.1093/nar/gkg585. Consultado el 20 de diciembre de 2020. 
  12. Wrzodek, Clemens; Schröder, Adrian; Dräger, Andreas; Wanke, Dierk; Berendzen, Kenneth W.; Kronfeld, Marcel; Harter, Klaus; Zell, Andreas (2010-01). «ModuleMaster: A new tool to decipher transcriptional regulatory networks». Biosystems (en inglés) 99 (1): 79-81. doi:10.1016/j.biosystems.2009.09.005. Consultado el 20 de diciembre de 2020. 
  13. Fornes, Oriol; Castro-Mondragon, Jaime A.; Khan, Aziz; van der Lee, Robin; Zhang, Xi; Richmond, Phillip A.; Modi, Bhavi P.; Correard, Solenne et al. (8 de enero de 2020). «JASPAR 2020: update of the open-access database of transcription factor binding profiles». Nucleic Acids Research (en inglés) 48 (D1): D87-D92. ISSN 0305-1048. PMC 7145627. PMID 31701148. doi:10.1093/nar/gkz1001. Consultado el 20 de diciembre de 2020. 
  14. Sigrist, Christian J. A.; de Castro, Edouard; Cerutti, Lorenzo; Cuche, Béatrice A.; Hulo, Nicolas; Bridge, Alan; Bougueleret, Lydie; Xenarios, Ioannis (1 de enero de 2013). «New and continuing developments at PROSITE». Nucleic Acids Research (en inglés) 41 (D1): D344-D347. ISSN 0305-1048. PMC 3531220. PMID 23161676. doi:10.1093/nar/gks1067. Consultado el 20 de diciembre de 2020. 
  15. Bailey, Timothy L.; Johnson, James; Grant, Charles E.; Noble, William S. (1 de julio de 2015). «The MEME Suite». Nucleic Acids Research (en inglés) 43 (W1): W39-W49. ISSN 0305-1048. PMC 4489269. PMID 25953851. doi:10.1093/nar/gkv416. Consultado el 20 de diciembre de 2020. 

Enlaces externos editar

  •   Datos: Q7233183

matriz, pesos, posicionales, matriz, pesos, posicionales, inglés, position, weight, matrix, position, specific, weight, matrix, pswm, position, specific, scoring, matrix, pssm, forma, representación, predicción, motivos, patrones, secuencias, biológicas, compu. Una matriz de pesos posicionales o MPP en ingles position weight matrix PWM position specific weight matrix PSWM o position specific scoring matrix PSSM es una forma de representacion y prediccion de motivos o patrones en secuencias biologicas compuestas por nucleotidos o aminoacidos que tiene como objetivo describir las variaciones intrinsecas en sus patrones Por este motivo estas matrices derivan normalmente de un conjunto de secuencias alineadas que se sospecha que se encuentran funcionalmente relacionadas Desde su creacion las MPP se han ido adaptando a distintos tipos de secuencias y se han desarrollado multiples aproximaciones para determinar los parametros necesarios 1 con lo que han terminado por constituir una parte muy importante de muchas herramientas de software para el descubrimiento de patrones Indice 1 Contexto 2 Calculo de la matriz de pesos posicionales MPP 2 1 Obtencion de matrices de frecuencias 2 1 1 Matriz de frecuencias absolutas 2 1 2 Matriz de frecuencias relativas o probabilidades 2 1 2 1 Definicion matematica 2 2 Obtencion de la matriz de pesos posicionales 2 2 1 Definicion matematica 2 3 Independencia estadistica 3 Pseudocalculos 4 Representacion grafica 5 Usos 5 1 Algoritmos y bases de datos 5 1 1 MATCHTM 5 1 2 ModuleMaster 5 1 3 JASPAR 5 1 4 PROSITE 5 1 5 MEME Suite 6 Referencias 7 Enlaces externosContexto editarLa matriz de pesos posicionales fue introducida por el genetista americano Gary Stormo en colaboracion con sus companeros en el ano 1982 1 2 como alternativa a las secuencias consenso nbsp Gary Stormo dando su discurso de apertura de la ISCB en ISMB ECCB 2013 Estas secuencias habian sido empleadas anteriormente para representar patrones en las secuencias biologicas aunque poseian problemas en la prediccion de nuevas ocurrencias de estos patrones Las MPP se usan comunmente para el modelaje de las interacciones especificas entre el ADN y las proteinas 1 Sin embargo la primera vez que se emplearon estas matrices fue con secuencias de ARN de E coli donde se describieron distintos lugares que funcionan como dominios de iniciacion de la traduccion 3 En su creacion el matematico Andrzej Ehrenfeucht propuso el algoritmo perceptron para que las matrices fueran capaces de diferenciar entre las regiones reales de union de aquellas no funcionales que poseen secuencias similares Se llevo a cabo un entrenamiento del perceptron con dos conjuntos de regiones que resulto en una matriz y un limite capaz de distinguir entre ambos conjuntos 2 3 El uso de la matriz para escanear nuevas secuencias que no forman parte del entrenamiento ha demostrado que este metodo resulta mas sensitivo y preciso que la mejor secuencia consenso existente 3 Las ventajas del empleo de las matrices de pesos posicionales sobre las secuencias consenso han hecho de ellas un metodo popular para representar patrones en secuencias biologicas y un componente esencial en los algoritmos modernos en el descubrimiento de motivos 4 Calculo de la matriz de pesos posicionales MPP editarLas matrices de pesos posicionales expresan los patrones inherentes a una alineacion de secuencias multiples de un conjunto de secuencias homologas El objetivo es encontrar coincidencias dichas secuencias alineadas y las secuencias de la base de datos asignando un peso mayor a aquellas posiciones que se encuentran conservadas respecto a aquellas que son variables 5 Obtencion de matrices de frecuencias editar La matriz de pesos posicionales se calcula a partir del conjunto de secuencias homologas alineadas y tiene una fila por cada simbolo del alfabeto 4 filas para nucleotidos en secuencias de ADN o 20 filas para aminoacidos en secuencias de proteinas y una columna para cada posicion del patron En el siguiente ejemplo se observan N 10 secuencias alineadas de ADN con L 9 nucleotidos cada una para las cuales queremos describir un patron 6 GAGGTAAAC TCCGTAAGT CAGGTTGGA ACAGTCAGT TAGGTCATT TAGGTACTG ATGGTAACT CAGGTATAC TGTGTGAGT AAGGTAAGTMatriz de frecuencias absolutas editar El primer paso para construir una matriz de pesos posicionales es crear una matriz de frecuencias absolutas F Esta matriz se construye contando las ocurrencias observadas de cada nucleotido en cada posicion concreta Como se puede observar en el ejemplo en la posicion 1 se han encontrado 3A 2C 1G y 4T Si se realiza el mismo contaje para todas las posiciones se obtendra la siguiente matriz F de un tamano de 4x9 F ACGT 36100672122100211211710011514110101126 displaystyle F begin matrix A C G T end matrix begin bmatrix 3 amp 6 amp 1 amp 0 amp 0 amp 6 amp 7 amp 2 amp 1 2 amp 2 amp 1 amp 0 amp 0 amp 2 amp 1 amp 1 amp 2 1 amp 1 amp 7 amp 10 amp 0 amp 1 amp 1 amp 5 amp 1 4 amp 1 amp 1 amp 0 amp 10 amp 1 amp 1 amp 2 amp 6 end bmatrix nbsp 6 F4 9 displaystyle F 4 times 9 nbsp El numero de filas es 4 porque solo existen 4 nucleotidos posibles A G C T para cada posicion y el numero de columnas es 9 porque la longitud de las secuencias utilizadas es de 9 nucleotidos Matriz de frecuencias relativas o probabilidades editar Para poder interpretar los coeficientes de la matriz como probabilidades se divide cada frecuencia absoluta entre el numero total de secuencias N para la obtencion de la matriz de frecuencias relativas o probabilidades P Por ejemplo para calcular la probabilidad de encontrar una A en la posicion 1 se divide la cantidad de A observadas en esa posicion 3 entre el numero de secuencias totales 10 3 10 0 3 Este calculo se realiza para todos los valores de la matriz F y se obtiene la siguiente matriz P P ACGT 0 30 60 10 00 00 60 70 20 10 20 20 10 00 00 20 10 10 20 10 10 71 00 00 10 10 50 10 40 10 10 01 00 10 10 20 6 displaystyle P begin matrix A C G T end matrix begin bmatrix 0 3 amp 0 6 amp 0 1 amp 0 0 amp 0 0 amp 0 6 amp 0 7 amp 0 2 amp 0 1 0 2 amp 0 2 amp 0 1 amp 0 0 amp 0 0 amp 0 2 amp 0 1 amp 0 1 amp 0 2 0 1 amp 0 1 amp 0 7 amp 1 0 amp 0 0 amp 0 1 amp 0 1 amp 0 5 amp 0 1 0 4 amp 0 1 amp 0 1 amp 0 0 amp 1 0 amp 0 1 amp 0 1 amp 0 2 amp 0 6 end bmatrix nbsp 6 Esta matriz permite calcular para una secuencia determinada la probabilidad de encontrar dicha secuencia en la region funcional descrita por la matriz Dada la secuencia S GAGGTAAAC se realiza el siguiente calculo p S P 0 1 0 6 0 7 1 0 1 0 0 6 0 7 0 2 0 2 0 0007056 displaystyle p S P 0 1 times 0 6 times 0 7 times 1 0 times 1 0 times 0 6 times 0 7 times 0 2 times 0 2 0 0007056 nbsp Se multiplican los coeficientes de la matriz correspondientes a cada nucleotido de cada posicion de la secuencia S El resultado obtenido se interpreta como que existe una probabilidad de un 0 07 de que la secuencia S se encuentre en un lugar funcional real Definicion matematica editar Cada elemento de la matriz de probabilidad P displaystyle P nbsp es igual a la probabilidad de encontrar una letra k displaystyle k nbsp en la posicion j displaystyle j nbsp del patron Dado un conjunto de N displaystyle N nbsp secuencias alineadas de longitud L displaystyle L nbsp los elementos de la matriz P displaystyle P nbsp se calculan como Pk j 1N i 1NI Xi j k displaystyle P k j frac 1 N sum i 1 N I X i j k nbsp donde N displaystyle N nbsp es el numero total de secuencias alineadasi 1 N displaystyle i in 1 N nbsp i displaystyle i nbsp hace referencia a dichas secuencias y toma valores de 1 hasta N displaystyle N nbsp j 1 L displaystyle j in 1 L nbsp j displaystyle j nbsp hace referencia a las posiciones dentro de las secuencias y toma valores desde 1 hasta L displaystyle L nbsp k ACTG displaystyle k ACTG nbsp k displaystyle k nbsp es una de las letras del alfabeto en este caso A C T o GPk j displaystyle P k j nbsp es la probabilidad de encontrar la letra k displaystyle k nbsp en la posicion j displaystyle j nbsp I Xi j k displaystyle I X i j k nbsp es una funcion indicatriz en la cual Xi j displaystyle X i j nbsp es la letra correspondiente a la posicion j displaystyle j nbsp en la secuencia i displaystyle i nbsp y sigue la formula I Xi j k 1 Xi j k0 Xi j k displaystyle I X i j k begin cases 1 amp X i j k 0 amp X i j neq k end cases nbsp es decir la funcion I displaystyle I nbsp toma el valor de 1 cuando Xi j displaystyle X i j nbsp es equivalente al valor de k displaystyle k nbsp y el valor de 0 cuando Xi j displaystyle X i j nbsp es diferente de k displaystyle k nbsp Obtencion de la matriz de pesos posicionales editar En la mayoria de los casos los valores de la matriz de pesos posicionales M se calculan mediante logaritmo de la razon de verosimilitud Una vez obtenida la matriz de frecuencias relativas o probabilidades los valores se normalizan segun las frecuencias esperadas o probabilidad a priori de k displaystyle k nbsp Pk displaystyle P k nbsp y se obtiene la razon de verosimilitud Finalmente esta razon de verosimilitud se transforma a escala logaritmica De este modo los valores que se obtienen representan como de frecuente es cada nucleotido en cada posicion respecto al azar Valores superiores a 0 indican una frecuencia mayor a la esperada por azar mientras que valores inferiores a 0 indican una frecuencia inferior a la esperada por azar Para la conversion del valor de A en la primera posicion se debe dividir el elemento de A en la posicion 1 de la matriz de frecuencias relativas 0 3 entre la probabilidad a priori de A 0 25 0 3 0 25 1 2 y posteriormente se transforma mediante el logaritmo neperiano ln 1 2 0 18 Este calculo se realiza para todos los valores de la matriz F y se obtiene la siguiente matriz M M ACGT 0 180 87 1 32 0 871 02 0 22 0 91 0 22 0 22 0 91 0 22 0 91 0 91 0 22 0 91 0 91 1 021 38 0 91 0 91 0 69 0 91 0 47 0 91 0 91 1 38 0 91 0 91 0 22 0 87 displaystyle M begin matrix A C G T end matrix begin bmatrix 0 18 amp 0 87 amp 1 32 amp infty amp infty amp 0 87 amp 1 02 amp 0 22 amp 0 91 0 22 amp 0 22 amp 0 91 amp infty amp infty amp 0 22 amp 0 91 amp 0 91 amp 0 22 0 91 amp 0 91 amp 1 02 amp 1 38 amp infty amp 0 91 amp 0 91 amp 0 69 amp 0 91 0 47 amp 0 91 amp 0 91 amp infty amp 1 38 amp 0 91 amp 0 91 amp 0 22 amp 0 87 end bmatrix nbsp 6 Comentario los valores entre parentesis son negativos aunque es posible que no se observen debido a un error de visualizacion Dado que se trata de una secuencia de nucleotidos se asume que la probabilidad esperada al azar es de 0 25 Sin embargo no siempre existe una distribucion uniforme en las unidades de k por ejemplo cuando se estudian organismos con una alta composicion de CG en este caso las probabilidades de C y G seran mayores que las de A y T Los valores resultantes de esta matriz permiten calcular una puntuacion para una secuencia determinada Esta puntuacion sera 0 cuando sea igual de probable encontrar dicha secuencia en la region funcional descrita por la matriz que en cualquier region aleatoria del genoma mayor que 0 cuando sea mas probable encontrar la secuencia en la region funcional que en una region aleatoria y menor que 0 cuando sea mas probable encontrar la secuencia en una region aleatoria que en la region funcional 6 Dada la secuencia S GAGGTAAAC su puntuacion se calcularia del siguiente modo p 0 91 0 87 1 02 1 38 0 87 1 02 0 22 0 22 5 19 displaystyle p 0 91 0 87 1 02 1 38 0 87 1 02 0 22 0 22 5 19 nbsp Se suman los coeficientes de la MPP correspondientes a cada nucleotido de cada posicion de la secuencia dada El resultado obtenido es mayor que 0 por lo que es mas probable encontrar la secuencia S en un lugar funcional real que en un lugar aleatorio del genoma Definicion matematica editar Mkj lnPkjPk displaystyle M kj ln frac P kj P k nbsp donde Mkj displaystyle M kj nbsp es la matriz de pesos posicionales Pkj displaystyle P kj nbsp es la matriz de frecuencias relativas o probabilidades y Pk displaystyle P k nbsp representa la probabilidad a priori o frecuencias esperadas de las unidades de k displaystyle k nbsp 0 25 para la secuencia de nucleotidos y 0 05 para la secuencia de aminoacidos si asumimos una distribucion uniforme Independencia estadistica editar Hay que tener en cuenta que todas las matrices asumen una independencia estadistica entre las posiciones del patron ya que los valores por cada posicion se han calculado independientemente del resto de posiciones Esto puede resultar una limitacion en algunos casos 7 y se podria rectificar mediante la construccion de matrices mas complejas anadiendo dimensiones adicionales que tengan en cuenta las posiciones adyacentes Pseudocalculos editarSi partimos de una muestra muy pequena de secuencias es muy comun que aparezcan 0 en la matriz de frecuencias absolutas lo cual nos lleva a 0 en la matriz de probabilidades y a displaystyle infty nbsp en la MPP Hay dos razones principales por las que podemos querer evitar estos valores Por un lado el hecho de que en una muestra pequena algunos nucleotidos no aparezcan en algunas posiciones puede ser debido al azar y asignarles una probabilidad de 0 puede resultar demasiado severo Por otro lado al usar estas matrices en algoritmos informaticos los valores displaystyle infty nbsp pueden resultar problematicos Un modo de evitar estas situaciones es mediante el uso de pseudocalculos Estos se anaden en el paso de la matriz de frecuencias absolutas a la matriz de frecuencias relativas Por cada valor de frecuencia absoluta se obtiene el valor de frecuencia relativa mediante la aplicacion de la siguiente formula pa i ca i B 4m B displaystyle p a i frac c a i B 4 m B nbsp en la cual pa i displaystyle p a i nbsp corresponde al valor de la matriz de frecuencias relativas o probabilidades ca i displaystyle c a i nbsp corresponde al valor de la matriz de frecuencias absolutas m displaystyle m nbsp corresponde al numero de secuencias y B displaystyle B nbsp corresponde al valor del pseudocalculo No hay un consenso sobre como escoger el valor de pseudocalculo mas adecuado Algunos de los metodos mas empleados son la regla de Laplace el uso de distribuciones de Dirichlet o el calculo de la raiz cuadrada del numero de secuencias en la muestra Por otro lado el estudio de Nishida et al concluyo que para el estudio de regiones de union para factores de transcripcion los pseudocalculos optimos eran aquellos cercanos a 1 o menores que 1 8 nbsp Ejemplo de un logo de secuenciasRepresentacion grafica editarLas matrices de pesos posicionales pueden representarse en forma de logos de secuencias los cuales se calculan empleando la formula de Shannon Esta formula calcula la informatividad es decir la cantidad de informacion contenida en cada posicion 9 Usos editarLas MPP se emplean de forma muy amplia para el analisis de secuencias de nucleotidos en ADN y ARN y de aminoacidos en proteinas 5 Estos analisis incluyen el modelaje o prediccion de los lugares de union de las proteinas y factores de transcripcion en el ADN las regiones de iniciacion de la transcripcion las regiones de splicing la identificacion de unidades transcripcionales en todo el genoma e incluso la medicion de sesgos en el uso de codones 5 10 Tambien se pueden utilizar en la discriminacion de proteinas con distintos tipos de plegamiento identificacion de sus distintas regiones funcionales y de los diferentes lugares de union entre otros 10 Las MPP ofrecen muchas ventajas como por ejemplo permiten una mayor precision a la hora de comparar secuencias lejanas alineadas y gracias a los patrones descritos por estas matrices se pueden identificar otras secuencias homologas y clasificarlas en subfamilias Ademas muchos metodos predictivos de secuencias resultan mas fiables si estan basados en un alineamiento multiple de secuencias como es el caso de las MPP 5 Algoritmos y bases de datos editar MATCHTM editar MatchTM es una herramienta basada en matrices de pesos posicionales para la busqueda de posibles regiones de union para factores de transcripcion en secuencias de DNA Esta herramienta emplea la libreria de matrices coleccionada en la base de datos TRANSFAC de forma que permite la busqueda de una variedad elevada de diferentes regiones de union de factores de transcripcion Adicionalmente se han implementado diversos conjuntos con valores limites optimizados en el sistema para proveer una variedad ampliada en la rigurosidad de los modos de busqueda 11 ModuleMaster editar ModuleMaster es un programa avanzado para encontrar patrones cis regulatorios en conjuntos de genes co expresados Es capaz de recuperar secuencias realizar escaneos matriciales de estas secuencias y finalmente buscar dichos patrones de regulacion cis Este programa es capaz de analizar secuencias regulatorias empleando bases de datos como Ensembl En este programa se ha implementado ademas el algoritmo de escaneo MatchTM 12 JASPAR editar JASPAR es una base de datos que posee perfiles de union de factores de transcripcion FT no redundantes guardados en matrices de frecuencias relativas de multiples especies eucariotas en 6 grupos taxonomicos Se encuentra en su octava actualizacion donde se ha expandido el numero de datos en un 18 13 PROSITE editar PROSITE es una base de datos que contiene entradas donde se describen dominios familias y regiones funcionales de las proteinas junto con patrones y perfiles asociados para su identificacion Esta base se complementa con ProRule que contiene una coleccion de reglas que permite incrementar el poder discriminatorio mediante la aportacion de informacion adicional de la funcionalidad y estructura de distintos aminoacidos Ambas bases de datos se emplean para la anotacion de dominios y caracteristicas de las entradas de UniProtKB Swiss Prot 14 MEME Suite editar MEME Suite no es una base de datos sino que se trata de un conjunto de herramientas de software para realizar analisis de secuencias basadas en motivos en proteinas ADN y ARN El centro de este conjunto de herramientas es el algoritmo MEME que permite encontrar motivos en colecciones de secuencias no alineadas Desde su descubrimiento en 1994 ha ido creciendo hasta ser empleado en mas de 9800 estudios publicados 15 Referencias editar a b c Stormo Gary D 1 de junio de 2013 Modeling the specificity of protein DNA interactions Quantitative Biology en ingles 1 2 115 130 ISSN 2095 4697 PMC 4101922 PMID 25045190 doi 10 1007 s40484 013 0012 4 Consultado el 19 de diciembre de 2020 a b Stormo Gary D Schneider Thomas D Gold Larry Ehrenfeucht Andrzej 11 de mayo de 1982 Use of the Perceptron algorithm to distinguish translational initiation sites in E coli Nucleic Acids Research en ingles 10 9 2997 3011 ISSN 0305 1048 PMC 320670 PMID 7048259 doi 10 1093 nar 10 9 2997 Consultado el 19 de diciembre de 2020 a b c Stormo G D 1 de enero de 2000 DNA binding sites representation and discovery Bioinformatics en ingles 16 1 16 23 ISSN 1367 4803 PMID 10812473 doi 10 1093 bioinformatics 16 1 16 Consultado el 19 de diciembre de 2020 Sinha S 15 de julio de 2006 On counting position weight matrix matches in a sequence with application to discriminative motif finding Bioinformatics 22 14 e454 e463 ISSN 1367 4803 doi 10 1093 bioinformatics btl227 Consultado el 20 de diciembre de 2020 a b c d Gromiha M Michael 2010 Protein Bioinformatics en ingles Elsevier pp 29 62 ISBN 978 81 312 2297 3 doi 10 1016 b978 8 1312 2297 3 50002 3 Consultado el 19 de diciembre de 2020 a b c d e Guigo Roderic An Introduction to Position Specific Scoring Matrices bioinformaticaupf crg eu Consultado el 19 de diciembre de 2020 Stormo Gary D 2015 09 DNA Motif Databases and Their Uses Current Protocols in Bioinformatics en ingles 51 1 ISSN 1934 3396 doi 10 1002 0471250953 bi0215s51 Consultado el 20 de diciembre de 2020 Nishida Keishin Frith Martin C Nakai Kenta 1 de febrero de 2009 Pseudocounts for transcription factor binding sites Nucleic Acids Research en ingles 37 3 939 944 ISSN 0305 1048 PMC 2647310 PMID 19106141 doi 10 1093 nar gkn1019 Consultado el 20 de diciembre de 2020 Schneider Thomas D Stephens R Michael 25 de octubre de 1990 Sequence logos a new way to display consensus sequences Nucleic Acids Research en ingles 18 20 6097 6100 ISSN 0305 1048 PMC 332411 PMID 2172928 doi 10 1093 nar 18 20 6097 Consultado el 20 de diciembre de 2020 a b Xia Xuhua 20 de noviembre de 2012 Position Weight Matrix Gibbs Sampler and the Associated Significance Tests in Motif Characterization and Prediction Scientifica en ingles doi 10 6064 2012 917540 Consultado el 20 de diciembre de 2020 Kel A E Gossling E Reuter I Cheremushkin E Kel Margoulis O V Wingender E 1 de julio de 2003 MATCHTM a tool for searching transcription factor binding sites in DNA sequences Nucleic Acids Research en ingles 31 13 3576 3579 ISSN 0305 1048 PMC 169193 PMID 12824369 doi 10 1093 nar gkg585 Consultado el 20 de diciembre de 2020 Wrzodek Clemens Schroder Adrian Drager Andreas Wanke Dierk Berendzen Kenneth W Kronfeld Marcel Harter Klaus Zell Andreas 2010 01 ModuleMaster A new tool to decipher transcriptional regulatory networks Biosystems en ingles 99 1 79 81 doi 10 1016 j biosystems 2009 09 005 Consultado el 20 de diciembre de 2020 Fornes Oriol Castro Mondragon Jaime A Khan Aziz van der Lee Robin Zhang Xi Richmond Phillip A Modi Bhavi P Correard Solenne et al 8 de enero de 2020 JASPAR 2020 update of the open access database of transcription factor binding profiles Nucleic Acids Research en ingles 48 D1 D87 D92 ISSN 0305 1048 PMC 7145627 PMID 31701148 doi 10 1093 nar gkz1001 Consultado el 20 de diciembre de 2020 Se sugiere usar numero autores ayuda Sigrist Christian J A de Castro Edouard Cerutti Lorenzo Cuche Beatrice A Hulo Nicolas Bridge Alan Bougueleret Lydie Xenarios Ioannis 1 de enero de 2013 New and continuing developments at PROSITE Nucleic Acids Research en ingles 41 D1 D344 D347 ISSN 0305 1048 PMC 3531220 PMID 23161676 doi 10 1093 nar gks1067 Consultado el 20 de diciembre de 2020 Bailey Timothy L Johnson James Grant Charles E Noble William S 1 de julio de 2015 The MEME Suite Nucleic Acids Research en ingles 43 W1 W39 W49 ISSN 0305 1048 PMC 4489269 PMID 25953851 doi 10 1093 nar gkv416 Consultado el 20 de diciembre de 2020 Enlaces externos editarMatchTM tool version publica http www gene regulation com pub programs html match ModuleMaster http www ra cs unituebingen de software ModuleMaster JASPAR database http jaspar genereg net PROSITE database http prosite expasy org MEME Suite http meme suite org nbsp Datos Q7233183 Obtenido de https es wikipedia org w index php title Matriz de pesos posicionales amp oldid 154466720, wikipedia, wiki, leyendo, leer, libro, biblioteca,

español

, española, descargar, gratis, descargar gratis, mp3, video, mp4, 3gp, jpg, jpeg, gif, png, imagen, música, canción, película, libro, juego, juegos