fbpx
Wikipedia

Gramática libre de contexto probabilística

Una gramática libre de contexto probabilística (GLCP) es una gramática libre de contexto en la cual cada regla tiene asignada una probabilidad. La probabilidad de un análisis sintáctico es el producto de las probabilidades de cada una de las reglas usadas en éste. De esta manera existen análisis que son más consistentes que otros. Las GLPC extienden las gramáticas libre de contextos de la misma manera que los modelos ocultos de Márkov extienden las gramáticas regulares. Las GLPC se utilizan en el procesamiento del lenguaje natural y en el estudio de moléculas de ARN dentro del campo de la Bioinformática. Las GLPC son una especialización de las gramática libres de contexto con pesos.

Técnicas

Una variante del algoritmo de CYK encuentra el camino de Viterbi de una frase dado una GLCP. El camino de Viterbi es el análisis más probable de una frase dada la GLCP.

Los algoritmos dentro-fuera son análogos al algoritmo de avance-retroceso. Pueden usarse para calcular la probabilidad total de todos los análisis consistente dada una frase, basándose en una GLCP. Esto es equivalente a la probabilidad de que una GLCP genere esa frase, e intuitivamente es una medida de cómo de consistente es la frase que es dada por la gramática.

Los algoritmos dentro-fuera pueden usarse también para calcular las probabilidades que una determinada producción sea usada en una análisis cualquiera de una frase. Esto es usado como una parte del algoritmo expectación-maximización para aprender las probabilidades de similitud máxima para una GLCP, basándose en un conjunto de frases de entrenamiento que la GLCP debe modelar. El algoritmo es análogo al usado en los modelos ocultos de Márkov.

Aplicaciones

Procesamiento del lenguaje natural

Las gramáticas libres de contexto fueron concebidas en un intento de modelar los lenguajes naturales, como los que utilizan normalmente los humanos. Otras investigaciones han extendido esta idea mediante el uso de las GLCP.

A continuación se muestra un ejemplo sencillo de una GLCP con 2 reglas. Cada regla es precedida por una probabilidad que refleja la frecuencia relativa de esta.

0.7 VP --> V NP
0.3 VP --> V NP NP

Dada esta gramática, podemos decir que el número de NPs esperados durante la derivación de VP es de 0.7 x 1 + 0.3 x 2 = 1.3. En concreto, algunos sistemas de reconocimiento del habla usan GLCP para mejorar las estimaciones de probabilidad y de este modo su ejecución.

Recientemente, las GLCP han jugado un papel decisivo en la explicación de la jerarquía de accesibilidad, la cual busca explicar por qué ciertas estructuras resultan más difícil de entender que otras.

Si se dispone de una medida probabilística de las construcciones más probables, entonces se puede calcular la entropía para estas construcciones. Si el aparato cognitivo para la sintaxis está basado en estas técnicas de la teoría de la información, entonces puede utilizarse herramientas similares a las GLCP.[1]

ARN

Las gramáticas libres de contexto son adecuadas para modelar las estructuras secundarias del ARN.[2][3]

Si consideramos la siguiente gramática, donde a,c,g,u representan nucleótidos y S es el símbolo inicial (el único no terminal):

S → aSu | cSg | gSc | uSa

Esta gramática simple representa una molécula de ARN que contiene dos regiones complementarias, en las cuales sólo las parejas de complementarios canónicos están permitidas (A-U y C-G).

Utilizando las GLCP es posible modelar los emparejamientos que son más o menos consistentes dentro de distintos patrones de una molécula de ARN. Las GLCP son usadas para clasificar los patrones en familias de genes de ARN, así como en la búsqueda de secuencias de genoma de probables miembros de estas familias. También son usadas para encontrar genes de ARN.

Referencias

  1. John Hale (2006). «Uncertainty About the Rest of the Sentence». Cognitive Science (Dept Linguistics, Michigan State University) 30: 643-672. doi:10.1207/s15516709cog0000_64. 
  2. Durbin, Eddy, Krogh, Mitchison, Biological sequence analysis, Cambridge University Press, 1998. Este libro sobre bioinformática incluye una introducción accesible sobre el uso de GLCPs para el modelado de ARN, además de la historia de esta aplicación hasta 1998.
  3. Sean R. Eddy and Richard Durbin (1994), "RNA sequence analysis using covariance models", Nucleic Acids Research, 22 (11): 2079-88. [1]
  • Elena Rivas and Sean R. Eddy (2001), "Noncoding RNA gene detection using comparative sequence analysis", BMC Bioinformatics, 2 (1): 8. [2]


Enlaces externos

  • Rfam Database
  •   Datos: Q2377216

gramática, libre, contexto, probabilística, gramática, libre, contexto, probabilística, glcp, gramática, libre, contexto, cual, cada, regla, tiene, asignada, probabilidad, probabilidad, análisis, sintáctico, producto, probabilidades, cada, reglas, usadas, éste. Una gramatica libre de contexto probabilistica GLCP es una gramatica libre de contexto en la cual cada regla tiene asignada una probabilidad La probabilidad de un analisis sintactico es el producto de las probabilidades de cada una de las reglas usadas en este De esta manera existen analisis que son mas consistentes que otros Las GLPC extienden las gramaticas libre de contextos de la misma manera que los modelos ocultos de Markov extienden las gramaticas regulares Las GLPC se utilizan en el procesamiento del lenguaje natural y en el estudio de moleculas de ARN dentro del campo de la Bioinformatica Las GLPC son una especializacion de las gramatica libres de contexto con pesos Indice 1 Tecnicas 2 Aplicaciones 2 1 Procesamiento del lenguaje natural 2 2 ARN 3 Referencias 4 Enlaces externosTecnicas EditarUna variante del algoritmo de CYK encuentra el camino de Viterbi de una frase dado una GLCP El camino de Viterbi es el analisis mas probable de una frase dada la GLCP Los algoritmos dentro fuera son analogos al algoritmo de avance retroceso Pueden usarse para calcular la probabilidad total de todos los analisis consistente dada una frase basandose en una GLCP Esto es equivalente a la probabilidad de que una GLCP genere esa frase e intuitivamente es una medida de como de consistente es la frase que es dada por la gramatica Los algoritmos dentro fuera pueden usarse tambien para calcular las probabilidades que una determinada produccion sea usada en una analisis cualquiera de una frase Esto es usado como una parte del algoritmo expectacion maximizacion para aprender las probabilidades de similitud maxima para una GLCP basandose en un conjunto de frases de entrenamiento que la GLCP debe modelar El algoritmo es analogo al usado en los modelos ocultos de Markov Aplicaciones EditarProcesamiento del lenguaje natural Editar Las gramaticas libres de contexto fueron concebidas en un intento de modelar los lenguajes naturales como los que utilizan normalmente los humanos Otras investigaciones han extendido esta idea mediante el uso de las GLCP A continuacion se muestra un ejemplo sencillo de una GLCP con 2 reglas Cada regla es precedida por una probabilidad que refleja la frecuencia relativa de esta 0 7 VP gt V NP 0 3 VP gt V NP NPDada esta gramatica podemos decir que el numero de NPs esperados durante la derivacion de VP es de 0 7 x 1 0 3 x 2 1 3 En concreto algunos sistemas de reconocimiento del habla usan GLCP para mejorar las estimaciones de probabilidad y de este modo su ejecucion Recientemente las GLCP han jugado un papel decisivo en la explicacion de la jerarquia de accesibilidad la cual busca explicar por que ciertas estructuras resultan mas dificil de entender que otras Si se dispone de una medida probabilistica de las construcciones mas probables entonces se puede calcular la entropia para estas construcciones Si el aparato cognitivo para la sintaxis esta basado en estas tecnicas de la teoria de la informacion entonces puede utilizarse herramientas similares a las GLCP 1 ARN Editar Las gramaticas libres de contexto son adecuadas para modelar las estructuras secundarias del ARN 2 3 Si consideramos la siguiente gramatica donde a c g u representan nucleotidos y S es el simbolo inicial el unico no terminal S aSu cSg gSc uSaEsta gramatica simple representa una molecula de ARN que contiene dos regiones complementarias en las cuales solo las parejas de complementarios canonicos estan permitidas A U y C G Utilizando las GLCP es posible modelar los emparejamientos que son mas o menos consistentes dentro de distintos patrones de una molecula de ARN Las GLCP son usadas para clasificar los patrones en familias de genes de ARN asi como en la busqueda de secuencias de genoma de probables miembros de estas familias Tambien son usadas para encontrar genes de ARN Referencias Editar John Hale 2006 Uncertainty About the Rest of the Sentence Cognitive Science Dept Linguistics Michigan State University 30 643 672 doi 10 1207 s15516709cog0000 64 Durbin Eddy Krogh Mitchison Biological sequence analysis Cambridge University Press 1998 Este libro sobre bioinformatica incluye una introduccion accesible sobre el uso de GLCPs para el modelado de ARN ademas de la historia de esta aplicacion hasta 1998 Sean R Eddy and Richard Durbin 1994 RNA sequence analysis using covariance models Nucleic Acids Research 22 11 2079 88 1 Elena Rivas and Sean R Eddy 2001 Noncoding RNA gene detection using comparative sequence analysis BMC Bioinformatics 2 1 8 2 Enlaces externos EditarRfam Database Datos Q2377216 Obtenido de https es wikipedia org w index php title Gramatica libre de contexto probabilistica amp oldid 144028889, wikipedia, wiki, leyendo, leer, libro, biblioteca,

español

, española, descargar, gratis, descargar gratis, mp3, video, mp4, 3gp, jpg, jpeg, gif, png, imagen, música, canción, película, libro, juego, juegos