fbpx
Wikipedia

TreeBank

TreeBank (denominado también como Corpus parseado o más ampliamente Penn Treebank) es un corpus lingüístico en el que cada frase ha sido parseada, es decir anotada con su estructura sintáctica. La estructura sintáctica se ha representado generalmente como una estructura arbórea que recibe la denominación de TreeBank.[1]​ En la mayoría de los casos se ha empleado etiquetado gramatical. La denominación alternativa corpus parseado se emplea a menudo con el Treebank: realizando énfasis en la primacía de las frases en lugar de las estructuras arbóreas. Los corpus Treebanks se pueden crear a mano mediante un grupo de lingüistas que anotan cada frase con una estructura sintáctica, o mediante procedimientos semi-automáticos, donde un analizador sintáctico (parser) asigna la estructura bajo la supervisión de un lingüista. En la práctica, el completo control del parseado del lenguaje natural con el objeto de establecer diferentes corpus es una labor intensiva que dedica el tiempo de varios equipos de lingüistas, pudiendo alcanzar varios años.

Representación

Por ejemplo, el análisis sintáctico de la frase Víctor ama a María, puede ser representado de diversas formas, por ejemplo con un sistema anidado de paréntesis en el texto, como este (siguiendo la notación del ):

(S (NP (NNP Víctor)) (VP (VPZ ama) (PP (TO a) (NP (NNP María)))) (. .)) 

Esta representación es la más habitual y antigua, aunque desde comienzos del siglo XXI se han venido empleando anotaciones cada vez más complejas, siendo una de las posibles respresentaciones en XML.[2]​ En ella se puede ver como cada palabra se anota con su función sintáctica: nombre, verbo, adjetivo.

Usos

Una de las aplicaciones directas de los treebanks es el aprendizaje de gramáticas (inducción gramatical).[3]​ En analizadores fragmentales de texto (chunkers) capaces de separar las diversas frases de un texto. Estos analizadores se denominan a veces como "segmentación sintáctica básica".

Véase también

Referencias

  1. A. Abeillé, (2003), Treebanks: Building and Using Parsed Corpora, Kuwler Academic Publisher
  2. Ruslan Mitkov, (2004),The Oxford Handbook of Computational Linguistics, Oxford University Press
  3. Amparo Alcina,Esperanza Valero, (2009), Terminología y Sociedad del Conocimiento, Peter Lang AG

Referencias Externas

  • Linguistic Data Consortium - Disemina datos lingüísticos desde la década de los años ochenta. En una sección muestra el (inglés)
  • [UAM Treebank of Spanish] - Laboratorio de Lingüística Informática
  • RST Spanish Treebank
  •   Datos: Q811525

treebank, denominado, también, como, corpus, parseado, más, ampliamente, penn, treebank, corpus, lingüístico, cada, frase, sido, parseada, decir, anotada, estructura, sintáctica, estructura, sintáctica, representado, generalmente, como, estructura, arbórea, re. TreeBank denominado tambien como Corpus parseado o mas ampliamente Penn Treebank es un corpus linguistico en el que cada frase ha sido parseada es decir anotada con su estructura sintactica La estructura sintactica se ha representado generalmente como una estructura arborea que recibe la denominacion de TreeBank 1 En la mayoria de los casos se ha empleado etiquetado gramatical La denominacion alternativa corpus parseado se emplea a menudo con el Treebank realizando enfasis en la primacia de las frases en lugar de las estructuras arboreas Los corpus Treebanks se pueden crear a mano mediante un grupo de linguistas que anotan cada frase con una estructura sintactica o mediante procedimientos semi automaticos donde un analizador sintactico parser asigna la estructura bajo la supervision de un linguista En la practica el completo control del parseado del lenguaje natural con el objeto de establecer diferentes corpus es una labor intensiva que dedica el tiempo de varios equipos de linguistas pudiendo alcanzar varios anos Indice 1 Representacion 2 Usos 3 Vease tambien 4 Referencias 5 Referencias ExternasRepresentacion EditarPor ejemplo el analisis sintactico de la frase Victor ama a Maria puede ser representado de diversas formas por ejemplo con un sistema anidado de parentesis en el texto como este siguiendo la notacion del Penn Treebank S NP NNP Victor VP VPZ ama PP TO a NP NNP Maria Esta representacion es la mas habitual y antigua aunque desde comienzos del siglo XXI se han venido empleando anotaciones cada vez mas complejas siendo una de las posibles respresentaciones en XML 2 En ella se puede ver como cada palabra se anota con su funcion sintactica nombre verbo adjetivo Usos EditarUna de las aplicaciones directas de los treebanks es el aprendizaje de gramaticas induccion gramatical 3 En analizadores fragmentales de texto chunkers capaces de separar las diversas frases de un texto Estos analizadores se denominan a veces como segmentacion sintactica basica Vease tambien EditarEtiquetado gramaticalReferencias Editar A Abeille 2003 Treebanks Building and Using Parsed Corpora Kuwler Academic Publisher Ruslan Mitkov 2004 The Oxford Handbook of Computational Linguistics Oxford University Press Amparo Alcina Esperanza Valero 2009 Terminologia y Sociedad del Conocimiento Peter Lang AGReferencias Externas EditarLinguistic Data Consortium Disemina datos linguisticos desde la decada de los anos ochenta En una seccion muestra el trebank online ingles UAM Treebank of Spanish Laboratorio de Linguistica Informatica RST Spanish Treebank Datos Q811525 Obtenido de https es wikipedia org w index php title TreeBank amp oldid 117324320, wikipedia, wiki, leyendo, leer, libro, biblioteca,

español

, española, descargar, gratis, descargar gratis, mp3, video, mp4, 3gp, jpg, jpeg, gif, png, imagen, música, canción, película, libro, juego, juegos