fbpx
Wikipedia

Corpus lingüístico

Un corpus lingüístico es un conjunto amplio y estructurado de ejemplos reales de uso de la lengua. Estos ejemplos pueden obtenerse de textos escritos (los más comunes), o muestras orales (generalmente transcritas).[1]​ Los corpus pueden ser textuales, cuando compilan textos orales o escritos, o de referencia, cuando registran concordancias extraídas de textos. En español, un ejemplo de corpus de referencia es el Corpus Básico del Español de Chile.[2]

Un corpus lingüístico es un conjunto de textos relativamente grande, creado independientemente de sus posibles formas o usos. Es decir, en cuanto a su estructura, variedad y complejidad, un corpus debe reflejar una lengua, o su modalidad, de la forma más exacta posible; en cuanto a su uso, preocuparse de que su representación sea real. Los corpus[3]​ tienen similitudes con los textos porque están compuestos por ellos, por otro lado, no son textos en sí, porque a diferencia de los mismos, no tiene sentido analizarlos en su totalidad. Un texto tiene un principio y un fin, y es cohesivo y coherente en mayor o menor grado, mientras que un corpus carece de tales características por no poseer una estructura, sino sólo una composición. Por esta razón conviene analizar un corpus recurriendo a herramientas y metodología propias.

Debido a su tamaño, accesibilidad, información lingüística y enciclopédica, muy alta fiabilidad y otras particularidades, la compilación de los corpus ha llegado a ser uno de los principales, si no el principal, método e instrumento de la investigación de la lengua en la lingüística general.[4]

La necesidad de trabajar las muestras recogidas de forma eficaz y económica (teniendo en cuenta su enorme extensión), ha alentado el desarrollo de una de las ramas con más futuro de la lingüística contemporánea: la lingüística computacional. Actualmente los corpus se recogen y almacenan de manera electrónica.

Aplicación de los corpus

Los corpus lingüísticos se utilizan para hacer análisis estadísticos y contrastar hipótesis sobre el área que estudian. Este tipo de corpus cada vez cuenta con más partidarios, y gracias al estudio de la lengua que estos corpus ofrecen, algunos postulados lingüísticos que contaban con un gran respaldo dentro de la comunidad lingüística, han sido puestos en duda.[5]

Se llama lingüística de corpus a la subdisciplina de la lingüística que estudia la lengua a través de estas muestras. Este tipo de aproximación choca con el enfoque chomskiano que tiende a estudiar la lengua a través de la intuición lingüística del hablante. Esta subdisciplina, dado el volumen de datos que maneja, suele asociarse con la lingüística computacional, según esta última se acerca a las aplicaciones del procesamiento de lenguaje natural.

Esta disciplina se inició en 1967 cuando Henry Kucera y Nelson Francis publicaron el ahora clásico Computational Analysis of Present-Day American English (Análisis computacional del inglés estadounidense de la actualidad), a partir del corpus Brown, una compilación de inglés estadounidense de aproximadamente un millón de palabras seleccionadas de una amplia variedad de fuentes.

Criterios de clasificación

Grado de generalidad

El grado de generalidad de un corpus depende de la medida en que sus textos han sido seleccionados con respecto a las diversas variedades de una lengua. Los corpus especializados se orientan a una variedad lingüística particular (sublanguage) o a un dominio restringido (lenguaje periodístico, jurídico, médico, etc). Por este motivo tienen el grado mínimo de generalidad. Por otro lado, los textos de los corpus generales pertenecen a diferentes variedades lingüísticas y son seleccionados porque componen el cuadro descriptivo de la lengua en su totalidad. Se trata, por lo tanto, de corpus plurifuncionales que son a menudo usados como recursos de referencia a la hora de estudiar una lengua, por ejemplo como fuente de datos para la elaboración de un diccionario. Frecuentemente los corpus generales se componen o se pueden dividir en varios subcorpus, es decir subconjuntos de textos que pertenecen a una variedad particular.

Tamaño

El tamaño del corpus es determinado por el número de palabras que contiene el mismo corpus en el caso de los corpus de lengua escrita. En cambio, en los corpus de lengua hablada, se tiene en cuenta las horas de grabación. Podemos distinguir corpus cerrados y abiertos. El primero es la versión del corpus estándar tradicional, en el cual la cantidad de los textos y de las palabras viene ya prefijado en la fase inicial del proyecto. Los corpus cerrados son como una especie de fotografía de una lengua a través de los textos seleccionados, pero no son adaptados a seguir los cambios y la evolución que se da en una lengua como con su naturaleza intrínsecamente dinámica. Con el fin de superar este límite, John Sinclair propuso extender la noción tradicional de corpus a instrumento de observación lingüística. Los corpus cuya función es principalmente observar la lengua (monitor corpus) es un conjunto abierto de textos que cambia en el tiempo, ya que va introduciendo textos nuevos seleccionados conforme a los mismos criterios usados para elegir textos anteriores. Este tipo de corpus permite por ejemplo observar el carácter cambiante del léxico de la lengua en cuestión y por lo tanto puede ser usado en contextos lexicográficos como fuente de datos para los diccionarios actualizados.

Corpus representativo

Un corpus es representativo cuando tiene rasgos de todo el ámbito de la variabilidad y las propiedades de una lengua. Esto significa que un corpus debe proporcionar un modelo de las propiedades lingüísticas del lenguaje analizado de la manera más verosímil posible. De esta manera, debe ser posible aplicar los textos del corpus a una población entera.

Autenticidad

Es otra condición requerida para conseguir un corpus representativo. Los textos auténticos son aquellos que se han creado en condiciones de comunicación natural. Esto es especialmente cierto para el lenguaje hablado. Por ejemplo, los dramas, la poesía, los subtítulos de películas, etc. Son considerados fuentes de corpus no muy auténticas y demasiado específicas. Debido a la influencia inevitable por parte de la lengua de la versión original, en los corpus generales no se recogen las traducciones (sí en los corpus paralelos). Hay más problemas relacionados con la autenticidad, como la prescripción. Las muestras recogidas, por norma general, no se corrigen, no se acortan ni se cambian. Incluso los errores típicos en los periódicos y las revistas de la lengua inglesa se consideran valiosos en cierta manera. Ellos permiten darse cuenta de las regularidades, cómo se infringen las reglas de ortografía u otras normas formales y comprobar la dirección de las tendencias del desarrollo lingüístico.[6]

Equilibrio

Desde el surgimiento de los corpus se ha procurado crearlos de modo equilibrado, compuestos por diversas fuentes y siguiendo criterios claros. Sólo más tarde aparecieron corpus que empleaban todos los textos recogidos (corpus oportunistas). El equilibrio se consigue al establecer las proporciones de diferentes fuentes según ciertos criterios. Los criterios posibles son los siguientes:

  • Elitismo (las fuentes más válidas)
  • Legibilidad (best sellers, periodismo)
  • Indicadores demográficos (mayor variedad de autores)
  • Accesibilidad

En cuanto a la representatividad, la pregunta esencial es ¿qué es lo que debe reflejar un corpus? No basta sólo con decir que éste debe reflejar el idioma o su variabilidad, porque esta respuesta no es informativa. Por tanto conviene disgregar la composición en cuatro esferas de uso: el habla, la escritura, la audición y la lectura, y, además, tomar en cuenta el número de usuarios de cada esfera. Los corpus oportunistas y representativos a menudo se relacionan como etapas distintas de composición de un único corpus: al principio se crea un corpus representativo y luego, de acuerdo con ciertas proporciones, se seleccionan corpus para un corpus equilibrado.

Tipos de corpus

La tipología de los corpus

Los corpus lingüísticos se pueden dividir dependiendo del tipo de información que recojan.[7]​ Tipológicamente los corpus pueden ser subdivididos según

  • el canal comunicativo (corpus escritos y orales);
  • su forma de presentación y almacenamiento (textuales y multimodales, los últimos consistiendo en grabaciones del sonido, imagen y sus correspondientes transcripciones);
  • el número de lenguas representadas (mono-/bi- y multilingües, corpus paralelos);
  • la anotación de la lengua (no anotados y anotados morfológicamente, fonéticamente y sintácticamente);
  • el alcance (corpus generales y especializados);
  • su carácter de enfoque temporal sobre la lengua (sincrónicos y diacrónicos);[8]
    • El grado de finalización (finitos (estáticos) y continuos (dinámicos)).

Cabe mencionar que los distintos tipos de corpus no son exclusivos, puede darse el caso de que un único corpus reúna las características de dos de los tipos de corpus mencionados más abajo. A continuación aparecen algunos tipos explicados:

Corpus general

Contiene una gran variedad de ejemplos orales y escritos de la lengua que han sido producidos por gente de diversas edades, regiones y clases sociales. Un conocido ejemplo de este tipo de corpus es el British National Corpus.

Corpus especializado

Aunque existe polémica sobre si es necesario saber de antemano quién y cómo va a utilizar el corpus, cada vez es más notable la tendencia de crear corpus de tipo general y finalidades diversas, y no corpus especializados. Los últimos son de tamaño reducido, representan un área específica de la lengua y se codifican (se anotan) acudiendo directamente a las necesidades de investigadores particulares. Los compiladores de los corpus siguen “la póliza del texto limpio”: la versión original del corpus no se codifica, no se contamina con marcado de ningún tipo para que las necesidades de unos investigadores no obstruyan el trabajo de otros. Por tanto los corpus especializados y anotados normalmente se presentan como versiones separadas de los corpus globales.

Corpus sincrónico y corpus diacrónico

El corpus sincrónico contiene ejemplos lingüísticos recogidos en un único momento, es decir, en un tiempo determinado. Un ejemplo podría ser el corpus lingüístico del español de principios del siglo XIX. El corpus diacrónico recoge textos de diferentes épocas, como lo son por ejemplo los diferentes siglos. Se usa para ver como palabras desaparecen, están introducidas o cambian de significado.

Corpus finitos y continuos

Los corpus finitos enseñan el estado de la lengua en un momento dado. Son útiles cuando se comparan con otros corpus similares pero creados en otro momento en el tiempo o para otra lengua o dialecto. En los corpus continuos se puede aplicar filtros que recojan hechos lingüísticos nuevos. Normalmente están compuestos de textos enteros y no sus fragmentos y por eso no equilibrados. Sin embargo, la extensión de los mismos compensa el desequilibrio.

Corpus mono-/ bi- y multilingües

Corpus monolingües permiten investigaciones sobre una lengua, mientras que corpus bi- o multilingües recogen ejemplos de más de una. De los corpus multilingües se distinguen tres diferentes subtipos:

Corpus comparativos

Son corpus en los cuales los textos de las diferentes lenguas son comparables en tamaño y contenido, pero donde no todas las lenguas son apuntadas necesariamente con la misma precisión.

Corpus paralelos

Son corpus con los mismos textos en todas las lenguas anotadas. Un corpus paralelo famoso es la Biblia en todos los idiomas en los que está traducida.

Corpus alineados

Son corpus paralelos en los que no todas las lenguas tienen los mismos textos, sino que donde está anotado qué fragmento del texto corresponde a qué fragmento del texto en el otro idioma. Estas anotaciones se encuentran o a nivel de párrafo o bien a nivel de frases.

Corpus orales

Además del corpus escrito, existen también los corpus que recogen muestras de la lengua oral (diálogos, entrevistas, conferencias, etc.). En la mayoría de los casos, los fragmentos hablados van acompañados de transcripciones ortográficas o fonéticas.

La transcripción ortográfica más conocida es la subtitulación de películas, mientras que la transcripción fonética usa el alfabeto fonético.

La calidad de los corpus que recogen muestras de la lengua oral dependerá de la situación en la que se produce la comunicación: ruidos de fondo, errores a la hora de habla, vacilaciones y otros fenómenos propios de la oralidad se reflejarán en la transcripción, así como el volumen y la entonación.

Los corpus orales se utilizan para analizar las peculiaridades del discurso oral (en ese caso, se suele trabajar con corpus transcritos) y para el estudio del componente fónico (con las grabaciones).

Corpus de aprendices

Son conjuntos de datos producidos por aprendices de lenguas extranjeras, como por ejemplo ensayos escritos[9]​ o grabaciones.[10]

Treebanks

(Del inglés: 'banco de árbol') Corpus con anotaciones sintácticas. Se usan para la investigación y la instalación de programas de descomposición.

Véase también


Referencias

  1. Werner, Welte; Meno Blanco, Francisco (1985). Lingüística Moderna: Terminología y Bibliografía. Madrid: Gredos. p. 158. ISBN 84-249-1005-2. 
  2. Castillo Fadić, María Natalia (21 de diciembre de 2020). «Corpus Básico del Español de Chile ©: metodología de procesamiento y análisis». Lexis 44 (2): 483-523. ISSN 0254-9239. doi:10.18800/lexis.202002.004. Consultado el 8 de marzo de 2021. 
  3. Corpus es un sustantivo invariable en plural. No debe usarse corpora para formar el plural como en inglés o latín (Cf. Fundeu, 2016).
  4. Jurgita Mikelionienė. «KOMPIUTERINĖ LINGVISTIKA. Palyginamojo tekstyno kūrimo principai, problemos ir panaudojimo galimybės.». STUDIES ABOUT LANGUAGES. 2002. NO. 3. Consultado el 7 de abril de 2015. 
  5. Chantal Pérez Hernández. «El corpus en los estudios lingüísticos». Explotación de los corpus textuales informatizados para la creación de bases de datos terminológicas basadas en el conocimiento. Consultado el 6 de abril de 2015. 
  6. P. Kasparaitis. «Kompiuterinė lingvistika. Tekstynų lingvistika». 2005 05 04. Consultado el 7 de abril de 2015. 
  7. Friederike Müller and Birgit Waibe. «What types of corpora are there?». Corpus linguistics - an introduction. Consultado el 6 de abril de 2015. 
  8. Kompiuterinės lingvistikos centras. «TEKSTYNŲ LINGVISTIKA IR LIETUVIŲ KALBOS TEKSTYNAS». Lituanistika 1997, Nr 1(29), P. 58-78. Consultado el 7 de abril de 2015. 
  9. Lozano. «Learner corpora as a research tool for the investigation of lexical competence in L2 Spanish». Journal of Spanish Language Teaching 2 (2): 180-193. doi:10.1080/23247797.2015.1104035. 
  10. Carranza; Cucchiarini; Llisterri; Machuca; Ríos (2014). «A corpus-based study of Spanish L2 mispronunciations by Japanese speakers». Edulearn14 Proceedings. 6th International Conference on Education and New Learning Technologies (València: IATED). 

Enlaces externos

  • Real Academia Española - Corpus de Referencia del Español Actual (CREA)
  • Corpus del Español
  •   Datos: Q461183
  •   Multimedia: Text corpus

corpus, lingüístico, corpus, lingüístico, conjunto, amplio, estructurado, ejemplos, reales, lengua, estos, ejemplos, pueden, obtenerse, textos, escritos, más, comunes, muestras, orales, generalmente, transcritas, corpus, pueden, textuales, cuando, compilan, te. Un corpus linguistico es un conjunto amplio y estructurado de ejemplos reales de uso de la lengua Estos ejemplos pueden obtenerse de textos escritos los mas comunes o muestras orales generalmente transcritas 1 Los corpus pueden ser textuales cuando compilan textos orales o escritos o de referencia cuando registran concordancias extraidas de textos En espanol un ejemplo de corpus de referencia es el Corpus Basico del Espanol de Chile 2 Un corpus linguistico es un conjunto de textos relativamente grande creado independientemente de sus posibles formas o usos Es decir en cuanto a su estructura variedad y complejidad un corpus debe reflejar una lengua o su modalidad de la forma mas exacta posible en cuanto a su uso preocuparse de que su representacion sea real Los corpus 3 tienen similitudes con los textos porque estan compuestos por ellos por otro lado no son textos en si porque a diferencia de los mismos no tiene sentido analizarlos en su totalidad Un texto tiene un principio y un fin y es cohesivo y coherente en mayor o menor grado mientras que un corpus carece de tales caracteristicas por no poseer una estructura sino solo una composicion Por esta razon conviene analizar un corpus recurriendo a herramientas y metodologia propias Debido a su tamano accesibilidad informacion linguistica y enciclopedica muy alta fiabilidad y otras particularidades la compilacion de los corpus ha llegado a ser uno de los principales si no el principal metodo e instrumento de la investigacion de la lengua en la linguistica general 4 La necesidad de trabajar las muestras recogidas de forma eficaz y economica teniendo en cuenta su enorme extension ha alentado el desarrollo de una de las ramas con mas futuro de la linguistica contemporanea la linguistica computacional Actualmente los corpus se recogen y almacenan de manera electronica Indice 1 Aplicacion de los corpus 2 Criterios de clasificacion 2 1 Grado de generalidad 2 2 Tamano 2 3 Corpus representativo 2 4 Autenticidad 2 5 Equilibrio 3 Tipos de corpus 3 1 La tipologia de los corpus 3 1 1 Corpus general 3 1 2 Corpus especializado 3 1 3 Corpus sincronico y corpus diacronico 3 1 3 1 Corpus finitos y continuos 3 1 4 Corpus mono bi y multilingues 3 1 4 1 Corpus comparativos 3 1 4 2 Corpus paralelos 3 1 4 3 Corpus alineados 3 1 5 Corpus orales 3 1 6 Corpus de aprendices 3 1 7 Treebanks 4 Vease tambien 5 Referencias 6 Enlaces externosAplicacion de los corpus EditarLos corpus linguisticos se utilizan para hacer analisis estadisticos y contrastar hipotesis sobre el area que estudian Este tipo de corpus cada vez cuenta con mas partidarios y gracias al estudio de la lengua que estos corpus ofrecen algunos postulados linguisticos que contaban con un gran respaldo dentro de la comunidad linguistica han sido puestos en duda 5 Se llama linguistica de corpus a la subdisciplina de la linguistica que estudia la lengua a traves de estas muestras Este tipo de aproximacion choca con el enfoque chomskiano que tiende a estudiar la lengua a traves de la intuicion linguistica del hablante Esta subdisciplina dado el volumen de datos que maneja suele asociarse con la linguistica computacional segun esta ultima se acerca a las aplicaciones del procesamiento de lenguaje natural Esta disciplina se inicio en 1967 cuando Henry Kucera y Nelson Francis publicaron el ahora clasico Computational Analysis of Present Day American English Analisis computacional del ingles estadounidense de la actualidad a partir del corpus Brown una compilacion de ingles estadounidense de aproximadamente un millon de palabras seleccionadas de una amplia variedad de fuentes Criterios de clasificacion EditarGrado de generalidad Editar El grado de generalidad de un corpus depende de la medida en que sus textos han sido seleccionados con respecto a las diversas variedades de una lengua Los corpus especializados se orientan a una variedad linguistica particular sublanguage o a un dominio restringido lenguaje periodistico juridico medico etc Por este motivo tienen el grado minimo de generalidad Por otro lado los textos de los corpus generales pertenecen a diferentes variedades linguisticas y son seleccionados porque componen el cuadro descriptivo de la lengua en su totalidad Se trata por lo tanto de corpus plurifuncionales que son a menudo usados como recursos de referencia a la hora de estudiar una lengua por ejemplo como fuente de datos para la elaboracion de un diccionario Frecuentemente los corpus generales se componen o se pueden dividir en varios subcorpus es decir subconjuntos de textos que pertenecen a una variedad particular Tamano Editar El tamano del corpus es determinado por el numero de palabras que contiene el mismo corpus en el caso de los corpus de lengua escrita En cambio en los corpus de lengua hablada se tiene en cuenta las horas de grabacion Podemos distinguir corpus cerrados y abiertos El primero es la version del corpus estandar tradicional en el cual la cantidad de los textos y de las palabras viene ya prefijado en la fase inicial del proyecto Los corpus cerrados son como una especie de fotografia de una lengua a traves de los textos seleccionados pero no son adaptados a seguir los cambios y la evolucion que se da en una lengua como con su naturaleza intrinsecamente dinamica Con el fin de superar este limite John Sinclair propuso extender la nocion tradicional de corpus a instrumento de observacion linguistica Los corpus cuya funcion es principalmente observar la lengua monitor corpus es un conjunto abierto de textos que cambia en el tiempo ya que va introduciendo textos nuevos seleccionados conforme a los mismos criterios usados para elegir textos anteriores Este tipo de corpus permite por ejemplo observar el caracter cambiante del lexico de la lengua en cuestion y por lo tanto puede ser usado en contextos lexicograficos como fuente de datos para los diccionarios actualizados Corpus representativo Editar Un corpus es representativo cuando tiene rasgos de todo el ambito de la variabilidad y las propiedades de una lengua Esto significa que un corpus debe proporcionar un modelo de las propiedades linguisticas del lenguaje analizado de la manera mas verosimil posible De esta manera debe ser posible aplicar los textos del corpus a una poblacion entera Autenticidad Editar Es otra condicion requerida para conseguir un corpus representativo Los textos autenticos son aquellos que se han creado en condiciones de comunicacion natural Esto es especialmente cierto para el lenguaje hablado Por ejemplo los dramas la poesia los subtitulos de peliculas etc Son considerados fuentes de corpus no muy autenticas y demasiado especificas Debido a la influencia inevitable por parte de la lengua de la version original en los corpus generales no se recogen las traducciones si en los corpus paralelos Hay mas problemas relacionados con la autenticidad como la prescripcion Las muestras recogidas por norma general no se corrigen no se acortan ni se cambian Incluso los errores tipicos en los periodicos y las revistas de la lengua inglesa se consideran valiosos en cierta manera Ellos permiten darse cuenta de las regularidades como se infringen las reglas de ortografia u otras normas formales y comprobar la direccion de las tendencias del desarrollo linguistico 6 Equilibrio Editar Desde el surgimiento de los corpus se ha procurado crearlos de modo equilibrado compuestos por diversas fuentes y siguiendo criterios claros Solo mas tarde aparecieron corpus que empleaban todos los textos recogidos corpus oportunistas El equilibrio se consigue al establecer las proporciones de diferentes fuentes segun ciertos criterios Los criterios posibles son los siguientes Elitismo las fuentes mas validas Legibilidad best sellers periodismo Indicadores demograficos mayor variedad de autores AccesibilidadEn cuanto a la representatividad la pregunta esencial es que es lo que debe reflejar un corpus No basta solo con decir que este debe reflejar el idioma o su variabilidad porque esta respuesta no es informativa Por tanto conviene disgregar la composicion en cuatro esferas de uso el habla la escritura la audicion y la lectura y ademas tomar en cuenta el numero de usuarios de cada esfera Los corpus oportunistas y representativos a menudo se relacionan como etapas distintas de composicion de un unico corpus al principio se crea un corpus representativo y luego de acuerdo con ciertas proporciones se seleccionan corpus para un corpus equilibrado Tipos de corpus EditarLa tipologia de los corpus Editar Los corpus linguisticos se pueden dividir dependiendo del tipo de informacion que recojan 7 Tipologicamente los corpus pueden ser subdivididos segun el canal comunicativo corpus escritos y orales su forma de presentacion y almacenamiento textuales y multimodales los ultimos consistiendo en grabaciones del sonido imagen y sus correspondientes transcripciones el numero de lenguas representadas mono bi y multilingues corpus paralelos la anotacion de la lengua no anotados y anotados morfologicamente foneticamente y sintacticamente el alcance corpus generales y especializados su caracter de enfoque temporal sobre la lengua sincronicos y diacronicos 8 El grado de finalizacion finitos estaticos y continuos dinamicos Cabe mencionar que los distintos tipos de corpus no son exclusivos puede darse el caso de que un unico corpus reuna las caracteristicas de dos de los tipos de corpus mencionados mas abajo A continuacion aparecen algunos tipos explicados Corpus general Editar Contiene una gran variedad de ejemplos orales y escritos de la lengua que han sido producidos por gente de diversas edades regiones y clases sociales Un conocido ejemplo de este tipo de corpus es el British National Corpus Corpus especializado Editar Aunque existe polemica sobre si es necesario saber de antemano quien y como va a utilizar el corpus cada vez es mas notable la tendencia de crear corpus de tipo general y finalidades diversas y no corpus especializados Los ultimos son de tamano reducido representan un area especifica de la lengua y se codifican se anotan acudiendo directamente a las necesidades de investigadores particulares Los compiladores de los corpus siguen la poliza del texto limpio la version original del corpus no se codifica no se contamina con marcado de ningun tipo para que las necesidades de unos investigadores no obstruyan el trabajo de otros Por tanto los corpus especializados y anotados normalmente se presentan como versiones separadas de los corpus globales Corpus sincronico y corpus diacronico Editar El corpus sincronico contiene ejemplos linguisticos recogidos en un unico momento es decir en un tiempo determinado Un ejemplo podria ser el corpus linguistico del espanol de principios del siglo XIX El corpus diacronico recoge textos de diferentes epocas como lo son por ejemplo los diferentes siglos Se usa para ver como palabras desaparecen estan introducidas o cambian de significado Corpus finitos y continuos Editar Los corpus finitos ensenan el estado de la lengua en un momento dado Son utiles cuando se comparan con otros corpus similares pero creados en otro momento en el tiempo o para otra lengua o dialecto En los corpus continuos se puede aplicar filtros que recojan hechos linguisticos nuevos Normalmente estan compuestos de textos enteros y no sus fragmentos y por eso no equilibrados Sin embargo la extension de los mismos compensa el desequilibrio Corpus mono bi y multilingues Editar Corpus monolingues permiten investigaciones sobre una lengua mientras que corpus bi o multilingues recogen ejemplos de mas de una De los corpus multilingues se distinguen tres diferentes subtipos Corpus comparativos Editar Son corpus en los cuales los textos de las diferentes lenguas son comparables en tamano y contenido pero donde no todas las lenguas son apuntadas necesariamente con la misma precision Corpus paralelos Editar Son corpus con los mismos textos en todas las lenguas anotadas Un corpus paralelo famoso es la Biblia en todos los idiomas en los que esta traducida Corpus alineados Editar Son corpus paralelos en los que no todas las lenguas tienen los mismos textos sino que donde esta anotado que fragmento del texto corresponde a que fragmento del texto en el otro idioma Estas anotaciones se encuentran o a nivel de parrafo o bien a nivel de frases Corpus orales Editar Ademas del corpus escrito existen tambien los corpus que recogen muestras de la lengua oral dialogos entrevistas conferencias etc En la mayoria de los casos los fragmentos hablados van acompanados de transcripciones ortograficas o foneticas La transcripcion ortografica mas conocida es la subtitulacion de peliculas mientras que la transcripcion fonetica usa el alfabeto fonetico La calidad de los corpus que recogen muestras de la lengua oral dependera de la situacion en la que se produce la comunicacion ruidos de fondo errores a la hora de habla vacilaciones y otros fenomenos propios de la oralidad se reflejaran en la transcripcion asi como el volumen y la entonacion Los corpus orales se utilizan para analizar las peculiaridades del discurso oral en ese caso se suele trabajar con corpus transcritos y para el estudio del componente fonico con las grabaciones Corpus de aprendices Editar Son conjuntos de datos producidos por aprendices de lenguas extranjeras como por ejemplo ensayos escritos 9 o grabaciones 10 Treebanks Editar Del ingles banco de arbol Corpus con anotaciones sintacticas Se usan para la investigacion y la instalacion de programas de descomposicion Vease tambien EditarIngenieria linguistica Linguistica de corpus Memoria de traduccion Traduccion asistida Traduccion automatica Corpus of Contemporary American EnglishReferencias Editar Werner Welte Meno Blanco Francisco 1985 Linguistica Moderna Terminologia y Bibliografia Madrid Gredos p 158 ISBN 84 249 1005 2 Castillo Fadic Maria Natalia 21 de diciembre de 2020 Corpus Basico del Espanol de Chile c metodologia de procesamiento y analisis Lexis 44 2 483 523 ISSN 0254 9239 doi 10 18800 lexis 202002 004 Consultado el 8 de marzo de 2021 Corpus es un sustantivo invariable en plural No debe usarse corpora para formar el plural como en ingles o latin Cf Fundeu 2016 Jurgita Mikelioniene KOMPIUTERINĖ LINGVISTIKA Palyginamojo tekstyno kurimo principai problemos ir panaudojimo galimybes STUDIES ABOUT LANGUAGES 2002 NO 3 Consultado el 7 de abril de 2015 Chantal Perez Hernandez El corpus en los estudios linguisticos Explotacion de los corpus textuales informatizados para la creacion de bases de datos terminologicas basadas en el conocimiento Consultado el 6 de abril de 2015 P Kasparaitis Kompiuterine lingvistika Tekstynu lingvistika 2005 05 04 Consultado el 7 de abril de 2015 Friederike Muller and Birgit Waibe What types of corpora are there Corpus linguistics an introduction Consultado el 6 de abril de 2015 Kompiuterines lingvistikos centras TEKSTYNŲ LINGVISTIKA IR LIETUVIŲ KALBOS TEKSTYNAS Lituanistika 1997 Nr 1 29 P 58 78 Consultado el 7 de abril de 2015 Lozano Learner corpora as a research tool for the investigation of lexical competence in L2 Spanish Journal of Spanish Language Teaching 2 2 180 193 doi 10 1080 23247797 2015 1104035 Carranza Cucchiarini Llisterri Machuca Rios 2014 A corpus based study of Spanish L2 mispronunciations by Japanese speakers Edulearn14 Proceedings 6th International Conference on Education and New Learning Technologies Valencia IATED Enlaces externos EditarReal Academia Espanola Corpus de Referencia del Espanol Actual CREA Corpus del Espanol Datos Q461183 Multimedia Text corpusObtenido de https es wikipedia org w index php title Corpus linguistico amp oldid 135734213, wikipedia, wiki, leyendo, leer, libro, biblioteca,

español

, española, descargar, gratis, descargar gratis, mp3, video, mp4, 3gp, jpg, jpeg, gif, png, imagen, música, canción, película, libro, juego, juegos