fbpx
Wikipedia

Traducción automática basada en el contexto

Traducción Automática Basada en el Contexto o Context-Based Machine Translation (CMBT) és una técnica de traducción automática desarrollada por la empresa Meaningful Machines.

Hasta hace poco el mundo de la traducción automática se ha desarrollado en dos vías principales: las basadas en estadística y el texto paralelo y las basadas en reglas. No obstante, recientemente han aparecido nuevas ideas dispuestas a revolucionar esta área, como la explicada aquí.

Esta técnica difiere de otros métodos en que no precisa ni de reglas ni de texto paralelo para hacer la traducción. Además CMBT ofrece dos ventajas importantes derivadas de su funcionamiento: una mayor precisión debida al mayor uso de la palabra en un determinado contexto, y una mayor facilidad de adición de pares de idiomas debido a la facilidad para incorporar una cantidad ingente de texto en el idioma destino (con otras técnicas se precisan los servicios de un lingüista).

Descripción del proceso

Introducción

La idea básica consiste en ir cogiendo grupos de palabras de cierta longitud N (entre 4 y 8) y buscar todas las posibles traducciones mediante un diccionario bilingüe de gran capacidad. De esas posibilidades se seleccionan las que más sentido tienen. Repitiendo el proceso (cogiendo de la segunda palabra hasta la (N+1)-ésima) se obtiene un nuevo conjunto de traducciones. Es aquí donde, buscando coincidencias entre este último conjunto y el anterior, se obtiene una traducción sensible al contexto.

Preproceso

Lo primero que debe hacerse es disponer del diccionario bilingüe y del corpus monolingüe del lenguaje destino.

Para completar el primero se usa un diccionario comercial cualquiera más algunas reglas morfológicas básicas (número, género, conjugaciones, etc). Para la obtención del segundo se hace una recolección masiva de texto procedente de Internet.

Generación de posibles traducciones y filtro

Las traducciones se generan en grupos de N palabras seguidas del texto de origen. Estas traducciones se crean sustituyendo cada una de las N palabras por cada una de sus respectivas en el idioma destino gracias al diccionario bilingüe. Este proceso, también conocido como "flooding", produce un gran número de combinaciones, las cuales han de ser filtradas según tengan o no sentido alguno.

El filtrado de las traducciones se realiza buscando el mayor número de coincidencias con frases del corpus del lenguaje destino. Es de suponer, pues, que solo se seleccionarán frases idénticas o muy similares a las del corpus, las cuales evidentemente tendrán sentido.

El proceso se repite moviendo la ventana de las N palabras a traducir. Así pues, primero se obtienen las traducciones posibles de las N primeras palabras, después de la segunda a la N+1, de la tercera a la N+3, etc.

Contextualización

En este punto, disponemos de varios grupos de posibles traducciones (uno por ventana), las cuales parten de grupos de N palabras del texto original que incluyen solapamientos entre ellos (ya que la ventana se mueve de palabra en palabra). Para decidir cual es la mejor opción de cada grupo, y en consiguiente la mejor traducción final, se comparan mediante solapamientos (overlapping) cada posible traducción de un grupo con las de los grupos con ventanas anteriores y posteriores, y se escogen las que maximizan el número de coincidencias de palabras individuales.

Generación y uso de sinónimos

Si a la hora de traducir una palabra en la fase anterior se han producido fallos parciales o totales de overlapping, es decir que hay una o más palabras sin coincidencias, o si no aparece en el diccionario bilingüe, se recurre a la generación de palabras sinónimas.

En el primer caso, para cada posible traducción de un grupo, se aíslan los contextos (las palabras anteriores y las palabras posteriores) de la palabra en cuestión y se sustituye esta por todas las palabras del corpus que puedan coincidir en ese contexto. Estos sinónimos pueden ser clasificados según su número de apariciones en el corpus.

En el segundo caso es cuando puede venir bien el disponer de un corpus del idioma origen de la traducción, pero dado que solo va a ser utilizado en esta parte, no es necesario que sea tan amplio como el del idioma destino. La búsqueda de sinónimos es entonces análoga a la del primer caso, buscando las palabras del corpus que puedan tener el mismo contexto.

Fijación del borde

Con los procesos anteriormente descritos aseguramos una correcta traducción en el interior de las frases, puesto que con la aplicación de los solapamientos aseguramos que la parte intermedia de la traducción es la mejor por coincidencia en la repetición, pero si nos fijamos, hay ciertas zonas en las que, debido al movimiento de la ventana, solamente confirmamos una o muy pocas veces, lo que puede provocar que la traducción pierda calidad en ese punto. Estas zonas concretas son el principio y el final de las frases, los llamados bordes de la frase.

Para evitar posibles pérdidas de calidad en la traducción debido a este hecho, se provee de un proceso de reconfirmación buscando otras oraciones en el idioma fuente en las cuales el principio de la ventana que se está analizando aparece en el interior de dichas oraciones.

Mediante el análisis "flooding" con las frases originales y las palabras contextualizadas, podemos asegurar que sea cual sea la traducción seleccionada es consistente con el contexto, bien sea escogiendo aquellas traducciones que hayan obtenido una mayor coincidencia o aquellas que a pesar de tener menor coincidencia satisfacen más criterios.

Así pues, el mismo proceso es el usado con los finales de frase, y puede ser aplicado a cortes estructurales de la escritura, como por ejemplo frases que rodean comas u otros signos de puntuación.

Con este paso añadimos también, de la misma forma que con el interior de las frases, la confirmación para los extremos tanto inicial como final de la frase, redondeando así la calidad de la traducción de la frase completa.

Calidad de las traducciones

La calidad de las traducciones se evalúa con la BLEU Metric (BiLingual Evaluation Understudy). Es uno de los métodos más utilizados para este propósito, que reconoce la calidad de la traducción de una lengua a otra, existiendo una gran correlación entre este factor y la opinión que daría un experto. La evaluación se basa en la idea de que cuanto más se parece la traducción a una realizada por lingüistas profesionales mejor es. Se evalúa sobre 1, considerándose que la puntuación de un traductor humano está entre el 0.7 y el 0.85.

Las pruebas realizadas con este sistema comparando los resultados de las mismas traducciones de CBMT con los de SYSTRAN y SDL. En ellas CBMT consiguió en junio de 2006 un 0.6462 en una traducción del Español al Inglés, usando el sistema prototipo, aún con los recursos incompletos (versión 1.0 del diccionario y solo 52GB de texto indexado).

Para el mismo conjunto de pruebas, SDL obtuvo un 0.5610 y SYSTRAN 0.5551.

En una versión en pruebas más actual CBMT obtuvo un 0.6950. Usando un conjunto de recursos mayor, con un corpus aumentado a partir de texto de la Web y mejorando el diccionario (sin hacer trampas, sin adaptarlo al conjunto de pruebas) añadiendo out-of-vocabulary words (OOV), palabras que por cualquier motivo no aparecen en un diccionario (nombres propios, neologismos...)

Para aportar más referencias sobre la puntuación obtenida en BLEU metric, aunque la comparación no sea muy justa debido a las dificultades de dichos lenguajes, aquí están las puntuaciones que sacó Google en sus pruebas publicadas en el 2005: 0.5137 (Árabe-Inglés) y 0.3531 (Chino-Inglés).

Ejemplos

Como todo sistema de traducción automática, en la práctica se encuentran casos donde un sistema u otro tienen mayor éxito. En este caso se compara CBMT con SYSTRAN:

Entrada 1: Un coche bomba estalla junto a una comisaría de policía en Bagdad
  • CBMT: a car bomb explodes next to a police station in baghdad
  • SYSTRAN: A car pump explodes next to a police station of police in Bagdad
Entrada 2: Hamas anunció este jueves el fin de su cese del fuego con Israel
  • CBMT: hamas announced thursday the end of the cease fire with Israel
  • SYSTRAN: Hamas announced east Thursday the aim of its cease fire with Israel
Entrada 3: Un soldado de Estados Unidos murió y otros dos resultaron heridos este lunes por el estallido de un artefacto explosivo improvisado en el centro de Bagdad, dijeron funcionarios militares estadounidenses
  • CBMT: a united states soldier died and two others were injured monday by the explosion of an improvised explosive device in the heart of baghdad, american military officials said
  • SYSTRAN: A soldier of the wounded United States died and other two were east Monday by the outbreak from an improvised explosive device in the center of Bagdad, said American mili-tary civil employees

Véase también

Enlaces externos

    • Artículo "Me Translate Pretty One Day" de la revista Wired
    •   Datos: Q9089419

    traducción, automática, basada, contexto, traducción, automática, basada, contexto, context, based, machine, translation, cmbt, técnica, traducción, automática, desarrollada, empresa, meaningful, machines, hasta, hace, poco, mundo, traducción, automática, desa. Traduccion Automatica Basada en el Contexto o Context Based Machine Translation CMBT es una tecnica de traduccion automatica desarrollada por la empresa Meaningful Machines Hasta hace poco el mundo de la traduccion automatica se ha desarrollado en dos vias principales las basadas en estadistica y el texto paralelo y las basadas en reglas No obstante recientemente han aparecido nuevas ideas dispuestas a revolucionar esta area como la explicada aqui Esta tecnica difiere de otros metodos en que no precisa ni de reglas ni de texto paralelo para hacer la traduccion Ademas CMBT ofrece dos ventajas importantes derivadas de su funcionamiento una mayor precision debida al mayor uso de la palabra en un determinado contexto y una mayor facilidad de adicion de pares de idiomas debido a la facilidad para incorporar una cantidad ingente de texto en el idioma destino con otras tecnicas se precisan los servicios de un linguista Indice 1 Descripcion del proceso 1 1 Introduccion 1 2 Preproceso 1 3 Generacion de posibles traducciones y filtro 1 4 Contextualizacion 1 5 Generacion y uso de sinonimos 1 6 Fijacion del borde 2 Calidad de las traducciones 3 Ejemplos 4 Vease tambien 5 Enlaces externosDescripcion del proceso EditarIntroduccion Editar La idea basica consiste en ir cogiendo grupos de palabras de cierta longitud N entre 4 y 8 y buscar todas las posibles traducciones mediante un diccionario bilingue de gran capacidad De esas posibilidades se seleccionan las que mas sentido tienen Repitiendo el proceso cogiendo de la segunda palabra hasta la N 1 esima se obtiene un nuevo conjunto de traducciones Es aqui donde buscando coincidencias entre este ultimo conjunto y el anterior se obtiene una traduccion sensible al contexto Preproceso Editar Lo primero que debe hacerse es disponer del diccionario bilingue y del corpus monolingue del lenguaje destino Para completar el primero se usa un diccionario comercial cualquiera mas algunas reglas morfologicas basicas numero genero conjugaciones etc Para la obtencion del segundo se hace una recoleccion masiva de texto procedente de Internet Generacion de posibles traducciones y filtro Editar Las traducciones se generan en grupos de N palabras seguidas del texto de origen Estas traducciones se crean sustituyendo cada una de las N palabras por cada una de sus respectivas en el idioma destino gracias al diccionario bilingue Este proceso tambien conocido como flooding produce un gran numero de combinaciones las cuales han de ser filtradas segun tengan o no sentido alguno El filtrado de las traducciones se realiza buscando el mayor numero de coincidencias con frases del corpus del lenguaje destino Es de suponer pues que solo se seleccionaran frases identicas o muy similares a las del corpus las cuales evidentemente tendran sentido El proceso se repite moviendo la ventana de las N palabras a traducir Asi pues primero se obtienen las traducciones posibles de las N primeras palabras despues de la segunda a la N 1 de la tercera a la N 3 etc Contextualizacion Editar En este punto disponemos de varios grupos de posibles traducciones uno por ventana las cuales parten de grupos de N palabras del texto original que incluyen solapamientos entre ellos ya que la ventana se mueve de palabra en palabra Para decidir cual es la mejor opcion de cada grupo y en consiguiente la mejor traduccion final se comparan mediante solapamientos overlapping cada posible traduccion de un grupo con las de los grupos con ventanas anteriores y posteriores y se escogen las que maximizan el numero de coincidencias de palabras individuales Generacion y uso de sinonimos Editar Si a la hora de traducir una palabra en la fase anterior se han producido fallos parciales o totales de overlapping es decir que hay una o mas palabras sin coincidencias o si no aparece en el diccionario bilingue se recurre a la generacion de palabras sinonimas En el primer caso para cada posible traduccion de un grupo se aislan los contextos las palabras anteriores y las palabras posteriores de la palabra en cuestion y se sustituye esta por todas las palabras del corpus que puedan coincidir en ese contexto Estos sinonimos pueden ser clasificados segun su numero de apariciones en el corpus En el segundo caso es cuando puede venir bien el disponer de un corpus del idioma origen de la traduccion pero dado que solo va a ser utilizado en esta parte no es necesario que sea tan amplio como el del idioma destino La busqueda de sinonimos es entonces analoga a la del primer caso buscando las palabras del corpus que puedan tener el mismo contexto Fijacion del borde Editar Con los procesos anteriormente descritos aseguramos una correcta traduccion en el interior de las frases puesto que con la aplicacion de los solapamientos aseguramos que la parte intermedia de la traduccion es la mejor por coincidencia en la repeticion pero si nos fijamos hay ciertas zonas en las que debido al movimiento de la ventana solamente confirmamos una o muy pocas veces lo que puede provocar que la traduccion pierda calidad en ese punto Estas zonas concretas son el principio y el final de las frases los llamados bordes de la frase Para evitar posibles perdidas de calidad en la traduccion debido a este hecho se provee de un proceso de reconfirmacion buscando otras oraciones en el idioma fuente en las cuales el principio de la ventana que se esta analizando aparece en el interior de dichas oraciones Mediante el analisis flooding con las frases originales y las palabras contextualizadas podemos asegurar que sea cual sea la traduccion seleccionada es consistente con el contexto bien sea escogiendo aquellas traducciones que hayan obtenido una mayor coincidencia o aquellas que a pesar de tener menor coincidencia satisfacen mas criterios Asi pues el mismo proceso es el usado con los finales de frase y puede ser aplicado a cortes estructurales de la escritura como por ejemplo frases que rodean comas u otros signos de puntuacion Con este paso anadimos tambien de la misma forma que con el interior de las frases la confirmacion para los extremos tanto inicial como final de la frase redondeando asi la calidad de la traduccion de la frase completa Calidad de las traducciones EditarLa calidad de las traducciones se evalua con la BLEU Metric BiLingual Evaluation Understudy Es uno de los metodos mas utilizados para este proposito que reconoce la calidad de la traduccion de una lengua a otra existiendo una gran correlacion entre este factor y la opinion que daria un experto La evaluacion se basa en la idea de que cuanto mas se parece la traduccion a una realizada por linguistas profesionales mejor es Se evalua sobre 1 considerandose que la puntuacion de un traductor humano esta entre el 0 7 y el 0 85 Las pruebas realizadas con este sistema comparando los resultados de las mismas traducciones de CBMT con los de SYSTRAN y SDL En ellas CBMT consiguio en junio de 2006 un 0 6462 en una traduccion del Espanol al Ingles usando el sistema prototipo aun con los recursos incompletos version 1 0 del diccionario y solo 52GB de texto indexado Para el mismo conjunto de pruebas SDL obtuvo un 0 5610 y SYSTRAN 0 5551 En una version en pruebas mas actual CBMT obtuvo un 0 6950 Usando un conjunto de recursos mayor con un corpus aumentado a partir de texto de la Web y mejorando el diccionario sin hacer trampas sin adaptarlo al conjunto de pruebas anadiendo out of vocabulary words OOV palabras que por cualquier motivo no aparecen en un diccionario nombres propios neologismos Para aportar mas referencias sobre la puntuacion obtenida en BLEU metric aunque la comparacion no sea muy justa debido a las dificultades de dichos lenguajes aqui estan las puntuaciones que saco Google en sus pruebas publicadas en el 2005 0 5137 Arabe Ingles y 0 3531 Chino Ingles Ejemplos EditarComo todo sistema de traduccion automatica en la practica se encuentran casos donde un sistema u otro tienen mayor exito En este caso se compara CBMT con SYSTRAN Entrada 1 Un coche bomba estalla junto a una comisaria de policia en BagdadCBMT a car bomb explodes next to a police station in baghdad SYSTRAN A car pump explodes next to a police station of police in Bagdad dd Entrada 2 Hamas anuncio este jueves el fin de su cese del fuego con IsraelCBMT hamas announced thursday the end of the cease fire with Israel SYSTRAN Hamas announced east Thursday the aim of its cease fire with Israel dd Entrada 3 Un soldado de Estados Unidos murio y otros dos resultaron heridos este lunes por el estallido de un artefacto explosivo improvisado en el centro de Bagdad dijeron funcionarios militares estadounidensesCBMT a united states soldier died and two others were injured monday by the explosion of an improvised explosive device in the heart of baghdad american military officials said SYSTRAN A soldier of the wounded United States died and other two were east Monday by the outbreak from an improvised explosive device in the center of Bagdad said American mili tary civil employees dd Vease tambien EditarTraduccion asistida Linguistica Inteligencia artificial Traduccion automatica mediante lenguaje intermedio Traduccion automatica estadisticaEnlaces externos EditarCBMT Paper de Meaningful MachinesArticulo Me Translate Pretty One Day de la revista Wired Datos Q9089419 Obtenido de https es wikipedia org w index php title Traduccion automatica basada en el contexto amp oldid 125215432, wikipedia, wiki, leyendo, leer, libro, biblioteca,

    español

    , española, descargar, gratis, descargar gratis, mp3, video, mp4, 3gp, jpg, jpeg, gif, png, imagen, música, canción, película, libro, juego, juegos