fbpx
Wikipedia

Traducción automática estadística

La traducción automática estadística, designada a veces por las expresiones Stat MT o SMT (del inglés Statistical Machine Translation), es un paradigma de traducción automática donde se generan traducciones basadas en modelos estadísticos y de teoría de la información cuyos parámetros se obtienen del análisis de corpus de textos bilingües. El enfoque estadístico contrasta con los enfoques tradicionales como la traducción automática basada en reglas y la basada en ejemplos.

Las primeras ideas de la traducción automática estadística fueron introducidas por Warren Weaver en 1949 Tejedor,[1]​ incluyendo las ideas de la aplicación de la teoría de la información de Claude Shannon. La traducción automática estadística fue reintroducida en 1991 por investigadores de la Thomas J. Watson Research Center de IBM[2]​ y ha contribuido al resurgimiento significativo del interés por la traducción automática en los últimos años. Hasta 2016 fue, con mucho, el método de traducción automática más estudiado, siendo substituido por la aplicación de redes neuronales de traducción automática.

Ventajas sobre otros métodos

Los beneficios de la traducción estadística sobre la traducción tradicional son:

  • Un mejor uso de los recursos
    • Hay mucho lenguaje natural en formato legible para máquinas.
    • Generalmente, los sistemas SMT no están adaptados a ningún par específico de idiomas.
    • Los sistemas de traducción basada en reglas requieren un desarrollo manual de reglas lingüísticas, lo que puede ser costoso, y que a menudo no se generaliza a otros idiomas.
  • Traducciones más naturales

Bases

Las ideas que hay detrás de la traducción automática estadística vienen de la teoría de la información. Esencialmente, el documento se traduce en la probabilidad   de que una cadena   de la lengua nativa (por ejemplo, inglés) sea la traducción de una cadena   en la lengua extranjera (por ejemplo, francés). Generalmente, estas probabilidades se calculan utilizando técnicas de estimación de parámetros.

El Teorema de Bayes se aplica a  , la probabilidad de que la cadena del idioma extranjero produzca la cadena nativa para conseguir  , donde el modelo de traducción   es la probabilidad de que la cadena nativa sea la traducción de la cadena extranjera, y el modelo de lengua   es la probabilidad de ver aquella cadena nativa. Matemáticamente hablando, encontrar la mejor traducción   se consigue escogiendo aquella que dé la probabilidad más alta:

 .

Para una aplicación rigurosa de éste se tendría que realizar una búsqueda exhaustiva por pasar por todas las cadenas   en el idioma nativo. Realizar la búsqueda eficiente es el trabajo de una máquina de decodificación de traducción, que utiliza la cadena extranjera, heurísticas y otros métodos para limitar el espacio de búsqueda y, al mismo tiempo, mantener una calidad aceptable. Este compromiso entre calidad y tiempo de uso también se puede encontrar en la técnica de reconocimiento de voz.

Como los sistemas de traducción no son capaces de almacenar todas las cadenas nativas y sus traducciones, un documento se traduce típicamente frase por frase, pero ni siquiera esto es suficiente. Los modelos de lenguaje suelen aproximarse por modelos de alisado de n-grama y los enfoques similares se han aplicado a los modelos de traducción, pero existe una complejidad adicional debido a la longitud de frase y de diferentes órdenes de palabras en los idiomas.

Los modelos de traducción estadística estuvieron inicialmente basados en palabras, (Modelos 1-5 de IBM Ocultos de Markov Model de Stephan Vogel[3]​ y el Modelo 6 de Franz-Joseph Och[4]​), pero se lograron avances significativos con la introducción de frases, basada en modelos.[5]​ Un trabajo reciente ha incorporado sintaxis o estructuras cuasi-sintáctica.[6]

Breve historia

Las primeras ideas de traducción automática estadística fueron introducidas por Warren Weawer en 1949 (W. Weaver 1955), incluyendo las ideas de aplicar la teoría de la información de Claude Shannon. Su retorno a escena se produce en 1991, con el sistema CANDIDE, desarrollado por un grupo de investigadores del Thomas J. Watson Center de IBM en Nueva York (Brown et al. 1990). Tras el éxito logrado mediante técnicas estocásticas en el reconocimiento del habla, el grupo decidió probar suerte en la traducción. El enfoque se planteó desde el postulado de no usar información para el análisis y la generación que no fuera estadística. El experimento se realizó sobre el corpus Hansard de las Actas del Parlamento canadiense (unos tres millones de oraciones en inglés y francés). Primero se alinearon oraciones, grupos de palabras y palabras sueltas, para después calcular las probabilidades de que una palabra de una oración en una lengua se correspondiera con otras palabras en la traducción. Los resultados sorprendieron a los propios investigadores, ya que casi la mitad de las oraciones traducidas eran exactamente como las contenidas en el texto original o tenían el mismo sentido aunque con palabras distintas. El sistema no se llegó a comercializar, pero supuso un hito histórico en la reorientación de las investigaciones.

Entre las aportaciones más recientes cabe destacar la del grupo ISI de la University of Southern California, que desarrolla EGYPT, un paquete de software para construir sistemas basados en la estadística a partir de corpus bilingües.

Desde 2006, y hasta la publicación por parte de Google de su artículo académico y la consiguiente "fiebre neuronal" desde 2016, la traducción estadística fue el paradigma de traducción automática más estudiado.

Funcionamiento

Traducción basada en palabras (Word-Based translation)

En la traducción basada en palabras, la unidad esencial de la traducción es una palabra de una lengua natural. Normalmente, el número de palabras en frases traducidas son diferentes, por palabras compuestas, morfología y modismos. La relación de la longitud de las secuencias de palabras traducidas se llama fecundidad, que indica el número de palabras extranjeras que cada palabra nativa produce. Necesariamente se asume la teoría de la información, que nos dice que cada uno cubre el mismo concepto. En la práctica esto no es realmente verdad. Por ejemplo, la palabra inglesa corner puede ser traducida en español por rincón o bien por esquina, dependiendo de si es en el sentido de su ángulo interno o externo.

La traducción simple basada en palabras no se puede traducir entre lenguas de diferente origen. Sistemas de traducción basados en palabras relativamente simples pueden ser hechos para hacer frente a altas tasas de fecundidad, pero podrían asignar una sola palabra a varias palabras, pero no al revés[cita requerida]. Por ejemplo, si quisiéramos traducir del francés al Inglés, cada palabra en inglés podría producir cualquier cantidad de palabras francesas, y no al revés. No hay forma de agrupar dos palabras en inglés para producir una sola palabra francesa.

Un ejemplo de un sistema de traducción basado en la palabra es el paquete de distribución libre GIZA++ (actualmente de licencia GPL), que incluye el programa de entrenamiento para modelos de IBM y los modelos HMM y 6.[4]

La traducción basada en la palabra no se usa ampliamente hoy en día, los sistemas basados en frases son más comunes. La mayor parte de sistemas basados en la frase siguen utilizando GIZA + + para alinear el corpus. Los alineamientos se utilizan para extraer frases o deducir reglas de sintaxis.[7]​ Y las palabras que coinciden en la bi-texto sigue siendo un problema discutido activamente en la comunidad. Debido al predominio de GIZA++, ahora hay varias implementaciones de distribución en línea.[8]

Traducción basada en frases (Phrase-Based translation)

En la traducción basada en frases se han intentado reducir las restricciones producidas por la traducción basada de palabras traduciendo secuencias de palabras a secuencias de palabras, donde las longitudes de la frase nativa y la extranjera pueden ser diferentes.

A las secuencias de palabras se les suele llamar bloques o frases, pero típicamente no son frases lingüísticas sino frases encontradas en el corpus utilizando métodos estadísticos.

Se ha demostrado que la restricción de las frases a frases lingüísticas (grupos sintácticos de palabras, ver categorías sintácticas) disminuye la calidad de la traducción[9]

Frases hechas

Dependiendo de los cuerpos utilizados, algunos modismos no se pueden traducir "idiomáticamente". Por ejemplo, usando el corpus bilingüe Hansard de Canadá, "oye" (en inglés, "hear") casi siempre se traducirá como "¡Bravo!" (en francés, "Bravo!") ya que en el Parlamento "¡Oye, oye!" (en inglés, "Hear, hear!) aparece traducido en el corpus como "¡Bravo!". [10]

Morfología

Diferentes órdenes de palabras[11]

El orden de las palabras en una frase difiere de lengua a lengua. Podemos hacer una clasificación tomando el orden típico de palabras de una lengua, fijándonos en el sujeto (S), verbo (V) y objeto (O) de una oración. Así, podemos hablar, por ejemplo, de lenguas tipo SVO (en la frase típica el sujeto encabeza la oración, sigue el verbo y finalmente se especifica el objeto), o de lenguas VSO, por poner los ejemplos más habituales. También hay diferencias adicionales en este orden de palabras: por ejemplo, en qué posición se colocan los modificadores del sustantivo en cuanto al propio sustantivo -la expresión española "viaje inesperado" se convertiría en inglés en "unexpected journey", donde se invierte el orden de nombre y adjetivo-; diferencias en el orden de palabras en expresiones afirmativas, negaciones, preguntas o imperativos; aparición de verbos auxiliares en distintos puntos de la oración. Así, en francés, podríamos tener la frase afirmativa "Il conduit un camion", que se traduciría al español palabra por palabra como (Él) conduce un camión. Sin embargo, si cambiamos la frase a "Il ne conduit pas un camion", "Conduit-il un camion?" o "Conduis un camion!" (traducibles como (Él) no conduce un camión, ¿Conduce (él) un camión? y ¡Conduce un camión!) vemos cambios en el orden de palabras (pasamos de SVO a VSO en preguntas, por ejemplo, y el sujeto se omite en las imperativas, además de aparecer partículas de negación a ambos lados del verbo).

En reconocimiento de voz, la señal de voz y la representación textual correspondiente se puede asignar a cada uno en otros bloques en orden. Esto no es siempre el caso con el mismo texto en dos idiomas. Para SMT, el traductor automático sólo puede administrar pequeñas secuencias de palabras, y orden de las palabras tiene que ser pensada por el diseñador del programa. Los intentos de soluciones han incluido nuevos pedidos de modelos, donde se adivina una distribución de cambios de ubicación para cada elemento de la traducción del bi-texto alineados. Diferentes cambios de ubicación puede ser clasificados con la ayuda del modelo de lenguaje y el mejor puede ser seleccionado.

Sintaxis

De vocabulario palabras (OOV)

Sistemas SMT almacenar formularios diferentes palabras como símbolos independientes sin ninguna relación entre sí y formas de la palabra o frases que no estaban en los datos de entrenamiento no se pueden traducir. Esto podría ser debido a la falta de datos de entrenamiento, los cambios en el dominio humano, cuando se utilice el sistema, o las diferencias en la morfología.

Desafíos

Los desafíos que enfrenta la traducción automática estadística incluyen:

Orden diferente de palabras

El orden de las palabras en los distintos idiomas no es el mismo. Se puede hacer un poco de clasificación nombrando el orden típico de sujeto (S), verbo (V) y objeto (O) en una frase y se puede hablar, por ejemplo, de lenguas SVO o VSO. Hay también diferencias adicionales, por ejemplo, en el orden en que se sitúan los modificadores de los sustantivos.

En el reconocimiento de la voz se pueden enlazar la señal del discurso y la representación textual en bloques ordenados. No siempre pasa lo mismo con el mismo texto en dos lenguas. Para la SMT el modelo de traducción es solamente capaz de traducir pequeñas secuencias de palabras y el orden de las palabras se tiene que tener en cuenta de algún modo. La solución típica han sido los modelos de reordenación, donde una distribución de cambios de lugar para cada elemento de traducción se aproxima a la alineación de bi-texto. Los cambios de lugar se pueden clasificar con la ayuda del modelo de la lengua y se pueden seleccionar los mejores.

Palabras fuera del vocabulario (OOV, del inglés out of vocabulary)

Los sistemas de SMT almacenan formas léxicas diferentes como símbolos separados sin ninguna relación entre ellas y las formas léxicas o frases que no estaban en los datos de formación no pueden ser traducidos. Las principales razones de que existan las palabras fuera de vocabulario son la limitación de datos de formación, los cambios de campo y la morfología.

Véase también

Referencias

  1. W. (1955). Traducción (1949). En: Traducción automática de las lenguas, MIT Press, Cambridge, MA.
  2. P. Brown, S. Della Pietra, V. Della Pietra, y R. Mercer (1993). Las matemáticas de la traducción automática estadística: estimación de parámetros. Lingüística Computacional,19 (2 ), 263-311.
  3. S. Vogel, H. y Ney C. Tillmann. 1996. Basados en HMM Palabra Alineación en StatisticalTranslation. En Coling '96: La 16 ª Conferencia Internacional de Lingüística Computacional, pp. 836-841, Copenhague, Dinamarca.
  4. F. Och y Ney H. (2003). Una comparación sistemática de los diferentes modelos estadísticos de alineación. Lingüística Computacional, 29 (1) :19-51
  5. P. Koehn, F. J. Och, y Marcu D. (2003). frase estadísticos basados traducción. En Actas de la Conferencia Conjunta sobre tecnologías del lenguaje humano y la Reunión Anual del Capítulo de América del Norte de la Asociación de Lingüística Computacional (HLT /> NAACL ).
  6. D. Chiang (2005). Un modelo jerárquico basado en la frase de la traducción automática estadística. En Actas de la 43 Reunión Anual de la Asociación de Lingüística Computacional (ACL'05 ).
  7. P. Koehn, H. Hoang, Birch A., C. Callison-Burch, Federico M., N. Bertoldi, B. Cowan, W. Shen, C. Morán, R. Zens, C. Dyer, O. Bojar, A. Constantin, E. Herbst. 2007. Moisés: Kit de herramientas de código abierto para la traducción automática estadística. ACL 2007, Sesión de demostración, Praga, República Checa
  8. P. Gao, S. Vogel, "Las implementaciones paralelas de herramienta de alineación de Word", Ingeniería de Software, Pruebas, y Aseguramiento de Calidad para el Procesamiento del Lenguaje Natural, pp. 49-57, junio de 2008
  9. Philipp Koehn, Franz Josef Och, Daniel Marcu: Frase de traducción estadística basada en ( 2003)
  10. W. Hutchens J. y H. Somers. (1992). Una introducción a la traducción automática, 18.3:322. ISBN 0-12-36280-X
  11. Sologuren Insúa, Enrique; Castillo Fadić, María Natalia (7 de julio de 2018). «El orden de palabras en los estudios gramaticales: un recorrido a través de diferentes perspectivas lingüísticas». Nueva Revista del Pacífico (68): 123-146. Consultado el 7 de noviembre de 2018. 

Enlaces externos

  • Estadísticas Traducción Automática - incluye iniciación a la investigación, conferencias, corpus y listas de software.
  • Moisés: un estado de la técnica de sistemas abiertos SMT fuente
  • Lista anotada de recursos estadísticos procesamiento del lenguaje natural - Incluye enlaces a libre disposición de software de traducción estadística de la máquina.
  • GIZA + +: Word Concordancia
  • implementaciones en paralelo de GIZA++ (enlace roto disponible en Internet Archive; véase el historial, la primera versión y la última).
  • Cunei una plataforma de código abierto para la traducción automática por datos que combina los enfoques de la SMT y EBMT
  • Olanto una plataforma de código abierto para la traducción automática.


  •   Datos: Q3245113


traducción, automática, estadística, traducción, automática, estadística, designada, veces, expresiones, stat, inglés, statistical, machine, translation, paradigma, traducción, automática, donde, generan, traducciones, basadas, modelos, estadísticos, teoría, i. La traduccion automatica estadistica designada a veces por las expresiones Stat MT o SMT del ingles Statistical Machine Translation es un paradigma de traduccion automatica donde se generan traducciones basadas en modelos estadisticos y de teoria de la informacion cuyos parametros se obtienen del analisis de corpus de textos bilingues El enfoque estadistico contrasta con los enfoques tradicionales como la traduccion automatica basada en reglas y la basada en ejemplos Las primeras ideas de la traduccion automatica estadistica fueron introducidas por Warren Weaver en 1949 Tejedor 1 incluyendo las ideas de la aplicacion de la teoria de la informacion de Claude Shannon La traduccion automatica estadistica fue reintroducida en 1991 por investigadores de la Thomas J Watson Research Center de IBM 2 y ha contribuido al resurgimiento significativo del interes por la traduccion automatica en los ultimos anos Hasta 2016 fue con mucho el metodo de traduccion automatica mas estudiado siendo substituido por la aplicacion de redes neuronales de traduccion automatica Indice 1 Ventajas sobre otros metodos 2 Bases 3 Breve historia 4 Funcionamiento 4 1 Traduccion basada en palabras Word Based translation 4 2 Traduccion basada en frases Phrase Based translation 4 2 1 Frases hechas 4 2 2 Morfologia 4 2 2 1 Diferentes ordenes de palabras 11 4 2 3 Sintaxis 4 2 4 De vocabulario palabras OOV 5 Desafios 5 1 Orden diferente de palabras 5 2 Palabras fuera del vocabulario OOV del ingles out of vocabulary 6 Vease tambien 7 Referencias 8 Enlaces externosVentajas sobre otros metodos EditarLos beneficios de la traduccion estadistica sobre la traduccion tradicional son Un mejor uso de los recursos Hay mucho lenguaje natural en formato legible para maquinas Generalmente los sistemas SMT no estan adaptados a ningun par especifico de idiomas Los sistemas de traduccion basada en reglas requieren un desarrollo manual de reglas linguisticas lo que puede ser costoso y que a menudo no se generaliza a otros idiomas Traducciones mas naturalesBases EditarLas ideas que hay detras de la traduccion automatica estadistica vienen de la teoria de la informacion Esencialmente el documento se traduce en la probabilidad p e f displaystyle p e f de que una cadena e displaystyle e de la lengua nativa por ejemplo ingles sea la traduccion de una cadena f displaystyle f en la lengua extranjera por ejemplo frances Generalmente estas probabilidades se calculan utilizando tecnicas de estimacion de parametros El Teorema de Bayes se aplica a p e f displaystyle p e f la probabilidad de que la cadena del idioma extranjero produzca la cadena nativa para conseguir p e f p f e p e displaystyle p e f propto p f e p e donde el modelo de traduccion p f e displaystyle p f e es la probabilidad de que la cadena nativa sea la traduccion de la cadena extranjera y el modelo de lengua p e displaystyle p e es la probabilidad de ver aquella cadena nativa Matematicamente hablando encontrar la mejor traduccion e displaystyle tilde e se consigue escogiendo aquella que de la probabilidad mas alta e arg max e e p e f arg max e e p f e p e displaystyle tilde e arg max e in e p e f arg max e in e p f e p e Para una aplicacion rigurosa de este se tendria que realizar una busqueda exhaustiva por pasar por todas las cadenas e displaystyle e en el idioma nativo Realizar la busqueda eficiente es el trabajo de una maquina de decodificacion de traduccion que utiliza la cadena extranjera heuristicas y otros metodos para limitar el espacio de busqueda y al mismo tiempo mantener una calidad aceptable Este compromiso entre calidad y tiempo de uso tambien se puede encontrar en la tecnica de reconocimiento de voz Como los sistemas de traduccion no son capaces de almacenar todas las cadenas nativas y sus traducciones un documento se traduce tipicamente frase por frase pero ni siquiera esto es suficiente Los modelos de lenguaje suelen aproximarse por modelos de alisado de n grama y los enfoques similares se han aplicado a los modelos de traduccion pero existe una complejidad adicional debido a la longitud de frase y de diferentes ordenes de palabras en los idiomas Los modelos de traduccion estadistica estuvieron inicialmente basados en palabras Modelos 1 5 de IBM Ocultos de Markov Model de Stephan Vogel 3 y el Modelo 6 de Franz Joseph Och 4 pero se lograron avances significativos con la introduccion de frases basada en modelos 5 Un trabajo reciente ha incorporado sintaxis o estructuras cuasi sintactica 6 Breve historia EditarLas primeras ideas de traduccion automatica estadistica fueron introducidas por Warren Weawer en 1949 W Weaver 1955 incluyendo las ideas de aplicar la teoria de la informacion de Claude Shannon Su retorno a escena se produce en 1991 con el sistema CANDIDE desarrollado por un grupo de investigadores del Thomas J Watson Center de IBM en Nueva York Brown et al 1990 Tras el exito logrado mediante tecnicas estocasticas en el reconocimiento del habla el grupo decidio probar suerte en la traduccion El enfoque se planteo desde el postulado de no usar informacion para el analisis y la generacion que no fuera estadistica El experimento se realizo sobre el corpus Hansard de las Actas del Parlamento canadiense unos tres millones de oraciones en ingles y frances Primero se alinearon oraciones grupos de palabras y palabras sueltas para despues calcular las probabilidades de que una palabra de una oracion en una lengua se correspondiera con otras palabras en la traduccion Los resultados sorprendieron a los propios investigadores ya que casi la mitad de las oraciones traducidas eran exactamente como las contenidas en el texto original o tenian el mismo sentido aunque con palabras distintas El sistema no se llego a comercializar pero supuso un hito historico en la reorientacion de las investigaciones Entre las aportaciones mas recientes cabe destacar la del grupo ISI de la University of Southern California que desarrolla EGYPT un paquete de software para construir sistemas basados en la estadistica a partir de corpus bilingues Desde 2006 y hasta la publicacion por parte de Google de su articulo academico y la consiguiente fiebre neuronal desde 2016 la traduccion estadistica fue el paradigma de traduccion automatica mas estudiado Funcionamiento EditarTraduccion basada en palabras Word Based translation Editar En la traduccion basada en palabras la unidad esencial de la traduccion es una palabra de una lengua natural Normalmente el numero de palabras en frases traducidas son diferentes por palabras compuestas morfologia y modismos La relacion de la longitud de las secuencias de palabras traducidas se llama fecundidad que indica el numero de palabras extranjeras que cada palabra nativa produce Necesariamente se asume la teoria de la informacion que nos dice que cada uno cubre el mismo concepto En la practica esto no es realmente verdad Por ejemplo la palabra inglesa corner puede ser traducida en espanol por rincon o bien por esquina dependiendo de si es en el sentido de su angulo interno o externo La traduccion simple basada en palabras no se puede traducir entre lenguas de diferente origen Sistemas de traduccion basados en palabras relativamente simples pueden ser hechos para hacer frente a altas tasas de fecundidad pero podrian asignar una sola palabra a varias palabras pero no al reves cita requerida Por ejemplo si quisieramos traducir del frances al Ingles cada palabra en ingles podria producir cualquier cantidad de palabras francesas y no al reves No hay forma de agrupar dos palabras en ingles para producir una sola palabra francesa Un ejemplo de un sistema de traduccion basado en la palabra es el paquete de distribucion libre GIZA actualmente de licencia GPL que incluye el programa de entrenamiento para modelos de IBM y los modelos HMM y 6 4 La traduccion basada en la palabra no se usa ampliamente hoy en dia los sistemas basados en frases son mas comunes La mayor parte de sistemas basados en la frase siguen utilizando GIZA para alinear el corpus Los alineamientos se utilizan para extraer frases o deducir reglas de sintaxis 7 Y las palabras que coinciden en la bi texto sigue siendo un problema discutido activamente en la comunidad Debido al predominio de GIZA ahora hay varias implementaciones de distribucion en linea 8 Traduccion basada en frases Phrase Based translation Editar En la traduccion basada en frases se han intentado reducir las restricciones producidas por la traduccion basada de palabras traduciendo secuencias de palabras a secuencias de palabras donde las longitudes de la frase nativa y la extranjera pueden ser diferentes A las secuencias de palabras se les suele llamar bloques o frases pero tipicamente no son frases linguisticas sino frases encontradas en el corpus utilizando metodos estadisticos Se ha demostrado que la restriccion de las frases a frases linguisticas grupos sintacticos de palabras ver categorias sintacticas disminuye la calidad de la traduccion 9 Frases hechas Editar Dependiendo de los cuerpos utilizados algunos modismos no se pueden traducir idiomaticamente Por ejemplo usando el corpus bilingue Hansard de Canada oye en ingles hear casi siempre se traducira como Bravo en frances Bravo ya que en el Parlamento Oye oye en ingles Hear hear aparece traducido en el corpus como Bravo 10 Morfologia Editar Diferentes ordenes de palabras 11 Editar El orden de las palabras en una frase difiere de lengua a lengua Podemos hacer una clasificacion tomando el orden tipico de palabras de una lengua fijandonos en el sujeto S verbo V y objeto O de una oracion Asi podemos hablar por ejemplo de lenguas tipo SVO en la frase tipica el sujeto encabeza la oracion sigue el verbo y finalmente se especifica el objeto o de lenguas VSO por poner los ejemplos mas habituales Tambien hay diferencias adicionales en este orden de palabras por ejemplo en que posicion se colocan los modificadores del sustantivo en cuanto al propio sustantivo la expresion espanola viaje inesperado se convertiria en ingles en unexpected journey donde se invierte el orden de nombre y adjetivo diferencias en el orden de palabras en expresiones afirmativas negaciones preguntas o imperativos aparicion de verbos auxiliares en distintos puntos de la oracion Asi en frances podriamos tener la frase afirmativa Il conduit un camion que se traduciria al espanol palabra por palabra como El conduce un camion Sin embargo si cambiamos la frase a Il ne conduit pas un camion Conduit il un camion o Conduis un camion traducibles como El no conduce un camion Conduce el un camion y Conduce un camion vemos cambios en el orden de palabras pasamos de SVO a VSO en preguntas por ejemplo y el sujeto se omite en las imperativas ademas de aparecer particulas de negacion a ambos lados del verbo En reconocimiento de voz la senal de voz y la representacion textual correspondiente se puede asignar a cada uno en otros bloques en orden Esto no es siempre el caso con el mismo texto en dos idiomas Para SMT el traductor automatico solo puede administrar pequenas secuencias de palabras y orden de las palabras tiene que ser pensada por el disenador del programa Los intentos de soluciones han incluido nuevos pedidos de modelos donde se adivina una distribucion de cambios de ubicacion para cada elemento de la traduccion del bi texto alineados Diferentes cambios de ubicacion puede ser clasificados con la ayuda del modelo de lenguaje y el mejor puede ser seleccionado Sintaxis Editar De vocabulario palabras OOV Editar Sistemas SMT almacenar formularios diferentes palabras como simbolos independientes sin ninguna relacion entre si y formas de la palabra o frases que no estaban en los datos de entrenamiento no se pueden traducir Esto podria ser debido a la falta de datos de entrenamiento los cambios en el dominio humano cuando se utilice el sistema o las diferencias en la morfologia Desafios EditarLos desafios que enfrenta la traduccion automatica estadistica incluyen Orden diferente de palabras Editar El orden de las palabras en los distintos idiomas no es el mismo Se puede hacer un poco de clasificacion nombrando el orden tipico de sujeto S verbo V y objeto O en una frase y se puede hablar por ejemplo de lenguas SVO o VSO Hay tambien diferencias adicionales por ejemplo en el orden en que se situan los modificadores de los sustantivos En el reconocimiento de la voz se pueden enlazar la senal del discurso y la representacion textual en bloques ordenados No siempre pasa lo mismo con el mismo texto en dos lenguas Para la SMT el modelo de traduccion es solamente capaz de traducir pequenas secuencias de palabras y el orden de las palabras se tiene que tener en cuenta de algun modo La solucion tipica han sido los modelos de reordenacion donde una distribucion de cambios de lugar para cada elemento de traduccion se aproxima a la alineacion de bi texto Los cambios de lugar se pueden clasificar con la ayuda del modelo de la lengua y se pueden seleccionar los mejores Palabras fuera del vocabulario OOV del ingles out of vocabulary Editar Los sistemas de SMT almacenan formas lexicas diferentes como simbolos separados sin ninguna relacion entre ellas y las formas lexicas o frases que no estaban en los datos de formacion no pueden ser traducidos Las principales razones de que existan las palabras fuera de vocabulario son la limitacion de datos de formacion los cambios de campo y la morfologia Vease tambien EditarTraduccion asistida Linguistica Inteligencia artificial Traduccion automatica mediante lenguaje intermedio Traduccion automatica mediante transferencia Traduccion automatica basada en el contextoReferencias Editar W 1955 Traduccion 1949 En Traduccion automatica de las lenguas MIT Press Cambridge MA P Brown S Della Pietra V Della Pietra y R Mercer 1993 Las matematicas de la traduccion automatica estadistica estimacion de parametros Linguistica Computacional 19 2 263 311 S Vogel H y Ney C Tillmann 1996 Basados en HMM Palabra Alineacion en StatisticalTranslation En Coling 96 La 16 ª Conferencia Internacional de Linguistica Computacional pp 836 841 Copenhague Dinamarca a b F Och y Ney H 2003 Una comparacion sistematica de los diferentes modelos estadisticos de alineacion Linguistica Computacional 29 1 19 51 P Koehn F J Och y Marcu D 2003 frase estadisticos basados traduccion En Actas de la Conferencia Conjunta sobre tecnologias del lenguaje humano y la Reunion Anual del Capitulo de America del Norte de la Asociacion de Linguistica Computacional HLT gt NAACL D Chiang 2005 Un modelo jerarquico basado en la frase de la traduccion automatica estadistica En Actas de la 43 Reunion Anual de la Asociacion de Linguistica Computacional ACL 05 P Koehn H Hoang Birch A C Callison Burch Federico M N Bertoldi B Cowan W Shen C Moran R Zens C Dyer O Bojar A Constantin E Herbst 2007 Moises Kit de herramientas de codigo abierto para la traduccion automatica estadistica ACL 2007 Sesion de demostracion Praga Republica Checa P Gao S Vogel Las implementaciones paralelas de herramienta de alineacion de Word Ingenieria de Software Pruebas y Aseguramiento de Calidad para el Procesamiento del Lenguaje Natural pp 49 57 junio de 2008 Philipp Koehn Franz Josef Och Daniel Marcu Frase de traduccion estadistica basada en 2003 W Hutchens J y H Somers 1992 Una introduccion a la traduccion automatica 18 3 322 ISBN 0 12 36280 X Sologuren Insua Enrique Castillo Fadic Maria Natalia 7 de julio de 2018 El orden de palabras en los estudios gramaticales un recorrido a traves de diferentes perspectivas linguisticas Nueva Revista del Pacifico 68 123 146 Consultado el 7 de noviembre de 2018 Enlaces externos EditarEstadisticas Traduccion Automatica incluye iniciacion a la investigacion conferencias corpus y listas de software Moises un estado de la tecnica de sistemas abiertos SMT fuente Lista anotada de recursos estadisticos procesamiento del lenguaje natural Incluye enlaces a libre disposicion de software de traduccion estadistica de la maquina GIZA Word Concordancia implementaciones en paralelo de GIZA enlace roto disponible en Internet Archive vease el historial la primera version y la ultima Cunei una plataforma de codigo abierto para la traduccion automatica por datos que combina los enfoques de la SMT y EBMT Olanto una plataforma de codigo abierto para la traduccion automatica Datos Q3245113Obtenido de https es wikipedia org w index php title Traduccion automatica estadistica amp oldid 134772173, wikipedia, wiki, leyendo, leer, libro, biblioteca,

español

, española, descargar, gratis, descargar gratis, mp3, video, mp4, 3gp, jpg, jpeg, gif, png, imagen, música, canción, película, libro, juego, juegos