fbpx
Wikipedia

Bitextor

Bitextor es una aplicación libre de código abierto que tiene como objetivo la generación de memorias de traducción a partir de sitios web multilingües, que son utilizados como corpus base. Bitextor está publicado bajo licencia GNU GPL v2.

La aplicación descarga todos los ficheros HTML del sitio web indicado por el usuario. Entonces, realiza un preproceso para convertirlos a un formato coherente y adecuado para los siguientes pasos. Seguidamente, se aplica un conjunto de heurísticas (principalmente basadas en la estructura de etiquetas HTML y la longitud de las cadenas de texto) para hacer parejas de ficheros que serán considerados como candidatos a contener el mismo texto en diferentes idiomas. A partir de estos candidatos, se generan las memorias de traducción en formato TMX mediante la biblioteca LibTagAligner, que utiliza las etiquetas HTML y la longitud de los bloques de texto (también) para realizar el alineamiento.

El objetivo de esta herramienta es el de facilitar la obtención de corpus multilingüe a partir de Internet. Bitextor fue desarrollado, en un principio, para facilitar el proceso de entrenamiento de aplicaciones de traducción automática y, concretamente, la de la plataforma Apertium.

Véase también

Enlaces externos

  • Página oficial de Bitextor
  • Página oficial de TagAligner (enlace roto disponible en Internet Archive; véase el historial, la primera versión y la última).
  • Página oficial del proyecto Apertium
  •   Datos: Q2619312

bitextor, aplicación, libre, código, abierto, tiene, como, objetivo, generación, memorias, traducción, partir, sitios, multilingües, utilizados, como, corpus, base, está, publicado, bajo, licencia, aplicación, descarga, todos, ficheros, html, sitio, indicado, . Bitextor es una aplicacion libre de codigo abierto que tiene como objetivo la generacion de memorias de traduccion a partir de sitios web multilingues que son utilizados como corpus base Bitextor esta publicado bajo licencia GNU GPL v2 La aplicacion descarga todos los ficheros HTML del sitio web indicado por el usuario Entonces realiza un preproceso para convertirlos a un formato coherente y adecuado para los siguientes pasos Seguidamente se aplica un conjunto de heuristicas principalmente basadas en la estructura de etiquetas HTML y la longitud de las cadenas de texto para hacer parejas de ficheros que seran considerados como candidatos a contener el mismo texto en diferentes idiomas A partir de estos candidatos se generan las memorias de traduccion en formato TMX mediante la biblioteca LibTagAligner que utiliza las etiquetas HTML y la longitud de los bloques de texto tambien para realizar el alineamiento El objetivo de esta herramienta es el de facilitar la obtencion de corpus multilingue a partir de Internet Bitextor fue desarrollado en un principio para facilitar el proceso de entrenamiento de aplicaciones de traduccion automatica y concretamente la de la plataforma Apertium Vease tambien EditarTraduccion automatica Procesamiento del lenguaje naturalEnlaces externos EditarPagina oficial de Bitextor Pagina oficial de TagAligner enlace roto disponible en Internet Archive vease el historial la primera version y la ultima Pagina oficial del proyecto Apertium Datos Q2619312Obtenido de https es wikipedia org w index php title Bitextor amp oldid 121819467, wikipedia, wiki, leyendo, leer, libro, biblioteca,

español

, española, descargar, gratis, descargar gratis, mp3, video, mp4, 3gp, jpg, jpeg, gif, png, imagen, música, canción, película, libro, juego, juegos