fbpx
Wikipedia

General Architecture for Text Engineering

General Architecture for Text Engineering o GATE es una suite de herramientas Java desarrolladas en la Universidad de Sheffield, que comenzó en 1995 y hoy es usada por una amplia comunidad de científicos, compañías, profesores y estudiantes para tareas de Procesamiento de lenguajes naturales (PLN o NLP) de todo tipo, incluyendo Extracción de la información, en varios idiomas.

GATE

ventana principal de GATE Developer v5
Información general
Tipo de programa Minería de textos, Extracción de la información
Desarrollador GATE research team, Dept. Computer Science, University of Sheffield
Lanzamiento inicial 1995
Licencia LGPL
Idiomas Inglés
Información técnica
Programado en Java
Plataformas admitidas máquina virtual Java
Versiones
Última versión estable 6.1 (info) 06 de mayo de 2011 (10 años y 3 meses)
Última versión en pruebas 6.2 (Versiones de prueba cada día) 23 de enero de 2012 (9 años, 6 meses y 14 días)
Enlaces
Sitio web oficial
Repositorio de código

GATE tiene como objetivo eliminar la necesidad de resolver problemas comunes de ingeniería antes de hacer investigación útil, o reingeniería de procesos antes de convertir los resultados de la investigación en aplicaciones. Las funciones principales de GATE cuidan de su parte del león de la ingeniería:

Además de las funciones principales, GATE incluye componentes para tareas de procesado de idiomas naturales, p.ej. análisis sintáctico (parse), morfología, etiquetado, herramientas de recuperación de información, componentes de extracción de información para varios idiomas, y muchos otros. Ha sido ampliamente empleado en campos como la bioinformática[2]​ y otros. GATE Developer y GATE Embedded se lanzan con un sistema de extracción de información (ANNIE) que ha sido adaptado y evaluado ampliamente (sistemas industriales, sistemas de investigación en MUC, TREC, ACE, DUC, Pascal, NTCIR, etc.). ANNIE también se usa para crear metadatos RDF u Web Ontology Language (OWL) (metadata) para contenido sin estructurar (semantic annotation). GATE has been compared to NLTK, R y RapidMiner.[3]​ Además forma la base de la plataforma semántica KIM.[4]

La comunidad GATE se ha visto involucrada en varios proyectos de investigación europea tales como TAO, SEKT, NeOn, Media-Campaign, Musing, Service-Finder, LIRICS y KnowledgeWeb, así como otros proectos.

Características

GATE incluye:[5]

También incluirá lo siguiente, que se encuentra bajo desarrollo:

Los idiomas soportados actualmente incluyen: inglés, español, chino, árabe, francés, alemán, hindi, italiano, cebuano, rumano, ruso.

Se incluyen plugins para funciones como aprendizaje automático con (Weka, RASP, MAXENT, SVM Light, así como integración LibSVM e implementación de perceptrón, para gestión de ontologías como WordNet, para buscar en motores de búsqueda como Yahoo, para etiquetado de partes del discurso con método Brill o TreeTagger, y algunas más.

GATE puede manejar inputs (archivos de entrada) en varios formatos, tales como TXT, HTML, XML, Doc, PDF, y bases de datos Java Serial, PostgreSQL, Lucene, Oracle con ayuda de almacenamiento RDBMS sobre JDBC.

También utiliza lenguaje JAPE ("Java Annotation Patterns Engine") para construcción de reglas para etiquetar documentos. JAPE proporciona transducción de estados finitos sobre anotaciones basadas en expresiones regulares. JAPE es una versión de CPSL – Common Pattern Specification Language. Los transductores JAPE se usan a través de GATE para modificar anotaciones en texto. Se proporciona documentación en la guía de usuario de GATE.[7]

GATE Developer

 
Ventana principal de GATE 5

GATE Developer es la interfaz de usuario de GATE. Es análoga a sistemas como Mathematica para matemáticos, o Eclipse para programadores en Java,[8]​ pues provee un entorno gráfico para la investigación y desarrollo de software de procesado de idiomas. También es útil en conjunción con GATE Embedded (la API por la cual la funcionalidad de GATE puede incluirse en aplicaciones); por ejemplo, GATE Developer puede utilizarse para crear aplicaciones que pueden incrustarse entonces vía API.

La GUI de GATE Developer consiste en un menú superior y una fila de icono, un árbol de recursos a la izquierda, un panel tabulado de los visores de recursos en la parte centro-derecha, y un campo de mensajes en la parte inferior.

El árbol de recursos y el menú se usan para cargar, guardar y ejecutar recursos. El árbol muestra los recursos cargados y permite mostrar uno en el visor de recursos haciendo doble clic (o pulsando Enter). Cada recurso cargado puede mostrarse en un visor específico que ocupa la mayor parte del espacio en pantalla.

En esta imagen se puede ver al visor de documentos mostrando un documento y sus anotaciones. En color rosado están <A> anotaciones de hipervínculo de un fichero HTML. La lista de la derecha es la lista de conjuntos de anotaciones y en la tabla inferior está la lista de anotaciones. En el centro se encuentra la ventana del editor de anotaciones.

GATE Teamware

Teamware es una plataforma basada en web para curación y notación colaborativa. GATE Teamware entrega una interfaz de usuario multifunción sobre la Internet para visionado, adición y edición de anotaciones textuales. La interfaz de manejo basada en web permite realizar las siguientes funciones de puesta en marcha y gestión de proyectos:

  • Carga de colecciones de documentos ("corpus” o “corpora”).
  • Creación de plantillas reutilizables de proyectos.
  • Inicio de proyectos sobre la base de plantillas.
  • Asignación de roles de proyectos a usuarios específicos.
  • Monitorización de progreso y estadísticas en tiempo real.
  • Reportes (informes) del estado del proyecto, actividad del anotador y estadísticas.
  • Aplicación de rutinas de proceso basadas en GATE (procesamiento de anotaciones automáticas o proceso de post-anotación).

Véase también

  •   Portal:Software libre. Contenido relacionado con Software libre.
  • (en inglés) Unstructured Information Management Architecture (UIMA)
  • (en inglés) en:Natural language processing toolkits

Referencias

  1. Adapting SVM for Data Sparseness and Imbalance: A Case Study on Information Extraction. Journal Of Natural Language Engineering 2009 (Y. Li, K. Bontcheva and H. Cunningham)
  2. "Combining Biological Databases and Text Mining to Support New Bioinformatics Applications", by René Witte and Christopher J.O. Baker (in "Lecture Notes in Computer Science, Springer Berlin, Volume 3513, 2005)
  3. "Open Source Text Analytics" web article by Seth Grimes
  4. "KIM – a semantic platform for information extraction and retrieval", by Popov et al (Natural Language Engineering (2004), 10:375-392)
  5. GATE Family page on the GATE website
  6. Wiki de GATE (en inglés)
  7. JAPE chapter in the GATE User Guide
  8. GATE Developer chapter in the GATE User Guide

Enlaces externos

  • (en inglés) http://gate.ac.uk/ Página oficial

Nota


  •   Datos: Q975453
  •   Multimedia: General Architecture for Text Engineering

general, architecture, text, engineering, gate, suite, herramientas, java, desarrolladas, universidad, sheffield, comenzó, 1995, usada, amplia, comunidad, científicos, compañías, profesores, estudiantes, para, tareas, procesamiento, lenguajes, naturales, todo,. General Architecture for Text Engineering o GATE es una suite de herramientas Java desarrolladas en la Universidad de Sheffield que comenzo en 1995 y hoy es usada por una amplia comunidad de cientificos companias profesores y estudiantes para tareas de Procesamiento de lenguajes naturales PLN o NLP de todo tipo incluyendo Extraccion de la informacion en varios idiomas GATEventana principal de GATE Developer v5Informacion generalTipo de programaMineria de textos Extraccion de la informacionDesarrolladorGATE research team Dept Computer Science University of SheffieldLanzamiento inicial1995LicenciaLGPLIdiomasInglesInformacion tecnicaProgramado enJavaPlataformas admitidasmaquina virtual JavaVersionesUltima version estable6 1 info 06 de mayo de 2011 10 anos y 3 meses Ultima version en pruebas6 2 Versiones de prueba cada dia 23 de enero de 2012 9 anos 6 meses y 14 dias EnlacesSitio web oficial Repositorio de codigo editar datos en Wikidata GATE tiene como objetivo eliminar la necesidad de resolver problemas comunes de ingenieria antes de hacer investigacion util o reingenieria de procesos antes de convertir los resultados de la investigacion en aplicaciones Las funciones principales de GATE cuidan de su parte del leon de la ingenieria modelado y persistencia de estructuras de datos especializadas medidas evaluacion benchmarking visualizacion y editado de anotaciones ontologias arboles de analisis sintactico etc un idioma de transduccion de estados finitos para prototipeo rapido y eficiente implementacion de metodos de analisis superficial JAPE vease mas abajo extraccion de instancias de entrenamiento para aprendizaje automatico implementaciones de aprendizaje automatico enchufables Weka SVM Light an in house uneven margins SVM implementation 1 and more Ademas de las funciones principales GATE incluye componentes para tareas de procesado de idiomas naturales p ej analisis sintactico parse morfologia etiquetado herramientas de recuperacion de informacion componentes de extraccion de informacion para varios idiomas y muchos otros Ha sido ampliamente empleado en campos como la bioinformatica 2 y otros GATE Developer y GATE Embedded se lanzan con un sistema de extraccion de informacion ANNIE que ha sido adaptado y evaluado ampliamente sistemas industriales sistemas de investigacion en MUC TREC ACE DUC Pascal NTCIR etc ANNIE tambien se usa para crear metadatos RDF u Web Ontology Language OWL metadata para contenido sin estructurar semantic annotation GATE has been compared to NLTK R y RapidMiner 3 Ademas forma la base de la plataforma semantica KIM 4 La comunidad GATE se ha visto involucrada en varios proyectos de investigacion europea tales como TAO SEKT NeOn Media Campaign Musing Service Finder LIRICS y KnowledgeWeb asi como otros proectos Indice 1 Caracteristicas 2 GATE Developer 3 GATE Teamware 4 Vease tambien 5 Referencias 6 Enlaces externos 7 NotaCaracteristicas EditarGATE incluye 5 un IDE GATE Developer un entorno de desarrollo integrado con componentes incluidos para Procesamiento de lenguajes naturales con un sistema de extraccion de informacion llamado ANNIE A Nearly New Information Extraction System el cual es un conjunto de modulos que comprenden un tokenizador un gazetador un divisor de oraciones un etiquetador gramatical de partes del discurso un transductor reconocedor de nombres de entidades y un etiquetador de correferencia ANNIE puede usarse como extractor de informacion o como punto de partida para tareas mas especificas Tambien incluye un conjunto comprensivo de otros plugins una aplicacion web GATE Teamware un entorno colaborativo de anotaciones para proyectos de anotacion semantica estilo fabril factory style construidos en torno a un motor de flujo de trabajo workflow engine en ingles y una infraestructura de servicio backend fuertemente optimizada un marco de trabajo framework GATE Embedded una biblioteca de objetos optimizada para la inclusion en diversas aplicaciones que da acceso a todos los servicios usados por GATE Developer y otros servicios una arquitectura una imagen organizacional de la composicion de software de procesado de idiomas un proceso para creacion de servicios mantenibles y robustos Tambien incluira lo siguiente que se encuentra bajo desarrollo una wiki CMS 6 una solucion de computacion en nube para procesamiento a gran escala alojado GATE CloudLos idiomas soportados actualmente incluyen ingles espanol chino arabe frances aleman hindi italiano cebuano rumano ruso Se incluyen plugins para funciones como aprendizaje automatico con Weka RASP MAXENT SVM Light asi como integracion LibSVM e implementacion de perceptron para gestion de ontologias como WordNet para buscar en motores de busqueda como Yahoo para etiquetado de partes del discurso con metodo Brill o TreeTagger y algunas mas GATE puede manejar inputs archivos de entrada en varios formatos tales como TXT HTML XML Doc PDF y bases de datos Java Serial PostgreSQL Lucene Oracle con ayuda de almacenamiento RDBMS sobre JDBC Tambien utiliza lenguaje JAPE Java Annotation Patterns Engine para construccion de reglas para etiquetar documentos JAPE proporciona transduccion de estados finitos sobre anotaciones basadas en expresiones regulares JAPE es una version de CPSL Common Pattern Specification Language Los transductores JAPE se usan a traves de GATE para modificar anotaciones en texto Se proporciona documentacion en la guia de usuario de GATE 7 GATE Developer Editar Ventana principal de GATE 5 GATE Developer es la interfaz de usuario de GATE Es analoga a sistemas como Mathematica para matematicos o Eclipse para programadores en Java 8 pues provee un entorno grafico para la investigacion y desarrollo de software de procesado de idiomas Tambien es util en conjuncion con GATE Embedded la API por la cual la funcionalidad de GATE puede incluirse en aplicaciones por ejemplo GATE Developer puede utilizarse para crear aplicaciones que pueden incrustarse entonces via API La GUI de GATE Developer consiste en un menu superior y una fila de icono un arbol de recursos a la izquierda un panel tabulado de los visores de recursos en la parte centro derecha y un campo de mensajes en la parte inferior El arbol de recursos y el menu se usan para cargar guardar y ejecutar recursos El arbol muestra los recursos cargados y permite mostrar uno en el visor de recursos haciendo doble clic o pulsando Enter Cada recurso cargado puede mostrarse en un visor especifico que ocupa la mayor parte del espacio en pantalla En esta imagen se puede ver al visor de documentos mostrando un documento y sus anotaciones En color rosado estan lt A gt anotaciones de hipervinculo de un fichero HTML La lista de la derecha es la lista de conjuntos de anotaciones y en la tabla inferior esta la lista de anotaciones En el centro se encuentra la ventana del editor de anotaciones GATE Teamware EditarTeamware es una plataforma basada en web para curacion y notacion colaborativa GATE Teamware entrega una interfaz de usuario multifuncion sobre la Internet para visionado adicion y edicion de anotaciones textuales La interfaz de manejo basada en web permite realizar las siguientes funciones de puesta en marcha y gestion de proyectos Carga de colecciones de documentos corpus o corpora Creacion de plantillas reutilizables de proyectos Inicio de proyectos sobre la base de plantillas Asignacion de roles de proyectos a usuarios especificos Monitorizacion de progreso y estadisticas en tiempo real Reportes informes del estado del proyecto actividad del anotador y estadisticas Aplicacion de rutinas de proceso basadas en GATE procesamiento de anotaciones automaticas o proceso de post anotacion Vease tambien Editar Portal Software libre Contenido relacionado con Software libre en ingles Unstructured Information Management Architecture UIMA en ingles en Natural language processing toolkitsReferencias Editar Adapting SVM for Data Sparseness and Imbalance A Case Study on Information Extraction Journal Of Natural Language Engineering 2009 Y Li K Bontcheva and H Cunningham Combining Biological Databases and Text Mining to Support New Bioinformatics Applications by Rene Witte and Christopher J O Baker in Lecture Notes in Computer Science Springer Berlin Volume 3513 2005 Open Source Text Analytics web article by Seth Grimes KIM a semantic platform for information extraction and retrieval by Popov et al Natural Language Engineering 2004 10 375 392 GATE Family page on the GATE website Wiki de GATE en ingles JAPE chapter in the GATE User Guide GATE Developer chapter in the GATE User GuideEnlaces externos Editar en ingles http gate ac uk Pagina oficialNota EditarEsta obra contiene una traduccion derivada de General Architecture For Text Engineering de la Wikipedia en ingles publicada por sus editores bajo la Licencia de documentacion libre de GNU y la Licencia Creative Commons Atribucion CompartirIgual 3 0 Unported Datos Q975453 Multimedia General Architecture for Text EngineeringObtenido de https es wikipedia org w index php title General Architecture for Text Engineering amp oldid 130137271, wikipedia, wiki, leyendo, leer, libro, biblioteca,

español

, española, descargar, gratis, descargar gratis, mp3, video, mp4, 3gp, jpg, jpeg, gif, png, imagen, música, canción, película, libro, juego, juegos