fbpx
Wikipedia

Extracción de la información

La extracción de la información (de sus siglas en inglés IE, Information Extraction) es un tipo de recuperación de la información cuyo objetivo es extraer automáticamente información estructurada o semiestructurada desde documentos legibles por una computadora.

Una aplicación típica de IE es el escaneado de una serie de documentos escritos en una lengua natural y rellenar una base de datos con la información extraída. Estos textos pueden estar en forma semiestructurada o desestructurada. Estos documentos pueden ser muy variopintos desde artículos de prensa hasta informes científicos que en general están escritos en un lenguaje humano. Las tendencias actuales en relación con la IE utilizan técnicas de procesamiento de lenguaje natural que se centran en áreas muy restringidas.

El objetivo es procesar estos documentos con un software de procesamiento de lenguaje natural (NLP) para extraer información útil de ellos. Esta tarea es muy compleja ya que estos programas suelen operar con unos dominios muy restringidos. Lo que dificulta extraer la información de textos con un lenguaje poco formal o imágenes.

Por ejemplo, la Message Understanding Conference (MUC), o Conferencia para la Comprensión de Mensajes es una competición que se ha centrado en los siguientes aspectos durante los últimos años:

  • MUC-1 1987, MUC-2 1989: Mensajes para operaciones navales.
  • MUC-3 1991: Terrorismo en países latinoamericanos.
  • MUC-5 1993: Microelectrónica.
  • MUC-6 1995: Nuevos artículos a cerca de los cambios en la gerencia.
  • MUC-7 1998: Informes de lanzamiento de satélites.

Tareas típicas de la IE

  • Reconocimiento de nombres de entidades (NER, por sus siglas en inglés). Buscar, localizar y clasificar elementos atómicos en texto sobre categorías predefinidas como nombres de personas, organizaciones, lugares, expresiones de horas, cantidades, valores monetarios, porcentajes, etc. Empleando el conocimiento del dominio o información otras sentencias. Para llevar a cabo esta localización e identificación es necesario asignar un identificador único a la entidad extraída. Cuando no se conoce nada sobre las instancias de las entidades, se usa una técnica llamada detección de nombres de entidades. Por ejemplo si tenemos este texto: “Luis disfruta paseando en bicicleta”. La tarea de detección sacaría del texto el nombre Luis para referirlo a una persona. Que probablemente sea el sujeto en el texto.
  • Resolución de la correferencia (CR, por sus siglas en inglés).: tiene como objetivo detectar la correferencia de los vínculos entre las entidades del texto. Esta tarea está restringida a encontrar vínculos entre las entidades de nombres que se han extraído previamente. Por ejemplo Sociedad Española de Automóviles de Turismo y SEAT hacen referencia a la misma entidad. La anáfora es un tipo de correferencialidad.
  • Extracción de terminología. Identifica y extrae candidatos a términos de los textos explorados. consiste en analizar un texto para detectar los argumentos semánticos asociados con los predicados o verbos de una sentencia y así poder clasificarlos conforme a los roles específicos. Por ejemplo: Luis compró un ordenador a Juan. En este caso “Luis” representa al agente comprador y “Juan” al agente vendedor, “un ordenador” representa el objeto de la sentencia y el verbo de la frase es comprar.
  • Extracción de relaciones. Requiere la detección y clasificación de las menciones a relaciones semánticas (como el número de oficina de un cliente o la dirección de un cliente). Para saber si por ejemplo el cliente Jorge tiene como número de teléfono 94220033 y el cliente Luis tiene el número 911230001.

Véase también

Enlaces externos

  • Recuperación y Extracción de la Información no supervisada
  • Extracción de Información con Clasificación Supervisada
  • Recuperación y Organización de la Información
  •   Datos: Q1662562

extracción, información, este, artículo, sección, necesita, referencias, aparezcan, publicación, acreditada, este, aviso, puesto, mayo, 2013, extracción, información, siglas, inglés, information, extraction, tipo, recuperación, información, cuyo, objetivo, ext. Este articulo o seccion necesita referencias que aparezcan en una publicacion acreditada Este aviso fue puesto el 1 de mayo de 2013 La extraccion de la informacion de sus siglas en ingles IE Information Extraction es un tipo de recuperacion de la informacion cuyo objetivo es extraer automaticamente informacion estructurada o semiestructurada desde documentos legibles por una computadora Una aplicacion tipica de IE es el escaneado de una serie de documentos escritos en una lengua natural y rellenar una base de datos con la informacion extraida Estos textos pueden estar en forma semiestructurada o desestructurada Estos documentos pueden ser muy variopintos desde articulos de prensa hasta informes cientificos que en general estan escritos en un lenguaje humano Las tendencias actuales en relacion con la IE utilizan tecnicas de procesamiento de lenguaje natural que se centran en areas muy restringidas El objetivo es procesar estos documentos con un software de procesamiento de lenguaje natural NLP para extraer informacion util de ellos Esta tarea es muy compleja ya que estos programas suelen operar con unos dominios muy restringidos Lo que dificulta extraer la informacion de textos con un lenguaje poco formal o imagenes Por ejemplo la Message Understanding Conference MUC o Conferencia para la Comprension de Mensajes es una competicion que se ha centrado en los siguientes aspectos durante los ultimos anos MUC 1 1987 MUC 2 1989 Mensajes para operaciones navales MUC 3 1991 Terrorismo en paises latinoamericanos MUC 5 1993 Microelectronica MUC 6 1995 Nuevos articulos a cerca de los cambios en la gerencia MUC 7 1998 Informes de lanzamiento de satelites Tareas tipicas de la IE EditarReconocimiento de nombres de entidades NER por sus siglas en ingles Buscar localizar y clasificar elementos atomicos en texto sobre categorias predefinidas como nombres de personas organizaciones lugares expresiones de horas cantidades valores monetarios porcentajes etc Empleando el conocimiento del dominio o informacion otras sentencias Para llevar a cabo esta localizacion e identificacion es necesario asignar un identificador unico a la entidad extraida Cuando no se conoce nada sobre las instancias de las entidades se usa una tecnica llamada deteccion de nombres de entidades Por ejemplo si tenemos este texto Luis disfruta paseando en bicicleta La tarea de deteccion sacaria del texto el nombre Luis para referirlo a una persona Que probablemente sea el sujeto en el texto Resolucion de la correferencia CR por sus siglas en ingles tiene como objetivo detectar la correferencia de los vinculos entre las entidades del texto Esta tarea esta restringida a encontrar vinculos entre las entidades de nombres que se han extraido previamente Por ejemplo Sociedad Espanola de Automoviles de Turismo y SEAT hacen referencia a la misma entidad La anafora es un tipo de correferencialidad Extraccion de terminologia Identifica y extrae candidatos a terminos de los textos explorados consiste en analizar un texto para detectar los argumentos semanticos asociados con los predicados o verbos de una sentencia y asi poder clasificarlos conforme a los roles especificos Por ejemplo Luis compro un ordenador a Juan En este caso Luis representa al agente comprador y Juan al agente vendedor un ordenador representa el objeto de la sentencia y el verbo de la frase es comprar Extraccion de relaciones Requiere la deteccion y clasificacion de las menciones a relaciones semanticas como el numero de oficina de un cliente o la direccion de un cliente Para saber si por ejemplo el cliente Jorge tiene como numero de telefono 94220033 y el cliente Luis tiene el numero 911230001 Vease tambien EditarLinguistica computacional Procesamiento de lenguaje natural Efecto IAEnlaces externos EditarRecuperacion y Extraccion de la Informacion no supervisada Extraccion de Informacion con Clasificacion Supervisada Recuperacion y Organizacion de la Informacion Articulo sobre Recuperacion de la informacion con subtemas relacionados tareas herramientas y otros Datos Q1662562 Obtenido de https es wikipedia org w index php title Extraccion de la informacion amp oldid 126350110, wikipedia, wiki, leyendo, leer, libro, biblioteca,

español

, española, descargar, gratis, descargar gratis, mp3, video, mp4, 3gp, jpg, jpeg, gif, png, imagen, música, canción, película, libro, juego, juegos