fbpx
Wikipedia

Indización automática

La indización automática es la selección de un conjunto de términos que representen íntegramente un documento (texto, imagen, sonido) por medio de un programa informático. Hasta finales de la década de 1950, la indización se venía realizando en las Bibliotecas y Centros de Documentación de manera intelectual. Desde entonces se viene trabajando en automatizar esta tarea.

Contexto Editar

Los antecedentes más remotos de la indización se encuentran en la antigua Mesopotamia cuando, en el exterior de las cestas de mimbre en las que guardaban las tablillas de barro, colocaban una frase que servía para conocer de qué trataban las tabillas allí depositadas sin necesidad de abrir dichas cestas. Con este sistema tan simple, se conseguía almacenar de manera más o menos organizada las tablillas (almacenamiento de datos) y además, ese sistema ayudaba, posteriormente, a localizar información (recuperación de información). La indización es por tanto, un proceso intelectual o automático, llevado a cabo generalmente por profesionales de la Información y Documentación (bibliotecarios, documentalistas y archiveros) por el cual se analiza el contenido de un documento para seleccionar un conjunto de conceptos que representan el contenido íntegro de dicho documento, y normalmente, dichas palabras seleccionadas del documento en lenguaje natural (esto es, palabras clave), se convierten en lenguaje controlado (descriptores y encabezamientos de materia) una vez que se buscan y encuentran sus equivalentes en los lenguajes de indización (tesauro, listas de encabezamientos de materia o listado alfabético de descriptores). De este modo, esos descriptores o encabezamientos de materia sirven para el almacenamiento de esos documentos en bases de datos o catálogos y recuperación también para su posterior recuperación. Por tanto, el objetivo general de la indización es el almacenamiento y recuperación de información.

Los primeros pasos para la automatización de la indización se dieron a finales de 1950 en la disciplina de Ciencias de la Información (Biblioteconomía y Documentación), y dentro de ésta, en el área de Procesos técnicos. Después de la Segunda Guerra Mundial se produjo un crecimiento exponencial de la información. Debido a este incremento fue preciso ir incorporando a las unidades documentales (bibliotecas y centros de documentación) formas de trabajo más ágiles, es decir, intentar automatizar algunos de las tareas que tradicionalmente se venían realizando intelectualmente y que requieren mucho esfuerzo y tiempo.

El pionero en trabajar en esto fue Hans Peter Luhn (1957) toma la Ley de Zipf para aplicarla en automatizar esta tarea. Desde entonces en la numerosa literatura científica producida sobre este asunto se le ha denominado de diferentes maneras. Así, podemos encontrar denominaciones como 'Indización asistida por computador', 'Indización automatizada', 'Indización computerizada', 'Indización por computador', 'Indización mecanizada', 'Indización semiautomática' o la misma Indización automática, entre otras [Gil Leiva, 2008]. Según este autor, estas distintas denominaciones hacen referencia a tres conceptos diferentes:

  1. Indización asistida por ordenador durante el almacenamiento: Programas informáticos que asisten en el proceso de almacenamiento de los términos de indización, una vez obtenidos de modo intelectual.
  2. Indización semiautomática: Programas informáticos que analizan los documentos y seleccionan los términos de indización, pero un profesional debe validar, editar (si fuera necesario) y asignar definitivamente dichos términos a los documentos.
  3. Indización automática: Programas informáticos que analizan, seleccionan y asignan a los documentos términos de indización sin ninguna intervención humana.

Herramientas Editar

Algunas de las herramientas que vienen utilizando los programas informáticos para conseguir una indización automática son las siguientes (Gil Leiva, 2008):

  • Listas de palabras vacías: Fichero compuesto por artículos, conjunciones, preposiciones, adverbios como por ejemplo (el, la, por, para, con, sin, etc.). Es decir, palabras que por sí solas no transmiten carga temática.
  • Ponderación de términos: Uso de la frecuencia para dar valores a las palabras que aparecen en los documentos.
  • Analizadores lingüísticos: Analizadores o etiquetadores morfológicos, sintácticos o semánticos para realizar un procesamiento de lenguajes naturales.
  • Algoritmo: Listado definido y ordenado de operaciones para solucionar un problema.
  • Vocabulario controlado: Listado alfabético y/o sistemático de terminología especializada.
  • Reconocedores de nombres propios y siglas.

Sistemas de indización automática Editar

Los avances en la indización automática se han ido utilizando en determinadas unidades documentales que manejan gran cantidad de información. De este modo, han surgido prototipos como Shapire desarrollado por la Biblioteca Nacional de Medicina de los Estados Unidos;[1]​ en el centro de documentación de la NASA;[2]​ en el Laboratorio Europeo de Física de Partículas (CERN) de Ginebra[3]​ o SISA,[4]​ entre otros.

Referencias Editar

  1. Hersh y Greenes, 1990
  2. Silvestre, Genuardi y Klingbiel, 1994
  3. Montejo Ráez, 2001
  4. Gil Leiva, 2003

Bibliografía Editar

  • GIL LEIVA, Isidoro. .II Jornadas de Tratamiento y Recuperación de Información, Madrid, septiembre de 2003, p. 228-232. ISBN 84-9705-199-8
  • HERSH, W.R. y GREENES, R.A. SAPHIRE, an information retrieval system featuring concept matching automatic indexing, probabilistic retrieval, and hierarchical relationships. Computers and Biomedical Research, 1990, vol. 23, p. 410-425. ISSN 0010-4809
  • LUHN, H.P. A statistical approach to mechanized enconding and searching of literary information. IBM Journal of Resarch and Development, 1957, vol. 1, n.º 4, p.309-317. ISSN 0018-8646
  • MONTEJO RÁEZ, Arturo. Proyecto de indexado automático para documentos en el campo de la física de altas energías. Boletín de Sociedad Española para el Procesamiento del Lenguaje Natural, 2001, n.º 27, septiembre, p. 295-296. ISSN 84-8454-163-0

Véase también Editar

  •   Datos: Q6448044

indización, automática, indización, automática, selección, conjunto, términos, representen, íntegramente, documento, texto, imagen, sonido, medio, programa, informático, hasta, finales, década, 1950, indización, venía, realizando, bibliotecas, centros, documen. La indizacion automatica es la seleccion de un conjunto de terminos que representen integramente un documento texto imagen sonido por medio de un programa informatico Hasta finales de la decada de 1950 la indizacion se venia realizando en las Bibliotecas y Centros de Documentacion de manera intelectual Desde entonces se viene trabajando en automatizar esta tarea Indice 1 Contexto 2 Herramientas 3 Sistemas de indizacion automatica 4 Referencias 5 Bibliografia 6 Vease tambienContexto EditarLos antecedentes mas remotos de la indizacion se encuentran en la antigua Mesopotamia cuando en el exterior de las cestas de mimbre en las que guardaban las tablillas de barro colocaban una frase que servia para conocer de que trataban las tabillas alli depositadas sin necesidad de abrir dichas cestas Con este sistema tan simple se conseguia almacenar de manera mas o menos organizada las tablillas almacenamiento de datos y ademas ese sistema ayudaba posteriormente a localizar informacion recuperacion de informacion La indizacion es por tanto un proceso intelectual o automatico llevado a cabo generalmente por profesionales de la Informacion y Documentacion bibliotecarios documentalistas y archiveros por el cual se analiza el contenido de un documento para seleccionar un conjunto de conceptos que representan el contenido integro de dicho documento y normalmente dichas palabras seleccionadas del documento en lenguaje natural esto es palabras clave se convierten en lenguaje controlado descriptores y encabezamientos de materia una vez que se buscan y encuentran sus equivalentes en los lenguajes de indizacion tesauro listas de encabezamientos de materia o listado alfabetico de descriptores De este modo esos descriptores o encabezamientos de materia sirven para el almacenamiento de esos documentos en bases de datos o catalogos y recuperacion tambien para su posterior recuperacion Por tanto el objetivo general de la indizacion es el almacenamiento y recuperacion de informacion Los primeros pasos para la automatizacion de la indizacion se dieron a finales de 1950 en la disciplina de Ciencias de la Informacion Biblioteconomia y Documentacion y dentro de esta en el area de Procesos tecnicos Despues de la Segunda Guerra Mundial se produjo un crecimiento exponencial de la informacion Debido a este incremento fue preciso ir incorporando a las unidades documentales bibliotecas y centros de documentacion formas de trabajo mas agiles es decir intentar automatizar algunos de las tareas que tradicionalmente se venian realizando intelectualmente y que requieren mucho esfuerzo y tiempo El pionero en trabajar en esto fue Hans Peter Luhn 1957 toma la Ley de Zipf para aplicarla en automatizar esta tarea Desde entonces en la numerosa literatura cientifica producida sobre este asunto se le ha denominado de diferentes maneras Asi podemos encontrar denominaciones como Indizacion asistida por computador Indizacion automatizada Indizacion computerizada Indizacion por computador Indizacion mecanizada Indizacion semiautomatica o la misma Indizacion automatica entre otras Gil Leiva 2008 Segun este autor estas distintas denominaciones hacen referencia a tres conceptos diferentes Indizacion asistida por ordenador durante el almacenamiento Programas informaticos que asisten en el proceso de almacenamiento de los terminos de indizacion una vez obtenidos de modo intelectual Indizacion semiautomatica Programas informaticos que analizan los documentos y seleccionan los terminos de indizacion pero un profesional debe validar editar si fuera necesario y asignar definitivamente dichos terminos a los documentos Indizacion automatica Programas informaticos que analizan seleccionan y asignan a los documentos terminos de indizacion sin ninguna intervencion humana Herramientas EditarAlgunas de las herramientas que vienen utilizando los programas informaticos para conseguir una indizacion automatica son las siguientes Gil Leiva 2008 Listas de palabras vacias Fichero compuesto por articulos conjunciones preposiciones adverbios como por ejemplo el la por para con sin etc Es decir palabras que por si solas no transmiten carga tematica Ponderacion de terminos Uso de la frecuencia para dar valores a las palabras que aparecen en los documentos Analizadores linguisticos Analizadores o etiquetadores morfologicos sintacticos o semanticos para realizar un procesamiento de lenguajes naturales Algoritmo Listado definido y ordenado de operaciones para solucionar un problema Vocabulario controlado Listado alfabetico y o sistematico de terminologia especializada Reconocedores de nombres propios y siglas Sistemas de indizacion automatica EditarLos avances en la indizacion automatica se han ido utilizando en determinadas unidades documentales que manejan gran cantidad de informacion De este modo han surgido prototipos como Shapire desarrollado por la Biblioteca Nacional de Medicina de los Estados Unidos 1 en el centro de documentacion de la NASA 2 en el Laboratorio Europeo de Fisica de Particulas CERN de Ginebra 3 o SISA 4 entre otros Referencias Editar Hersh y Greenes 1990 Silvestre Genuardi y Klingbiel 1994 Montejo Raez 2001 Gil Leiva 2003Bibliografia EditarGIL LEIVA Isidoro Sistema para la Indizacion Semiautomatica SISA de Articulos de Revista de Biblioteconomia y Documentacion II Jornadas de Tratamiento y Recuperacion de Informacion Madrid septiembre de 2003 p 228 232 ISBN 84 9705 199 8GIL LEIVA Isidoro Manual de indizacion Teoria y practica Gijon Trea 2008 ISBN 978 84 9704 367 0HERSH W R y GREENES R A SAPHIRE an information retrieval system featuring concept matching automatic indexing probabilistic retrieval and hierarchical relationships Computers and Biomedical Research 1990 vol 23 p 410 425 ISSN 0010 4809LUHN H P A statistical approach to mechanized enconding and searching of literary information IBM Journal of Resarch and Development 1957 vol 1 n º 4 p 309 317 ISSN 0018 8646MONTEJO RAEZ Arturo Proyecto de indexado automatico para documentos en el campo de la fisica de altas energias Boletin de Sociedad Espanola para el Procesamiento del Lenguaje Natural 2001 n º 27 septiembre p 295 296 ISSN 84 8454 163 0Vease tambien EditarIndizacion nbsp Datos Q6448044 Obtenido de https es wikipedia org w index php title Indizacion automatica amp oldid 136739371, wikipedia, wiki, leyendo, leer, libro, biblioteca,

español

, española, descargar, gratis, descargar gratis, mp3, video, mp4, 3gp, jpg, jpeg, gif, png, imagen, música, canción, película, libro, juego, juegos