fbpx
Wikipedia

Búsqueda y recuperación de información

La Búsqueda y Recuperación de Información, llamada en inglés Information Search and Retrieval (ISR), es la ciencia de la búsqueda de información en documentos electrónicos y cualquier tipo de colección documental digital, encargada de la búsqueda dentro de estos mismos, búsqueda de metadatos que describan documentos, o también la búsqueda en bases de datos relacionales, ya sea a través de internet, una intranet, y como objetivo realiza la recuperación en textos, imágenes, sonido o datos de otras características, de manera pertinente y relevante.

La recuperación de información es un estudio interdisciplinario. Cubre tantas disciplinas que eso genera normalmente un conocimiento parcial desde tan solo una u otra perspectiva. Algunas de las disciplinas que se ocupan de estos estudios son la psicología cognitiva, la arquitectura de la información, diseño de la información, inteligencia artificial, lingüística, semiótica, informática, biblioteconomía, archivística y documentación.

Para alcanzar su objetivo de recuperación se sustenta en los sistemas de información, y al ser de carácter multidisciplinario intervienen bibliotecólogos para determinar criterio de búsqueda, la relevancia y pertinencia de los términos, en conjunto con la informática.

Historia

La idea del uso de computadoras para la búsqueda de trozos relevantes de información se popularizó a raíz de un artículo As We May Think de Vannevar Bush en el año 1945.[1]​ Los primeros sistemas automatizados de recuperación de la información fueron presentados durante la década de 1950 a 1960. Durante 1970 se realizaron pruebas a un grupo de textos como la colección Cranfield para un gran número de distintas técnicas cuyo rendimiento fue bueno.[1]​ Los sistemas de recuperación a larga escala, como el Sistema de Diálogo Lockheed, comenzaron a utilizarse a principios de 1970.

En 1992, el Departamento de Defensa de los Estados Unidos conjuntamente con el Instituto Nacional de Estándares y Tecnología (NIST por su sigla en inglés), patrocinaron la Conferencia de Recuperación de Texto (TREC) como parte del programa TIPSTER. Esto proveyó ayuda desde la comunidad de recuperación de la información al suministrar la infraestructura necesaria para la evaluación de metodologías de recuperación de texto en una colección a larga escala. La introducción de motores de búsqueda ha elevado aún más la necesidad de sistemas de recuperación con mayor capacidad.

El uso de métodos digitales para almacenar y recuperar información ha desembocado en el denominado fenómeno de la obsolescencia digital, que sucede cuando una fuente digital deja de ser accesible porque sus medio físico, el lector utilizado para la lectura de ese medio o el software que lo controla, ya no se encuentra disponible. La información, inicialmente es más fácil de recuperar en lugar de su fuente en papel, pero dicha información entonces, se pierde definitivamente.

Los buscadores, tales como Google, Google Desktop Search, Lycos y Copernic, son algunas de las aplicaciones más populares para la recuperación de información. Básicamente hay que construir un Vocabulario, que es una lista de términos en lenguaje natural, un algoritmo que incluya las reglas lógicas de la búsqueda {Tabla de verdad} y una valoración de los resultados o cantidad de información lograda o posible. Este motor de búsqueda es pues el que permite plantear una pregunta con no menos de dos términos (en algunos casos pueden ser menos de dos términos) y mostrar los resultados mínimos y el logaritmo natural de las interacciones será alrededor de 789

Algunos de los estudiosos más destacados dentro de esta subdisciplina son Gerard Salton, W Bruce Croft, Karen Spärck Jones, Keith van Rijsbergen y Ricardo Baeza-Yates.

A veces se plantean ciertos problemas a la hora de recuperar información provocados por el uso del lenguaje natural (entre otras razones) como el silencio (debido a la sinonimia), el ruido (debido a la polisemia), homografía, ambigüedad, etc.

Presentación

Un proceso de recuperación de información comienza cuando un usuario hace una consulta al sistema. Una consulta a su vez es una afirmación formal de la necesidad de una información. En la recuperación de información una consulta no identifica únicamente a un objeto dentro de la colección. De hecho varios objetos pueden ser respuesta a una consulta con diferentes grados de relevancia.

Un objeto es una identidad que está representada por información en una base de datos. En dependencia de la aplicación estos objetos pueden ser archivos de texto, imágenes, audio, mapas, videos, etc. Muy a menudo los documentos no están almacenados en el sistema de recuperación de información, sino que están representados lógicamente.

La mayoría de los sistemas de recuperación de información computan un ranking para saber cuán bien cada objeto responde a la consulta, ordenando los objetos de acuerdo a su valor de ranking. Los objetos con mayor ranking son mostrados a los usuarios y el proceso puede tener otras iteraciones si el usuario desea refinar su consulta.

Medidas de rendimiento y correctitud

Muchas medidas han sido propuestas para evaluar el rendimiento de los sistemas de recuperación de información. Las medidas necesitan una colección de documentos y una consulta. A continuación serán descritas algunas medidas comunes, las cuales asumen que: cada documento se sabe que este es relevante o no relevante para una consulta particular. En la práctica pueden haber diferentes matices de relevancia.

Precisión

La precisión es la fracción de documentos recuperados que son relevantes para la necesidad de información del usuario.

 

La precisión tiene en cuenta todos los documentos recuperados. También puede ser evaluada en un corte determinado del ranking, considerando solamente los primeros resultados obtenidos del sistema.

Nótese que el significado y uso de la "precisión" en el campo de la Recuperación de Información, difiere de las definiciones de exactitud y precisión en otras ramas de la ciencia y la tecnología.

Exhaustividad

La exhaustividad es la fracción de documentos relevantes para una consulta que fueron recuperados.

 

Resulta trivial obtener un 100% de exhaustividad si se toman como respuesta para cualquier consulta todos los documentos de la colección. Por lo tanto, la exhaustividad sola no es suficiente, sino que se necesita también medir el número de documentos no relevantes, por ejemplo con el cálculo de la precisión.

Proposición de fallo

La proposición de fallo, llamada en inglés fall-out, es la proporción de documentos no relevantes que son recuperados, fuera de todos los documentos relevantes disponibles.

 

Resulta trivial obtener un 0% de proposición de fallo si no se devuelve ningún documento de la colección para cualquier consulta.

Medida F

La medida F es un balance de la precisión y el recobrado:

 

Esta es conocida además como la medida  , pues el recobrado y la precisión son pesados uniformemente.

La fórmula general para el parámetro real no negativo   es:

 .

Otras dos medidas F ampliamente utilizadas son la medida  , que pondera el recobrado dos veces por encima de la precisión, y la medida  , que pesa la precisión dos veces por encima del recobrado.

La medida F fue obtenida por Van Rijsbergen en 1979.   “mide la efectividad de la recuperación respecto a un usuario que atribuye   veces más importancia al recobrado que a la precisión”. Está basada en la medida de Van Rijsbergen  . La relación entre estas dos medidas es   donde  .

Precisión Promedio

La Precisión y el recobrado son métricas basadas en toda la lista de documentos retornada por el sistema dada una consulta. Para sistemas que hacen ranking a los documentos retornados para una consulta es deseable considerar además el orden en que los documentos retornados son presentados. Si se computa la precisión y el recobrado en cada posición de la secuencia de documentos con ranking, podemos plotear la curva precisión - recobrado, ploteando la precisión   como una función del recobrado  . La Precisión Promedio computa el promedio de los valores de   sobre la integral desde   hasta  :

 

Esta integral es remplazada en la práctica por una suma finita sobre todas las posiciones en la secuencia de documentos con ranking:

 

donde   es el ranking en la secuencia de documentos recuperados,   es el número de documentos recuperados,   es la precisión del corte en la posición   de la lista y   es el cambio en el recobrado de los elementos   hasta  .

Esta suma finita es equivalente a:

 

donde   es un indicador igual a 1 si el ítem en la posición   del ranking es relevante al documento, y cero en otro caso. Nótese que el promedio es sobre todos los documentos relevantes y que los documentos relevantes que no son recuperados obtienen una precisión igual a cero.

La Precisión Promedio en ocasiones se refiere geométricamente como el área bajo la curva precisión - recobrado.

Media de la precisión promedio

La media de la precisión promedio (también conocido como La media de Isabel, o MAP: Mean Average Precision por su nombre en inglés), para un conjunto de consultas o queries es el promedio de las puntuaciones medias de precisión para cada consulta.

 

donde Q es el número de consultas que se están evaluando.

Tipos de Modelos

Para recuperar efectivamente los documentos relevantes por estrategias de recuperación de información, los documentos son transformados en una representación lógica de los mismos. Cada estrategia de recuperación incorpora un modelo específico para sus propósitos de representación de los documentos. La figura a la derecha ilustra la relación entre algunos de los modelos más comunes. Los modelos están categorizados de acuerdo a dos dimensiones: la base matemática y las propiedades de los modelos.

 
Categorización de los Modelos de Recuperación de Información

Primera Dimensión: Base Matemática

Segunda Dimensión: Propiedades de los Modelos

  • Modelos sin inter-dependencia entre términos: Tratan a los términos como si fueran independientes.
  • Modelos con inter-dependencia entre términos: Permiten representar las interdependencias entre términos.

Bibliografía

  • Baeza-Yates, Ricardo; Ribeiro-Neto, Berthier: Modern Information Retrieval. New York : ACM;Harlow, Essex: Addison-Wesley Longman, 1999.
  • Salvador Oliván, José A.: Recuperación de Información. Buenos Aires : Alfagrama, 2008.
  • Salton, Gerald; McGill, Michael J.: Introduction to Modern Information Retrieval. New York : McGraw-Hill, 1983.


Referencias

  1. Singhal, Amit (2001). «Modern Information Retrieval: A Brief Overview». Bulletin of the IEEE Computer Society Technical Committee on Data Engineering 24 (4): 35-43. 
  •   Datos: Q816826
  •   Multimedia: Information retrieval

búsqueda, recuperación, información, para, concepto, psicológico, véase, recuperación, memoria, búsqueda, recuperación, información, llamada, inglés, information, search, retrieval, ciencia, búsqueda, información, documentos, electrónicos, cualquier, tipo, col. Para el concepto psicologico vease Recuperacion memoria La Busqueda y Recuperacion de Informacion llamada en ingles Information Search and Retrieval ISR es la ciencia de la busqueda de informacion en documentos electronicos y cualquier tipo de coleccion documental digital encargada de la busqueda dentro de estos mismos busqueda de metadatos que describan documentos o tambien la busqueda en bases de datos relacionales ya sea a traves de internet una intranet y como objetivo realiza la recuperacion en textos imagenes sonido o datos de otras caracteristicas de manera pertinente y relevante La recuperacion de informacion es un estudio interdisciplinario Cubre tantas disciplinas que eso genera normalmente un conocimiento parcial desde tan solo una u otra perspectiva Algunas de las disciplinas que se ocupan de estos estudios son la psicologia cognitiva la arquitectura de la informacion diseno de la informacion inteligencia artificial linguistica semiotica informatica biblioteconomia archivistica y documentacion Para alcanzar su objetivo de recuperacion se sustenta en los sistemas de informacion y al ser de caracter multidisciplinario intervienen bibliotecologos para determinar criterio de busqueda la relevancia y pertinencia de los terminos en conjunto con la informatica Indice 1 Historia 2 Presentacion 3 Medidas de rendimiento y correctitud 3 1 Precision 3 2 Exhaustividad 3 3 Proposicion de fallo 3 4 Medida F 3 5 Precision Promedio 3 6 Media de la precision promedio 4 Tipos de Modelos 4 1 Primera Dimension Base Matematica 4 2 Segunda Dimension Propiedades de los Modelos 5 Bibliografia 6 ReferenciasHistoria EditarLa idea del uso de computadoras para la busqueda de trozos relevantes de informacion se popularizo a raiz de un articulo As We May Think de Vannevar Bush en el ano 1945 1 Los primeros sistemas automatizados de recuperacion de la informacion fueron presentados durante la decada de 1950 a 1960 Durante 1970 se realizaron pruebas a un grupo de textos como la coleccion Cranfield para un gran numero de distintas tecnicas cuyo rendimiento fue bueno 1 Los sistemas de recuperacion a larga escala como el Sistema de Dialogo Lockheed comenzaron a utilizarse a principios de 1970 En 1992 el Departamento de Defensa de los Estados Unidos conjuntamente con el Instituto Nacional de Estandares y Tecnologia NIST por su sigla en ingles patrocinaron la Conferencia de Recuperacion de Texto TREC como parte del programa TIPSTER Esto proveyo ayuda desde la comunidad de recuperacion de la informacion al suministrar la infraestructura necesaria para la evaluacion de metodologias de recuperacion de texto en una coleccion a larga escala La introduccion de motores de busqueda ha elevado aun mas la necesidad de sistemas de recuperacion con mayor capacidad El uso de metodos digitales para almacenar y recuperar informacion ha desembocado en el denominado fenomeno de la obsolescencia digital que sucede cuando una fuente digital deja de ser accesible porque sus medio fisico el lector utilizado para la lectura de ese medio o el software que lo controla ya no se encuentra disponible La informacion inicialmente es mas facil de recuperar en lugar de su fuente en papel pero dicha informacion entonces se pierde definitivamente Los buscadores tales como Google Google Desktop Search Lycos y Copernic son algunas de las aplicaciones mas populares para la recuperacion de informacion Basicamente hay que construir un Vocabulario que es una lista de terminos en lenguaje natural un algoritmo que incluya las reglas logicas de la busqueda Tabla de verdad y una valoracion de los resultados o cantidad de informacion lograda o posible Este motor de busqueda es pues el que permite plantear una pregunta con no menos de dos terminos en algunos casos pueden ser menos de dos terminos y mostrar los resultados minimos y el logaritmo natural de las interacciones sera alrededor de 789Algunos de los estudiosos mas destacados dentro de esta subdisciplina son Gerard Salton W Bruce Croft Karen Sparck Jones Keith van Rijsbergen y Ricardo Baeza Yates A veces se plantean ciertos problemas a la hora de recuperar informacion provocados por el uso del lenguaje natural entre otras razones como el silencio debido a la sinonimia el ruido debido a la polisemia homografia ambiguedad etc Presentacion EditarUn proceso de recuperacion de informacion comienza cuando un usuario hace una consulta al sistema Una consulta a su vez es una afirmacion formal de la necesidad de una informacion En la recuperacion de informacion una consulta no identifica unicamente a un objeto dentro de la coleccion De hecho varios objetos pueden ser respuesta a una consulta con diferentes grados de relevancia Un objeto es una identidad que esta representada por informacion en una base de datos En dependencia de la aplicacion estos objetos pueden ser archivos de texto imagenes audio mapas videos etc Muy a menudo los documentos no estan almacenados en el sistema de recuperacion de informacion sino que estan representados logicamente La mayoria de los sistemas de recuperacion de informacion computan un ranking para saber cuan bien cada objeto responde a la consulta ordenando los objetos de acuerdo a su valor de ranking Los objetos con mayor ranking son mostrados a los usuarios y el proceso puede tener otras iteraciones si el usuario desea refinar su consulta Medidas de rendimiento y correctitud EditarMuchas medidas han sido propuestas para evaluar el rendimiento de los sistemas de recuperacion de informacion Las medidas necesitan una coleccion de documentos y una consulta A continuacion seran descritas algunas medidas comunes las cuales asumen que cada documento se sabe que este es relevante o no relevante para una consulta particular En la practica pueden haber diferentes matices de relevancia Precision Editar La precision es la fraccion de documentos recuperados que son relevantes para la necesidad de informacion del usuario Precision documentos relevantes documentos recuperados documentos recuperados displaystyle mbox Precision frac mbox documentos relevantes cap mbox documentos recuperados mbox documentos recuperados La precision tiene en cuenta todos los documentos recuperados Tambien puede ser evaluada en un corte determinado del ranking considerando solamente los primeros resultados obtenidos del sistema Notese que el significado y uso de la precision en el campo de la Recuperacion de Informacion difiere de las definiciones de exactitud y precision en otras ramas de la ciencia y la tecnologia Exhaustividad Editar La exhaustividad es la fraccion de documentos relevantes para una consulta que fueron recuperados Exhaustividad documentos relevantes documentos recuperados documentos relevantes displaystyle mbox Exhaustividad frac mbox documentos relevantes cap mbox documentos recuperados mbox documentos relevantes Resulta trivial obtener un 100 de exhaustividad si se toman como respuesta para cualquier consulta todos los documentos de la coleccion Por lo tanto la exhaustividad sola no es suficiente sino que se necesita tambien medir el numero de documentos no relevantes por ejemplo con el calculo de la precision Proposicion de fallo Editar La proposicion de fallo llamada en ingles fall out es la proporcion de documentos no relevantes que son recuperados fuera de todos los documentos relevantes disponibles fall out documentos no relevantes documentos recuperados documentos no relevantes displaystyle mbox fall out frac mbox documentos no relevantes cap mbox documentos recuperados mbox documentos no relevantes Resulta trivial obtener un 0 de proposicion de fallo si no se devuelve ningun documento de la coleccion para cualquier consulta Medida F Editar La medida F es un balance de la precision y el recobrado F 2 P r e c i s i o n R e c o b r a d o P r e c i s i o n R e c o b r a d o displaystyle F frac 2 cdot mathrm Precision cdot mathrm Recobrado mathrm Precision mathrm Recobrado Esta es conocida ademas como la medida F 1 displaystyle F 1 pues el recobrado y la precision son pesados uniformemente La formula general para el parametro real no negativo b displaystyle beta es F b 1 b 2 P r e c i s i o n R e c o b r a d o b 2 P r e c i s i o n R e c o b r a d o displaystyle F beta frac 1 beta 2 cdot mathrm Precision cdot mathrm Recobrado beta 2 cdot mathrm Precision mathrm Recobrado Otras dos medidas F ampliamente utilizadas son la medida F 2 displaystyle F 2 que pondera el recobrado dos veces por encima de la precision y la medida F 0 5 displaystyle F 0 5 que pesa la precision dos veces por encima del recobrado La medida F fue obtenida por Van Rijsbergen en 1979 F b displaystyle F beta mide la efectividad de la recuperacion respecto a un usuario que atribuye b displaystyle beta veces mas importancia al recobrado que a la precision Esta basada en la medida de Van Rijsbergen E 1 1 a P 1 a R displaystyle E 1 frac 1 frac alpha P frac 1 alpha R La relacion entre estas dos medidas es F b 1 E displaystyle F beta 1 E donde a 1 1 b 2 displaystyle alpha frac 1 1 beta 2 Precision Promedio Editar La Precision y el recobrado son metricas basadas en toda la lista de documentos retornada por el sistema dada una consulta Para sistemas que hacen ranking a los documentos retornados para una consulta es deseable considerar ademas el orden en que los documentos retornados son presentados Si se computa la precision y el recobrado en cada posicion de la secuencia de documentos con ranking podemos plotear la curva precision recobrado ploteando la precision p r displaystyle p r como una funcion del recobrado r displaystyle r La Precision Promedio computa el promedio de los valores de p r displaystyle p r sobre la integral desde r 0 displaystyle r 0 hasta r 1 displaystyle r 1 AveP 0 1 p r d r displaystyle operatorname AveP int 0 1 p r dr Esta integral es remplazada en la practica por una suma finita sobre todas las posiciones en la secuencia de documentos con ranking AveP k 1 n P k D r k displaystyle operatorname AveP sum k 1 n P k Delta r k donde k displaystyle k es el ranking en la secuencia de documentos recuperados n displaystyle n es el numero de documentos recuperados P k displaystyle P k es la precision del corte en la posicion k displaystyle k de la lista y D r k displaystyle Delta r k es el cambio en el recobrado de los elementos k 1 displaystyle k 1 hasta k displaystyle k Esta suma finita es equivalente a AveP k 1 n P k r e l k number of relevant documents displaystyle operatorname AveP frac sum k 1 n P k times rel k mbox number of relevant documents donde r e l k displaystyle rel k es un indicador igual a 1 si el item en la posicion k displaystyle k del ranking es relevante al documento y cero en otro caso Notese que el promedio es sobre todos los documentos relevantes y que los documentos relevantes que no son recuperados obtienen una precision igual a cero La Precision Promedio en ocasiones se refiere geometricamente como el area bajo la curva precision recobrado Media de la precision promedio Editar La media de la precision promedio tambien conocido como La media de Isabel o MAP Mean Average Precision por su nombre en ingles para un conjunto de consultas o queries es el promedio de las puntuaciones medias de precision para cada consulta MAP q 1 Q A v e P q Q displaystyle operatorname MAP frac sum q 1 Q operatorname AveP q Q donde Q es el numero de consultas que se estan evaluando Tipos de Modelos EditarPara recuperar efectivamente los documentos relevantes por estrategias de recuperacion de informacion los documentos son transformados en una representacion logica de los mismos Cada estrategia de recuperacion incorpora un modelo especifico para sus propositos de representacion de los documentos La figura a la derecha ilustra la relacion entre algunos de los modelos mas comunes Los modelos estan categorizados de acuerdo a dos dimensiones la base matematica y las propiedades de los modelos Categorizacion de los Modelos de Recuperacion de Informacion Primera Dimension Base Matematica Editar Modelos basados en Teoria de Conjuntos Los documentos se representan como un conjunto de palabras o frases Los modelos mas comunes son Modelo Booleano Modelo Booleano Extendido Modelo Fuzzy Modelos Algebraicos En estos modelos los documentos y las consultas se representas como vectores matrices o tuplas La similitud entre un documento y una consulta se representa por un escalar Dentro de ellos tenemos Modelo Vectorial Modelo Vectorial Generalizado Modelo Booleano Extendido Indexacion Semantica Latente Modelos Probabilisticos Tratan el proceso de recuperacion de documentos como una inferencia probabilistica Las similitudes son calculadas como las probabilidades de que un documento sea relevante dada una consulta Modelo de independencia binaria Modelo de Relevancia Probabilistico Redes de Inferencia Redes de CreenciaSegunda Dimension Propiedades de los Modelos Editar Modelos sin inter dependencia entre terminos Tratan a los terminos como si fueran independientes Modelos con inter dependencia entre terminos Permiten representar las interdependencias entre terminos Bibliografia EditarBaeza Yates Ricardo Ribeiro Neto Berthier Modern Information Retrieval New York ACM Harlow Essex Addison Wesley Longman 1999 Salvador Olivan Jose A Recuperacion de Informacion Buenos Aires Alfagrama 2008 Salton Gerald McGill Michael J Introduction to Modern Information Retrieval New York McGraw Hill 1983 Esta obra contiene una traduccion derivada de Information Retrieval de Wikipedia en ingles publicada por sus editores bajo la Licencia de documentacion libre de GNU y la Licencia Creative Commons Atribucion CompartirIgual 3 0 Unported Referencias Editar a b Singhal Amit 2001 Modern Information Retrieval A Brief Overview Bulletin of the IEEE Computer Society Technical Committee on Data Engineering 24 4 35 43 Datos Q816826 Multimedia Information retrieval Obtenido de https es wikipedia org w index php title Busqueda y recuperacion de informacion amp oldid 141179340, wikipedia, wiki, leyendo, leer, libro, biblioteca,

español

, española, descargar, gratis, descargar gratis, mp3, video, mp4, 3gp, jpg, jpeg, gif, png, imagen, música, canción, película, libro, juego, juegos