fbpx
Wikipedia

Modelo de relevancia probabilístico

El modelo de relevancia probabilístico fue propuesto por Robertson y Spark-Jones en 1976 con el objetivo de representar el proceso de recuperación de información desde el punto de vista de las probabilidades.[1]

Presentación

Este modelo hace una estimación de la probabilidad de que un documento dj sea relevante una consulta q, asumiendo que dicha probabilidad depende de la representación del documento y de la consulta. Además se asume que existe un subconjunto de documentos de la colección que el usuario prefiere como respuesta a la consulta q. Dicho subconjunto ideal se denota por REL y debe maximizar la probabilidad total de relevancia para un dicho usuario. La predicción se basa en que los documentos que se encuentran en el conjunto REL son relevantes para la consulta y los que no están presentes son no relevantes.

Considerando una consulta se puede dividir una colección de N documentos en cuatro subconjuntos distintos:

  • REL conjunto de documentos relevantes
  • REC conjunto de documentos recuperados
  • RR conjunto de documentos relevantes recuperados
  • NN el conjunto de documentos no relevantes no recuperados
 
Conjuntos en los que se divide la colección de conjuntos.

En una primera fase se hace una descripción probabilística preliminar del conjunto REL. Posteriormente el usuario analiza cuales de los documentos del cjto REL son realmente relevantes, se hace un proceso de refinamiento de dicho conjunto y se pasa nuevamente al primer paso. Se sigue el procedimiento hasta obtener una probabilidad aceptable o si el usuario decide terminar y trabajar con los documentos recobrados.

Dada una consulta q y un documento dj en la colección este modelo trata de estimar la probabilidad de que el usuario encuentre interesante al documento. Si denotamos al conjunto de documentos relevantes (REL) por R y a su complemento por R techo la función de similitud quedaría como muestra la figura.

 
Función de similitud.

Definición Formal

Siguiendo la notación tradicional para la deficición formal de un Modelo de recuperación de información, la definición formal del Modelo Probabilístico es la siguiente:[2]

Modelos relacionados

Este marco de trabajo posee algunas limitaciones que necesitan ser superadas en próximos desarrollos del mismo:

  • No existe un valor exacto del valor de la probabilidad a usar en el primer paso del algoritmo.
  • Los términos indexados no poseen peso.
  • No se considera la dependencia entre términos.

Para responder a estas limitaciones existen otros modelos basados en el marco de trabajo probabilístico, por ejemplo el modelo de independencia binaria, desarrollado por los mismos autores. El esquema de pesos Okapi(BM25) es derivado de este marco de trabajo al igual que el Okapi(BM25F).

Referencias

  1. S.E. Robertson; K.S. Jones (May - June 1976), Relevance weighting of search terms, Journal of teh American Society for Information Science, pp. 129-146.
  2. Baeza-Yates, R., Ribeiro-Net, B. (1998) Modern Information Retrieval. 30-34, 38-41, 61-65


  •   Datos: Q3318133

modelo, relevancia, probabilístico, modelo, relevancia, probabilístico, propuesto, robertson, spark, jones, 1976, objetivo, representar, proceso, recuperación, información, desde, punto, vista, probabilidades, Índice, presentación, definición, formal, modelos,. El modelo de relevancia probabilistico fue propuesto por Robertson y Spark Jones en 1976 con el objetivo de representar el proceso de recuperacion de informacion desde el punto de vista de las probabilidades 1 Indice 1 Presentacion 2 Definicion Formal 3 Modelos relacionados 4 ReferenciasPresentacion EditarEste modelo hace una estimacion de la probabilidad de que un documento dj sea relevante una consulta q asumiendo que dicha probabilidad depende de la representacion del documento y de la consulta Ademas se asume que existe un subconjunto de documentos de la coleccion que el usuario prefiere como respuesta a la consulta q Dicho subconjunto ideal se denota por REL y debe maximizar la probabilidad total de relevancia para un dicho usuario La prediccion se basa en que los documentos que se encuentran en el conjunto REL son relevantes para la consulta y los que no estan presentes son no relevantes Considerando una consulta se puede dividir una coleccion de N documentos en cuatro subconjuntos distintos REL conjunto de documentos relevantes REC conjunto de documentos recuperados RR conjunto de documentos relevantes recuperados NN el conjunto de documentos no relevantes no recuperados Conjuntos en los que se divide la coleccion de conjuntos En una primera fase se hace una descripcion probabilistica preliminar del conjunto REL Posteriormente el usuario analiza cuales de los documentos del cjto REL son realmente relevantes se hace un proceso de refinamiento de dicho conjunto y se pasa nuevamente al primer paso Se sigue el procedimiento hasta obtener una probabilidad aceptable o si el usuario decide terminar y trabajar con los documentos recobrados Dada una consulta q y un documento dj en la coleccion este modelo trata de estimar la probabilidad de que el usuario encuentre interesante al documento Si denotamos al conjunto de documentos relevantes REL por R y a su complemento por R techo la funcion de similitud quedaria como muestra la figura Funcion de similitud Definicion Formal EditarSiguiendo la notacion tradicional para la deficicion formal de un Modelo de recuperacion de informacion la definicion formal del Modelo Probabilistico es la siguiente 2 Documentos Vectores de pesos binarios de palabras terminos indexados Consultas Vectores de pesos binarios Marco de Trabajo Teoria de probabilidades Ranking Calculo de la probabilidad de que el documento dj sea relevante dada la consulta q sobre la probabilidad de que no sea relevante Modelos relacionados EditarEste marco de trabajo posee algunas limitaciones que necesitan ser superadas en proximos desarrollos del mismo No existe un valor exacto del valor de la probabilidad a usar en el primer paso del algoritmo Los terminos indexados no poseen peso No se considera la dependencia entre terminos Para responder a estas limitaciones existen otros modelos basados en el marco de trabajo probabilistico por ejemplo el modelo de independencia binaria desarrollado por los mismos autores El esquema de pesos Okapi BM25 es derivado de este marco de trabajo al igual que el Okapi BM25F Referencias Editar S E Robertson K S Jones May June 1976 Relevance weighting of search terms Journal of teh American Society for Information Science pp 129 146 Baeza Yates R Ribeiro Net B 1998 Modern Information Retrieval 30 34 38 41 61 65 Datos Q3318133Obtenido de https es wikipedia org w index php title Modelo de relevancia probabilistico amp oldid 117324295, wikipedia, wiki, leyendo, leer, libro, biblioteca,

español

, española, descargar, gratis, descargar gratis, mp3, video, mp4, 3gp, jpg, jpeg, gif, png, imagen, música, canción, película, libro, juego, juegos