Modelo de relevancia probabilístico

El modelo de relevancia probabilístico fue propuesto por Robertson y Spark-Jones en 1976 con el objetivo de representar el proceso de recuperación de información desde el punto de vista de las probabilidades.^[1]

Presentación

Este modelo hace una estimación de la probabilidad de que un documento dj sea relevante una consulta q, asumiendo que dicha probabilidad depende de la representación del documento y de la consulta. Además se asume que existe un subconjunto de documentos de la colección que el usuario prefiere como respuesta a la consulta q. Dicho subconjunto ideal se denota por REL y debe maximizar la probabilidad total de relevancia para un dicho usuario. La predicción se basa en que los documentos que se encuentran en el conjunto REL son relevantes para la consulta y los que no están presentes son no relevantes.

Considerando una consulta se puede dividir una colección de N documentos en cuatro subconjuntos distintos:

REL conjunto de documentos relevantes
REC conjunto de documentos recuperados
RR conjunto de documentos relevantes recuperados
NN el conjunto de documentos no relevantes no recuperados

Conjuntos en los que se divide la colección de conjuntos.

En una primera fase se hace una descripción probabilística preliminar del conjunto REL. Posteriormente el usuario analiza cuales de los documentos del cjto REL son realmente relevantes, se hace un proceso de refinamiento de dicho conjunto y se pasa nuevamente al primer paso. Se sigue el procedimiento hasta obtener una probabilidad aceptable o si el usuario decide terminar y trabajar con los documentos recobrados.

Dada una consulta q y un documento dj en la colección este modelo trata de estimar la probabilidad de que el usuario encuentre interesante al documento. Si denotamos al conjunto de documentos relevantes (REL) por R y a su complemento por R techo la función de similitud quedaría como muestra la figura.

Función de similitud.

Definición Formal

Siguiendo la notación tradicional para la deficición formal de un Modelo de recuperación de información, la definición formal del Modelo Probabilístico es la siguiente:^[2]

Documentos: Vectores de pesos (binarios) de palabras (términos indexados).
Consultas: Vectores de pesos (binarios).
Marco de Trabajo: Teoría de probabilidades.
Ranking: Cálculo de la probabilidad de que el documento dj sea relevante dada la consulta q sobre la probabilidad de que no sea relevante.

Modelos relacionados

Este marco de trabajo posee algunas limitaciones que necesitan ser superadas en próximos desarrollos del mismo:

No existe un valor exacto del valor de la probabilidad a usar en el primer paso del algoritmo.
Los términos indexados no poseen peso.
No se considera la dependencia entre términos.

Para responder a estas limitaciones existen otros modelos basados en el marco de trabajo probabilístico, por ejemplo el modelo de independencia binaria, desarrollado por los mismos autores. El esquema de pesos Okapi(BM25) es derivado de este marco de trabajo al igual que el Okapi(BM25F).

Referencias

S.E. Robertson; K.S. Jones (May - June 1976), Relevance weighting of search terms, Journal of teh American Society for Information Science, pp. 129-146.
Baeza-Yates, R., Ribeiro-Net, B. (1998) Modern Information Retrieval. 30-34, 38-41, 61-65

Datos: Q3318133

[1] S.E. Robertson; K.S. Jones (May - June 1976), Relevance weighting of search terms, Journal of teh American Society for Information Science, pp. 129-146.

[2] Baeza-Yates, R., Ribeiro-Net, B. (1998) Modern Information Retrieval. 30-34, 38-41, 61-65

[1]

[2]

www.wiki3.es-es.nina.az

Modelo de relevancia probabilístico

Presentación

Definición Formal

Modelos relacionados

Referencias

José de Navarrete y Vela-Hidalgo

José de Ribera

José de Udaeta

José de Vega y de Sentmenat

José de Vértiz y Salcedo

José de los Santos Mardones

José de la Borda

José de la Hera

José de la Mata

José de la Serna e Hinojosa

Subsecretaría de Servicios Sociales de Chile

Subsecretaría de Vivienda y Urbanismo de Chile

Subsecretaría de las Culturas y las Artes de Chile

Subsecretaría para las Fuerzas Armadas de Chile

Subsidencia (meteorología)

español