fbpx
Wikipedia

Okapi BM25

Okapi BM25 es una función de ranking utilizada en Recuperación de información para la asignación de relevancia a los documentos en un buscador, dicho de otra forma, es una función que nos permite ordenar por relevancia los documentos que contienen las palabras que el usuario ha introducido en la caja de búsqueda de un buscador como Google, Yahoo! o Live.

Esta función está basada en los modelos probabilísticos de Recuperación de información, concretamente en el BIR (Binary Independent Retrieval) desarrollado por Stephen E. Robertson y Karen Spärck Jones en los años 70.

El nombre de Okapi viene del primer sistema que implementó esta función de ranking, el cual fue desarrollado por Stephen Walker en la City University de Londres


La función de ranking

BM25 se basa en el concepto de bolsa de palabras mediante al cual se representan los documentos que deseamos ordenar en función de su relevancia con una consulta dada.

Dada una consulta  , que contiene las palabras clave  , el valor de relevancia asignado mediante la función BM25 para el documentos   será:

 

donde   es la frecuencia de aparición en el documento   de los términos que aparecen en la consulta  ,   es la longitud del documento   (en número de palabras), y   es la longitud media de los documentos en la colección sobre la cual estamos realizando la búsqueda.   y   son parámetros que permiten ajustar la función a las características concretas de la colección con la que estamos trabajando. Aunque estos parámetros suelen depender de las características concretas de cada colección normalmente se asignan los valores   o   y  , los cuales se han establecido a partir de los experimentos que durante años se han realizado en las conferencias TREC.   es el peso IDF (inverse document frequency) de las palabras clave que aparecen en la consulta  . Normalmente el IDF se calcula mediante la siguiente función:

 

donde   es el número total de documentos en la colección, y   es el número de documentos que contienen la palabra clave  .

Véase también

Bibliografía

  • Stephen E. Robertson; Steve Walker; Susan Jones; Micheline Hancock-Beaulieu & Mike Gatford (November 1994). Okapi at TREC-3. Proceedings of the Third Text REtrieval Conference (TREC 1994). Gaithersburg, USA.  Parámetro desconocido |last-author-amp= ignorado (ayuda)
  • Stephen E. Robertson; Steve Walker & Micheline Hancock-Beaulieu (November 1998). Okapi at TREC-7. Proceedings of the Seventh Text REtrieval Conference. Gaithersburg, USA.  Parámetro desconocido |last-author-amp= ignorado (ayuda)
  • Spärck Jones, K.; Walker, S.; Robertson, S. E. (2000). «A probabilistic model of information retrieval: Development and comparative experiments: Part 1». Information Processing & Management 36 (6): 779-808. doi:10.1016/S0306-4573(00)00015-7. 
  • Spärck Jones, K.; Walker, S.; Robertson, S. E. (2000). «A probabilistic model of information retrieval: Development and comparative experiments: Part 2». Information Processing & Management 36 (6): 809-840. doi:10.1016/S0306-4573(00)00016-9. 
  • Stephen Robertson & Hugo Zaragoza (2009). The Probabilistic Relevance Framework: BM25 and Beyond 3 (4). Found. Trends Inf. Retr. pp. 333-389. doi:10.1561/1500000019.  Parámetro desconocido |citeseerx= ignorado (ayuda)

Enlaces externos

  •   Datos: Q2068750

okapi, bm25, función, ranking, utilizada, recuperación, información, para, asignación, relevancia, documentos, buscador, dicho, otra, forma, función, permite, ordenar, relevancia, documentos, contienen, palabras, usuario, introducido, caja, búsqueda, buscador,. Okapi BM25 es una funcion de ranking utilizada en Recuperacion de informacion para la asignacion de relevancia a los documentos en un buscador dicho de otra forma es una funcion que nos permite ordenar por relevancia los documentos que contienen las palabras que el usuario ha introducido en la caja de busqueda de un buscador como Google Yahoo o Live Esta funcion esta basada en los modelos probabilisticos de Recuperacion de informacion concretamente en el BIR Binary Independent Retrieval desarrollado por Stephen E Robertson y Karen Sparck Jones en los anos 70 El nombre de Okapi viene del primer sistema que implemento esta funcion de ranking el cual fue desarrollado por Stephen Walker en la City University de Londres Indice 1 La funcion de ranking 2 Vease tambien 3 Bibliografia 4 Enlaces externosLa funcion de ranking EditarBM25 se basa en el concepto de bolsa de palabras mediante al cual se representan los documentos que deseamos ordenar en funcion de su relevancia con una consulta dada Dada una consulta Q displaystyle Q que contiene las palabras clave q 1 q n displaystyle q1 qn el valor de relevancia asignado mediante la funcion BM25 para el documentos D displaystyle D sera s c o r e D Q i 1 n I D F q i f q i D k 1 1 f q i D k 1 1 b b D a v g d l displaystyle score D Q sum i 1 n IDF q i cdot frac f q i D cdot k 1 1 f q i D k 1 cdot 1 b b cdot frac D avgdl donde f q i D displaystyle f qi D es la frecuencia de aparicion en el documento D displaystyle D de los terminos que aparecen en la consulta Q displaystyle Q D displaystyle D es la longitud del documento D displaystyle D en numero de palabras y a v g d l displaystyle avgdl es la longitud media de los documentos en la coleccion sobre la cual estamos realizando la busqueda k 1 displaystyle k1 y b displaystyle b son parametros que permiten ajustar la funcion a las caracteristicas concretas de la coleccion con la que estamos trabajando Aunque estos parametros suelen depender de las caracteristicas concretas de cada coleccion normalmente se asignan los valores k 1 2 0 displaystyle k1 2 0 o k 1 1 2 displaystyle k1 1 2 y b 0 75 displaystyle b 0 75 los cuales se han establecido a partir de los experimentos que durante anos se han realizado en las conferencias TREC I D F q i displaystyle IDF qi es el peso IDF inverse document frequency de las palabras clave que aparecen en la consulta Q displaystyle Q Normalmente el IDF se calcula mediante la siguiente funcion I D F q i log N n q i 0 5 n q i 0 5 displaystyle IDF q i log frac N n q i 0 5 n q i 0 5 donde N displaystyle N es el numero total de documentos en la coleccion y n q i displaystyle n qi es el numero de documentos que contienen la palabra clave q i displaystyle qi Vease tambien EditarModelo de espacio vectorial Recuperacion de informacion Implementacion BM25 en Lucene 1 Bibliografia EditarA definitive guide to the TFxIDF variants including BMxx variants and the evolution of BM25 Stephen E Robertson Steve Walker Susan Jones Micheline Hancock Beaulieu amp Mike Gatford November 1994 Okapi at TREC 3 Proceedings of the Third Text REtrieval Conference TREC 1994 Gaithersburg USA Parametro desconocido last author amp ignorado ayuda Stephen E Robertson Steve Walker amp Micheline Hancock Beaulieu November 1998 Okapi at TREC 7 Proceedings of the Seventh Text REtrieval Conference Gaithersburg USA Parametro desconocido last author amp ignorado ayuda Sparck Jones K Walker S Robertson S E 2000 A probabilistic model of information retrieval Development and comparative experiments Part 1 Information Processing amp Management 36 6 779 808 doi 10 1016 S0306 4573 00 00015 7 Sparck Jones K Walker S Robertson S E 2000 A probabilistic model of information retrieval Development and comparative experiments Part 2 Information Processing amp Management 36 6 809 840 doi 10 1016 S0306 4573 00 00016 9 Stephen Robertson amp Hugo Zaragoza 2009 The Probabilistic Relevance Framework BM25 and Beyond 3 4 Found Trends Inf Retr pp 333 389 doi 10 1561 1500000019 Parametro desconocido citeseerx ignorado ayuda Enlaces externos EditarRobertson Stephen Zaragoza Hugo 2009 The Probabilistic Relevance Framework BM25 and Beyond NOW Publishers Inc ISBN 978 1 60198 308 4 Datos Q2068750Obtenido de https es wikipedia org w index php title Okapi BM25 amp oldid 136620963, wikipedia, wiki, leyendo, leer, libro, biblioteca,

español

, española, descargar, gratis, descargar gratis, mp3, video, mp4, 3gp, jpg, jpeg, gif, png, imagen, música, canción, película, libro, juego, juegos