fbpx
Wikipedia

Recuperación difusa

Las técnicas de recuperación difusa están basadas en el Modelo Booleano Extendido y en la teoría de Conjuntos Difusos. Hay dos modelos clásicos de recuperación difusa: Mínimo y Máximo Mixto (MMM - Mixed Min and Max) y el modelo de Paice. Ambos modelos no proveen una vía para la evaluación ponderada de las consultas, lo cual si es considerado por el algoritmo norma-P.


Modelo Mixto Mínimo y Máximo (MMM)

En la teoría de conjuntos difusos, un elemento tiene un variado grado de pertenencia, digamos dA, a un conjunto A dado en vez de la opción de pertenencia tradicional (es un elemento/ no es un elemento).
En el MMM[1]​ cada término indexado tiene asociado un conjunto difuso. El peso de un documento con respecto a un término indexado A es medido por el grado de pertenencia del documento en el conjunto difuso asociado con A. El grado de pertenencia para la unión y la intersección está definido en la teoría de conjuntos difusos como sigue:

 
 

De acuerdo a esto, los documentos que deberían ser recuperados para una consulta de la forma A o B, deberían estar en el conjunto difuso asociado con la unión de los dos conjuntos A y B. Similarmente, los documentos que deberían ser recueprados para una consulta de la forma A y B, deben estar en el conjunto difuso asociado con la intersección de los dos conjuntos. Por ello, es posible definir la similitud de un documento para la consulta o como max(dA, dB) y la similitud de un documento con la consulta y como min(dA, dB). El modelo MMM intenta suavisar los operadores Booleanos al considerar la similitud consulta-documento como una combinación lineal del mínimo y máximo de los pesos de los documentos.

Dado un documento D con los pesos de los términos indexados dA1, dA2, ..., dAn para los términos A1, A2, ..., An, y las consultas:

Qo = (A1 o A2 o ... o An)
Qy = (A1 y A2 y ... y An)

la similitud documento-consulta en el modelo MMM se calcula como sigue:

SlM(Qo, D) = Co1 * max(dA1, dA2, ..., dAn) + Co2 * min(dA1, dA2, ..., dAn)
SlM(Qy, D) = Cy1 * min(dA1, dA2, ..., dAn) + Cy2 * max(dA1, dA2 ..., dAn)

donde Co1, Co2 son coeficientes "suaves" para el operador o, y Cy1, Cy2 son coeficientes suaves para el operador y. Puesto que queremos dar más importancia al máximo de los pesos de los documentos mientras consideremos una consulta o y mayor importancia al mínimo cuando consideremos una consulta y, generalmente tendremos Co1 > Co2 y Cy1 > Cy2. Por simplicidad se asume generalmente Co1 = 1 - Co2 y Cy1 = 1 - Cy2.

Los experimentos de Lee y Fox[2]​ indican que la mayor eficiencia usualmente ocurre con Cy1 en el rango [0.5, 0.8] y con Co1 > 0.2. En general, el costo computacional de MMM es bajo, y la efectividad de recuperación es mucho mejor que con el Modelo Estándar Booleano.

El modelo de Paice

El modelo de Paice[3]​ es una extensión general para el modelo MMM. En comparación con el modelo MMM que considera solo los pesos mínimo y máximo para los términos indexados, el modelo de Paice incorpora todos los pesos de los términos cuando calcula la similitud:

 

donde r es un coeficiente constante y wdi es organizado en orden ascendente para consultas y, y en orden descendente para consultas o. Cuando n = 2 el modelo Paice muestra el mismo comportamiento que el modelo MMM.

Los experimentos de Lee y Fox[2]​ han mostrado que estableciendo r en 1.0 para las consultas y, y en 0.7 para las consultas o proporcionan una buena efectividad en la recuperación. El costo computacional para este modelo es mayor que para el modelo MMM. Esto es porque el modelo MMM solo necesita la determinación del mínimo o máximo de un conjunto de pesos de términos cada vez que una cláusula y u o es considerada, lo cual se puede hacer en O(n). El modelo Paice requiere que los pesos de los términos sean ordenados en orden ascendente o descendente, dependiendo si es considerada una cláusula y o una cláusula o. Esto requiere como míninmo

un algoritmo de ordenación O(n log n). También es necesario
un buen trato en los cálculos de punto flotante.

Mejoramientos en el modelo Estándar Booleano

Lee y Fox[2]​ compararon el modelo Estándar Booleano con los modelos MMM y Paice con tres colecciones de prueba: CISI, CACM, y INSPEC. Estos son los resultados reportados para el mejoramiento del promedio de la precisión media:

CISI CACM INSPEC
MMM 68% 109% 195%
Paice 77% 104% 206%

Estos son mejoras muy buenas sobre el modelo Estándar. MMM es muy cercano a los resultados de Paice y noma-P, lo cual indica que puede ser una técnica muy buena, y es la más eficiente de las tres.

Trabajo reciente

Recientemente Kang et al.[4]​ ha inventado un sistema de recuperación difusa indexado por identificación de conceptos.

Si miramos en documentos sobre un aproximamiento puro de Tf-idf, incluso eliminando los stop words, habrán palabras más relevantes con el tópico del documento que otras y tendrán el mismo peso porque tienen la misma frecuencia de términos. Si tomamos en cuenta la intención del usuario sobre una consulta podemos mejorar el peso de los términos de un documento. Cada término puede identificarse como un concepto en una cierta cadena léxica que traduce la importancia de ese concepto para ese documento. Reportaron mejoras sobre Paice y norma-P sobre la precisión promedio y el recobrado de los 5 mejores documentos recuperados.

Zadrozny[5]​ revisó el modelo de recuperación de información difusa. Adicionalmente extendió el modelo Booleano extendido difuso:

  • asumiendo términos lingüísticos como pesos importantes de las palabras claves también en los documentos
  • tomando en cuenta la concerniente incertidumbre en la representación de documentos y consultas
  • interpretando los términos lingüísticos en la representación de los documentos y consultas así como su emparejamiento en los términos de la lógica difusa de Zadeh (cálculos de declaraciones lingüísticas)
  • localizando algunos aspectos pragmáticos del modelo propuesto, notablemente las técnicas de indexado de documentos y consultas

El modelo propuesto hace posible capturar impresición e incertidumbre concerniente a la representación y recuperación de información textual.

Véase también

Lectura adicional

  • Fox, E.; S.

Betrabet , M. Koushik , W. Lee (1992), Information Retrieval: Algorithms and Data structures; Extended Boolean model, Prentice-Hall, Inc.  .

Referencias

  1. Fox, E. A.; S. Sharat (1986), A Comparison of Two Methods for Soft Boolean Interpretation in Information Retrieval, Technical Report TR-86-1, Virginia Tech, Department of Computer Science  .
  2. Lee, W. C.; E. A. Fox (1988), Experimental Comparison of Schemes for Interpreting Boolean Queries  .
  3. Paice, C. P. (1984), Soft Evaluation of Boolean Search Queries in Information Retrieval Systems, Information Technology, Res. Dev. Applications, 3(1), 33-42 .
  4. Kang, Bo-Yeong; Dae-Won Kim, Hae-Jung Kim (2005), Fuzzy Information Retrieval Indexed by Concept Identification, Springer Berlin / Heidelberg  .
  5. Zadrozny, Sławomir; Nowacka, Katarzyna (2009), Fuzzy information retrieval model revisited, Elsevier North-Holland, Inc., doi:10.1016/j.fss.2009.02.012 .


  •   Datos: Q1382890

recuperación, difusa, técnicas, recuperación, difusa, están, basadas, modelo, booleano, extendido, teoría, conjuntos, difusos, modelos, clásicos, recuperación, difusa, mínimo, máximo, mixto, mixed, modelo, paice, ambos, modelos, proveen, vía, para, evaluación,. Las tecnicas de recuperacion difusa estan basadas en el Modelo Booleano Extendido y en la teoria de Conjuntos Difusos Hay dos modelos clasicos de recuperacion difusa Minimo y Maximo Mixto MMM Mixed Min and Max y el modelo de Paice Ambos modelos no proveen una via para la evaluacion ponderada de las consultas lo cual si es considerado por el algoritmo norma P Indice 1 Modelo Mixto Minimo y Maximo MMM 2 El modelo de Paice 3 Mejoramientos en el modelo Estandar Booleano 4 Trabajo reciente 5 Vease tambien 6 Lectura adicional 7 ReferenciasModelo Mixto Minimo y Maximo MMM EditarEn la teoria de conjuntos difusos un elemento tiene un variado grado de pertenencia digamos dA a un conjunto A dado en vez de la opcion de pertenencia tradicional es un elemento no es un elemento En el MMM 1 cada termino indexado tiene asociado un conjunto difuso El peso de un documento con respecto a un termino indexado A es medido por el grado de pertenencia del documento en el conjunto difuso asociado con A El grado de pertenencia para la union y la interseccion esta definido en la teoria de conjuntos difusos como sigue d A B m i n d A d B displaystyle d A cap B min d A d B d A B m a x d A d B displaystyle d A cup B max d A d B De acuerdo a esto los documentos que deberian ser recuperados para una consulta de la forma A o B deberian estar en el conjunto difuso asociado con la union de los dos conjuntos A y B Similarmente los documentos que deberian ser recueprados para una consulta de la forma A y B deben estar en el conjunto difuso asociado con la interseccion de los dos conjuntos Por ello es posible definir la similitud de un documento para la consulta o como max dA dB y la similitud de un documento con la consulta y como min dA dB El modelo MMM intenta suavisar los operadores Booleanos al considerar la similitud consulta documento como una combinacion lineal del minimo y maximo de los pesos de los documentos Dado un documento D con los pesos de los terminos indexados dA1 dA2 dAnpara los terminosA1 A2 An y las consultas Qo A1 o A2 o o An Qy A1 y A2 y y An la similitud documento consulta en el modelo MMM se calcula como sigue SlM Qo D Co1 max dA1 dA2 dAn Co2 min dA1 dA2 dAn SlM Qy D Cy1 min dA1 dA2 dAn Cy2 max dA1 dA2 dAn donde Co1 Co2 son coeficientes suaves para el operador o y Cy1 Cy2 son coeficientes suaves para el operador y Puesto que queremos dar mas importancia al maximo de los pesos de los documentos mientras consideremos una consulta o y mayor importancia al minimo cuando consideremos una consulta y generalmente tendremos Co1 gt Co2 y Cy1 gt Cy2 Por simplicidad se asume generalmente Co1 1 Co2 y Cy1 1 Cy2 Los experimentos de Lee y Fox 2 indican que la mayor eficiencia usualmente ocurre con Cy1 en el rango 0 5 0 8 y con Co1 gt 0 2 En general el costo computacional de MMM es bajo y la efectividad de recuperacion es mucho mejor que con el Modelo Estandar Booleano El modelo de Paice EditarEl modelo de Paice 3 es una extension general para el modelo MMM En comparacion con el modelo MMM que considera solo los pesos minimo y maximo para los terminos indexados el modelo de Paice incorpora todos los pesos de los terminos cuando calcula la similitud S D Q i 1 n r i 1 w d i j 1 n r j 1 displaystyle S D Q sum i 1 n frac r i 1 w di sum j 1 n r j 1 donde r es un coeficiente constante y wdi es organizado en orden ascendente para consultas y y en orden descendente para consultas o Cuando n 2 el modelo Paice muestra el mismo comportamiento que el modelo MMM Los experimentos de Lee y Fox 2 han mostrado que estableciendo r en 1 0 para las consultas y y en 0 7 para las consultas o proporcionan una buena efectividad en la recuperacion El costo computacional para este modelo es mayor que para el modelo MMM Esto es porque el modelo MMM solo necesita la determinacion del minimo o maximo de un conjunto de pesos de terminos cada vez que una clausula y u o es considerada lo cual se puede hacer en O n El modelo Paice requiere que los pesos de los terminos sean ordenados en orden ascendente o descendente dependiendo si es considerada una clausula y o una clausula o Esto requiere como mininmo un algoritmo de ordenacion O n log n Tambien es necesario un buen trato en los calculos de punto flotante Mejoramientos en el modelo Estandar Booleano EditarLee y Fox 2 compararon el modelo Estandar Booleano con los modelos MMM y Paice con tres colecciones de prueba CISI CACM y INSPEC Estos son los resultados reportados para el mejoramiento del promedio de la precision media CISI CACM INSPECMMM 68 109 195 Paice 77 104 206 Estos son mejoras muy buenas sobre el modelo Estandar MMM es muy cercano a los resultados de Paice y noma P lo cual indica que puede ser una tecnica muy buena y es la mas eficiente de las tres Trabajo reciente EditarRecientemente Kang et al 4 ha inventado un sistema de recuperacion difusa indexado por identificacion de conceptos Si miramos en documentos sobre un aproximamiento puro de Tf idf incluso eliminando los stop words habran palabras mas relevantes con el topico del documento que otras y tendran el mismo peso porque tienen la misma frecuencia de terminos Si tomamos en cuenta la intencion del usuario sobre una consulta podemos mejorar el peso de los terminos de un documento Cada termino puede identificarse como un concepto en una cierta cadena lexica que traduce la importancia de ese concepto para ese documento Reportaron mejoras sobre Paice y norma P sobre la precision promedio y el recobrado de los 5 mejores documentos recuperados Zadrozny 5 reviso el modelo de recuperacion de informacion difusa Adicionalmente extendio el modelo Booleano extendido difuso asumiendo terminos linguisticos como pesos importantes de las palabras claves tambien en los documentos tomando en cuenta la concerniente incertidumbre en la representacion de documentos y consultas interpretando los terminos linguisticos en la representacion de los documentos y consultas asi como su emparejamiento en los terminos de la logica difusa de Zadeh calculos de declaraciones linguisticas localizando algunos aspectos pragmaticos del modelo propuesto notablemente las tecnicas de indexado de documentos y consultasEl modelo propuesto hace posible capturar impresicion e incertidumbre concerniente a la representacion y recuperacion de informacion textual Vease tambien EditarRecuperacion de InformacionLectura adicional EditarFox E S Betrabet M Koushik W Lee 1992 Information Retrieval Algorithms and Data structures Extended Boolean model Prentice Hall Inc La referencia utiliza el parametro obsoleto coauthors ayuda Referencias Editar Fox E A S Sharat 1986 A Comparison of Two Methods for Soft Boolean Interpretation in Information Retrieval Technical Report TR 86 1 Virginia Tech Department of Computer Science La referencia utiliza el parametro obsoleto coauthors ayuda a b c Lee W C E A Fox 1988 Experimental Comparison of Schemes for Interpreting Boolean Queries La referencia utiliza el parametro obsoleto coauthors ayuda Paice C P 1984 Soft Evaluation of Boolean Search Queries in Information Retrieval Systems Information Technology Res Dev Applications 3 1 33 42 Kang Bo Yeong Dae Won Kim Hae Jung Kim 2005 Fuzzy Information Retrieval Indexed by Concept Identification Springer Berlin Heidelberg La referencia utiliza el parametro obsoleto coauthors ayuda Zadrozny Slawomir Nowacka Katarzyna 2009 Fuzzy information retrieval model revisited Elsevier North Holland Inc doi 10 1016 j fss 2009 02 012 Datos Q1382890Obtenido de https es wikipedia org w index php title Recuperacion difusa amp oldid 129612081, wikipedia, wiki, leyendo, leer, libro, biblioteca,

español

, española, descargar, gratis, descargar gratis, mp3, video, mp4, 3gp, jpg, jpeg, gif, png, imagen, música, canción, película, libro, juego, juegos