fbpx
Wikipedia

Modelo booleano

El Modelo Booleano de recuperación de información(MRIB)[1]​ es uno de los modelos clásicos de recuperación de información(RI) y, al mismo tiempo, el primero y más adoptado.Es usado por varios sistemas de RI en estos días. [cita requerida]

Definiciones

El MRIB está basado en la Lógica Booleana y la clásica Teoría de Conjuntos en el cual ambos, los documentos a buscar y la consulta del usuario, son concebidos como un conjunto de términos.La recuperación está basada en cuando los documentos contienen o no los términos de la consulta. Dado un conjunto finito

T = {t1, t2, ..., tj, ..., tm}

de elementos llamados índices (e.g. palabras o expresiones - las cuales pueden estar lematizadas - describiendo o caracterizando documentos como son palabras dadas para un artículo de un periódico ), un conjunto finito

D = {D1, ..., Di, ..., Dn}, donde Di es un elemento del conjunto potencia de T

de elementos llamados documentos.Dada una expresión Booleana - en forma normal - Q llamada consulta como sigue a continuación:

Q = (Wi OR Wk OR ...) AND ... AND (Wj OR Ws OR ...) ,
con Wi=ti, Wk=tk, Wj=tj, Ws=ts, or Wi=NON ti, Wk=NON tk, Wj=NON tj, Ws=NON ts

donde ti significa que el término ti está presente en el documento Di y, por el contrario, NON ti significa que no está.

Equivalentemente, Q puede ser dado en forma normal disjuntiva, también.Una operación de recuperación consiste de dos pasos como se define a continuación:

1. El conjunto Sj de documentos que son obtenidos que contienen o no el término tj (dependiendo de cuando Wj=tj o Wj=NON tj) :
Sj = {Di | Wj elemento de Di}
2. Estos documentos son recuperados como respuesta a Q, los cuales son el resultado de las correspondientes operaciones entre conjuntos, i.e. la respuesta a Q es como sigue:
UNION ( INTERSECCION Sj)

Ejemplo

Sea el conjunto de documentos originales (reales) en idioma inglés , por ejemplo:

O = {O1, O2, O3}

donde

O1 = Principio de Bayes: El principio que, en la estimación de un parámetro, pudiera inicialmente suponer que cada posible valor tiene igual probabilidad (una distribución uniforme).

O2 = Teoría de la decisión Bayesiana: Una teoría matemática de toma de decisiones, la cual supone utilidad y funciones de probabilidad, y de acuerdo con el acto de ser elegido es el acto de Bayes, por ejemplo: uno con la mayor Utilidad Subjetiva Esperada. Si uno tuvo tiempo ilimitado y un poder de calcular con el cual hacer cada decisión, este procedimiento será la mejor vía para hacer cualquier decisión.

O3 = Epistemología Bayesiana : Una teoría filosófica la cual sostiene que el estatus epistémico de una proposición (ejemplo: que tan bien provista o establecida está) está mejor medido por una probabilidad y que la vía verdadera para revisar esta probabilidad está dada por la condicionante Bayesiana o por procedimientos similares. Un epistemólogo Bayesiano utilizaría una probabilidad para definir, y explorar la relación entre, conceptos como estatus epistémico, soporte o poder explicativo.

Sea el conjunto T de términos:

T = {t1 = Principio de Bayes, t2 = probabilidad, t3 = toma de decisión, t4 = Epistemología Bayesiana}

Entonces, el conjunto D de documentos es como sigue:

D = {D1, D2, D3}

donde

D1 = {Principio de Bayes, probabilidad}

D2 = {probabilidad, toma de decisión}

D3 = {probabilidad, Epistemología Bayesiana}

Sea la consulta Q:

Q = probabilidad AND toma de decisión

1. Primeramente, los siguientes conjuntos S1 y S2 de documentos Di son obtenidos (recuperados):

S1 = {D1, D2, D3}

S2 = {D2}

2. Finalmente, los siguientes documentos Di son recuperados en respuesta a Q:{D1, D2, D3} INTERSECTION {D2} = {D2}

Esto significa que el documento original O2 (correspondiente a D2) es la respuesta a Q.

Obviamente, si hay más de un documento con la misma representación, cada documento es recuperado. Dichos documentos son, en el MRIB, indistinguibles (o en otras palabras, equivalentes).

Ventajas

  • Formalismo.
  • Fácil de implementar.
  • Conceptos intuitivos.

Desventajas

  • Puede recuperar muchos o pocos documentos.
  • Dificultad para hacer ranking con los documentos resultado, algunos documentos son más importantes que otros.
  • Difícil de traducir una consulta en una expresión Booleana.
  • Todos los términos tiene el mismo peso.
  • Más como recuperación de datos que como recuperación de información.

Estructuras de datos y algoritmos

Desde un puro y formal punto de vista matemático, el MRIB es directo. Desde un punto de vista práctico, de cualquier manera, varios problemas pueden ser resueltos relacionando algoritmos con estructuras de datos, como son por ejemplo, la elección de términos (manual, automática o ambas), lematización, tabla hash, estructura de índices invertidos , y mucho más.[2]

Conjuntos Hash

Otra posibilidad es el uso de Conjuntos Hash.Cada documento es representado por una tablas hash, la cual contiene cada término del documento. Desde que el tamaño de la tabla hash crece y decrece en tiempo real con adición y eliminación de términos, cada documento ocupará mucho menos espacio en memoria.De cualquier manera, tendrá una caída de rendimiento porque las operaciones son más complejas que con vectores de bits.En el peor caso el rendimiento puede bajar desde O(n) hasta O(n2).En el caso promedio, la caída del rendimiento no será mucho peor que con vectores de bits y el espacio usado es mucho más eficiente.

Referencias

  1. Lancaster, F.W.; Fayen, E.G. (1973), Information Retrieval On-Line, Melville Publishing Co., Los Angeles, California  .
  2. Wartik, Steven (1992). «Boolean operations». Information Retrieval Data Structures & Algorithms. Prentice-Hall, Inc. ISBN 0-13-463837-9. 
  • Lashkari, A.H.; Ghomi, V. (2009), A Boolean Model in Information Retrieval for Search Engines, doi:10.1109/ICIME.2009.101  |autor1= y |last= redundantes (ayuda).


  •   Datos: Q176197

modelo, booleano, modelo, booleano, recuperación, información, mrib, modelos, clásicos, recuperación, información, mismo, tiempo, primero, más, adoptado, usado, varios, sistemas, estos, días, cita, requerida, Índice, definiciones, ejemplo, ventajas, desventaja. El Modelo Booleano de recuperacion de informacion MRIB 1 es uno de los modelos clasicos de recuperacion de informacion RI y al mismo tiempo el primero y mas adoptado Es usado por varios sistemas de RI en estos dias cita requerida Indice 1 Definiciones 2 Ejemplo 3 Ventajas 4 Desventajas 5 Estructuras de datos y algoritmos 5 1 Conjuntos Hash 6 ReferenciasDefiniciones EditarEl MRIB esta basado en la Logica Booleana y la clasica Teoria de Conjuntos en el cual ambos los documentos a buscar y la consulta del usuario son concebidos como un conjunto de terminos La recuperacion esta basada en cuando los documentos contienen o no los terminos de la consulta Dado un conjunto finito T t1 t2 tj tm de elementos llamados indices e g palabras o expresiones las cuales pueden estar lematizadas describiendo o caracterizando documentos como son palabras dadas para un articulo de un periodico un conjunto finito D D1 Di Dn donde Di es un elemento del conjunto potencia de Tde elementos llamados documentos Dada una expresion Booleana en forma normal Q llamada consulta como sigue a continuacion Q Wi OR Wk OR AND AND Wj OR Ws OR con Wi ti Wk tk Wj tj Ws ts or Wi NON ti Wk NON tk Wj NON tj Ws NON tsdonde ti significa que el termino ti esta presente en el documento Di y por el contrario NON ti significa que no esta Equivalentemente Q puede ser dado en forma normal disjuntiva tambien Una operacion de recuperacion consiste de dos pasos como se define a continuacion 1 El conjunto Sj de documentos que son obtenidos que contienen o no el termino tj dependiendo de cuando Wj tj o Wj NON tj Sj Di Wj elemento de Di dd 2 Estos documentos son recuperados como respuesta a Q los cuales son el resultado de las correspondientes operaciones entre conjuntos i e la respuesta a Q es como sigue UNION INTERSECCION Sj dd Ejemplo EditarSea el conjunto de documentos originales reales en idioma ingles por ejemplo O O1 O2 O3 dondeO1 Principio de Bayes El principio que en la estimacion de un parametro pudiera inicialmente suponer que cada posible valor tiene igual probabilidad una distribucion uniforme O2 Teoria de la decision Bayesiana Una teoria matematica de toma de decisiones la cual supone utilidad y funciones de probabilidad y de acuerdo con el acto de ser elegido es el acto de Bayes por ejemplo uno con la mayor Utilidad Subjetiva Esperada Si uno tuvo tiempo ilimitado y un poder de calcular con el cual hacer cada decision este procedimiento sera la mejor via para hacer cualquier decision O3 Epistemologia Bayesiana Una teoria filosofica la cual sostiene que el estatus epistemico de una proposicion ejemplo que tan bien provista o establecida esta esta mejor medido por una probabilidad y que la via verdadera para revisar esta probabilidad esta dada por la condicionante Bayesiana o por procedimientos similares Un epistemologo Bayesiano utilizaria una probabilidad para definir y explorar la relacion entre conceptos como estatus epistemico soporte o poder explicativo Sea el conjunto T de terminos T t1 Principio de Bayes t2 probabilidad t3 toma de decision t4 Epistemologia Bayesiana Entonces el conjunto D de documentos es como sigue D D1 D2 D3 dondeD1 Principio de Bayes probabilidad D2 probabilidad toma de decision D3 probabilidad Epistemologia Bayesiana Sea la consulta Q Q probabilidad AND toma de decision1 Primeramente los siguientes conjuntos S1 y S2 de documentos Di son obtenidos recuperados S1 D1 D2 D3 S2 D2 2 Finalmente los siguientes documentos Di son recuperados en respuesta a Q D1 D2 D3 INTERSECTION D2 D2 Esto significa que el documento original O2 correspondiente a D2 es la respuesta a Q Obviamente si hay mas de un documento con la misma representacion cada documento es recuperado Dichos documentos son en el MRIB indistinguibles o en otras palabras equivalentes Ventajas EditarFormalismo Facil de implementar Conceptos intuitivos Desventajas EditarPuede recuperar muchos o pocos documentos Dificultad para hacer ranking con los documentos resultado algunos documentos son mas importantes que otros Dificil de traducir una consulta en una expresion Booleana Todos los terminos tiene el mismo peso Mas como recuperacion de datos que como recuperacion de informacion Estructuras de datos y algoritmos EditarDesde un puro y formal punto de vista matematico el MRIB es directo Desde un punto de vista practico de cualquier manera varios problemas pueden ser resueltos relacionando algoritmos con estructuras de datos como son por ejemplo la eleccion de terminos manual automatica o ambas lematizacion tabla hash estructura de indices invertidos y mucho mas 2 Conjuntos Hash Editar Otra posibilidad es el uso de Conjuntos Hash Cada documento es representado por una tablas hash la cual contiene cada termino del documento Desde que el tamano de la tabla hash crece y decrece en tiempo real con adicion y eliminacion de terminos cada documento ocupara mucho menos espacio en memoria De cualquier manera tendra una caida de rendimiento porque las operaciones son mas complejas que con vectores de bits En el peor caso el rendimiento puede bajar desde O n hasta O n2 En el caso promedio la caida del rendimiento no sera mucho peor que con vectores de bits y el espacio usado es mucho mas eficiente Referencias Editar Lancaster F W Fayen E G 1973 Information Retrieval On Line Melville Publishing Co Los Angeles California La referencia utiliza el parametro obsoleto coauthors ayuda Wartik Steven 1992 Boolean operations Information Retrieval Data Structures amp Algorithms Prentice Hall Inc ISBN 0 13 463837 9 Lashkari A H Ghomi V 2009 A Boolean Model in Information Retrieval for Search Engines doi 10 1109 ICIME 2009 101 autor1 y last redundantes ayuda Datos Q176197Obtenido de https es wikipedia org w index php title Modelo booleano amp oldid 131541347, wikipedia, wiki, leyendo, leer, libro, biblioteca,

español

, española, descargar, gratis, descargar gratis, mp3, video, mp4, 3gp, jpg, jpeg, gif, png, imagen, música, canción, película, libro, juego, juegos