fbpx
Wikipedia

Modelo de espacio vectorial

Se conoce como modelo de espacio vectorial a un modelo algebraico utilizado para filtrado, recuperación, indexado y cálculo de relevancia de información. Representa documentos en lenguaje natural de una manera formal mediante el uso de vectores (de identificadores, por ejemplo términos de búsqueda) en un espacio lineal multidimensional. Fue usado por primera vez por el sistema SMART de recuperación de información.

Espacio lineal multidimensional usado por el sistema SMART de recuperación de información.


Muchas de las tareas de recuperación de información como la búsqueda, agrupamiento o categorización de textos tienen como primer objetivo procesar documentos en lenguaje natural. El problema que surge es que los algoritmos que pretenden resolver estas tareas necesitan representaciones internas explícitas de los documentos. En el área de recuperación de información normalmente se usa una expresión vectorial, donde las dimensiones del vector representan términos, frases o conceptos que aparecen en el documento. En este aspecto la representación más adoptada es la conocida como bolsa de palabras: una colección de documentos compuesta por n documentos indexados y m términos representados por una matriz documento-término de n x m. Donde los n vectores renglón representan los n documentos; y el valor asignado a cada componente refleja la importancia o frecuencia ponderada que produce el término, frase o concepto ti en la representación semántica del documento j.



Donde m es la cardinalidad del diccionario (una lista de términos únicos que aparecen en un conjunto de documentos) y representa la contribución del término ti para la representación semántica del documento dj.


En esta representación vectorial de documentos el éxito o fracaso se basa en la ponderación o peso de los términos. Aunque ha habido mucha investigación sobre técnicas de ponderación de términos, en realidad no hay un consenso sobre cuál método es el mejor. También hay que destacar que el espacio de renglones de la matriz documento-término determinan el contenido semántico de la colección de documentos. Sin embargo, una combinación lineal de dos vectores-documento no representa necesariamente un documento viable de la colección. Más importante aún, mediante el modelo espacio vectorial se pueden explotar las relaciones geométricas entre dos vectores documento (y términos) a fin de expresar las similitudes y diferencias entre términos.


Si bien el rendimiento de un sistema de recuperación de información depende en gran medida de las medidas de similitud entre documentos, la ponderación de términos desempeña un papel fundamental para que esa similitud entre documentos sea más confiable. Así, por ejemplo, mientras que una representación de documentos basada solo en las frecuencias o apariciones de términos no es capaz de representar adecuadamente el contenido semántico de los documentos, la representación de términos ponderados (Aplicación de métodos de normalización a la matriz documento-término) hace frente a errores o incertidumbres asociadas a la representación simple de documentos.


Construcción

Una colección de n documentos indexados por m términos puede ser representada por una matriz A de dimensión n x m, donde cada elemento aij es usualmente definido por una frecuencia ponderada del término i en el documento j cuyo objetivo principal es mejorar el rendimiento en la recuperación de información; entendiendo como rendimiento la habilidad de recuperar información relevante y descartar información irrelevante. La siguiente figura (ver figura 1) muestra una matriz documento-término simple, donde cada columna representa un término en la colección, cada renglón un documento y cada celda o elemento de la matriz la ocurrencia del término en el documento.


Término 1 Término 2 Término 3
Documento 1 1 0 0
Documento 2 0 0 1
Documento 3 1 1 1
Documento 4 0 1 0

Figura 1 – Matriz documento-término simple

En ella podemos ver que el término 1 aparece en el documento 1 y 3, pero no en los otros dos docu-mentos. Se demuestra así que cada renglón de la matriz de 4×3 puede ser representado en un espacio de tres dimensiones.

Cada elemento aij de la matriz documento-término A queda definido como


 

donde lij es el peso local del término i en el documento j, el cual mide la importancia de dicho término en el documento, gi el peso global del término i en la colección de documentos y dj es el factor de normalización para el j-ésimo documento. Los siguientes apartados contienen las fórmulas más populares usadas en sistemas de indexado automático. Usualmente los componentes principales son el factor término-frecuencia (TF) y el factor de frecuencia inversa del documento, inverse document frequency (IDF).


Peso local

El peso local mide la importancia del término i en el documento j y solo depende de las frecuencias en el documento y no de otros documentos.

Peso global

Son aquellas que toman información de la colección de documentos para obtener el peso de un término en un documento

Normalización

Limitaciones del modelo de espacio vectorial

El modelo de espacio vectorial tiene las siguientes limitaciones:

  1. Los documentos largos quedan poco representados ya que contienen pocos valores en común (un producto escalar menor y una gran dimensionalidad)
  2. Las palabras de búsqueda deben coincidir con las palabras del documento, partes de una palabra pueden dar en falsos positivos.
  3. Sensibilidad semántica, documentos con contextos similares pero con diferente vocabulario no serán asociados, resultando en falsos negativos


Bibliografía

  • G. Salton, A. Wong, and C. S. Yang (1975), "," Communications of the ACM, vol. 18, nr. 11, pages 613–620. (The article in which the vector space model was first presented)
  • Descripción del modelo de espacio vectorial basado en tópicos

Véase también

Enlaces externos

  • Modelos de recuperación de información
  •   Datos: Q1187982
  •   Multimedia: Vector space model / Q1187982

modelo, espacio, vectorial, conoce, como, modelo, espacio, vectorial, modelo, algebraico, utilizado, para, filtrado, recuperación, indexado, cálculo, relevancia, información, representa, documentos, lenguaje, natural, manera, formal, mediante, vectores, identi. Se conoce como modelo de espacio vectorial a un modelo algebraico utilizado para filtrado recuperacion indexado y calculo de relevancia de informacion Representa documentos en lenguaje natural de una manera formal mediante el uso de vectores de identificadores por ejemplo terminos de busqueda en un espacio lineal multidimensional Fue usado por primera vez por el sistema SMART de recuperacion de informacion Espacio lineal multidimensional usado por el sistema SMART de recuperacion de informacion Muchas de las tareas de recuperacion de informacion como la busqueda agrupamiento o categorizacion de textos tienen como primer objetivo procesar documentos en lenguaje natural El problema que surge es que los algoritmos que pretenden resolver estas tareas necesitan representaciones internas explicitas de los documentos En el area de recuperacion de informacion normalmente se usa una expresion vectorial donde las dimensiones del vector representan terminos frases o conceptos que aparecen en el documento En este aspecto la representacion mas adoptada es la conocida como bolsa de palabras una coleccion de documentos compuesta por n documentos indexados y m terminos representados por una matriz documento termino de n x m Donde los n vectores renglon representan los n documentos y el valor asignado a cada componente refleja la importancia o frecuencia ponderada que produce el termino frase o concepto ti en la representacion semantica del documento j d j w 1 j w 2 j w m j displaystyle d j w 1j w 2j w mj Donde m es la cardinalidad del diccionario una lista de terminos unicos que aparecen en un conjunto de documentos y 0 w i j 1 displaystyle 0 leq w ij leq 1 representa la contribucion del termino ti para la representacion semantica del documento dj En esta representacion vectorial de documentos el exito o fracaso se basa en la ponderacion o peso de los terminos Aunque ha habido mucha investigacion sobre tecnicas de ponderacion de terminos en realidad no hay un consenso sobre cual metodo es el mejor Tambien hay que destacar que el espacio de renglones de la matriz documento termino determinan el contenido semantico de la coleccion de documentos Sin embargo una combinacion lineal de dos vectores documento no representa necesariamente un documento viable de la coleccion Mas importante aun mediante el modelo espacio vectorial se pueden explotar las relaciones geometricas entre dos vectores documento y terminos a fin de expresar las similitudes y diferencias entre terminos Si bien el rendimiento de un sistema de recuperacion de informacion depende en gran medida de las medidas de similitud entre documentos la ponderacion de terminos desempena un papel fundamental para que esa similitud entre documentos sea mas confiable Asi por ejemplo mientras que una representacion de documentos basada solo en las frecuencias o apariciones de terminos no es capaz de representar adecuadamente el contenido semantico de los documentos la representacion de terminos ponderados Aplicacion de metodos de normalizacion a la matriz documento termino hace frente a errores o incertidumbres asociadas a la representacion simple de documentos Indice 1 Construccion 1 1 Peso local 1 2 Peso global 1 3 Normalizacion 2 Limitaciones del modelo de espacio vectorial 3 Bibliografia 4 Vease tambien 5 Enlaces externosConstruccion EditarUna coleccion de n documentos indexados por m terminos puede ser representada por una matriz A de dimension n x m donde cada elemento aij es usualmente definido por una frecuencia ponderada del termino i en el documento j cuyo objetivo principal es mejorar el rendimiento en la recuperacion de informacion entendiendo como rendimiento la habilidad de recuperar informacion relevante y descartar informacion irrelevante La siguiente figura ver figura 1 muestra una matriz documento termino simple donde cada columna representa un termino en la coleccion cada renglon un documento y cada celda o elemento de la matriz la ocurrencia del termino en el documento Termino 1 Termino 2 Termino 3Documento 1 1 0 0Documento 2 0 0 1Documento 3 1 1 1Documento 4 0 1 0Figura 1 Matriz documento termino simpleEn ella podemos ver que el termino 1 aparece en el documento 1 y 3 pero no en los otros dos docu mentos Se demuestra asi que cada renglon de la matriz de 4 3 puede ser representado en un espacio de tres dimensiones Cada elemento aij de la matriz documento termino A queda definido comoa i j l i j g i d j 1 displaystyle a ij l ij g i d j 1 donde lij es el peso local del termino i en el documento j el cual mide la importancia de dicho termino en el documento gi el peso global del termino i en la coleccion de documentos y dj es el factor de normalizacion para el j esimo documento Los siguientes apartados contienen las formulas mas populares usadas en sistemas de indexado automatico Usualmente los componentes principales son el factor termino frecuencia TF y el factor de frecuencia inversa del documento inverse document frequency IDF Peso local Editar El peso local mide la importancia del termino i en el documento j y solo depende de las frecuencias en el documento y no de otros documentos Peso global Editar Son aquellas que toman informacion de la coleccion de documentos para obtener el peso de un termino en un documento Normalizacion EditarLimitaciones del modelo de espacio vectorial EditarEl modelo de espacio vectorial tiene las siguientes limitaciones Los documentos largos quedan poco representados ya que contienen pocos valores en comun un producto escalar menor y una gran dimensionalidad Las palabras de busqueda deben coincidir con las palabras del documento partes de una palabra pueden dar en falsos positivos Sensibilidad semantica documentos con contextos similares pero con diferente vocabulario no seran asociados resultando en falsos negativosBibliografia EditarG Salton A Wong and C S Yang 1975 A Vector Space Model for Automatic Indexing Communications of the ACM vol 18 nr 11 pages 613 620 The article in which the vector space model was first presented Descripcion del modelo de espacio vectorial Descripcion del modelo de espacio vectorial basado en topicos Descripcion del modelo de espacio vectorial clasico por Dr E GarciaVease tambien EditarOkapi BM25 Indice invertido Modelo booleano Recuperacion de informacion Indizacion automaticaEnlaces externos EditarModelos de recuperacion de informacion Datos Q1187982 Multimedia Vector space model Q1187982 Obtenido de https es wikipedia org w index php title Modelo de espacio vectorial amp oldid 146990572, wikipedia, wiki, leyendo, leer, libro, biblioteca,

español

, española, descargar, gratis, descargar gratis, mp3, video, mp4, 3gp, jpg, jpeg, gif, png, imagen, música, canción, película, libro, juego, juegos