fbpx
Wikipedia

Similitud coseno

La similitud coseno es una medida de la similitud existente entre dos vectores en un espacio que posee un producto interior con el que se evalúa el valor del coseno del ángulo comprendido entre ellos. Esta función trigonométrica proporciona un valor igual a 1 si el ángulo comprendido es cero, es decir si ambos vectores apuntan a un mismo lugar. Cualquier ángulo existente entre los vectores, el coseno arrojaría un valor inferior a uno. Si los vectores fuesen ortogonales el coseno se anularía, y si apuntasen en sentido contrario su valor sería -1. De esta forma, el valor de esta métrica se encuentra entre -1 y 1, es decir en el intervalo cerrado [-1,1].

Esta distancia se emplea frecuentemente en la búsqueda y recuperación de información representando las palabras (o documento) en un espacio vectorial.[1]​ En minería de textos se aplica la similitud coseno con el objeto de establecer una métrica de semejanza entre textos.[2]​ En minería de datos se suele emplear como un indicador de cohesión de clústeres de textos. La similitud coseno no debe ser considerada como una métrica debido a que no cumple la desigualdad triangular.

Similitud Coseno Suave

El Coseno Suave[3]​ es una medida de similitud "suave" entre dos vectores, es decir, la medida considera la similitud entre pares de características. La similitud coseno tradicional considera que las características en el modelo espacio vectorial (MEV) son independientes o completamente diferentes, mientras que el coseno suave propone considerar la similitud de características en el MEV, lo cual permite la generalización de los conceptos de similitud coseno y también la idea de similitud (similitud suave).

Por ejemplo, en el área de procesamiento de lenguaje natural (PLN) la similitud entre las características es bastante intuitiva. Las características tales como, palabras, n-gramas, n-gramas sintácticos[4]​ pueden ser muy similares, aunque formalmente son consideradas como características diferentes en el MEV. Por ejemplo, las palabras "play" y "game" (en inglés) son palabras diferentes y por lo tanto se mapean a dimensiones diferentes en el modelo de espacio vectorial; sin embargo, es obvio que estas palabras están relacionadas semánticamente. En el caso de n-gramas o n-gramas sintácticos se puede usar la distancia de Levenshtein para calcular la similitud entre características.

Para el cálculo del coseno suave, se introduce la matriz s que contiene la similitud entre las características. Se puede calcular utilizando la distancia Levenshtein u otras medidas de similitud, por ejemplo, diversas medidas de similitud de WordNet. Luego solo se multiplica por esta matriz.

Dado dos vectores a y b de dimensión N, el coseno suave es calculado como sigue:

 

donde sij = similitud(característicai, característicaj).

Si no existe similitud entre características (sii = 1, sij = 0 para ij), la ecuación dada es equivalente a la fórmula de similitud coseno convencional.

La complejidad de esta medida es cuadrática, lo cual la hace completamente aplicable a problemas del mundo real. La complejidad incluso puede ser transformada a lineal.

Referencias

  1. Singhal, Amit (2001). "Modern Information Retrieval: A Brief Overview". Bulletin of the IEEE Computer Society Technical Committee on Data Engineering 24 (4): 35–43.
  2. P.-N. Tan, M. Steinbach & V. Kumar, "Introduction to Data Mining", Addison-Wesley (2005), ISBN 0-321-32136-7, chapter 8; page 500.
  3. Sidorov, Grigori; Gelbukh, Alexander; Gómez-Adorno, Helena; Pinto, David. «Soft Similarity and Soft Cosine Measure: Similarity of Features in Vector Space Model». Computación y Sistemas 18 (3): 491-504. doi:10.13053/CyS-18-3-2043. Consultado el 7 de octubre de 2014. 
  4. Sidorov, Grigori; Velasquez, Francisco; Stamatatos, Efstathios; Gelbukh, Alexander; Chanona-Hernández, Liliana. Syntactic Dependency-based N-grams as Classification Features. LNAI 7630. pp. 1-11. ISBN 978-3-642-37798-3. Consultado el 7 de octubre de 2014. 
  •   Datos: Q1784941

similitud, coseno, similitud, coseno, medida, similitud, existente, entre, vectores, espacio, posee, producto, interior, evalúa, valor, coseno, ángulo, comprendido, entre, ellos, esta, función, trigonométrica, proporciona, valor, igual, ángulo, comprendido, ce. La similitud coseno es una medida de la similitud existente entre dos vectores en un espacio que posee un producto interior con el que se evalua el valor del coseno del angulo comprendido entre ellos Esta funcion trigonometrica proporciona un valor igual a 1 si el angulo comprendido es cero es decir si ambos vectores apuntan a un mismo lugar Cualquier angulo existente entre los vectores el coseno arrojaria un valor inferior a uno Si los vectores fuesen ortogonales el coseno se anularia y si apuntasen en sentido contrario su valor seria 1 De esta forma el valor de esta metrica se encuentra entre 1 y 1 es decir en el intervalo cerrado 1 1 Esta distancia se emplea frecuentemente en la busqueda y recuperacion de informacion representando las palabras o documento en un espacio vectorial 1 En mineria de textos se aplica la similitud coseno con el objeto de establecer una metrica de semejanza entre textos 2 En mineria de datos se suele emplear como un indicador de cohesion de clusteres de textos La similitud coseno no debe ser considerada como una metrica debido a que no cumple la desigualdad triangular Similitud Coseno Suave EditarEl Coseno Suave 3 es una medida de similitud suave entre dos vectores es decir la medida considera la similitud entre pares de caracteristicas La similitud coseno tradicional considera que las caracteristicas en el modelo espacio vectorial MEV son independientes o completamente diferentes mientras que el coseno suave propone considerar la similitud de caracteristicas en el MEV lo cual permite la generalizacion de los conceptos de similitud coseno y tambien la idea de similitud similitud suave Por ejemplo en el area de procesamiento de lenguaje natural PLN la similitud entre las caracteristicas es bastante intuitiva Las caracteristicas tales como palabras n gramas n gramas sintacticos 4 pueden ser muy similares aunque formalmente son consideradas como caracteristicas diferentes en el MEV Por ejemplo las palabras play y game en ingles son palabras diferentes y por lo tanto se mapean a dimensiones diferentes en el modelo de espacio vectorial sin embargo es obvio que estas palabras estan relacionadas semanticamente En el caso de n gramas o n gramas sintacticos se puede usar la distancia de Levenshtein para calcular la similitud entre caracteristicas Para el calculo del coseno suave se introduce la matriz s que contiene la similitud entre las caracteristicas Se puede calcular utilizando la distancia Levenshtein u otras medidas de similitud por ejemplo diversas medidas de similitud de WordNet Luego solo se multiplica por esta matriz Dado dos vectores a y b de dimension N el coseno suave es calculado como sigue s o f t c o s i n e 1 a b i j N s i j a i b j i j N s i j a i a j i j N s i j b i b j displaystyle begin aligned operatorname soft cosine 1 a b frac sum nolimits i j N s ij a i b j sqrt sum nolimits i j N s ij a i a j sqrt sum nolimits i j N s ij b i b j end aligned donde sij similitud caracteristicai caracteristicaj Si no existe similitud entre caracteristicas sii 1 sij 0 para i j la ecuacion dada es equivalente a la formula de similitud coseno convencional La complejidad de esta medida es cuadratica lo cual la hace completamente aplicable a problemas del mundo real La complejidad incluso puede ser transformada a lineal Referencias Editar Singhal Amit 2001 Modern Information Retrieval A Brief Overview Bulletin of the IEEE Computer Society Technical Committee on Data Engineering 24 4 35 43 P N Tan M Steinbach amp V Kumar Introduction to Data Mining Addison Wesley 2005 ISBN 0 321 32136 7 chapter 8 page 500 Sidorov Grigori Gelbukh Alexander Gomez Adorno Helena Pinto David Soft Similarity and Soft Cosine Measure Similarity of Features in Vector Space Model Computacion y Sistemas 18 3 491 504 doi 10 13053 CyS 18 3 2043 Consultado el 7 de octubre de 2014 Sidorov Grigori Velasquez Francisco Stamatatos Efstathios Gelbukh Alexander Chanona Hernandez Liliana Syntactic Dependency based N grams as Classification Features LNAI 7630 pp 1 11 ISBN 978 3 642 37798 3 Consultado el 7 de octubre de 2014 Datos Q1784941 Obtenido de https es wikipedia org w index php title Similitud coseno amp oldid 147914164, wikipedia, wiki, leyendo, leer, libro, biblioteca,

español

, española, descargar, gratis, descargar gratis, mp3, video, mp4, 3gp, jpg, jpeg, gif, png, imagen, música, canción, película, libro, juego, juegos