fbpx
Wikipedia

Agrupamiento jerárquico

En minería de datos, el agrupamiento jerárquico es un método de análisis de grupos puntuales, el cual busca construir una jerarquía de grupos. Estrategias para agrupamiento jerárquico generalmente caen en dos tipos:

  • Aglomerativas: Este es un acercamiento ascendente: cada observación comienza en su propio grupo, y los pares de grupos son mezclados mientras uno sube en la jerarquía.
  • Divisivas: Este es un acercamiento descendente: todas las observaciones comienzan en un grupo, y se realizan divisiones mientras uno baja en la jerarquía.

En general, las mezclas y divisiones son determinadas con un Algoritmo voraz. Los resultados del agrupamiento jerárquico son usualmente presentados en un dendrograma.

En el caso general, la complejidad del agrupamiento aglomerativo es , lo cual los hace demasiado lentos para grandes conjuntos de datos. El agrupamiento divisivo con búsqueda exhaustiva es lo cual es aún peor. Sin embargo, para algunos casos especiales, óptimos y eficientes métodos aglomerativos (de complejidad ) son conocidos: SLINK[1]​ para agrupamiento de enlace-simple y CLINK[2]​ para agrupamiento de enlace completo.

Disimilitud de grupo

En orden de decidir qué grupos deberían ser combinados (para aglomerativo), o cuando un grupo debería ser dividido (para divisivo), una medida de disimilitud entre conjuntos de observaciones es requerida. En la mayoría de los métodos de agrupamiento jerárquico, esto es logrado mediante uso de una métrica apropiada (una medida de distancia entre pares de observaciones), y un criterio de enlace el cual especifica la disimilitud de conjuntos como una función de las distancias dos a dos entre observaciones en los conjuntos.

Métrica

La elección de una métrica apropiada influenciará la forma de los grupos, ya que algunos pueden estar cerca unos de otros de acuerdo a una distancia y más lejos de acuerdo a otra. Por ejemplo, en un espacio 2-dimensional, la distancia entre el punto (1,0) y el origen (0,0) es siempre 1 de acuerdo a las normas usuales, pero la distancia entre el punto (1,1) y el origen (0,0) puede ser 2,   o 1 bajo la distancia Manhattan, la distancia euclidiana o la distancia máxima respectivamente.

Algunas métricas comúnmente usadas para agrupamiento jerárquico son:[3]

Names Formula
Distancia euclidiana  
Distancia euclidiana al cuadrado  
Distancia Manhattan  
distancia máxima  
Distancia de Mahalanobis   donde S es la matriz de covarianza
Similitud coseno  

Para texto u otro dato no numérico, métricas como la Distancia de Hamming o la Distancia de Levenshtein son frecuentemente usadas.

Criterio de enlace

El criterio de enlace determina la distancia entre conjuntos de observaciones como una función de las distancias entre observaciones dos a dos. Algunos criterios de enlace entre dos conjuntos de observaciones A y B frecuentemente usados son:[4][5]

Nombres Fórmula
Agrupamiento de máximo o completo enlace  
Agrupamiento de mínimo o simple enlace  
Agrupamiento de enlace media o promedio, o UPGMA  
Agrupamiento de mínima energía  

Donde d es la métrica escogida. Otros criterios de enlace incluye:

  • La suma de todas las varianzas intragrupo.
  • El decrecimiento en la varianza para los grupos que están siendo mezclados (criterio de Ward).
  • La probabilidad de que grupos candidatos se produzcan desde la misma función de distribución.(V-enlace)

Discusión

El agrupamiento jerárquico tiene la ventaja distintiva de que cualquier medida de distancia puede ser usada. De hecho, las observaciones de por si no son requeridas: todo lo que se usa es una matriz de distancia.

Ejemplo para agrupamiento aglomerativo

Por ejemplo, suponga que estos datos van a ser agrupados, y que la distancia euclidiana será la métrica de distancia.

Cortar el árbol a una altura determinada dará un grupo particionante de una precisión seleccionada. En este ejemplo, cortar después de la segunda fila dará como resultado los grupos {a} {b c} {d e} {f}. Cortar después de la tercera fila dará como resultado los grupos {a} {b c} {d e f}, el cual es un agrupamiento ‘tosco’, con un número menor de grupos mayores.

 

El dendrograma del agrupamiento jerárquico sería como este:

 

Este método construye la jerarquía desde los elementos individuales mediante progresivamente ir mezclando grupos. En nuestro ejemplo, tenemos seis elementos {a} {b} {c} {d} {e} y {f}. El primer paso es determinar cuales elementos mezclar en un grupo. Usualmente, queremos tomar los dos elementos más cercanos, de acuerdo a una distancia escogida.

Opcionalmente, uno solo puede construir una matriz de distancias a este nivel, donde el número en la i-ésima fila j-ésima columna es la distancia entre los i-ésimo y j-ésimo elementos. Entonces, a medida que el agrupamiento progresa, filas y columnas son mezcladas como también son mezclados los grupos y las distancias actualizadas. Esta es una forma común de implementar este tipo de agrupamiento y tiene el beneficio de almacenar las distancias entre grupos. Un algoritmo de agrupamiento aglomerativo simple es descrito en la página agrupamiento de enlace simple; puede ser fácilmente adaptado a diferentes tipos de enlace (ver abajo).

Suponga que hemos mezclado los dos elementos más cercanos b y c, ahora tenemos los siguientes grupos {a}, {b, c}, {d}, {e} y {f}, y queremos mezclarlos más adelante. Para hacerlo, necesitamos tomar la distancia entre {a} y {b c}, y por tanto definir la distancia entre dos grupos.

Usualmente la distancia entre dos grupos   and   es una de los siguientes:

  • • La distancia máxima entre elementos de cada grupo (también llamada agrupamiento de enlace completo):
 
  • • La distancia mínima entre elementos de cada grupo (también llamada agrupamiento de enlace simple):
 
  • • La distancia media entre elementos de cada grupo (también llamada agrupamiento de enlace promedio, usado e.g. en UPGMA):
 
  • La suma de todas las varianzas intra-grupo..
  • El aumento en la varianza de los grupos que están siendo mezclados (método de Ward).
  • La probabilidad de que grupos candidatos sean producidos desde la misma función de distribución (enlace-V).

Cada aglomeración ocurre a una mayor distancia entre grupos que la aglomeración anterior, y no puede decidir parar de agrupar ya sea cuando los grupos están muy lejos para ser mezclados (criterio de distancia) o cuando hay un suficientemente pequeño número de grupos (criterio de número).

Software

Libre

  • R tiene varias funciones de agrupamiento jerárquico.[6]
  • Orange, una suite software gratis de minería de datos, módulo orngClustering para hacer scripts en Python, o análisis de grupo a través de visual programming.[7]
  • hcluster es software Python, basado en NumPy, el cual soporta agrupamiento jerárquico y plotting.
  • Cluster 3.0 provee una agradable GUI para acceder a diferentes rutinas de agrupamiento y está disponible para Windows, Mac OS X, Linux, Unix. [8]
  • ELKI incluye múltiples algoritmos de agrupamiento jerárquico.
  • figue Un paquete JavaScript que implementa algunas funciones de agrupamiento aglomerativo (enlace simple, enlace completo, enlace promedio) y funciones para visualizar resultados de agrupamientos (e.g. dendrogramas)
  • MultiDendrograms Una aplicación open source en Java para agrupamiento jerárquico aglomerativo de grupos variables, con GUI.[9]
  • CrimeStat implementa dos rutinas de agrupamiento jerárquico, una de vecino más cercano (Nnh) y una de riesgo-ajustado (Rnnh).
  • Complete C# DEMO implementado como proyecto de Visual Studio que incluye procesado real de archivos de texto, construcción de matrices documento-término con filtrado de stopwords y stemming. El mismo sitio ofrece comparación con otros algoritmos.
  • HAC C# es una implementación de un algoritmo de agrupamiento aglomerativo que usa enlace-simple.

Comercial

  • Software for analyzing multivariate data with instant response using Hierarchical clustering
  • SAS

Véase también

Referencias

  1. R. Sibson (1973). «SLINK: an optimally efficient algorithm for the single-link cluster method». The Computer Journal (British Computer Society) 16 (1): 30-34. 
  2. D. Defays (1977). «An efficient algorithm for a complete link method». The Computer Journal (British Computer Society) 20 (4): 364-366. 
  3. «The DISTANCE Procedure: Proximity Measures». SAS/STAT 9.2 Users Guide. SAS Institute. Consultado el 26 de abril de 2009. 
  4. «The CLUSTER Procedure: Clustering Methods». SAS/STAT 9.2 Users Guide. SAS Institute. Consultado el 26 de abril de 2009. 
  5. Székely, G. J. and Rizzo, M. L. (2005) Hierarchical clustering via Joint Between-Within Distances: Extending Ward's Minimum Variance Method, Journal of Classification 22, 151-183.
  6. Gruen, Friedrich Leisch and Bettina (3 de mayo de 2017). CRAN Task View: Cluster Analysis & Finite Mixture Models. Consultado el 6 de julio de 2017. 
  7. http://www.ailab.si/orange/screenshots.psp (enlace roto disponible en Internet Archive; véase el historial, la primera versión y la última).
  8. «Open source Clustering software». bonsai.hgc.jp. Consultado el 6 de julio de 2017. 
  9. «Sergio Gómez - DEIM - URV». deim.urv.cat. Consultado el 6 de julio de 2017. 

Bibliografía

  • Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome (2009). (PDF). The Elements of Statistical Learning (2nd edición). Nueva York: Springer. pp. 520-528. ISBN 0-387-84857-6. Archivado desde el original el 10 de noviembre de 2009. Consultado el 20 de octubre de 2009. 
  • Press, WH; Teukolsky, SA; Vetterling, WT; Flannery, BP (2007). «Section 16.4. Hierarchical Clustering by Phylogenetic Trees». Numerical Recipes: The Art of Scientific Computing (3rd edición). New York: Cambridge University Press. ISBN 978-0-521-88068-8. 

Enlaces externos

  •   Datos: Q1277447
  •   Multimedia: Hierarchical clustering

agrupamiento, jerárquico, minería, datos, agrupamiento, jerárquico, método, análisis, grupos, puntuales, cual, busca, construir, jerarquía, grupos, estrategias, para, agrupamiento, jerárquico, generalmente, caen, tipos, aglomerativas, este, acercamiento, ascen. En mineria de datos el agrupamiento jerarquico es un metodo de analisis de grupos puntuales el cual busca construir una jerarquia de grupos Estrategias para agrupamiento jerarquico generalmente caen en dos tipos Aglomerativas Este es un acercamiento ascendente cada observacion comienza en su propio grupo y los pares de grupos son mezclados mientras uno sube en la jerarquia Divisivas Este es un acercamiento descendente todas las observaciones comienzan en un grupo y se realizan divisiones mientras uno baja en la jerarquia En general las mezclas y divisiones son determinadas con un Algoritmo voraz Los resultados del agrupamiento jerarquico son usualmente presentados en un dendrograma En el caso general la complejidad del agrupamiento aglomerativo es O n 3 displaystyle mathcal O n 3 lo cual los hace demasiado lentos para grandes conjuntos de datos El agrupamiento divisivo con busqueda exhaustiva es O 2 n displaystyle mathcal O 2 n lo cual es aun peor Sin embargo para algunos casos especiales optimos y eficientes metodos aglomerativos de complejidad O n 2 displaystyle mathcal O n 2 son conocidos SLINK 1 para agrupamiento de enlace simple y CLINK 2 para agrupamiento de enlace completo Indice 1 Disimilitud de grupo 1 1 Metrica 1 2 Criterio de enlace 2 Discusion 3 Ejemplo para agrupamiento aglomerativo 4 Software 4 1 Libre 4 2 Comercial 5 Vease tambien 6 Referencias 7 Bibliografia 8 Enlaces externosDisimilitud de grupo EditarEn orden de decidir que grupos deberian ser combinados para aglomerativo o cuando un grupo deberia ser dividido para divisivo una medida de disimilitud entre conjuntos de observaciones es requerida En la mayoria de los metodos de agrupamiento jerarquico esto es logrado mediante uso de una metrica apropiada una medida de distancia entre pares de observaciones y un criterio de enlace el cual especifica la disimilitud de conjuntos como una funcion de las distancias dos a dos entre observaciones en los conjuntos Metrica Editar La eleccion de una metrica apropiada influenciara la forma de los grupos ya que algunos pueden estar cerca unos de otros de acuerdo a una distancia y mas lejos de acuerdo a otra Por ejemplo en un espacio 2 dimensional la distancia entre el punto 1 0 y el origen 0 0 es siempre 1 de acuerdo a las normas usuales pero la distancia entre el punto 1 1 y el origen 0 0 puede ser 2 2 displaystyle scriptstyle sqrt 2 o 1 bajo la distancia Manhattan la distancia euclidiana o la distancia maxima respectivamente Algunas metricas comunmente usadas para agrupamiento jerarquico son 3 Names FormulaDistancia euclidiana a b 2 i a i b i 2 displaystyle a b 2 sqrt sum i a i b i 2 Distancia euclidiana al cuadrado a b 2 2 i a i b i 2 displaystyle a b 2 2 sum i a i b i 2 Distancia Manhattan a b 1 i a i b i displaystyle a b 1 sum i a i b i distancia maxima a b max i a i b i displaystyle a b infty max i a i b i Distancia de Mahalanobis a b S 1 a b displaystyle sqrt a b top S 1 a b donde S es la matriz de covarianzaSimilitud coseno a b a b displaystyle frac a cdot b a b Para texto u otro dato no numerico metricas como la Distancia de Hamming o la Distancia de Levenshtein son frecuentemente usadas Criterio de enlace Editar El criterio de enlace determina la distancia entre conjuntos de observaciones como una funcion de las distancias entre observaciones dos a dos Algunos criterios de enlace entre dos conjuntos de observaciones A y B frecuentemente usados son 4 5 Nombres FormulaAgrupamiento de maximo o completo enlace max d a b a A b B displaystyle max d a b a in A b in B Agrupamiento de minimo o simple enlace min d a b a A b B displaystyle min d a b a in A b in B Agrupamiento de enlace media o promedio o UPGMA 1 A B a A b B d a b displaystyle frac 1 A B sum a in A sum b in B d a b Agrupamiento de minima energia 2 n m i j 1 n m a i b j 2 1 n 2 i j 1 n a i a j 2 1 m 2 i j 1 m b i b j 2 displaystyle frac 2 nm sum i j 1 n m a i b j 2 frac 1 n 2 sum i j 1 n a i a j 2 frac 1 m 2 sum i j 1 m b i b j 2 Donde d es la metrica escogida Otros criterios de enlace incluye La suma de todas las varianzas intragrupo El decrecimiento en la varianza para los grupos que estan siendo mezclados criterio de Ward La probabilidad de que grupos candidatos se produzcan desde la misma funcion de distribucion V enlace Discusion EditarEl agrupamiento jerarquico tiene la ventaja distintiva de que cualquier medida de distancia puede ser usada De hecho las observaciones de por si no son requeridas todo lo que se usa es una matriz de distancia Ejemplo para agrupamiento aglomerativo EditarPor ejemplo suponga que estos datos van a ser agrupados y que la distancia euclidiana sera la metrica de distancia Cortar el arbol a una altura determinada dara un grupo particionante de una precision seleccionada En este ejemplo cortar despues de la segunda fila dara como resultado los grupos a b c d e f Cortar despues de la tercera fila dara como resultado los grupos a b c d e f el cual es un agrupamiento tosco con un numero menor de grupos mayores El dendrograma del agrupamiento jerarquico seria como este Este metodo construye la jerarquia desde los elementos individuales mediante progresivamente ir mezclando grupos En nuestro ejemplo tenemos seis elementos a b c d e y f El primer paso es determinar cuales elementos mezclar en un grupo Usualmente queremos tomar los dos elementos mas cercanos de acuerdo a una distancia escogida Opcionalmente uno solo puede construir una matriz de distancias a este nivel donde el numero en la i esima fila j esima columna es la distancia entre los i esimo y j esimo elementos Entonces a medida que el agrupamiento progresa filas y columnas son mezcladas como tambien son mezclados los grupos y las distancias actualizadas Esta es una forma comun de implementar este tipo de agrupamiento y tiene el beneficio de almacenar las distancias entre grupos Un algoritmo de agrupamiento aglomerativo simple es descrito en la pagina agrupamiento de enlace simple puede ser facilmente adaptado a diferentes tipos de enlace ver abajo Suponga que hemos mezclado los dos elementos mas cercanos b y c ahora tenemos los siguientes grupos a b c d e y f y queremos mezclarlos mas adelante Para hacerlo necesitamos tomar la distancia entre a y b c y por tanto definir la distancia entre dos grupos Usualmente la distancia entre dos grupos A displaystyle mathcal A and B displaystyle mathcal B es una de los siguientes La distancia maxima entre elementos de cada grupo tambien llamada agrupamiento de enlace completo max d x y x A y B displaystyle max d x y x in mathcal A y in mathcal B dd La distancia minima entre elementos de cada grupo tambien llamada agrupamiento de enlace simple min d x y x A y B displaystyle min d x y x in mathcal A y in mathcal B dd La distancia media entre elementos de cada grupo tambien llamada agrupamiento de enlace promedio usado e g en UPGMA 1 A B x A y B d x y displaystyle 1 over mathcal A cdot mathcal B sum x in mathcal A sum y in mathcal B d x y dd La suma de todas las varianzas intra grupo El aumento en la varianza de los grupos que estan siendo mezclados metodo de Ward La probabilidad de que grupos candidatos sean producidos desde la misma funcion de distribucion enlace V Cada aglomeracion ocurre a una mayor distancia entre grupos que la aglomeracion anterior y no puede decidir parar de agrupar ya sea cuando los grupos estan muy lejos para ser mezclados criterio de distancia o cuando hay un suficientemente pequeno numero de grupos criterio de numero Software EditarLibre Editar R tiene varias funciones de agrupamiento jerarquico 6 Orange una suite software gratis de mineria de datos modulo orngClustering para hacer scripts en Python o analisis de grupo a traves de visual programming 7 hcluster es software Python basado en NumPy el cual soporta agrupamiento jerarquico y plotting Cluster 3 0 provee una agradable GUI para acceder a diferentes rutinas de agrupamiento y esta disponible para Windows Mac OS X Linux Unix 8 ELKI incluye multiples algoritmos de agrupamiento jerarquico figue Un paquete JavaScript que implementa algunas funciones de agrupamiento aglomerativo enlace simple enlace completo enlace promedio y funciones para visualizar resultados de agrupamientos e g dendrogramas MultiDendrograms Una aplicacion open source en Java para agrupamiento jerarquico aglomerativo de grupos variables con GUI 9 CrimeStat implementa dos rutinas de agrupamiento jerarquico una de vecino mas cercano Nnh y una de riesgo ajustado Rnnh Complete C DEMO implementado como proyecto de Visual Studio que incluye procesado real de archivos de texto construccion de matrices documento termino con filtrado de stopwords y stemming El mismo sitio ofrece comparacion con otros algoritmos HAC C es una implementacion de un algoritmo de agrupamiento aglomerativo que usa enlace simple Comercial Editar Software for analyzing multivariate data with instant response using Hierarchical clustering SASVease tambien EditarAnalisis de grupos Dendrograma Taxonomia numericaReferencias Editar R Sibson 1973 SLINK an optimally efficient algorithm for the single link cluster method The Computer Journal British Computer Society 16 1 30 34 D Defays 1977 An efficient algorithm for a complete link method The Computer Journal British Computer Society 20 4 364 366 The DISTANCE Procedure Proximity Measures SAS STAT 9 2 Users Guide SAS Institute Consultado el 26 de abril de 2009 The CLUSTER Procedure Clustering Methods SAS STAT 9 2 Users Guide SAS Institute Consultado el 26 de abril de 2009 Szekely G J and Rizzo M L 2005 Hierarchical clustering via Joint Between Within Distances Extending Ward s Minimum Variance Method Journal of Classification 22 151 183 Gruen Friedrich Leisch and Bettina 3 de mayo de 2017 CRAN Task View Cluster Analysis amp Finite Mixture Models Consultado el 6 de julio de 2017 http www ailab si orange screenshots psp enlace roto disponible en Internet Archive vease el historial la primera version y la ultima Open source Clustering software bonsai hgc jp Consultado el 6 de julio de 2017 Sergio Gomez DEIM URV deim urv cat Consultado el 6 de julio de 2017 Bibliografia EditarHastie Trevor Tibshirani Robert Friedman Jerome 2009 14 3 12 Hierarchical clustering PDF The Elements of Statistical Learning 2nd edicion Nueva York Springer pp 520 528 ISBN 0 387 84857 6 Archivado desde el original el 10 de noviembre de 2009 Consultado el 20 de octubre de 2009 Press WH Teukolsky SA Vetterling WT Flannery BP 2007 Section 16 4 Hierarchical Clustering by Phylogenetic Trees Numerical Recipes The Art of Scientific Computing 3rd edicion New York Cambridge University Press ISBN 978 0 521 88068 8 Enlaces externos EditarEsta obra contiene una traduccion derivada de Hierarchical clustering de Wikipedia en ingles publicada por sus editores bajo la Licencia de documentacion libre de GNU y la Licencia Creative Commons Atribucion CompartirIgual 3 0 Unported Datos Q1277447 Multimedia Hierarchical clustering Obtenido de https es wikipedia org w index php title Agrupamiento jerarquico amp oldid 133062361, wikipedia, wiki, leyendo, leer, libro, biblioteca,

español

, española, descargar, gratis, descargar gratis, mp3, video, mp4, 3gp, jpg, jpeg, gif, png, imagen, música, canción, película, libro, juego, juegos