fbpx
Wikipedia

Análisis de grupos

Análisis de grupos o agrupamiento es la tarea de agrupar objetos por similitud, en grupos o conjuntos de manera que los miembros del mismo grupo tengan características similares. Es la tarea principal de la minería de datos exploratoria y es una técnica común en el análisis de datos estadísticos.

Cada cuadrado corresponde a un elemento, sus coordenadas representan sus características, los colores son el resultado del agrupamiento, que en este caso identificó 3 grupos.

Además es utilizada en múltiples campos comoː

El análisis de grupos es un problema, es un planteo general, y existen miles[1]​ de algoritmos que lo resuelven, cada uno con sus propias características. Muchos algoritmos difieren significativamente en su idea de qué constituye un grupo y cómo encontrarlos eficientemente.

El agrupamiento, por tanto, puede ser formulado como un problema multi-objetivo de optimización. El algoritmo apropiado y sus parámetros dependen del conjunto de datos que se analiza y el uso que se le dará a los resultados.

El agrupamiento como tal no es una tarea con solución directa, sino un proceso iterativo o interactivo que implica ensayo y error. Este proceso de prueba y error es iterativo en la medida que sea automático, e interactivo en la medida que requiera intervención humana. Es una práctica usual ejecutar un algoritmo de agrupamiento (un proceso iterativo), y a partir de los resultados ajustar los parámetros y repetir la operación (resultando en un proceso interactivo).

Las aplicaciones del agrupamiento se dividen en dos tipos principalesː

  • aquellas en la que los grupos constituyen el resultado buscado
    • es el caso de análisis de grupos, minería de datos, análisis de imágenes
  • otras en las que los grupos constituyen el punto de partida para la clasificaciones de nuevas muestras de datos, desconocidas al momento de procesar el agrupamiento
    • es el caso de clasificación automática en el mundo del aprendizaje de máquina

Otras denominaciones

Además del término agrupamiento, hay un número de términos con significados similares, incluyendo[1]​ː

  • análisis de grupos
  • clasificación automática
  • clustering (agrupamiento, en inglés)
  • taxonomía numérica
  • botryología (del griego βότρυς "uva")
  • análisis tipológico
  • tipología
  • aglutinado
  • análisis Q

Historia

El análisis de grupo estuvo originado en antropología por Driver y Kroeber en 1932 e introducido a psicología por Zubin en 1938 y Robert Tryon en 1939,[2][3]​ que también fue utilizado por Cattell al principio de 1943[4]​ para clasificación de la personalidad psicológica basada en teoría de rasgos. El primer uso del término moderno data clustering (agrupamiento de datos) se remonta a 1954[1]​,

El algoritmo de agrupamiento K-means fue publicado en 1955, y generalmente se lo considera el primer algoritmo de agrupamiento. Si bien hay dudas sobre la existencia previa de otros algoritmos de agrupamiento, K-means es el más antiguo entre los que se utilizan en la actualidad y el más influyente. Curiosamente, durante más de diez años, K-means fue redescubierto en diversas disciplinas científicas. Hasta 1967 se registran cuatro publicaciones en disciplinas diferentes que proponen como novedoso el mismo algoritmo de agrupamiento. El hecho de que varios científicos no relacionados desarrollen el mismo algoritmo da a entender la existencia de un denominador común, posiblemente el auge de la computación.

Desde 1963 hasta 2001 se han publicado 5 libros sobre agrupamiento considerados clásicos de su época. Aun así el interés por los algoritmos de agrupamiento se disparó en la primera década de este siglo, con un pico de búsquedas en Google Scholar en 2009[5]​. En esa década se desarrollaron miles de algoritmos nuevos, de creciente especificidad y complejidad, predominantemente para los ámbitos de minería de datos y de aprendizaje de máquina[1]​.

Definiciones

Grupo

La idea de un grupo de datos similares resulta incompleta y subjetiva, por el sencillo hecho de que la definición de similitud es parte del problema específico que se requiere resolver y no es parte del problema general de agrupamiento. Éste es el principal motivo de que existan miles de algoritmos de agrupamiento.[6]

Aun así, los investigadores emplean diferentes modelos de grupo, y para cada uno de estos modelos se utilizan diferentes algoritmos. La idea de un grupo, cuando es encontrado por algoritmos diferentes, varía significativamente en sus propiedades. Entender estos "modelos de grupo" es clave para entender las diferencias entre los algoritmos.

Típicamente los modelos de grupo incluyen estos otros modelos de:

  • Conectividad: por ejemplo, agrupamiento jerárquico construye modelos basados en la distancia de las conexiones
  • Centroide: por ejemplo, el algoritmo k-means representa cada grupo por un solo vector medio
  • Distribución: los grupos son modelados utilizando distribuciones estadísticas, como la distribución normal multivariada utilizada por el algoritmo Expectation-maximization
  • Densidad: por ejemplo, DBSCAN y OPTICS definen grupos como regiones densas conectadas en el espacio de los datos
  • Subespacios: en Bi-agrupamiento (también conocido como Co-clustering o two-mode-clustering), los grupos son modelados con ambas características, miembros del grupo y atributos relevantes
  • Grupo: algunos algoritmos no proporcionan un modelo refinado para sus resultados y solo proporcionan la información de la agrupación
  • Grafos: un clique, i.e., un subconjunto de nodos en un grafo tal que cada dos nodos en el subconjunto están conectados por una arista puede ser considerado como un prototipo o forma de grupo. Relajaciones del requisito de completa conectividad (una fracción de las aristas puede faltar) es conocida como quasi-cliques, como en el algoritmo HCS

Agrupamiento

Un agrupamiento es esencialmente un conjunto de tales grupos, normalmente conteniendo todos los objetos en el conjunto de datos. Además, puede especificar la relación de los grupos a cada uno de los otros, por ejemplo, una jerarquía de grupos contenida en cada otro. Los agrupamientos pueden ser aproximadamente clasificados como:

  • Duro: cada objeto pertenece a un grupo o no
  • Suave o difuso: cada objeto pertenece a cada grupo según un grado de pertenencia (p. ej. la probabilidad de pertenecer al grupo)

Hay también otras distinciones posibles de agrupamientos:

  • con partición estricta: aquí cada objeto pertenece a exactamente un grupo
  • con partición estricta con ruido: los objetos también pueden no pertenecer a ningún grupo, y están considerados ruido o anomalías
  • con solapamiento (También: agrupamiento alternativo, agrupamiento multi-objetivo): contrario a agrupamiento duro, los objetos pueden pertenecer a más de un grupo
  • jerárquico: objetos que pertenecen a un grupo hijo también pertenecen al grupo padre
  • de subespacios: contrario a agrupamiento con solapamiento, dentro de un único sub-espacio definido, los grupos deben solaparse

Algoritmos

Los algoritmos de agrupamiento pueden ser categorizados de varias maneras, por ejemplo por suː

  • modelo de grupo
  • eficiencia computacional o velocidad de cómputo
  • eficacia en el problema específico

En adelante se listan solamente los algoritmos más prominentes, ya que existen más de 100 publicados. No todos proporcionan modelos para sus grupos y por esto pueden no ser fácil categorizarlos. No existe un algoritmo de agrupamiento "correcto", como se pudo haber notado, "el agrupamiento está en el ojo del observador".[6]​ El algoritmo más apropiado para un problema particular a menudo necesita ser escogido experimentalmente, a no ser que haya una razón matemática para preferir un modelo de grupo sobre otro. Se debería tener en cuenta que un algoritmo que está diseñado para determinado modelo no tiene ninguna posibilidad de obtener buenos resultados en un conjunto de datos con un modelo diferente.[6]​ Por ejemplo, k-means no puede encontrar grupos no convexos.[6]

Agrupamiento basado en conectividad (agrupamiento jerárquico)

El agrupamiento basado en conectividad, también conocido como agrupamiento jerárquico, está basado en la idea principal de que los objetos más cercanos están más relacionados que los que están alejados. Estos algoritmos conectan "objetos" para formar "los grupos" basados en su distancia. Un grupo puede ser descrito, en gran parte, por la distancia máxima que se necesitó para conectar todas las partes del grupo. A distancias diferentes, se formarán grupos diferentes, los cuales pueden ser representados utilizando un dendrograma, el cual explica de donde proviene el nombre "agrupamiento jerárquico": estos algoritmos no solo proporcionan una partición del conjunto de datos, sino en cambio, proporcionan una jerarquía extensa de grupos que se fusionan con cada otro a ciertas distancias. En un dendrograma, el eje "y" marca la distancia en qué los grupos se fusionan, mientras que los objetos están colocados a lo largo del eje "x", tal que los grupos se mezclan.

El agrupamiento basado en conectividad es una familia entera de métodos que difiere en cómo las distancias están computadas. Aparte de la elección habitual de funciones de distancia, el usuario también necesita decidir el criterio de conexión (como un grupo consta de objetos múltiples, hay candidatos múltiples para computar la distancia) para utilizar. Las elecciones populares son conocidas como agrupamiento por enlace simple (el mínimo de distancias entre objetos), agrupamiento por enlace completo (el máximo de distancias entre objetos) o UPGMA ("Unweighted Pair Group Method with Arithmetic Mean", también conocido como agrupamiento por enlace medio). Además, agrupamiento jerárquico puede ser aglomerativo (empezando con simples elementos y agregándoles a grupos) o divisivos (empezando con el conjunto de datos completo y dividiéndolo en particiones). Estos métodos no producirán una única partición del conjunto de datos, sino una jerarquía donde el usuario puede escoger los grupos apropiados. No son muy robustos con el ruido, ya que puede que no aparezcan como grupos adicionales; pueden incluso causar que otros grupos se fusionen (conocido como "fenómeno de cadena", en particular con agrupamiento por enlace simple). En el caso general, la complejidad es   para agrupamiento aglomerativo y   para divisivo,[7]​ el cual les hace demasiado lentos para conjuntos de datos grande. Para algunos casos especiales, métodos óptimos más eficientes son conocidos (de complejidad  : SLINK[8]​ para enlace simple y CLINK[9]​ para agrupamiento por enlace completo. En la comunidad de minería de datos estos métodos están reconocidos como fundación teórica del análisis de grupos, pero a menudo considerados obsoletos. Aun así proporcionaron inspiración para muchos de los métodos más actuales como agrupamiento basado en densidad.

Agrupamiento basado en centroide

En el agrupamiento basado en centroide, los grupos están representados por un vector central, el cual puede no necesariamente ser un miembro del conjunto de datos. Cuando el número de grupos está fijado a k, k-means da una definición formal como un problema de optimización: encontrar los k centros de los grupos y asignar los objetos al centro del grupo más cercano, tal que el cuadrado de las distancias del grupo al centro están minimizadas. Este problema de optimización es NP-duro, y por ello el objetivo común es buscar solo soluciones aproximadas. Un método aproximado bien conocido es el algoritmo de Lloyd,[10]​ a menudo referido como "k-means". Aun así solo encuentra un óptimo local, y generalmente se ejecuta varias veces con inicializaciones aleatorias. Variaciones de k-means a menudo incluyen otras optimizaciones como: escoger el mejor resultado de varias corridas, restringir el centroide a miembros del conjunto de datos (k-medoids), escoger medianas (k-medians), escoger los centros iniciales aleatoriamente (K-means++) o permitir una asignación de grupos difusa (Fuzzy c-means).

La mayoría de los tipos de k-means requieren que el número de grupos sea especificado por adelantado, el cual está considerado una de las más grandes dificultades de estos algoritmos. Además, los algoritmos prefieren grupos de aproximadamente media similar, debido a que siempre asignarán un objeto al más cercano centroide. Esto a menudo provoca cortes incorrectos en los bordes de los grupos (lo cual no es una sorpresa ya que el algoritmo optimiza los centroides, no las fronteras).

K-means tiene un número de propiedades teóricas interesantes. Primero, las particiones del espacio de datos son estructuras conocidas como esquemas de Voronoi. Segundo, está conceptualmente cerca de la clasificación de k-nearest neighborhood, y por tanto muy popular en aprendizaje de máquina. Tercero, puede ser visto como una variación de la clasificación basada en modelos, y el algoritmo de Lloyd como variación del algoritmo Expectation-maximization para el modelo que se discutirá debajo.

Agrupamiento basado en distribuciones

El modelo de agrupamiento más estrechamente relacionado con la estadística es el modelo basado en distribuciones. Los grupos pueden entonces fácilmente ser definidos como los objetos que pertenecen más probablemente a la misma distribución. Una propiedad conveniente de esta aproximación es que esto se parece mucho a la manera en la que los conjuntos de datos artificiales están generados: por muestreos aleatorios de objetos de una distribución.

Mientras la fundación teórica de estos métodos es excelente, adolecen del problema clave conocido como sobreajuste u overfitting, a no ser que las restricciones estén incluidas en la complejidad del modelo. Un modelo más complejo normalmente será capaz de explicar los datos mejor, el cual hace escoger la complejidad apropiada del modelo inherentemente difícil.

Uno de los métodos más prominentes es conocido como modelo de mezcla Gaussiana (utilizado en el algoritmo de expectation-maximization). Aquí, el conjunto de datos es normalmente modelado con un número fijo (para evitar el sobreajuste) de distribuciones Gaussianas que está inicializado aleatoriamente, y cuyos parámetros son iterativamente optimizados para clasificar mejor al conjunto de datos. Esto convergerá a un óptimo local, múltiples corridas pueden producir resultados diferentes. Para obtener un agrupamiento duro, los objetos son a menudo entonces asignados a la distribución Gaussiana con mayor probabilidad de pertenecer ; para agrupamiento suave, esto no es necesario.

Agrupamiento basado en distribuciones produce modelos complejos para grupos que pueden capturar correlación y dependencia entre atributos. Aun así, estos algoritmos ponen una carga extra en el usuario: para muchos conjuntos de datos real, no puede haber ningún modelo matemático definido.

Agrupamiento basado en densidad

En agrupamiento basado en densidad,[11]​ los grupos están definidos como áreas de densidad más alta que en el resto del conjunto de datos. Objetos en áreas esparcidas son conocidos como ruido o puntos frontera.

El método de agrupamiento[12]​ más popular conocido es DBSCAN.[13]​ En contraste con muchos métodos más nuevos, presenta un modelo de grupo bien definido llamado "densamente alcanzable". Similar a agrupamiento basado en conectividad, está basado en conectar puntos dentro de cierto umbral de distancia. Aun así, solo conecta aquellos puntos que satisfacen un criterio de densidad, en la variante original definido como número mínimo de otros objetos dentro de un radio dado. Un grupo consiste en objetos densamente conectados (los cuales pueden formar un grupo de una forma arbitraria, en contraste a muchos otros métodos) más todos los objetos que están dentro del rango de estos. Otra propiedad interesante de DBSCAN es que su complejidad es bastante baja- requiere un número lineal de consultas de rango en la base de datos - y que descubrirá esencialmente los mismos resultados ( es determinista para núcleos y puntos de ruido, pero no para puntos de frontera) en cada corrida, por tanto no hay ninguna necesidad de correrlo varias veces. OPTICS[14]​ es una generalización de DBSCAN que elimina la necesidad de escoger un valor apropiado para el parámetro del rango, y produce un resultado jerárquico relacionado con la conexión del agrupamiento. DeLi-Clu,[15]​ es un algoritmo de agrupamiento basado en densidad que combina ideas de agrupamiento por enlace simple y de OPTICS, eliminando el parámetro del rango enteramente y ofreciendo mejoras de rendimiento sobre OPTICS por utilizar un R-tree como índice.

La principal dificultad de DBSCAN y OPTICS es que esperan alguna clase de caída de densidad para detectar fronteras de grupo. Además, no pueden detectar estructuras intrínsecas de grupo las cuales prevalecen en la mayoría de los conjuntos de datos de la vida real. Una variación de DBSCAN, EnDBSCAN,[16]​eficientemente detecta tales clases de estructuras. En conjuntos de datos con, por ejemplo, solapamiento de distribuciones Gaussianas - un caso de uso común en datos artificial - las fronteras de grupo producidas por estos algoritmos a menudo eran arbitrarias, porque las disminuciones de densidad del grupo eran continuas. En datos que contienen mezclas de Gaussianas, estos algoritmos son casi siempre batidos por métodos como EM debido a que estos son capaces de modelar esta clase de datos.

Mean-shift es una aproximación de agrupamiento donde cada objeto se mueve al área más densa en su proximidad, basado en una estimación de la densidad del núcleo. Finalmente, los objetos convergen a máximos locales de densidad. Similar a k-means, estos "atractores densos" pueden servir como representantes para el conjunto de datos, pero mean-shift puede detectar formas arbitrarias de los grupos similar a como lo hace DBSCAN. Debido al procedimiento iterativo costoso y estimación de densidad, mean-shift es normalmente más lento que DBSCAN o k-Means.

Desarrollos recientes

En años recientes el esfuerzo considerable ha sido puesto a mejorar el rendimiento de algoritmos existentes.[17][18]​ Entre ellos están CLARANS (Ng y Han, 1994),[19]​ y ABEDUL (Zhang et al., 1996).[20]​ Con la necesidad reciente de procesar datos más grandes y más grandes conjuntos (también conocidos como big data), la disposición para comerciar el significado semántico de los grupos generados ha sido incrementado. Esto dirigió al desarrollo de métodos de pre-agrupamiento como Canopy, los cuales pueden procesar conjuntos de datos enormes eficientemente, pero los grupos "resultantes" son meramente ásperas pre-particiones de los datos para entonces analizar las particiones con métodos existentes más lentos como k-means. Varias aproximaciones de agrupamiento han sido probadas basándose en semillas.[21]

Para alta dimensionalidad de los datos, muchos de los métodos que existen fallan, debido a las problemáticas particulares de las funciones de distancia para espacios de alta dimensionalidad. Esto llevó a la creación de nuevos algoritmos de agrupamiento para alta dimensionalidad que se enfocan en agrupamiento en subespacios (dónde solo algunos atributos serán utilizados, y los modelos de grupo incluyen los atributos pertinentes para los grupo) y agrupamiento de correlación que también busca sub-espacios de grupos rotados arbitrariamente ("correlacionados") que pueden ser modelados dada una correlación de sus atributos. Ejemplos para tales algoritmos son CLIQUE[22]​ y SUBCLU.[23]

Ideas de métodos de agrupamiento basado en densidad (en particular la familia de algoritmos DBSCAN/OPTIC) han sido adaptadas a agrupamiento de subespacios (HiSC[24]​ y DiSH[25]​) y agrupamiento de correlación (HiCO,[26]​ 4C[27]​ utilizando "conectividad por correlación" y ERIC[28]​ que explora correlación jerárquica de grupos basada en densidad).

Diferentes sistemas de agrupamiento basados en información mutua han sido propuestos. Uno es usando la distancia entre grupos propuesto por Marina Meilă;[29]​ otros proporcionan agrupamiento jerárquico.[30]​ Utilizando algoritmos genéticos, una gama ancha de diferentes funciones pueden ser optimizadas, incluyendo información mutua.[31]​ También el algoritmo "message passing", un desarrollo reciente en Informática y Física Estadística, se ha dirigido a la creación de tipos nuevos de algoritmos de agrupamiento.[32]

Otros métodos

  • Esquema algorítmico secuencial básico (BSAS)

Evaluación y valoración

La evaluación de los resultados de un agrupamiento a veces se refiere a cómo se validan los grupos.

Ha habido varias sugerencias para una medida de semejanza entre dos agrupamientos, tal medida puede usarse para comparar que tan bien los diferentes algoritmos crean un agrupamiento en un conjunto de datos. Esta medida esta normalmente ligada al criterio que es considerado para evaluar la calidad de un método de agrupamiento.

Evaluación interna

Cuando el resultado de un agrupamiento es evaluado basado en los datos agrupados por él, se llama evaluación interna. Estos métodos normalmente asignan la puntuación mejor al algoritmo que produce grupos con alta similitud entre sus componentes y baja similitud entre los grupos. Un problema de utilizar los criterios internos en evaluación de grupo es que puntuaciones altas en una medida interna no necesariamente indica un buen resultado en recuperación de información.[33]​ Además, esta evaluación está predispuesta hacia algoritmos que usan el mismo modelo de grupo. Por ejemplo, k-means naturalmente optimiza distancias de objeto, y una criterio interno basado en distancia probablemente sobrevalore el resultado del agrupamiento. Por tanto, las medidas de evaluación internas son más convenidas para conseguir alguna idea en situaciones donde un algoritmo actúa mejor que otro, pero esto no implicará que un algoritmo produce resultados más válidos que otro.[6]​ La validez medida por tal índice depende de la clase de estructura existente en el conjunto de datos. Un algoritmo diseñado para alguna clase de modelos no tiene ninguna posibilidad si el conjunto de dato contiene un conjunto radicalmente diferente de modelos, o si la evaluación mide un criterio radicalmente diferente.[6]​ Por ejemplo, k-means solo puede encontrar grupos convexos, y muchos índices de evaluación suponen grupos convexos. En un conjunto de datos con grupos no convexos ni el uso de k-means, ni de un criterio de evaluación que supone convexidad, dará buenos resultados.

Los métodos siguientes se suelen usar para evaluar la calidad de los algoritmos basados en criterio interno:

Índice de Davies–Bouldin

El índice de Davies–Bouldin puede ser calculado por la fórmula siguiente:
 
donde n es el número de grupos,   es el centroide de grupo x,   es la distancia media de todos los elementos en grupo al centroide x, y   es la distancia entre centroides   y  .  Desde algoritmos que producen grupos con bajas distancias intra-grupo(alta semejanza intra-grupo) y alta distancia inter-grupo (baja semejanza inter-grupo) tendrá un bajo índice de Davies–Bouldin, el algoritmo de agrupamiento que produce la colección de grupos con menores índices de Davies–Bouldin está considerado el algoritmo mejor basado en este criterio.

Índice de Dunn

El índice de Dunn tiene como objetivos identificar densos y bien separados grupos. Está definido como la proporción entre la mínima distancia inter-grupo y la máxima distancia intra-grupo. Para cada partición de grupo, el índice de Dunn puede ser calculado por la fórmula siguiente:[34]
 
donde d(i,j) representa la distancia entre grupos i y j, y d '(k) mide la distancia intra-grupo del grupo k. La distancia inter-grupo d(i,j) entre dos grupos pueden ser cualquier número de medidas de distancia, como la distancia entre los centroides de los grupos. De modo parecido, la distancia intra-grupo d '(k) puede ser medida de diferentes formas, como la distancia máxima entre cualquier par de elementos en el grupo k. El criterio interno busca grupos con alta semejanza intra-grupo y baja semejanza inter-grupo, algoritmos que producen grupos con altos índices de Dunn son más deseables.

Coeficiente de silueta

El coeficiente de silueta contrasta la distancia media a elementos en el mismo grupo con la distancia media a elementos en otros grupos. Los objetos con un valor de silueta alto están considerados bien agrupados, los objetos con un valor bajo pueden ser ruido o anomalías. Estos índices trabajan bien con k-means, y es también utilizado para determinar el número óptimo de grupos.

Evaluación externa

En evaluación externa, los resultados de un agrupamiento son evaluados basados en datos que no fueron usados para el agrupamiento, como etiquetas de clases conocidas o marcadores externos. Tales marcadores constan de un conjunto de pre-elementos clasificados, y estos conjuntos son a menudo creados por humanos (expertos). Así, los conjuntos marcados pueden ser usados como test de referencia para la evaluación [35]​. Estos tipos de métodos de evaluación miden qué cercano está el agrupamiento del conjunto de clases predeterminadas. Aun así, recientemente se ha hablado si esto es adecuado para datos reales, o solo en conjuntos de datos sintéticos con un factual "ground truth", donde las clases pueden contener estructura interna, los atributos presentes pueden no permitir la separación de los grupos o las clases pueden contener anomalías.[36]​ Además, de un punto de vista de descubrimiento del conocimiento, la reproducción de conocimiento sabido puede no necesariamente ser el resultado esperado.[36]​ En el escenario especial de Agrupamiento con restricciones, donde meta información (como etiquetas de clase) está utilizada ya en el proceso de agrupamiento, el control de la información para propósitos de evaluación es no trivial.[37]

Un número de medidas fue adoptado por las variantes utilizadas para evaluar tareas de clasificación. En lugar de contar el número de veces que una clase era correctamente asignada a un único punto de datos(conocido como ciertos positivos), lo que se hace es estimar para cada par de puntos simples que estén realmente en el mismo grupo cuanto se pronostica que estén en el mismo grupo.

Algunos de las medidas de calidad de un algoritmo de grupo que utiliza el criterio externo incluye:

Medida de Rand (William M. Rand 1971)[38]

El índice de Rand computa qué similar los grupos (regresados por el algoritmo de agrupamiento) son a las clasificaciones de los marcadores. Uno también puede ver el índice de Rand como medida del porcentaje de decisiones correctas hechas por el algoritmo. Puede ser computado utilizando la fórmula siguiente:
 
Dónde TP es el número de cierto positivos, TN es el número de cierto negativos, FP es el número de falso positivos, y FN es el número de falso negativos. Una característica con el índice de Rand es que falso positivos y falso negativos tienen el mismo peso. Esto puede ser una característica indeseable para alguna aplicación de un agrupamiento. La F-Medida está dirigida a resolver este problema.

F-Medida

La F-medida suele equilibrar la contribución de falso negativos por la ponderación recobrada a través de un parámetro   . Precisión y recobrado pueden ser definidos como sigue:
 
 
Dónde P es el índice de precisión y R el índice de recobrado. Podemos calcular la F-medida utilizando la fórmula siguiente:[33]
 
Notar que cuando  , . En otras palabras, el recobrado no tiene ningún impacto en la F-medida cuándo   , y   creciente destina una cantidad creciente de peso para recordar en el final de F-medida.

Índice de Jaccard

El índice de Jaccard suele cuantificar la semejanza entre dos conjuntos de datos. El índice de Jaccard toma un valor entre 0 y 1. Un índice de 1 significa que los dos conjuntos son idénticos, y un índice de 0 indica que los conjuntos no tienen elementos comunes. El índice de Jaccard está definido por la fórmula siguiente:
 
Esto es sencillamente el número de los elementos únicos comunes a ambos conjuntos divididos por el número total de elementos únicos en ambos conjuntos.

Índice de Fowlkes–Mallows (E. B. Fowlkes & C. L. Malvas 1983)[39]

El índice de Fowlkes-Mallows computa la semejanza entre los grupos devueltos por el algoritmo de agrupamiento y las clasificaciones de los marcadores. Entre más alto el valor del índice de Fowlkes-Mallows sea más similares son los grupos y las clasificaciones de los marcadores. Puede ser computado utilizando la fórmula siguiente:
 
Dónde TP es el número de ciertos positivos, FP es el número de falsos positivos, y FN es el número de falsos negativos. El índice FM es la media geométrica de la precisión y recobrado P y R, mientras la F-medida es su media armónica.[40]​ Además, precisión y recobrado son también conocidos como los índices de Wallace   y  .[41]

Información Mutua

Es una medida de cuánta información está compartida entre un agrupamiento y una clasificación "ground truth" que puede detectar una semejanza no lineal entre dos agrupamientos. La información mutua ajustada es una variante que tiene un sesgo reducido para números de grupo variable.

Matriz de confusión

Una matriz de confusión puede usarse para visualizar rápidamente los resultados de un algoritmo de clasificación. Muestra qué diferente un grupo es del grupo de patrones antes creados por un experto.

Aplicaciones

  • Biología, biología computacional y bioinformáticas
    • Ecología vegetal y animal: el análisis de grupo suele usarse para describir y para hacer comparaciones espacial y temporal de comunidades de organismos en entornos heterogéneos; es también utilizado en Sistemática para generar grupos o filogenias artificiales de organismos (individual) en la especie, genus o nivel más alto que compartan un número de atributos.
    • Transcriptoma: el agrupamiento es usado para construir grupos de genes con patrones de expresión relacionados (también conocidos como coexpressed genes) como en HCS. A menudo tales grupos contienen proteínas relacionadas funcionalmente, como enzimas para una vía metabólica específica, o genes que son co-regulados.
    • Análisis de secuencia: el agrupamiento es usado para agrupar secuencias homólogas en familias de genes. Esto es un concepto muy importante en bioinformática, y biología evolutiva en general. Ver evolución por duplicación de gen.
    • Agrupamiento en genética humana: la semejanza de datos genéticos está utilizada en agrupamiento para inferir estructuras de población.
  • Medicina
    • Imágenes médicas: en PET scans, el análisis de grupo puede usarse para diferenciar entre tipos diferentes de tejido y sangre en una imagen tridimensional. En esta aplicación, la posición real no importa, pero la intensidad está considerada como un vector, con una dimensión para cada imagen que fue tomada con el tiempo. Esta técnica permite, por ejemplo, la medida cuidadosa del índice de un rastro radioactivo entregado al área de interés, sin un muestreo separado de sangre arterial, una técnica intrusiva que es más común hoy.
    • Análisis de actividad antimicrobial: el análisis de grupo suele usarse para analizar patrones de resistencia de antibiótica, para clasificar compuestos antimicrobiales según su mecanismo de acción y para clasificar antibióticos según su actividad antibacterial.
  • Empresarial y marketing
    • Búsqueda de mercado: el análisis de grupo es ampliamente utilizado en búsqueda de mercado cuando se trabaja con datos multivariados de encuestas y tableros de prueba. Investigadores de marketing usan análisis de grupo para particionar la población general de consumidores en segmentos de mercado y para entender mejor las relaciones entre grupos diferentes de consumidores/potenciales clientes, y para uso en segmentación de mercado, posicionamiento de producto, desarrollo de productos nuevos y seleccionando mercados de prueba.
    • Agrupando elementos de compra: el conglomerado puede usarse para agrupar todos los elementos de compra disponibles en la web en un conjunto de productos únicos. Por ejemplo, todos los elementos en eBay pueden ser agrupados en productos únicos. (eBay no tiene el concepto de un SKU)
  • World wide web
    • Análisis de red social: en el estudio de redes sociales, el agrupamiento puede usarse para reconocer comunidades dentro de grupos grandes de personas.
    • Agrupación de resultados de la búsqueda: en el proceso de agrupación inteligente de los archivos y sitios web, el agrupamiento puede usarse para crear un conjunto más pertinente de resultados de búsqueda comparados a motores de búsqueda normales como Google. Hay actualmente un número de herramientas de la web basadas en agrupamiento, como Clusty.
    • Slippy map optimization: el mapa de fotos de Flickr y otros sitios usan el agrupamiento para reducir el número de marcadores en un mapa. Esto los hace a ambos más rápidos y reduce la cantidad de grupos visuales.
  • Informática
    • Segmentación de imagen: el agrupamiento puede usarse para dividir una imagen digital a regiones distintas para detección de frontera o reconocimiento de objetos.[42]
    • Algoritmos evolutivos: el agrupamiento puede usarse para identificar nichos diferentes dentro de la población de un algoritmo evolutivo de modo que la oportunidad reproductiva puede ser distribuida más equitativamente entre la especie a evolucionar o subespecie.
    • Sistemas de recomendación: los sistemas de recomendación están diseñados para recomendar los elementos nuevos basados en los gustos de un usuario. A veces utilizan algoritmos de agrupamiento para pronosticar las preferencias de un usuario basados en las preferencias de otros usuarios en el grupo del usuario.
    • Detección de anomalía: las anomalías/outliers son típicamente -pueden ser explícitamente o implícitamente- definidas con respecto a la estructura de los grupos en los datos.
  • Ciencia social
    • Análisis de delito: el análisis de grupos puede usarse para identificar áreas donde hay incidencias más grandes de tipos particulares de delito. Para identificar estas áreas distintas o "sitios calientes" donde un delito similar ha pasado en un periodo de tiempo, es posible dirigir recursos de aplicación de la ley más eficazmente.
    • Minería de datos educacional: el análisis de grupo es, por ejemplo, utilizado para identificar grupos de escuelas o alumnado con propiedades similares.
  • Otros
    • Robótica: los algoritmos de agrupamiento están utilizados para seguir objetos y detectar outliers en datos de los sensores.[4]
    • Química matemática: para encontrar semejanza estructural, por ejemplo, 3000 compuestos químicos agrupados en el espacio de 90 índices topológicos.[43]
    • Climatología: para encontrar regímenes de tiempo o patrones atmosféricos de presión y nivel del mar.[44]
    • Geografía física: el agrupamiento de propiedades químicas en ubicaciones de muestra diferente.

Véase también

Tipos especializados de análisis de grupo

  • Agrupamiento de datos de alta dimensionalidad
  • Agrupamiento conceptual
  • Agrupamiento de consenso
  • Agrupamiento con restricciones
  • Data stream clustering
  • Agrupamiento secuencial
  • Agrupamiento espectral
  • HCS

Las técnicas utilizadas en análisis de grupo

Proyección de dato y preprocessing

Otro

  • Modelación ponderada de grupos
  • Maldición de la dimensionalidad
  • Determinando el número de grupos en un conjunto de datos
  • Coordenadas paralelas
  • Análisis de datos estructurados

Referencias

  1. Jain, Anil K. (2012). «Data Clustering: 50 Years Beyond K-Means». Michigan State University. 
  2. Bailey, Ken (1994).
  3. Tryon, Robert C. (1939).
  4. Cattell, R. B. (1943).
  5. A History of Cluster Analysis Using the Classification Society's Bibliography Over Four Decades, 2013, arXiv:1209.0125v2
  6. Estivill-Castro, Vladimir (20 de junio de 2002). «Why so many clustering algorithms — A Position Paper». ACM SIGKDD Explorations Newsletter 4 (1): 65-75. doi:10.1145/568574.568575. 
  7. Everitt, Brian (2011). Cluster analysis. Chichester, West Sussex, U.K: Wiley. ISBN 9780470749913. 
  8. Sibson, R. (1973). «SLINK: an optimally efficient algorithm for the single-link cluster method». The Computer Journal (British Computer Society) 16 (1): 30-34. doi:10.1093/comjnl/16.1.30. 
  9. Defays, D. (1977). «An efficient algorithm for a complete link method». The Computer Journal (British Computer Society) 20 (4): 364-366. doi:10.1093/comjnl/20.4.364. 
  10. Lloyd, S. (1982). «Least squares quantization in PCM». IEEE Transactions on Information Theory 28 (2): 129-137. doi:10.1109/TIT.1982.1056489. 
  11. Kriegel, Hans-Peter; Kröger, Peer; Sander, Jörg; Zimek, Arthur (2011). «Density-based Clustering». WIREs Data Mining and Knowledge Discovery 1 (3): 231-240. doi:10.1002/widm.30. 
  12. Microsoft academic search: most cited data mining articles el 21 de abril de 2010 en Wayback Machine.: DBSCAN is on rank 24, when accessed on: 4/18/2010
  13. Ester, Martin; Kriegel, Hans-Peter; Sander, Jörg; Xu, Xiaowei (1996). «A density-based algorithm for discovering clusters in large spatial databases with noise». En Simoudis, Evangelos; Han, Jiawei; Fayyad, Usama M., eds. Proceedings of the Second International Conference on Knowledge Discovery and Data Mining (KDD-96). AAAI Press. pp. 226-231. ISBN 1-57735-004-9. 
  14. Ankerst, Mihael; Breunig, Markus M.; Kriegel, Hans-Peter; Sander, Jörg (1999). «OPTICS: Ordering Points To Identify the Clustering Structure». ACM SIGMOD international conference on Management of data. ACM Press. pp. 49-60. 
  15. Achtert, E.; Böhm, C.; Kröger, P. (2006). «DeLi-Clu: Boosting Robustness, Completeness, Usability, and Efficiency of Hierarchical Clustering by a Closest Pair Ranking». LNCS: Advances in Knowledge Discovery and Data Mining. Lecture Notes in Computer Science 3918: 119-128. ISBN 978-3-540-33206-0. doi:10.1007/11731139_16. 
  16. Roy, S.; Bhattacharyya, D. K. (2005). «An Approach to find Embedded Clusters Using Density Based Techniques». LNCS Vol.3816. Springer Verlag. pp. 523-535. 
  17. Sculley, D. (2010). Web-scale k-means clustering. Proc. 19th WWW. 
  18. Huang, Z. (1998). «Extensions to the k-means algorithm for clustering large data sets with categorical values». Data Mining and Knowledge Discovery 2: 283-304. 
  19. R. Ng and J. Han. "Efficient and effective clustering method for spatial data mining". In: Proceedings of the 20th VLDB Conference, pages 144-155, Santiago, Chile, 1994.
  20. Tian Zhang, Raghu Ramakrishnan, Miron Livny. "An Efficient Data Clustering Method for Very Large Databases." In: Proc. Int'l Conf. on Management of Data, ACM SIGMOD, pp. 103–114.
  21. Can, F.; Ozkarahan, E. A. (1990). «Concepts and effectiveness of the cover-coefficient-based clustering methodology for text databases». ACM Transactions on Database Systems 15 (4): 483. doi:10.1145/99935.99938. 
  22. Agrawal, R.; Gehrke, J.; Gunopulos, D.; Raghavan, P. (2005). «Automatic Subspace Clustering of High Dimensional Data». Data Mining and Knowledge Discovery 11: 5. doi:10.1007/s10618-005-1396-1. 
  23. Karin Kailing, Hans-Peter Kriegel and Peer Kröger. Density-Connected Subspace Clustering for High-Dimensional Data. In: Proc. SIAM Int. Conf. on Data Mining (SDM'04), pp. 246-257, 2004.
  24. Achtert, E.; Böhm, C.; Kriegel, H. P.; Kröger, P.; Müller-Gorman, I.; Zimek, A. (2006). «Finding Hierarchies of Subspace Clusters». LNCS: Knowledge Discovery in Databases: PKDD 2006. Lecture Notes in Computer Science 4213: 446-453. ISBN 978-3-540-45374-1. doi:10.1007/11871637_42. 
  25. Achtert, E.; Böhm, C.; Kriegel, H. P.; Kröger, P.; Müller-Gorman, I.; Zimek, A. (2007). «Detection and Visualization of Subspace Cluster Hierarchies». LNCS: Advances in Databases: Concepts, Systems and Applications. Lecture Notes in Computer Science 4443: 152-163. ISBN 978-3-540-71702-7. doi:10.1007/978-3-540-71703-4_15. 
  26. Achtert, E.; Böhm, C.; Kröger, P.; Zimek, A. (2006). «Mining Hierarchies of Correlation Clusters». Proc. 18th International Conference on Scientific and Statistical Database Management (SSDBM): 119-128. ISBN 0-7695-2590-3. doi:10.1109/SSDBM.2006.35. 
  27. Böhm, C.; Kailing, K.; Kröger, P.; Zimek, A. (2004). «Computing Clusters of Correlation Connected objects». Proceedings of the 2004 ACM SIGMOD international conference on Management of data - SIGMOD '04. p. 455. ISBN 1581138598. doi:10.1145/1007568.1007620. 
  28. Achtert, E.; Bohm, C.; Kriegel, H. P.; Kröger, P.; Zimek, A. (2007). «On Exploring Complex Relationships of Correlation Clusters». 19th International Conference on Scientific and Statistical Database Management (SSDBM 2007). p. 7. ISBN 0-7695-2868-6. doi:10.1109/SSDBM.2007.21. 
  29. Meilă, Marina (2003). «Comparing Clusterings by the Variation of Information». Learning Theory and Kernel Machines. Lecture Notes in Computer Science 2777: 173-187. ISBN 978-3-540-40720-1. doi:10.1007/978-3-540-45167-9_14. 
  30. Kraskov, Alexander; Stögbauer, Harald; Andrzejak, Ralph G.; Grassberger, Peter (1 de diciembre de 2003) [28 November 2003]. Hierarchical Clustering Based on Mutual Information. arXiv:q-bio/0311039. 
  31. Auffarth, B. (July 18–23, 2010). «Clustering by a Genetic Algorithm with Biased Mutation Operator». WCCI CEC (IEEE). 
  32. Frey, B. J.; Dueck, D. (2007). «Clustering by Passing Messages Between Data Points». Science 315 (5814): 972-976. PMID 17218491. doi:10.1126/science.1136800. 
  33. Manning, Christopher D.; Raghavan, Prabhakar; Schütze, Hinrich. Introduction to Information Retrieval. Cambridge University Press. ISBN 978-0-521-86571-5. 
  34. Dunn, J. (1974). «Well separated clusters and optimal fuzzy partitions». Journal of Cybernetics 4: 95-104. doi:10.1080/01969727408546059. 
  35. Pfitzner, Darius; Leibbrandt, Richard; Powers, David (5 de julio de 2008). «Characterization and evaluation of similarity measures for pairs of clusterings». Knowledge and Information Systems (en inglés) 19 (3): 361. ISSN 0219-3116. doi:10.1007/s10115-008-0150-6. Consultado el 12 de abril de 2021. 
  36. Färber, Ines; Günnemann, Stephan; Kriegel, Hans-Peter; Kröger, Peer; Müller, Emmanuel; Schubert, Erich; Seidl, Thomas; Zimek, Arthur (2010). «On Using Class-Labels in Evaluation of Clusterings». En Fern, Xiaoli Z.; Davidson, Ian; Dy, Jennifer, eds. MultiClust: Discovering, Summarizing, and Using Multiple Clusterings. ACM SIGKDD. 
  37. Pourrajabi, M.; Moulavi, D.; Campello, R. J. G. B.; Zimek, A.; Sander, J.; Goebel, R. (2014). «Model Selection for Semi-Supervised Clustering». Proceedings of the 17th International Conference on Extending Database Technology (EDBT),. pp. 331-342. doi:10.5441/002/edbt.2014.31. 
  38. Rand, W. M. (1971). «Objective criteria for the evaluation of clustering methods». Journal of the American Statistical Association (American Statistical Association) 66 (336): 846-850. JSTOR 2284239. doi:10.2307/2284239. 
  39. E. B. Fowlkes & C. L. Mallows (1983), "A Method for Comparing Two Hierarchical Clusterings", Journal of the American Statistical Association 78, 553–569.
  40. L. Hubert et P. Arabie. Comparing partitions. J. of Classification, 2(1), 1985.
  41. D. L. Wallace. Comment. Journal of the American Statistical Association, 78 :569– 579, 1983.
  42. Bewley, A., & Upcroft, B. (2013). Advantages of Exploiting Projection Structure for Segmenting Dense 3D Point Clouds. In Australian Conference on Robotics and Automation [1]
  43. Bewley, A. «Real-time volume estimation of a dragline payload». IEEE International Conference on Robotics and Automation 2011: 1571-1576. 
  44. Huth, R. (2008). «Classifications of Atmospheric Circulation Patterns: Recent Advances and Applications». Ann. N.Y. Acad. Sci. 1146: 105-152. 
  •   Datos: Q622825
  •   Multimedia: Cluster analysis

análisis, grupos, agrupamiento, tarea, agrupar, objetos, similitud, grupos, conjuntos, manera, miembros, mismo, grupo, tengan, características, similares, tarea, principal, minería, datos, exploratoria, técnica, común, análisis, datos, estadísticos, cada, cuad. Analisis de grupos o agrupamiento es la tarea de agrupar objetos por similitud en grupos o conjuntos de manera que los miembros del mismo grupo tengan caracteristicas similares Es la tarea principal de la mineria de datos exploratoria y es una tecnica comun en el analisis de datos estadisticos Cada cuadrado corresponde a un elemento sus coordenadas representan sus caracteristicas los colores son el resultado del agrupamiento que en este caso identifico 3 grupos Ademas es utilizada en multiples campos comoː aprendizaje automatico reconocimiento de patrones analisis de imagenes busqueda y recuperacion de informacion bioinformatica compresion de datos computacion grafica El analisis de grupos es un problema es un planteo general y existen miles 1 de algoritmos que lo resuelven cada uno con sus propias caracteristicas Muchos algoritmos difieren significativamente en su idea de que constituye un grupo y como encontrarlos eficientemente El agrupamiento por tanto puede ser formulado como un problema multi objetivo de optimizacion El algoritmo apropiado y sus parametros dependen del conjunto de datos que se analiza y el uso que se le dara a los resultados El agrupamiento como tal no es una tarea con solucion directa sino un proceso iterativo o interactivo que implica ensayo y error Este proceso de prueba y error es iterativo en la medida que sea automatico e interactivo en la medida que requiera intervencion humana Es una practica usual ejecutar un algoritmo de agrupamiento un proceso iterativo y a partir de los resultados ajustar los parametros y repetir la operacion resultando en un proceso interactivo Las aplicaciones del agrupamiento se dividen en dos tipos principalesː aquellas en la que los grupos constituyen el resultado buscado es el caso de analisis de grupos mineria de datos analisis de imagenes otras en las que los grupos constituyen el punto de partida para la clasificaciones de nuevas muestras de datos desconocidas al momento de procesar el agrupamiento es el caso de clasificacion automatica en el mundo del aprendizaje de maquinaIndice 1 Otras denominaciones 2 Historia 3 Definiciones 3 1 Grupo 3 2 Agrupamiento 4 Algoritmos 4 1 Agrupamiento basado en conectividad agrupamiento jerarquico 4 2 Agrupamiento basado en centroide 4 3 Agrupamiento basado en distribuciones 4 4 Agrupamiento basado en densidad 4 5 Desarrollos recientes 4 6 Otros metodos 5 Evaluacion y valoracion 5 1 Evaluacion interna 5 1 1 Indice de Davies Bouldin 5 1 2 Indice de Dunn 5 1 3 Coeficiente de silueta 5 2 Evaluacion externa 5 2 1 Medida de Rand William M Rand 1971 38 5 2 2 F Medida 5 2 3 Indice de Jaccard 5 2 4 Indice de Fowlkes Mallows E B Fowlkes amp C L Malvas 1983 39 5 2 5 Informacion Mutua 5 2 6 Matriz de confusion 6 Aplicaciones 7 Vease tambien 7 1 Tipos especializados de analisis de grupo 7 2 Las tecnicas utilizadas en analisis de grupo 7 3 Proyeccion de dato y preprocessing 7 4 Otro 8 ReferenciasOtras denominaciones EditarAdemas del termino agrupamiento hay un numero de terminos con significados similares incluyendo 1 ː analisis de grupos clasificacion automatica clustering agrupamiento en ingles taxonomia numerica botryologia del griego botrys uva analisis tipologico tipologia aglutinado analisis QHistoria EditarEl analisis de grupo estuvo originado en antropologia por Driver y Kroeber en 1932 e introducido a psicologia por Zubin en 1938 y Robert Tryon en 1939 2 3 que tambien fue utilizado por Cattell al principio de 1943 4 para clasificacion de la personalidad psicologica basada en teoria de rasgos El primer uso del termino moderno data clustering agrupamiento de datos se remonta a 1954 1 El algoritmo de agrupamiento K means fue publicado en 1955 y generalmente se lo considera el primer algoritmo de agrupamiento Si bien hay dudas sobre la existencia previa de otros algoritmos de agrupamiento K means es el mas antiguo entre los que se utilizan en la actualidad y el mas influyente Curiosamente durante mas de diez anos K means fue redescubierto en diversas disciplinas cientificas Hasta 1967 se registran cuatro publicaciones en disciplinas diferentes que proponen como novedoso el mismo algoritmo de agrupamiento El hecho de que varios cientificos no relacionados desarrollen el mismo algoritmo da a entender la existencia de un denominador comun posiblemente el auge de la computacion Desde 1963 hasta 2001 se han publicado 5 libros sobre agrupamiento considerados clasicos de su epoca Aun asi el interes por los algoritmos de agrupamiento se disparo en la primera decada de este siglo con un pico de busquedas en Google Scholar en 2009 5 En esa decada se desarrollaron miles de algoritmos nuevos de creciente especificidad y complejidad predominantemente para los ambitos de mineria de datos y de aprendizaje de maquina 1 Definiciones EditarGrupo Editar La idea de un grupo de datos similares resulta incompleta y subjetiva por el sencillo hecho de que la definicion de similitud es parte del problema especifico que se requiere resolver y no es parte del problema general de agrupamiento Este es el principal motivo de que existan miles de algoritmos de agrupamiento 6 Aun asi los investigadores emplean diferentes modelos de grupo y para cada uno de estos modelos se utilizan diferentes algoritmos La idea de un grupo cuando es encontrado por algoritmos diferentes varia significativamente en sus propiedades Entender estos modelos de grupo es clave para entender las diferencias entre los algoritmos Tipicamente los modelos de grupo incluyen estos otros modelos de Conectividad por ejemplo agrupamiento jerarquico construye modelos basados en la distancia de las conexiones Centroide por ejemplo el algoritmo k means representa cada grupo por un solo vector medio Distribucion los grupos son modelados utilizando distribuciones estadisticas como la distribucion normal multivariada utilizada por el algoritmo Expectation maximization Densidad por ejemplo DBSCAN y OPTICS definen grupos como regiones densas conectadas en el espacio de los datos Subespacios en Bi agrupamiento tambien conocido como Co clustering o two mode clustering los grupos son modelados con ambas caracteristicas miembros del grupo y atributos relevantes Grupo algunos algoritmos no proporcionan un modelo refinado para sus resultados y solo proporcionan la informacion de la agrupacion Grafos un clique i e un subconjunto de nodos en un grafo tal que cada dos nodos en el subconjunto estan conectados por una arista puede ser considerado como un prototipo o forma de grupo Relajaciones del requisito de completa conectividad una fraccion de las aristas puede faltar es conocida como quasi cliques como en el algoritmo HCSAgrupamiento Editar Un agrupamiento es esencialmente un conjunto de tales grupos normalmente conteniendo todos los objetos en el conjunto de datos Ademas puede especificar la relacion de los grupos a cada uno de los otros por ejemplo una jerarquia de grupos contenida en cada otro Los agrupamientos pueden ser aproximadamente clasificados como Duro cada objeto pertenece a un grupo o no Suave o difuso cada objeto pertenece a cada grupo segun un grado de pertenencia p ej la probabilidad de pertenecer al grupo Hay tambien otras distinciones posibles de agrupamientos con particion estricta aqui cada objeto pertenece a exactamente un grupo con particion estricta con ruido los objetos tambien pueden no pertenecer a ningun grupo y estan considerados ruido o anomalias con solapamiento Tambien agrupamiento alternativo agrupamiento multi objetivo contrario a agrupamiento duro los objetos pueden pertenecer a mas de un grupo jerarquico objetos que pertenecen a un grupo hijo tambien pertenecen al grupo padre de subespacios contrario a agrupamiento con solapamiento dentro de un unico sub espacio definido los grupos deben solaparseAlgoritmos EditarLos algoritmos de agrupamiento pueden ser categorizados de varias maneras por ejemplo por suː modelo de grupo eficiencia computacional o velocidad de computo eficacia en el problema especificoEn adelante se listan solamente los algoritmos mas prominentes ya que existen mas de 100 publicados No todos proporcionan modelos para sus grupos y por esto pueden no ser facil categorizarlos No existe un algoritmo de agrupamiento correcto como se pudo haber notado el agrupamiento esta en el ojo del observador 6 El algoritmo mas apropiado para un problema particular a menudo necesita ser escogido experimentalmente a no ser que haya una razon matematica para preferir un modelo de grupo sobre otro Se deberia tener en cuenta que un algoritmo que esta disenado para determinado modelo no tiene ninguna posibilidad de obtener buenos resultados en un conjunto de datos con un modelo diferente 6 Por ejemplo k means no puede encontrar grupos no convexos 6 Agrupamiento basado en conectividad agrupamiento jerarquico Editar El agrupamiento basado en conectividad tambien conocido como agrupamiento jerarquico esta basado en la idea principal de que los objetos mas cercanos estan mas relacionados que los que estan alejados Estos algoritmos conectan objetos para formar los grupos basados en su distancia Un grupo puede ser descrito en gran parte por la distancia maxima que se necesito para conectar todas las partes del grupo A distancias diferentes se formaran grupos diferentes los cuales pueden ser representados utilizando un dendrograma el cual explica de donde proviene el nombre agrupamiento jerarquico estos algoritmos no solo proporcionan una particion del conjunto de datos sino en cambio proporcionan una jerarquia extensa de grupos que se fusionan con cada otro a ciertas distancias En un dendrograma el eje y marca la distancia en que los grupos se fusionan mientras que los objetos estan colocados a lo largo del eje x tal que los grupos se mezclan El agrupamiento basado en conectividad es una familia entera de metodos que difiere en como las distancias estan computadas Aparte de la eleccion habitual de funciones de distancia el usuario tambien necesita decidir el criterio de conexion como un grupo consta de objetos multiples hay candidatos multiples para computar la distancia para utilizar Las elecciones populares son conocidas como agrupamiento por enlace simple el minimo de distancias entre objetos agrupamiento por enlace completo el maximo de distancias entre objetos o UPGMA Unweighted Pair Group Method with Arithmetic Mean tambien conocido como agrupamiento por enlace medio Ademas agrupamiento jerarquico puede ser aglomerativo empezando con simples elementos y agregandoles a grupos o divisivos empezando con el conjunto de datos completo y dividiendolo en particiones Estos metodos no produciran una unica particion del conjunto de datos sino una jerarquia donde el usuario puede escoger los grupos apropiados No son muy robustos con el ruido ya que puede que no aparezcan como grupos adicionales pueden incluso causar que otros grupos se fusionen conocido como fenomeno de cadena en particular con agrupamiento por enlace simple En el caso general la complejidad es O n 3 displaystyle O n 3 para agrupamiento aglomerativo y O 2 n 1 displaystyle O 2 n 1 para divisivo 7 el cual les hace demasiado lentos para conjuntos de datos grande Para algunos casos especiales metodos optimos mas eficientes son conocidos de complejidad O n 2 displaystyle O n 2 SLINK 8 para enlace simple y CLINK 9 para agrupamiento por enlace completo En la comunidad de mineria de datos estos metodos estan reconocidos como fundacion teorica del analisis de grupos pero a menudo considerados obsoletos Aun asi proporcionaron inspiracion para muchos de los metodos mas actuales como agrupamiento basado en densidad Ejemplos de enlace simple Enlace simple en datos Gaussianos En 35 grupos al principio el grupo mas grande se fragmenta en grupos mas pequenos mientras que todavia esta conectado al segundo mayor por el efecto de enlace simple Enlace simple en agrupamiento basado en densidad Se extrajeron 20 grupos la mayoria contienen un unico elemento nos podemos percatar entonces que enlace simple no tiene una nocion de ruido Agrupamiento basado en centroide Editar En el agrupamiento basado en centroide los grupos estan representados por un vector central el cual puede no necesariamente ser un miembro del conjunto de datos Cuando el numero de grupos esta fijado a k k means da una definicion formal como un problema de optimizacion encontrar los k centros de los grupos y asignar los objetos al centro del grupo mas cercano tal que el cuadrado de las distancias del grupo al centro estan minimizadas Este problema de optimizacion es NP duro y por ello el objetivo comun es buscar solo soluciones aproximadas Un metodo aproximado bien conocido es el algoritmo de Lloyd 10 a menudo referido como k means Aun asi solo encuentra un optimo local y generalmente se ejecuta varias veces con inicializaciones aleatorias Variaciones de k means a menudo incluyen otras optimizaciones como escoger el mejor resultado de varias corridas restringir el centroide a miembros del conjunto de datos k medoids escoger medianas k medians escoger los centros iniciales aleatoriamente K means o permitir una asignacion de grupos difusa Fuzzy c means La mayoria de los tipos de k means requieren que el numero de grupos sea especificado por adelantado el cual esta considerado una de las mas grandes dificultades de estos algoritmos Ademas los algoritmos prefieren grupos de aproximadamente media similar debido a que siempre asignaran un objeto al mas cercano centroide Esto a menudo provoca cortes incorrectos en los bordes de los grupos lo cual no es una sorpresa ya que el algoritmo optimiza los centroides no las fronteras K means tiene un numero de propiedades teoricas interesantes Primero las particiones del espacio de datos son estructuras conocidas como esquemas de Voronoi Segundo esta conceptualmente cerca de la clasificacion de k nearest neighborhood y por tanto muy popular en aprendizaje de maquina Tercero puede ser visto como una variacion de la clasificacion basada en modelos y el algoritmo de Lloyd como variacion del algoritmo Expectation maximization para el modelo que se discutira debajo Ejemplos de agrupamiento con k means K means separa los datos en esquemas de Voronoi donde se supone igual tamano para los grupos no es adecuado para el uso en este caso K means no puede representar grupos basados en densidadAgrupamiento basado en distribuciones Editar El modelo de agrupamiento mas estrechamente relacionado con la estadistica es el modelo basado en distribuciones Los grupos pueden entonces facilmente ser definidos como los objetos que pertenecen mas probablemente a la misma distribucion Una propiedad conveniente de esta aproximacion es que esto se parece mucho a la manera en la que los conjuntos de datos artificiales estan generados por muestreos aleatorios de objetos de una distribucion Mientras la fundacion teorica de estos metodos es excelente adolecen del problema clave conocido como sobreajuste u overfitting a no ser que las restricciones esten incluidas en la complejidad del modelo Un modelo mas complejo normalmente sera capaz de explicar los datos mejor el cual hace escoger la complejidad apropiada del modelo inherentemente dificil Uno de los metodos mas prominentes es conocido como modelo de mezcla Gaussiana utilizado en el algoritmo de expectation maximization Aqui el conjunto de datos es normalmente modelado con un numero fijo para evitar el sobreajuste de distribuciones Gaussianas que esta inicializado aleatoriamente y cuyos parametros son iterativamente optimizados para clasificar mejor al conjunto de datos Esto convergera a un optimo local multiples corridas pueden producir resultados diferentes Para obtener un agrupamiento duro los objetos son a menudo entonces asignados a la distribucion Gaussiana con mayor probabilidad de pertenecer para agrupamiento suave esto no es necesario Agrupamiento basado en distribuciones produce modelos complejos para grupos que pueden capturar correlacion y dependencia entre atributos Aun asi estos algoritmos ponen una carga extra en el usuario para muchos conjuntos de datos real no puede haber ningun modelo matematico definido Ejemplos de agrupamiento usando Expectation Maximization EM En datos distribuidos con Gaussianas EM trabaja bien desde entonces se utilizan Gaussianas para la modelacion de grupos Grupos basados en densidad no pueden ser modelados utilizando distribuciones GaussianasAgrupamiento basado en densidad Editar En agrupamiento basado en densidad 11 los grupos estan definidos como areas de densidad mas alta que en el resto del conjunto de datos Objetos en areas esparcidas son conocidos como ruido o puntos frontera El metodo de agrupamiento 12 mas popular conocido es DBSCAN 13 En contraste con muchos metodos mas nuevos presenta un modelo de grupo bien definido llamado densamente alcanzable Similar a agrupamiento basado en conectividad esta basado en conectar puntos dentro de cierto umbral de distancia Aun asi solo conecta aquellos puntos que satisfacen un criterio de densidad en la variante original definido como numero minimo de otros objetos dentro de un radio dado Un grupo consiste en objetos densamente conectados los cuales pueden formar un grupo de una forma arbitraria en contraste a muchos otros metodos mas todos los objetos que estan dentro del rango de estos Otra propiedad interesante de DBSCAN es que su complejidad es bastante baja requiere un numero lineal de consultas de rango en la base de datos y que descubrira esencialmente los mismos resultados es determinista para nucleos y puntos de ruido pero no para puntos de frontera en cada corrida por tanto no hay ninguna necesidad de correrlo varias veces OPTICS 14 es una generalizacion de DBSCAN que elimina la necesidad de escoger un valor apropiado para el parametro del rango y produce un resultado jerarquico relacionado con la conexion del agrupamiento DeLi Clu 15 es un algoritmo de agrupamiento basado en densidad que combina ideas de agrupamiento por enlace simple y de OPTICS eliminando el parametro del rango enteramente y ofreciendo mejoras de rendimiento sobre OPTICS por utilizar un R tree como indice La principal dificultad de DBSCAN y OPTICS es que esperan alguna clase de caida de densidad para detectar fronteras de grupo Ademas no pueden detectar estructuras intrinsecas de grupo las cuales prevalecen en la mayoria de los conjuntos de datos de la vida real Una variacion de DBSCAN EnDBSCAN 16 eficientemente detecta tales clases de estructuras En conjuntos de datos con por ejemplo solapamiento de distribuciones Gaussianas un caso de uso comun en datos artificial las fronteras de grupo producidas por estos algoritmos a menudo eran arbitrarias porque las disminuciones de densidad del grupo eran continuas En datos que contienen mezclas de Gaussianas estos algoritmos son casi siempre batidos por metodos como EM debido a que estos son capaces de modelar esta clase de datos Mean shift es una aproximacion de agrupamiento donde cada objeto se mueve al area mas densa en su proximidad basado en una estimacion de la densidad del nucleo Finalmente los objetos convergen a maximos locales de densidad Similar a k means estos atractores densos pueden servir como representantes para el conjunto de datos pero mean shift puede detectar formas arbitrarias de los grupos similar a como lo hace DBSCAN Debido al procedimiento iterativo costoso y estimacion de densidad mean shift es normalmente mas lento que DBSCAN o k Means Ejemplos de agrupamiento basado en densidad Agrupamiento basado en densidad con DBSCAN DBSCAN supone grupos de densidad similar y puede tener problemas para separar grupos cercanos OPTICS es una variante de DBSCAN que maneja densidades diferentes mucho mejorDesarrollos recientes Editar En anos recientes el esfuerzo considerable ha sido puesto a mejorar el rendimiento de algoritmos existentes 17 18 Entre ellos estan CLARANS Ng y Han 1994 19 y ABEDUL Zhang et al 1996 20 Con la necesidad reciente de procesar datos mas grandes y mas grandes conjuntos tambien conocidos como big data la disposicion para comerciar el significado semantico de los grupos generados ha sido incrementado Esto dirigio al desarrollo de metodos de pre agrupamiento como Canopy los cuales pueden procesar conjuntos de datos enormes eficientemente pero los grupos resultantes son meramente asperas pre particiones de los datos para entonces analizar las particiones con metodos existentes mas lentos como k means Varias aproximaciones de agrupamiento han sido probadas basandose en semillas 21 Para alta dimensionalidad de los datos muchos de los metodos que existen fallan debido a las problematicas particulares de las funciones de distancia para espacios de alta dimensionalidad Esto llevo a la creacion de nuevos algoritmos de agrupamiento para alta dimensionalidad que se enfocan en agrupamiento en subespacios donde solo algunos atributos seran utilizados y los modelos de grupo incluyen los atributos pertinentes para los grupo y agrupamiento de correlacion que tambien busca sub espacios de grupos rotados arbitrariamente correlacionados que pueden ser modelados dada una correlacion de sus atributos Ejemplos para tales algoritmos son CLIQUE 22 y SUBCLU 23 Ideas de metodos de agrupamiento basado en densidad en particular la familia de algoritmos DBSCAN OPTIC han sido adaptadas a agrupamiento de subespacios HiSC 24 y DiSH 25 y agrupamiento de correlacion HiCO 26 4C 27 utilizando conectividad por correlacion y ERIC 28 que explora correlacion jerarquica de grupos basada en densidad Diferentes sistemas de agrupamiento basados en informacion mutua han sido propuestos Uno es usando la distancia entre grupos propuesto por Marina Meilă 29 otros proporcionan agrupamiento jerarquico 30 Utilizando algoritmos geneticos una gama ancha de diferentes funciones pueden ser optimizadas incluyendo informacion mutua 31 Tambien el algoritmo message passing un desarrollo reciente en Informatica y Fisica Estadistica se ha dirigido a la creacion de tipos nuevos de algoritmos de agrupamiento 32 Otros metodos Editar Esquema algoritmico secuencial basico BSAS Evaluacion y valoracion EditarLa evaluacion de los resultados de un agrupamiento a veces se refiere a como se validan los grupos Ha habido varias sugerencias para una medida de semejanza entre dos agrupamientos tal medida puede usarse para comparar que tan bien los diferentes algoritmos crean un agrupamiento en un conjunto de datos Esta medida esta normalmente ligada al criterio que es considerado para evaluar la calidad de un metodo de agrupamiento Evaluacion interna Editar Cuando el resultado de un agrupamiento es evaluado basado en los datos agrupados por el se llama evaluacion interna Estos metodos normalmente asignan la puntuacion mejor al algoritmo que produce grupos con alta similitud entre sus componentes y baja similitud entre los grupos Un problema de utilizar los criterios internos en evaluacion de grupo es que puntuaciones altas en una medida interna no necesariamente indica un buen resultado en recuperacion de informacion 33 Ademas esta evaluacion esta predispuesta hacia algoritmos que usan el mismo modelo de grupo Por ejemplo k means naturalmente optimiza distancias de objeto y una criterio interno basado en distancia probablemente sobrevalore el resultado del agrupamiento Por tanto las medidas de evaluacion internas son mas convenidas para conseguir alguna idea en situaciones donde un algoritmo actua mejor que otro pero esto no implicara que un algoritmo produce resultados mas validos que otro 6 La validez medida por tal indice depende de la clase de estructura existente en el conjunto de datos Un algoritmo disenado para alguna clase de modelos no tiene ninguna posibilidad si el conjunto de dato contiene un conjunto radicalmente diferente de modelos o si la evaluacion mide un criterio radicalmente diferente 6 Por ejemplo k means solo puede encontrar grupos convexos y muchos indices de evaluacion suponen grupos convexos En un conjunto de datos con grupos no convexos ni el uso de k means ni de un criterio de evaluacion que supone convexidad dara buenos resultados Los metodos siguientes se suelen usar para evaluar la calidad de los algoritmos basados en criterio interno Indice de Davies Bouldin Editar El indice de Davies Bouldin puede ser calculado por la formula siguiente D B 1 n i 1 n max j i s i s j d c i c j displaystyle DB frac 1 n sum i 1 n max j neq i left frac sigma i sigma j d c i c j right dd donde n es el numero de grupos c x displaystyle c x es el centroide de grupo x s x displaystyle sigma x es la distancia media de todos los elementos en grupo al centroide x y d c i c j displaystyle d c i c j es la distancia entre centroides c i displaystyle c i y c j displaystyle c j c x displaystyle c x Desde algoritmos que producen grupos con bajas distancias intra grupo alta semejanza intra grupo y alta distancia inter grupo baja semejanza inter grupo tendra un bajo indice de Davies Bouldin el algoritmo de agrupamiento que produce la coleccion de grupos con menores indices de Davies Bouldin esta considerado el algoritmo mejor basado en este criterio Indice de Dunn Editar El indice de Dunn tiene como objetivos identificar densos y bien separados grupos Esta definido como la proporcion entre la minima distancia inter grupo y la maxima distancia intra grupo Para cada particion de grupo el indice de Dunn puede ser calculado por la formula siguiente 34 D min 1 i lt j n d i j max 1 k n d k displaystyle D frac min 1 leq i lt j leq n d i j max 1 leq k leq n d prime k dd donde d i j representa la distancia entre grupos i y j y d k mide la distancia intra grupo del grupo k La distancia inter grupo d i j entre dos grupos pueden ser cualquier numero de medidas de distancia como la distancia entre los centroides de los grupos De modo parecido la distancia intra grupo d k puede ser medida de diferentes formas como la distancia maxima entre cualquier par de elementos en el grupo k El criterio interno busca grupos con alta semejanza intra grupo y baja semejanza inter grupo algoritmos que producen grupos con altos indices de Dunn son mas deseables Coeficiente de silueta Editar El coeficiente de silueta contrasta la distancia media a elementos en el mismo grupo con la distancia media a elementos en otros grupos Los objetos con un valor de silueta alto estan considerados bien agrupados los objetos con un valor bajo pueden ser ruido o anomalias Estos indices trabajan bien con k means y es tambien utilizado para determinar el numero optimo de grupos Evaluacion externa Editar En evaluacion externa los resultados de un agrupamiento son evaluados basados en datos que no fueron usados para el agrupamiento como etiquetas de clases conocidas o marcadores externos Tales marcadores constan de un conjunto de pre elementos clasificados y estos conjuntos son a menudo creados por humanos expertos Asi los conjuntos marcados pueden ser usados como test de referencia para la evaluacion 35 Estos tipos de metodos de evaluacion miden que cercano esta el agrupamiento del conjunto de clases predeterminadas Aun asi recientemente se ha hablado si esto es adecuado para datos reales o solo en conjuntos de datos sinteticos con un factual ground truth donde las clases pueden contener estructura interna los atributos presentes pueden no permitir la separacion de los grupos o las clases pueden contener anomalias 36 Ademas de un punto de vista de descubrimiento del conocimiento la reproduccion de conocimiento sabido puede no necesariamente ser el resultado esperado 36 En el escenario especial de Agrupamiento con restricciones donde meta informacion como etiquetas de clase esta utilizada ya en el proceso de agrupamiento el control de la informacion para propositos de evaluacion es no trivial 37 Un numero de medidas fue adoptado por las variantes utilizadas para evaluar tareas de clasificacion En lugar de contar el numero de veces que una clase era correctamente asignada a un unico punto de datos conocido como ciertos positivos lo que se hace es estimar para cada par de puntos simples que esten realmente en el mismo grupo cuanto se pronostica que esten en el mismo grupo Algunos de las medidas de calidad de un algoritmo de grupo que utiliza el criterio externo incluye Medida de Rand William M Rand 1971 38 Editar El indice de Rand computa que similar los grupos regresados por el algoritmo de agrupamiento son a las clasificaciones de los marcadores Uno tambien puede ver el indice de Rand como medida del porcentaje de decisiones correctas hechas por el algoritmo Puede ser computado utilizando la formula siguiente R I T P T N T P F P F N T N displaystyle RI frac TP TN TP FP FN TN Donde TP es el numero de cierto positivos TN es el numero de cierto negativos FP es el numero de falso positivos y FN es el numero de falso negativos Una caracteristica con el indice de Rand es que falso positivos y falso negativos tienen el mismo peso Esto puede ser una caracteristica indeseable para alguna aplicacion de un agrupamiento La F Medida esta dirigida a resolver este problema F Medida Editar La F medida suele equilibrar la contribucion de falso negativos por la ponderacion recobrada a traves de un parametro b gt 0 displaystyle beta gt 0 Precision y recobrado pueden ser definidos como sigue P T P T P F P displaystyle P frac TP TP FP R T P T P F N displaystyle R frac TP TP FN Donde P es el indice de precision y R el indice de recobrado Podemos calcular la F medida utilizando la formula siguiente 33 F b b 2 1 P R b 2 P R displaystyle F beta frac beta 2 1 cdot P cdot R beta 2 cdot P R Notar que cuando b 0 displaystyle beta 0 F 0 P displaystyle F 0 P En otras palabras el recobrado no tiene ningun impacto en la F medida cuando b 0 displaystyle beta 0 y b displaystyle beta creciente destina una cantidad creciente de peso para recordar en el final de F medida Indice de Jaccard Editar El indice de Jaccard suele cuantificar la semejanza entre dos conjuntos de datos El indice de Jaccard toma un valor entre 0 y 1 Un indice de 1 significa que los dos conjuntos son identicos y un indice de 0 indica que los conjuntos no tienen elementos comunes El indice de Jaccard esta definido por la formula siguiente J A B A B A B T P T P F P F N displaystyle J A B frac A cap B A cup B frac TP TP FP FN Esto es sencillamente el numero de los elementos unicos comunes a ambos conjuntos divididos por el numero total de elementos unicos en ambos conjuntos Indice de Fowlkes Mallows E B Fowlkes amp C L Malvas 1983 39 Editar El indice de Fowlkes Mallows computa la semejanza entre los grupos devueltos por el algoritmo de agrupamiento y las clasificaciones de los marcadores Entre mas alto el valor del indice de Fowlkes Mallows sea mas similares son los grupos y las clasificaciones de los marcadores Puede ser computado utilizando la formula siguiente F M T P T P F P T P T P F N displaystyle FM sqrt frac TP TP FP cdot frac TP TP FN Donde TP es el numero de ciertos positivos FP es el numero de falsos positivos y FN es el numero de falsos negativos El indice FM es la media geometrica de la precision y recobrado P y R mientras la F medida es su media armonica 40 Ademas precision y recobrado son tambien conocidos como los indices de Wallace B I displaystyle B I y B I I displaystyle B II 41 Informacion Mutua Editar Es una medida de cuanta informacion esta compartida entre un agrupamiento y una clasificacion ground truth que puede detectar una semejanza no lineal entre dos agrupamientos La informacion mutua ajustada es una variante que tiene un sesgo reducido para numeros de grupo variable Matriz de confusion Editar Una matriz de confusion puede usarse para visualizar rapidamente los resultados de un algoritmo de clasificacion Muestra que diferente un grupo es del grupo de patrones antes creados por un experto Aplicaciones EditarBiologia biologia computacional y bioinformaticas Ecologia vegetal y animal el analisis de grupo suele usarse para describir y para hacer comparaciones espacial y temporal de comunidades de organismos en entornos heterogeneos es tambien utilizado en Sistematica para generar grupos o filogenias artificiales de organismos individual en la especie genus o nivel mas alto que compartan un numero de atributos Transcriptoma el agrupamiento es usado para construir grupos de genes con patrones de expresion relacionados tambien conocidos como coexpressed genes como en HCS A menudo tales grupos contienen proteinas relacionadas funcionalmente como enzimas para una via metabolica especifica o genes que son co regulados Analisis de secuencia el agrupamiento es usado para agrupar secuencias homologas en familias de genes Esto es un concepto muy importante en bioinformatica y biologia evolutiva en general Ver evolucion por duplicacion de gen Agrupamiento en genetica humana la semejanza de datos geneticos esta utilizada en agrupamiento para inferir estructuras de poblacion Medicina Imagenes medicas en PET scans el analisis de grupo puede usarse para diferenciar entre tipos diferentes de tejido y sangre en una imagen tridimensional En esta aplicacion la posicion real no importa pero la intensidad esta considerada como un vector con una dimension para cada imagen que fue tomada con el tiempo Esta tecnica permite por ejemplo la medida cuidadosa del indice de un rastro radioactivo entregado al area de interes sin un muestreo separado de sangre arterial una tecnica intrusiva que es mas comun hoy Analisis de actividad antimicrobial el analisis de grupo suele usarse para analizar patrones de resistencia de antibiotica para clasificar compuestos antimicrobiales segun su mecanismo de accion y para clasificar antibioticos segun su actividad antibacterial Empresarial y marketing Busqueda de mercado el analisis de grupo es ampliamente utilizado en busqueda de mercado cuando se trabaja con datos multivariados de encuestas y tableros de prueba Investigadores de marketing usan analisis de grupo para particionar la poblacion general de consumidores en segmentos de mercado y para entender mejor las relaciones entre grupos diferentes de consumidores potenciales clientes y para uso en segmentacion de mercado posicionamiento de producto desarrollo de productos nuevos y seleccionando mercados de prueba Agrupando elementos de compra el conglomerado puede usarse para agrupar todos los elementos de compra disponibles en la web en un conjunto de productos unicos Por ejemplo todos los elementos en eBay pueden ser agrupados en productos unicos eBay no tiene el concepto de un SKU World wide web Analisis de red social en el estudio de redes sociales el agrupamiento puede usarse para reconocer comunidades dentro de grupos grandes de personas Agrupacion de resultados de la busqueda en el proceso de agrupacion inteligente de los archivos y sitios web el agrupamiento puede usarse para crear un conjunto mas pertinente de resultados de busqueda comparados a motores de busqueda normales como Google Hay actualmente un numero de herramientas de la web basadas en agrupamiento como Clusty Slippy map optimization el mapa de fotos de Flickr y otros sitios usan el agrupamiento para reducir el numero de marcadores en un mapa Esto los hace a ambos mas rapidos y reduce la cantidad de grupos visuales Informatica Segmentacion de imagen el agrupamiento puede usarse para dividir una imagen digital a regiones distintas para deteccion de frontera o reconocimiento de objetos 42 Algoritmos evolutivos el agrupamiento puede usarse para identificar nichos diferentes dentro de la poblacion de un algoritmo evolutivo de modo que la oportunidad reproductiva puede ser distribuida mas equitativamente entre la especie a evolucionar o subespecie Sistemas de recomendacion los sistemas de recomendacion estan disenados para recomendar los elementos nuevos basados en los gustos de un usuario A veces utilizan algoritmos de agrupamiento para pronosticar las preferencias de un usuario basados en las preferencias de otros usuarios en el grupo del usuario Deteccion de anomalia las anomalias outliers son tipicamente pueden ser explicitamente o implicitamente definidas con respecto a la estructura de los grupos en los datos Ciencia social Analisis de delito el analisis de grupos puede usarse para identificar areas donde hay incidencias mas grandes de tipos particulares de delito Para identificar estas areas distintas o sitios calientes donde un delito similar ha pasado en un periodo de tiempo es posible dirigir recursos de aplicacion de la ley mas eficazmente Mineria de datos educacional el analisis de grupo es por ejemplo utilizado para identificar grupos de escuelas o alumnado con propiedades similares Otros Robotica los algoritmos de agrupamiento estan utilizados para seguir objetos y detectar outliers en datos de los sensores 4 Quimica matematica para encontrar semejanza estructural por ejemplo 3000 compuestos quimicos agrupados en el espacio de 90 indices topologicos 43 Climatologia para encontrar regimenes de tiempo o patrones atmosfericos de presion y nivel del mar 44 Geografia fisica el agrupamiento de propiedades quimicas en ubicaciones de muestra diferente Vease tambien EditarTipos especializados de analisis de grupo Editar Agrupamiento de datos de alta dimensionalidad Agrupamiento conceptual Agrupamiento de consenso Agrupamiento con restricciones Data stream clustering Agrupamiento secuencial Agrupamiento espectral HCSLas tecnicas utilizadas en analisis de grupo Editar Red neuronal artificial ANN Busqueda de vecino mas cercano Analisis de componentes del barrio Analisis de clase latenteProyeccion de dato y preprocessing Editar Reduccion de dimension Analisis de componente principal Multidimensional scalingOtro Editar Modelacion ponderada de grupos Maldicion de la dimensionalidad Determinando el numero de grupos en un conjunto de datos Coordenadas paralelas Analisis de datos estructuradosReferencias Editar a b c d Jain Anil K 2012 Data Clustering 50 Years Beyond K Means Michigan State University Bailey Ken 1994 Tryon Robert C 1939 a b Cattell R B 1943 A History of Cluster Analysis Using the Classification Society s Bibliography Over Four Decades 2013 arXiv 1209 0125v2 a b c d e f Estivill Castro Vladimir 20 de junio de 2002 Why so many clustering algorithms A Position Paper ACM SIGKDD Explorations Newsletter 4 1 65 75 doi 10 1145 568574 568575 Everitt Brian 2011 Cluster analysis Chichester West Sussex U K Wiley ISBN 9780470749913 Sibson R 1973 SLINK an optimally efficient algorithm for the single link cluster method The Computer Journal British Computer Society 16 1 30 34 doi 10 1093 comjnl 16 1 30 Defays D 1977 An efficient algorithm for a complete link method The Computer Journal British Computer Society 20 4 364 366 doi 10 1093 comjnl 20 4 364 Lloyd S 1982 Least squares quantization in PCM IEEE Transactions on Information Theory 28 2 129 137 doi 10 1109 TIT 1982 1056489 Kriegel Hans Peter Kroger Peer Sander Jorg Zimek Arthur 2011 Density based Clustering WIREs Data Mining and Knowledge Discovery 1 3 231 240 doi 10 1002 widm 30 Microsoft academic search most cited data mining articles Archivado el 21 de abril de 2010 en Wayback Machine DBSCAN is on rank 24 when accessed on 4 18 2010 Ester Martin Kriegel Hans Peter Sander Jorg Xu Xiaowei 1996 A density based algorithm for discovering clusters in large spatial databases with noise En Simoudis Evangelos Han Jiawei Fayyad Usama M eds Proceedings of the Second International Conference on Knowledge Discovery and Data Mining KDD 96 AAAI Press pp 226 231 ISBN 1 57735 004 9 Ankerst Mihael Breunig Markus M Kriegel Hans Peter Sander Jorg 1999 OPTICS Ordering Points To Identify the Clustering Structure ACM SIGMOD international conference on Management of data ACM Press pp 49 60 Achtert E Bohm C Kroger P 2006 DeLi Clu Boosting Robustness Completeness Usability and Efficiency of Hierarchical Clustering by a Closest Pair Ranking LNCS Advances in Knowledge Discovery and Data Mining Lecture Notes in Computer Science 3918 119 128 ISBN 978 3 540 33206 0 doi 10 1007 11731139 16 Roy S Bhattacharyya D K 2005 An Approach to find Embedded Clusters Using Density Based Techniques LNCS Vol 3816 Springer Verlag pp 523 535 Sculley D 2010 Web scale k means clustering Proc 19th WWW Huang Z 1998 Extensions to the k means algorithm for clustering large data sets with categorical values Data Mining and Knowledge Discovery 2 283 304 R Ng and J Han Efficient and effective clustering method for spatial data mining In Proceedings of the 20th VLDB Conference pages 144 155 Santiago Chile 1994 Tian Zhang Raghu Ramakrishnan Miron Livny An Efficient Data Clustering Method for Very Large Databases In Proc Int l Conf on Management of Data ACM SIGMOD pp 103 114 Can F Ozkarahan E A 1990 Concepts and effectiveness of the cover coefficient based clustering methodology for text databases ACM Transactions on Database Systems 15 4 483 doi 10 1145 99935 99938 Agrawal R Gehrke J Gunopulos D Raghavan P 2005 Automatic Subspace Clustering of High Dimensional Data Data Mining and Knowledge Discovery 11 5 doi 10 1007 s10618 005 1396 1 Karin Kailing Hans Peter Kriegel and Peer Kroger Density Connected Subspace Clustering for High Dimensional Data In Proc SIAM Int Conf on Data Mining SDM 04 pp 246 257 2004 Achtert E Bohm C Kriegel H P Kroger P Muller Gorman I Zimek A 2006 Finding Hierarchies of Subspace Clusters LNCS Knowledge Discovery in Databases PKDD 2006 Lecture Notes in Computer Science 4213 446 453 ISBN 978 3 540 45374 1 doi 10 1007 11871637 42 Achtert E Bohm C Kriegel H P Kroger P Muller Gorman I Zimek A 2007 Detection and Visualization of Subspace Cluster Hierarchies LNCS Advances in Databases Concepts Systems and Applications Lecture Notes in Computer Science 4443 152 163 ISBN 978 3 540 71702 7 doi 10 1007 978 3 540 71703 4 15 Achtert E Bohm C Kroger P Zimek A 2006 Mining Hierarchies of Correlation Clusters Proc 18th International Conference on Scientific and Statistical Database Management SSDBM 119 128 ISBN 0 7695 2590 3 doi 10 1109 SSDBM 2006 35 Bohm C Kailing K Kroger P Zimek A 2004 Computing Clusters of Correlation Connected objects Proceedings of the 2004 ACM SIGMOD international conference on Management of data SIGMOD 04 p 455 ISBN 1581138598 doi 10 1145 1007568 1007620 Achtert E Bohm C Kriegel H P Kroger P Zimek A 2007 On Exploring Complex Relationships of Correlation Clusters 19th International Conference on Scientific and Statistical Database Management SSDBM 2007 p 7 ISBN 0 7695 2868 6 doi 10 1109 SSDBM 2007 21 Meilă Marina 2003 Comparing Clusterings by the Variation of Information Learning Theory and Kernel Machines Lecture Notes in Computer Science 2777 173 187 ISBN 978 3 540 40720 1 doi 10 1007 978 3 540 45167 9 14 Kraskov Alexander Stogbauer Harald Andrzejak Ralph G Grassberger Peter 1 de diciembre de 2003 28 November 2003 Hierarchical Clustering Based on Mutual Information arXiv q bio 0311039 Auffarth B July 18 23 2010 Clustering by a Genetic Algorithm with Biased Mutation Operator WCCI CEC IEEE Frey B J Dueck D 2007 Clustering by Passing Messages Between Data Points Science 315 5814 972 976 PMID 17218491 doi 10 1126 science 1136800 a b Manning Christopher D Raghavan Prabhakar Schutze Hinrich Introduction to Information Retrieval Cambridge University Press ISBN 978 0 521 86571 5 Dunn J 1974 Well separated clusters and optimal fuzzy partitions Journal of Cybernetics 4 95 104 doi 10 1080 01969727408546059 Pfitzner Darius Leibbrandt Richard Powers David 5 de julio de 2008 Characterization and evaluation of similarity measures for pairs of clusterings Knowledge and Information Systems en ingles 19 3 361 ISSN 0219 3116 doi 10 1007 s10115 008 0150 6 Consultado el 12 de abril de 2021 a b Farber Ines Gunnemann Stephan Kriegel Hans Peter Kroger Peer Muller Emmanuel Schubert Erich Seidl Thomas Zimek Arthur 2010 On Using Class Labels in Evaluation of Clusterings En Fern Xiaoli Z Davidson Ian Dy Jennifer eds MultiClust Discovering Summarizing and Using Multiple Clusterings ACM SIGKDD Pourrajabi M Moulavi D Campello R J G B Zimek A Sander J Goebel R 2014 Model Selection for Semi Supervised Clustering Proceedings of the 17th International Conference on Extending Database Technology EDBT pp 331 342 doi 10 5441 002 edbt 2014 31 Rand W M 1971 Objective criteria for the evaluation of clustering methods Journal of the American Statistical Association American Statistical Association 66 336 846 850 JSTOR 2284239 doi 10 2307 2284239 E B Fowlkes amp C L Mallows 1983 A Method for Comparing Two Hierarchical Clusterings Journal of the American Statistical Association 78 553 569 L Hubert et P Arabie Comparing partitions J of Classification 2 1 1985 D L Wallace Comment Journal of the American Statistical Association 78 569 579 1983 Bewley A amp Upcroft B 2013 Advantages of Exploiting Projection Structure for Segmenting Dense 3D Point Clouds In Australian Conference on Robotics and Automation 1 Bewley A Real time volume estimation of a dragline payload IEEE International Conference on Robotics and Automation 2011 1571 1576 Huth R 2008 Classifications of Atmospheric Circulation Patterns Recent Advances and Applications Ann N Y Acad Sci 1146 105 152 Datos Q622825 Multimedia Cluster analysisObtenido de https es wikipedia org w index php title Analisis de grupos amp oldid 134702770, wikipedia, wiki, leyendo, leer, libro, biblioteca,

español

, española, descargar, gratis, descargar gratis, mp3, video, mp4, 3gp, jpg, jpeg, gif, png, imagen, música, canción, película, libro, juego, juegos