fbpx
Wikipedia

Método de Ward

En estadísticas, el Método de Ward es un criterio aplicado al Análisis de clúster jerárquico. El método de Ward de varianza mínima es un caso especial del enfoque de función objetivo presentado originalmente por Joe H. Ward, Jr.[1]​ el cual se trata de un procedimiento general donde el criterio para la elección del par de clusters a mezclar en cada paso se basa en el valor óptimo de una función objetivo. Esta función objetivo podría ser "cualquier función que refleje el propósito del investigador". Muchos de los procedimientos estándares de agrupamiento están contenidos dentro de esta clase general. Para ilustrar el procedimiento, Ward usó el ejemplo donde la función objetivo es el error de la suma de los cuadrados o varianza, y este ejemplo es conocido por Método de Ward o más preciso como el método de varianza mínima de Ward.

Criterio de Varianza Mínima

Criterio de Varianza Mínima de Ward minimiza el total dentro de la varianza del clúster. En cada paso el par de clúster con distancia mínima entre ellos son mezclados. Para implementar este método, en cada paso se debe encontrar el par de clúster que llevan al incremento mínimo del total de la varianza del clúster después de mezclarlos. Este incremento es la distancia cuadrada con un peso asignado entre los centros de los clúster. En el paso inicial, todos los clúster contienen un punto único (solitario). Para aplicar algoritmo recursivo bajo esta función objetivo, la distancia inicial entre los objetos individuales debe ser proporcional al cuadrado de la Distancia Euclidiana.

Las distancias iniciales del clúster en el método de varianza mínima de Ward se definen como el cuadrado de la distancia euclidiana entre puntos:

 

Nota: En las implementaciones de software del método de Ward es importante chequear el argumento de la función especificando las distancias euclidianas o sus cuadrados. En la Función R hclust, es necesario pasar el cuadrado de las distancias euclidianas para obtener el método de varianza mínima de Ward. Para otros método de ‘hclust’ (sencillos, completos etc.) se requiere la distancia Euclidiana.

Algoritmo de Lance–Williams

El método de varianza mínima de Ward puede ser definido e implementado recursivamente por el algoritmo de Lance-Williams.[2] El algoritmo de Lance-Williams consiste en una familia infinita de aglomeración de algoritmos jerárquicos de clúster, los cuales son representados mediante una forma recursiva para actualizar la distancia de clúster en cada paso (cada vez se mezcla un par de clúster).En cada paso es necesario la optimización de la función objetivo (encontrar el par de clúster óptimo a mezclar). La fórmula recursiva simplifica la búsqueda del par óptimo.

Suponiendo que el clúster   y   son los próximos a mezclar. En este momento todas las distancias entre cualquier par de clúster es conocida. La forma recursiva brinda las distancias de los clúster actualizada siguiendo las mezclas pendientes de los 2 clúster   y  . Sea

  •  ,  , y   sean los pares de distancia entre los clúster  ,  , y  , respectivamente,
  •   es la distancia entre el nuevo clúster creado   y  .

Un algoritmo pertenece a la familia Lance-Williams si la actualización de la distancia del clúster   puede ser computada recursivamente por la fórmula


 

Donde   y   son parámetros, que pueden depender del tamaño del clúster, junto con la función de distancia   determinando el algoritmo de agrupamiento. Varios estándares de algoritmos de agrupamiento vínculo simple, vínculo completo, y un grupo de métodos de promedio tienen una fórmula recursiva como la de arriba. Una tabla de parámetros para los métodos estándares es dada por varios autores.[2][3][4]

El método de varianza mínima de Ward puede ser implementado por la fórmula de Lance–Williams. Para clúster disjuntos   y   con tamaño   y   respectivamente:

 

Por lo tanto el método de Ward puede ser implementado como el algoritmo de Lance-Williams

 

Referencias

  1. Ward, J. H., Jr. (1963), "Hierarchical Grouping to Optimize an Objective Function", Journal of the American Statistical Association, 58, 236–244.
  2. Cormack, R. M. (1971), "A Review of Classification", Journal of the Royal Statistical Society, Series A, 134(3), 321-367.
  3. Gordon, A. D. (1999), Classification, 2nd Edition, Chapman and Hall, Boca Raton.
  4. Milligan, G. W. (1979), "Ultrametric Hierarchical Clustering Algorithms", Psychometrika, 44(3), 343–346.

Otras Lecturas

  • Everitt, B. S., Landau, S. and Leese, M. (2001), Cluster Analysis, 4th Edition, Oxford University Press, Inc., New York; Arnold, London. ISBN 0-340-76119-9
  • Hartigan, J. A. (1975), Clustering Algorithms, New York: Wiley.
  • Jain, A. K. and Dubes, R. C. (1988), Algorithms for Clustering Data, New Jersey: Prentice–Hall.
  • Kaufman, L. and Rousseeuw, P. J. (1990), Finding Groups in Data: An Introduction to Cluster Analysis, New York: Wiley.


  •   Datos: Q3333621

método, ward, este, artículo, sección, tiene, estilo, difícil, entender, para, lectores, interesados, tema, puedes, favor, edítalo, contribuye, hacerlo, más, accesible, para, público, general, eliminar, detalles, técnicos, interesan, especialistas, estadística. Este articulo o seccion tiene un estilo dificil de entender para los lectores interesados en el tema Si puedes por favor editalo y contribuye a hacerlo mas accesible para el publico general sin eliminar los detalles tecnicos que interesan a los especialistas En estadisticas el Metodo de Ward es un criterio aplicado al Analisis de cluster jerarquico El metodo de Ward de varianza minima es un caso especial del enfoque de funcion objetivo presentado originalmente por Joe H Ward Jr 1 el cual se trata de un procedimiento general donde el criterio para la eleccion del par de clusters a mezclar en cada paso se basa en el valor optimo de una funcion objetivo Esta funcion objetivo podria ser cualquier funcion que refleje el proposito del investigador Muchos de los procedimientos estandares de agrupamiento estan contenidos dentro de esta clase general Para ilustrar el procedimiento Ward uso el ejemplo donde la funcion objetivo es el error de la suma de los cuadrados o varianza y este ejemplo es conocido por Metodo de Ward o mas preciso como el metodo de varianza minima de Ward Indice 1 Criterio de Varianza Minima 2 Algoritmo de Lance Williams 3 Referencias 4 Otras LecturasCriterio de Varianza Minima EditarCriterio de Varianza Minima de Ward minimiza el total dentro de la varianza del cluster En cada paso el par de cluster con distancia minima entre ellos son mezclados Para implementar este metodo en cada paso se debe encontrar el par de cluster que llevan al incremento minimo del total de la varianza del cluster despues de mezclarlos Este incremento es la distancia cuadrada con un peso asignado entre los centros de los cluster En el paso inicial todos los cluster contienen un punto unico solitario Para aplicar algoritmo recursivo bajo esta funcion objetivo la distancia inicial entre los objetos individuales debe ser proporcional al cuadrado de la Distancia Euclidiana Las distancias iniciales del cluster en el metodo de varianza minima de Ward se definen como el cuadrado de la distancia euclidiana entre puntos d i j d X i X j X i X j 2 displaystyle d ij d X i X j X i X j 2 Nota En las implementaciones de software del metodo de Ward es importante chequear el argumento de la funcion especificando las distancias euclidianas o sus cuadrados En la Funcion R hclust es necesario pasar el cuadrado de las distancias euclidianas para obtener el metodo de varianza minima de Ward Para otros metodo de hclust sencillos completos etc se requiere la distancia Euclidiana Algoritmo de Lance Williams EditarEl metodo de varianza minima de Ward puede ser definido e implementado recursivamente por el algoritmo de Lance Williams 2 El algoritmo de Lance Williams consiste en una familia infinita de aglomeracion de algoritmos jerarquicos de cluster los cuales son representados mediante una forma recursiva para actualizar la distancia de cluster en cada paso cada vez se mezcla un par de cluster En cada paso es necesario la optimizacion de la funcion objetivo encontrar el par de cluster optimo a mezclar La formula recursiva simplifica la busqueda del par optimo Suponiendo que el cluster C i displaystyle C i y C j displaystyle C j son los proximos a mezclar En este momento todas las distancias entre cualquier par de cluster es conocida La forma recursiva brinda las distancias de los cluster actualizada siguiendo las mezclas pendientes de los 2 cluster C i displaystyle C i y C j displaystyle C j Sea d i j displaystyle d ij d i k displaystyle d ik y d j k displaystyle d jk sean los pares de distancia entre los cluster C i displaystyle C i C j displaystyle C j y C k displaystyle C k respectivamente d i j k displaystyle d ij k es la distancia entre el nuevo cluster creado C i C j displaystyle C i cup C j y C k displaystyle C k Un algoritmo pertenece a la familia Lance Williams si la actualizacion de la distancia del cluster d i j k displaystyle d ij k puede ser computada recursivamente por la formula d i j k a i d i k a j d j k b d i j g d i k d j k displaystyle d ij k alpha i d ik alpha j d jk beta d ij gamma d ik d jk Donde a i a j b displaystyle alpha i alpha j beta y g displaystyle gamma son parametros que pueden depender del tamano del cluster junto con la funcion de distancia d i j displaystyle d ij determinando el algoritmo de agrupamiento Varios estandares de algoritmos de agrupamiento vinculo simple vinculo completo y un grupo de metodos de promedio tienen una formula recursiva como la de arriba Una tabla de parametros para los metodos estandares es dada por varios autores 2 3 4 El metodo de varianza minima de Ward puede ser implementado por la formula de Lance Williams Para cluster disjuntos C i C j displaystyle C i C j y C k displaystyle C k con tamano n i n j displaystyle n i n j y n k displaystyle n k respectivamente d C i C j C k n i n k n i n j n k d C i C k n j n k n i n j n k d C j C k n k n i n j n k d C i C j displaystyle d C i cup C j C k frac n i n k n i n j n k d C i C k frac n j n k n i n j n k d C j C k frac n k n i n j n k d C i C j Por lo tanto el metodo de Ward puede ser implementado como el algoritmo de Lance Williams a i n i n k n i n j n k b n k n i n j n k g 0 displaystyle alpha i frac n i n k n i n j n k qquad beta frac n k n i n j n k qquad gamma 0 Referencias Editar Ward J H Jr 1963 Hierarchical Grouping to Optimize an Objective Function Journal of the American Statistical Association 58 236 244 Cormack R M 1971 A Review of Classification Journal of the Royal Statistical Society Series A 134 3 321 367 Gordon A D 1999 Classification 2nd Edition Chapman and Hall Boca Raton Milligan G W 1979 Ultrametric Hierarchical Clustering Algorithms Psychometrika 44 3 343 346 Otras Lecturas EditarEveritt B S Landau S and Leese M 2001 Cluster Analysis 4th Edition Oxford University Press Inc New York Arnold London ISBN 0 340 76119 9 Hartigan J A 1975 Clustering Algorithms New York Wiley Jain A K and Dubes R C 1988 Algorithms for Clustering Data New Jersey Prentice Hall Kaufman L and Rousseeuw P J 1990 Finding Groups in Data An Introduction to Cluster Analysis New York Wiley Datos Q3333621Obtenido de https es wikipedia org w index php title Metodo de Ward amp oldid 118712842, wikipedia, wiki, leyendo, leer, libro, biblioteca,

español

, española, descargar, gratis, descargar gratis, mp3, video, mp4, 3gp, jpg, jpeg, gif, png, imagen, música, canción, película, libro, juego, juegos