fbpx
Wikipedia

Método de agrupamiento para el manejo de datos

El método de agrupamiento para el manejo de datos (en inglés, Group method of data handling, GMDH) es una familia de algoritmos inductivos para la modelación matemática computacional de conjunto de datos multi-paramétricos que caracteriza completamente la optimización estructural y paramétrica automática de modelos.

GMDH es utilizado en campos como Minería de datos, descubrimiento de conocimiento, predicción, modelado de sistemas complejos, optimización y reconocimiento de patrón.

Los algoritmos GMDH están caracterizados por el procedimiento inductivo que realiza un ordenamiento de modelos polinómicos gradualmente complicados y selecciona la solución mejor mediante el tan nombrado criterio externo.

Un modelo GMDH con múltiples entradas y una salida es un subconjunto de componentes de la función base (1):

donde f son las funciones elementales dependientes en diferentes conjuntos de entradas, a son coeficientes y m es el número de los componentes de la función base.

Para encontrar la solución mejor los algoritmos GMDH consideran varios subconjuntos de componente de la función base (1) llamados modelos parciales. Los coeficientes de estos modelos son estimados por el método de mínimos cuadrados. Los algoritmos GMDH gradualmente aumentan el número de componentes del modelo parcial y encuentran una estructura del modelo con complejidad óptima indicada por el valor mínimo de un criterio externo. Este proceso es llamado auto-organización de modelos.

La función base más popular utilizada en GMDH es el polinomio gradualmente complicado de Kolmogorov-Gabor (2):

Los modelos resultantes son también conocidos como redes neuronales polinómicas. Jürgen Schmidhuber cita a GDMH como uno de los métodos de aprendizaje profundo más tempranos, remarcando que ya en 1971 este fue usado para entrenar redes neuronales ocho-capas.[1]

Historia

El método fue desarrollado en 1968 por el Prof. Alekséi G. Ivájnenko en el Instituto de Cibernética de Kiev (en aquel entonces en la República Socialista Soviética de Ucrania).

Desde el principio, este enfoque inductivo era un método computacional, por lo que un conjunto de programas de ordenador y algoritmos fueron los resultados prácticos primarios obtenidos en la base de los principios teóricos nuevos. Gracias a la política del autor de código abierto, el método fue rápidamente establecido en el gran número de los laboratorios científicos mundiales. En aquel momento, compartir código era una acción completamente física, dado que el Internet es al menos 5 años más joven que GMDH. A pesar de este hecho, la primera investigación de GMDH fuera de la Unión Soviética fue realizada pronto por R. Shankar en 1972. Más tarde, científicos japoneses y polacos publicaron diferentes variantes de GMDH.

Periodo 1968-1971. Se caracteriza por la aplicación del criterio de regularidad única para la solución de los problemas de identificación, reconocimiento de patrones y predicción a corto-plazo . Como referencia fueron usadas funciones polinómicas, redes lógicas, conjuntos difusos de Zadeh y fórmulas de probabilidad de Bayes. La alta exactitud de predicción con la nueva aproximación fue un estímulo para los investigadores. No se investigó la inmunidad al ruido.

Periodo 1972-1975. Se solucionó el problema de la modelación de datos con ruido y base de información incompleta. Se propusieron la selección de criterios múltiples y la utilización de información adicional a priori para aumentar la inmunidad al ruido. Los mejores experimentos mostraron que con la definición extendida del modelo óptimo por un criterio adicional el nivel de ruido puede ser diez veces mayor que la señal. Posteriormente se mejoró mediante el teorema de Shannon de la teoría de Comunicación General.

Periodo 1976-1979. Se investigó la convergencia de los algoritmos GMDH multicapa. Esto mostró que algunos algoritmos multicapa tienen "multilayerness error" - análogo al error estático de los sistemas de control. En 1977 se propuso una solución de los problemas de análisis de sistemas objetivos por algoritmos GMDH multicapa. Esto dio como resultado que el ordenamiento por un conjunto de criterios encuentra el único sistema de ecuaciones óptimo y por tanto indica los elementos del objeto complejo y sus principales variables de entrada y de salida.

Periodo 1980-1988. Se obtuvieron muchos resultados teóricos importantes. Se mostró que no se pueden utilizar los modelos completamente físicos para predicciones a largo plazo. Se demostró que los modelos no físicos de GMDH son más precisos que los modelos físicos de análisis de regresión para la aproximación y la predicción. Se desarrollaron algoritmos de dos niveles que usan dos escalas de tiempo diferentes para modelar.

Desde 1989 se han desarrollado e investigado nuevos algoritmos (AC, OCC, PF) para la modelación no paramétrica de objetos difusos y SLP para los sistemas expertos. La etapa actual de desarrollo de GMDH puede describirse como el florecimiento de las redes neuronales dos veces-multicapa y los algoritmos combinatorios paralelos para ordenadores con multiprocesadores.

Criterio externo

El criterio externo es uno de las características claves de GMDH. El criterio describe los requisitos del modelo, por ejemplo minimización de mínimos cuadrados. Es siempre calculado con una parte separada de la muestra de los datos que no hayan sido utilizados para la estimación de los coeficientes. Hay varios criterios populares:

  • Criterio de Regularidad (CR) - Mínimos cuadrados de un modelo en la muestra B.
  • Criterio de Imparcialidad - Suma del valor del CR y el CR especial para el cual A es B y B es A. La proporción de la longitud de la muestra tiene que ser 1:1 i.e. el tamaño de A tiene que ser el mismo tamaño de B.

Si un criterio no define el número de observaciones para conjuntos de datos externos entonces aparece el problema de la proporción de división de los datos porque las capacidades de predicción del modelo identificado son muy dependientes de la proporción de división.

Redes neuronales tipo-GMDH

Hay muchas formas diferentes para escoger un orden para la consideración de los modelos parciales. El primer orden de consideración utilizado en GMDH y originalmente llamado procedimiento inductivo multicapa es el más popular. Este es un ordenamiento de los modelos gradualmente complicados generados por los polinomios de Kolmogorov-Gabor. El mejor modelo está indicado por el mínimo de la característica del criterio externo. El procedimiento multicapa es equivalente a la Red Neuronal Artificial con función de activación polinómica de neuronas. Por lo tanto, el algoritmo con tal aproximación es normalmente referido como Red Neuronal tipo-GMDH o Red Neuronal Polinómica.

GMDH Combinatorio

 
Fig.1. Una distribución típica de los valores mínimos del criterio de regularidad para modelos GMDH Combinatorios con diferente complejidad.

Otra importante aproximación en consideración a los modelos parciales cada vez más popular es una búsqueda combinatoria de fuerza bruta que puede ser tanto limitada o completa. Esta aproximación tiene algunas ventajas contra las Redes Neuronales Polinómicas pero requiere de un poder computacional considerable y por tanto no es eficaz para objetos con más de 30 entradas en caso de una búsqueda completa. Una consecuencia importante del GMDH Combinatorio es que este supera completamente la aproximación por regresión lineal si el nivel de ruido en el dato de entrada es mayor que cero.

El algoritmo combinatorio básico tiene los pasos siguientes:

  • Dividir los datos de muestra en dos partes A y B.
  • Generar estructuras para los modelos parciales.
  • Estimar los coeficientes de los modelos parciales usando el método de mínimos cuadrados y la muestra A.
  • Calcular el valor del criterio externo para los modelos parciales usando la muestra B.
  • Escoger el mejor modelo (conjunto de modelos) indicado por el valor mínimo del criterio.

En contraste a las redes neuronales tipo-GMDH, el algoritmo Combinatorio no puede pararse en un nivel de complejidad seguro ya que in punto de incremento del valor del criterio puede ser simplemente un mínimo local, ver Fig.1.

Algoritmos

  • Combinatorial (COMBI)
  • Multilayered Iterative (MIA)
  • GN
  • Objective System Analysis (OSA)
  • Harmonical
  • Two-level (ARIMAD)
  • Multiplicative-Additive (MAA)
  • Objective Computer Clusterization (OCC);
  • Pointing Finger (PF) clusterization algorithm;
  • Analogues Complexing (AC)
  • Harmonical Rediscretization
  • Algorithm on the base of Multilayered Theory of Statistical Decisions (MTSD)
  • Group of Adaptive Models Evolution (GAME)

Lista de softwares

  • FAKE GAME Project — Código abierto. Multiplataforma.
  • — Libre a petición para uso académico. Solo para Windows.
  • GMDH Shell — Software de predicción para las empresas. Producto comercial con prueba libre. Solo para Windows. Algoritmos de aprendizaje: GMDH combinatorio y redes neuronales tipo-GMDH.
  • KnowledgeMiner — Producto comercial. Mac OS X-único. Versión Demo gratis disponible.
  • PNN Discovery client — producto Comercial.
  • Sciengy RPF! — Software gratuito, Código abierto.
  • wGMDH — Weka plugin, Código abierto.
  • R Package para tareas de regresión – Software gratuito, Código abierto.

Enlaces externos

  • www.gmdh.net — Artículos, libros y software.
  • — GMDH wiki y desarrollo de código

Referencias

  1. Schmidhuber, Jürgen (2015). «Deep learning in neural networks: An overview». Neural Networks 61: 85–117. arXiv:1404.7828. 

Otras lecturas

  • A.G. Ivakhnenko. Heuristic Self-Organization in Problems of Engineering Cybernetics. Automatica 6: pp. 207–219, 1970.
  • A.G. Ivakhnenkofrf. Polynomial Theory of Complex System. IEEE Trans. on Systems, Man and Cybernetics, Vol. SMC-1, No. 4, Oct. 1971, pp. 364–378.
  • S.J. Farlow. Self-Organizing Methods in Modelling: GMDH Type Algorithms. New-York, Bazel: Marcel Decker Inc., 1984, 350 p.
  • H.R. Madala, A.G. Ivakhnenko. Inductive Learning Algorithms for Complex Systems Modeling. CRC Press, Boca Raton, 1994.
  •   Datos: Q3507155

método, agrupamiento, para, manejo, datos, método, agrupamiento, para, manejo, datos, inglés, group, method, data, handling, gmdh, familia, algoritmos, inductivos, para, modelación, matemática, computacional, conjunto, datos, multi, paramétricos, caracteriza, . El metodo de agrupamiento para el manejo de datos en ingles Group method of data handling GMDH es una familia de algoritmos inductivos para la modelacion matematica computacional de conjunto de datos multi parametricos que caracteriza completamente la optimizacion estructural y parametrica automatica de modelos GMDH es utilizado en campos como Mineria de datos descubrimiento de conocimiento prediccion modelado de sistemas complejos optimizacion y reconocimiento de patron Los algoritmos GMDH estan caracterizados por el procedimiento inductivo que realiza un ordenamiento de modelos polinomicos gradualmente complicados y selecciona la solucion mejor mediante el tan nombrado criterio externo Un modelo GMDH con multiples entradas y una salida es un subconjunto de componentes de la funcion base 1 Y x 1 x n a 0 i 1 m a i f i displaystyle Y x 1 dots x n a 0 sum limits i 1 m a i f i donde f son las funciones elementales dependientes en diferentes conjuntos de entradas ason coeficientesy mes el numero de los componentes de la funcion base Para encontrar la solucion mejor los algoritmos GMDH consideran varios subconjuntos de componente de la funcion base 1 llamados modelos parciales Los coeficientes de estos modelos son estimados por el metodo de minimos cuadrados Los algoritmos GMDH gradualmente aumentan el numero de componentes del modelo parcial y encuentran una estructura del modelo con complejidad optima indicada por el valor minimo de un criterio externo Este proceso es llamado auto organizacion de modelos La funcion base mas popular utilizada en GMDH es el polinomio gradualmente complicado de Kolmogorov Gabor 2 Y x 1 x n a 0 i 1 n a i x i i 1 n j i n a i j x i x j i 1 n j i n k j n a i j k x i x j x k displaystyle Y x 1 dots x n a 0 sum limits i 1 n a i x i sum limits i 1 n sum limits j i n a ij x i x j sum limits i 1 n sum limits j i n sum limits k j n a ijk x i x j x k cdots Los modelos resultantes son tambien conocidos como redes neuronales polinomicas Jurgen Schmidhuber cita a GDMH como uno de los metodos de aprendizaje profundo mas tempranos remarcando que ya en 1971 este fue usado para entrenar redes neuronales ocho capas 1 Indice 1 Historia 2 Criterio externo 3 Redes neuronales tipo GMDH 4 GMDH Combinatorio 5 Algoritmos 6 Lista de softwares 7 Enlaces externos 8 Referencias 9 Otras lecturasHistoria EditarEl metodo fue desarrollado en 1968 por el Prof Aleksei G Ivajnenko en el Instituto de Cibernetica de Kiev en aquel entonces en la Republica Socialista Sovietica de Ucrania Desde el principio este enfoque inductivo era un metodo computacional por lo que un conjunto de programas de ordenador y algoritmos fueron los resultados practicos primarios obtenidos en la base de los principios teoricos nuevos Gracias a la politica del autor de codigo abierto el metodo fue rapidamente establecido en el gran numero de los laboratorios cientificos mundiales En aquel momento compartir codigo era una accion completamente fisica dado que el Internet es al menos 5 anos mas joven que GMDH A pesar de este hecho la primera investigacion de GMDH fuera de la Union Sovietica fue realizada pronto por R Shankar en 1972 Mas tarde cientificos japoneses y polacos publicaron diferentes variantes de GMDH Periodo 1968 1971 Se caracteriza por la aplicacion del criterio de regularidad unica para la solucion de los problemas de identificacion reconocimiento de patrones y prediccion a corto plazo Como referencia fueron usadas funciones polinomicas redes logicas conjuntos difusos de Zadeh y formulas de probabilidad de Bayes La alta exactitud de prediccion con la nueva aproximacion fue un estimulo para los investigadores No se investigo la inmunidad al ruido Periodo 1972 1975 Se soluciono el problema de la modelacion de datos con ruido y base de informacion incompleta Se propusieron la seleccion de criterios multiples y la utilizacion de informacion adicional a priori para aumentar la inmunidad al ruido Los mejores experimentos mostraron que con la definicion extendida del modelo optimo por un criterio adicional el nivel de ruido puede ser diez veces mayor que la senal Posteriormente se mejoro mediante el teorema de Shannon de la teoria de Comunicacion General Periodo 1976 1979 Se investigo la convergencia de los algoritmos GMDH multicapa Esto mostro que algunos algoritmos multicapa tienen multilayerness error analogo al error estatico de los sistemas de control En 1977 se propuso una solucion de los problemas de analisis de sistemas objetivos por algoritmos GMDH multicapa Esto dio como resultado que el ordenamiento por un conjunto de criterios encuentra el unico sistema de ecuaciones optimo y por tanto indica los elementos del objeto complejo y sus principales variables de entrada y de salida Periodo 1980 1988 Se obtuvieron muchos resultados teoricos importantes Se mostro que no se pueden utilizar los modelos completamente fisicos para predicciones a largo plazo Se demostro que los modelos no fisicos de GMDH son mas precisos que los modelos fisicos de analisis de regresion para la aproximacion y la prediccion Se desarrollaron algoritmos de dos niveles que usan dos escalas de tiempo diferentes para modelar Desde 1989 se han desarrollado e investigado nuevos algoritmos AC OCC PF para la modelacion no parametrica de objetos difusos y SLP para los sistemas expertos La etapa actual de desarrollo de GMDH puede describirse como el florecimiento de las redes neuronales dos veces multicapa y los algoritmos combinatorios paralelos para ordenadores con multiprocesadores Criterio externo EditarEl criterio externo es uno de las caracteristicas claves de GMDH El criterio describe los requisitos del modelo por ejemplo minimizacion de minimos cuadrados Es siempre calculado con una parte separada de la muestra de los datos que no hayan sido utilizados para la estimacion de los coeficientes Hay varios criterios populares Criterio de Regularidad CR Minimos cuadrados de un modelo en la muestra B Criterio de Imparcialidad Suma del valor del CR y el CR especial para el cual A es B y B es A La proporcion de la longitud de la muestra tiene que ser 1 1 i e el tamano de A tiene que ser el mismo tamano de B Si un criterio no define el numero de observaciones para conjuntos de datos externos entonces aparece el problema de la proporcion de division de los datos porque las capacidades de prediccion del modelo identificado son muy dependientes de la proporcion de division Redes neuronales tipo GMDH EditarHay muchas formas diferentes para escoger un orden para la consideracion de los modelos parciales El primer orden de consideracion utilizado en GMDH y originalmente llamado procedimiento inductivo multicapa es el mas popular Este es un ordenamiento de los modelos gradualmente complicados generados por los polinomios de Kolmogorov Gabor El mejor modelo esta indicado por el minimo de la caracteristica del criterio externo El procedimiento multicapa es equivalente a la Red Neuronal Artificial con funcion de activacion polinomica de neuronas Por lo tanto el algoritmo con tal aproximacion es normalmente referido como Red Neuronal tipo GMDH o Red Neuronal Polinomica GMDH Combinatorio Editar Fig 1 Una distribucion tipica de los valores minimos del criterio de regularidad para modelos GMDH Combinatorios con diferente complejidad Otra importante aproximacion en consideracion a los modelos parciales cada vez mas popular es una busqueda combinatoria de fuerza bruta que puede ser tanto limitada o completa Esta aproximacion tiene algunas ventajas contra las Redes Neuronales Polinomicas pero requiere de un poder computacional considerable y por tanto no es eficaz para objetos con mas de 30 entradas en caso de una busqueda completa Una consecuencia importante del GMDH Combinatorio es que este supera completamente la aproximacion por regresion lineal si el nivel de ruido en el dato de entrada es mayor que cero El algoritmo combinatorio basico tiene los pasos siguientes Dividir los datos de muestra en dos partes A y B Generar estructuras para los modelos parciales Estimar los coeficientes de los modelos parciales usando el metodo de minimos cuadrados y la muestra A Calcular el valor del criterio externo para los modelos parciales usando la muestra B Escoger el mejor modelo conjunto de modelos indicado por el valor minimo del criterio En contraste a las redes neuronales tipo GMDH el algoritmo Combinatorio no puede pararse en un nivel de complejidad seguro ya que in punto de incremento del valor del criterio puede ser simplemente un minimo local ver Fig 1 Algoritmos EditarCombinatorial COMBI Multilayered Iterative MIA GN Objective System Analysis OSA Harmonical Two level ARIMAD Multiplicative Additive MAA Objective Computer Clusterization OCC Pointing Finger PF clusterization algorithm Analogues Complexing AC Harmonical Rediscretization Algorithm on the base of Multilayered Theory of Statistical Decisions MTSD Group of Adaptive Models Evolution GAME Lista de softwares EditarFAKE GAME Project Codigo abierto Multiplataforma GEvom Libre a peticion para uso academico Solo para Windows GMDH Shell Software de prediccion para las empresas Producto comercial con prueba libre Solo para Windows Algoritmos de aprendizaje GMDH combinatorio y redes neuronales tipo GMDH KnowledgeMiner Producto comercial Mac OS X unico Version Demo gratis disponible PNN Discovery client producto Comercial Sciengy RPF Software gratuito Codigo abierto wGMDH Weka plugin Codigo abierto R Package para tareas de regresion Software gratuito Codigo abierto Enlaces externos Editarwww gmdh net Articulos libros y software www opengmdh org GMDH wiki y desarrollo de codigoReferencias Editar Schmidhuber Jurgen 2015 Deep learning in neural networks An overview Neural Networks 61 85 117 arXiv 1404 7828 Otras lecturas EditarA G Ivakhnenko Heuristic Self Organization in Problems of Engineering Cybernetics Automatica 6 pp 207 219 1970 A G Ivakhnenkofrf Polynomial Theory of Complex System IEEE Trans on Systems Man and Cybernetics Vol SMC 1 No 4 Oct 1971 pp 364 378 S J Farlow Self Organizing Methods in Modelling GMDH Type Algorithms New York Bazel Marcel Decker Inc 1984 350 p H R Madala A G Ivakhnenko Inductive Learning Algorithms for Complex Systems Modeling CRC Press Boca Raton 1994 Datos Q3507155 Obtenido de https es wikipedia org w index php title Metodo de agrupamiento para el manejo de datos amp oldid 133221423, wikipedia, wiki, leyendo, leer, libro, biblioteca,

español

, española, descargar, gratis, descargar gratis, mp3, video, mp4, 3gp, jpg, jpeg, gif, png, imagen, música, canción, película, libro, juego, juegos