fbpx
Wikipedia

Máquina de Boltzmann

Una máquina de Boltzmann es un tipo de red neuronal recurrente estocástica. El nombre le fue dado por los investigadores Geoffrey Hinton y Terry Sejnowski. Las máquinas de Boltzmann pueden considerarse como la contrapartida estocástica y generativa de las redes de Hopfield. Fueron de los primeros tipos de redes neuronales capaces de aprender mediante representaciones internas, son capaces de representar y (con tiempo suficiente) resolver complicados problemas combinatorios. Sin embargo, debido a una serie de cuestiones que se abordan más adelante, las máquinas de Boltzmann sin restricciones de conectividad no han demostrado ser útiles para resolver los problemas que se dan en la práctica en el aprendizaje o inferencia de las máquinas. Aun así resultan interesantes en la teoría debido a la localización y a la naturaleza hebbiana de su algoritmo de entrenamiento, así como por su paralelismo y por la semejanza de su dinámica a fenómenos físicos sencillos. Si se limita la conectividad, el aprendizaje puede ser lo bastante eficaz como para ser útil en la resolución de problemas prácticos.

En mecánica estadística se denominan distribuciones de Boltzmann y son utilizadas en funciones de muestreo.

Estructura

Las máquinas de Boltzmann, al igual que las redes de Hopfield, poseen unidades con una "energía" definida para la red. También dispone de unidades binarias, pero a diferencia de las redes de Hopfield, las unidades de una máquina de Boltzmann son estocásticas. La energía global,  , en una máquina de Boltzmann es idéntica en forma a la de una red de Hopfield:

 

Donde:

  •   es la fuerza de conexión entre la unidad   y la unidad  .
  •   es el estado,  , de la unidad  .
  •   es el umbral de la unidad  .

Las conexiones de una máquina de Boltzmann tienen dos limitaciones:

  • Ninguna unidad se conecta a sí misma.
  •  . (Todas las conexiones son simétricas.)

Probabilidad de estado de una unidad

El incremento de energía global que resulta de una sola unidad   siendo 0 (off) frente a 1 (on), expresada como  , viene dada por la expresión:

 

Esto se puede expresar como la diferencia de energía entre dos estados:

 

A continuación sustituimos la energía para cada Estado con su probabilidad relativa de acuerdo con el factor de Boltzmann (la propiedad de la distribución de Boltzmann en la cual la energía de un estado es proporcional al menos logaritmo de probabilidad de dicho estado):

 

Donde   es la constante de Boltzmann y se engloba dentro de la noción artificial de temperatura  . A continuación se reordenan los términos considerando que la probabilidad de que una unidad esté en on y en off es uno:

 
 
 
 
 
 

Finalmente podemos resolver para  , la probabilidad de que la unidad   esté en on.

 

Donde el escalar   se refiere a cómo está la temperatura en el sistema. Esta relación es la fuente de la función logística que se encuentra en las expresiones de probabilidad de las distintas variantes de la máquina de Boltzmann.

Estado de equilibrio

La red se ejecuta repetidamente escogiendo una unidad y estableciendo su estado de acuerdo con la fórmula anterior. Después de ejecutarse durante suficiente tiempo a una cierta temperatura, la probabilidad del estado global de la red va a depender sólo del estado global de energía, de acuerdo a una distribución de Boltzmann. Esto significa que los logaritmos de las probabilidades de los estados globales se volverán lineales en sus energías. Esta relación se cumple cuando la máquina está "en equilibrio termodinámico", lo que significa que la distribución de probabilidad de los estados globales ha convergido. Si empezamos a hacer funcionar la red a alta temperatura, y desciende gradualmente hasta llegar a un equilibrio termodinámico a una baja temperatura, estaremos garantizando la convergencia a una distribución donde el nivel de energía fluctúe alrededor del mínimo global. Este proceso se llama Simulated annealing (SA) o templado simulado.

Para entrenar a la red de modo que la posibilidad de que converja en un estado global se ajuste a una distribución externa, habrá que establecer los pesos para que los estados globales con mayor probabilidad tengan la energía más baja. Para esto se usa el siguiente método de entrenamiento.

Entrenamiento

Las unidades de la máquina de Boltzmann se dividen en unidades "visibles", V, y unidades "ocultas", H. Las primeras son las que recibirán información del "entorno", por ejemplo la serie de entrenamiento podría ser un conjunto de vectores binarios aplicado sobre las unidades V. La distribución en el conjunto de entrenamiento se denota  .

En las máquinas de Boltzmann, como ya se ha dicho, la distribución de los estados globales convergen hasta un equilibrio termodinámico. Después de que marginalizar por encima de las unidades visibles  , la convergencia de la distribución se puede denotar como  .

Nuestro objetivo es aproximar la distribución "real"   a la expresión  , la cual es producida eventualmente por la máquina. Para medir la similitud entre las dos distribuciones se usa la divergencia de Kullback-Leibler,  :

 

Donde el sumatorio es superior a todos los posibles estados de  .   varía en función de los pesos, ya que estos determinan la energía de un estado, y la energía a su vez determina  , según la distribución de Boltzmann. Por lo tanto, podemos utilizar un algoritmo de descenso de gradiente sobre   para un peso determinado,  , que se cambiará restando la derivada parcial de   con respecto al peso.

El entrenamiento de una máquina de Boltzmann consta de dos fases, que se van cambiando iterativamente entre ellas. Una es la fase "positiva" en que los estados de las unidades visibles se sujetan a un vector de estado binario particular, muestra del conjunto de entrenamiento (de acuerdo a  ). La otra es la fase "negativa", en la que a la red se le permite ejecutarse libremente, es decir, los estados de las unidades no están determinados por datos externos. Sorprendentemente, el gradiente con respecto a un peso determinado,  , está dado por una ecuación muy sencilla (demostrada por Ackley et al.):

 

Donde:

  •   es la probabilidad de que tanto las unidades i como j estén activadas cuando la máquina esté en equilibrio durante la fase positiva.
  •   es la probabilidad de que tanto las unidades i como j estén activadas cuando la máquina esté en equilibrio durante la fase negativa.
  •   denota la tasa de aprendizaje.

Este resultado se deduce del hecho de que en el equilibrio termodinámico la probabilidad   de cualquier estado global   cuando la red está funcionando libremente viene dada por la distribución de Boltzmann (de ahí el nombre de "máquina de Boltzmann").

Sorprendentemente, esta regla de aprendizaje es bastante plausible desde el punto de vista biológico por el hecho de que la única información necesaria para cambiar los pesos es proporcionada de forma "local". Es decir, la conexión (o sinapsis usando terminología biológica) no necesita más información que la que suministran las dos neuronas que conecta. Esto es mucho más realista biológicamente hablando que lo que sucede con la información que necesitan muchos otros algoritmos de entrenamiento de redes neuronales, como por ejemplo el de retropropagación.

En el entrenamiendo de una máquina de Boltzmann no se utiliza el algoritmo EM, muy utilizado en Aprendizaje automático. Minimizar la divergencia KL, es equivalente a maximizar el logaritmo de la verosimilitud de los datos. Por lo tanto, el procedimiento de entrenamiento lleva a cabo un gradiente de ascenso sobre el logaritmo de verosimilitud de los datos observados. Esto contrasta con el algoritmo EM, donde la distribución posterior de los nodos ocultos debe ser calculada antes de la maximización de la verosimilitud llevada a cabo en el paso M.

En entrenamiento de sesgos es similar, pero usa sólo la actividad de un solo nodo:

 

Problemas en la aplicación práctica

Las máquinas de Boltzmann presentan un grave problema práctico, y es que el aprendizaje parece dejar de producirse correctamente cuando la máquina se amplía a algo más grande que una máquina trivial. Esto se debe a una serie de efectos, los más importantes de los cuales son:

  • El tiempo que la máquina necesita para recopilar las estadísticas de equilibrio crece exponencialmente con el tamaño de la máquina, y con la magnitud de la fuerza de las conexiones.
  • Las fuerzas de las conexiones son más flexibles cuando las unidades conectadas tienen probabilidades de activación intermedias entre cero y uno, llevando a la llamada trampa de varianza. El efecto neto es que el ruido hace que las fuerzas de las conexiones se vuelvan aleatorias hasta que las actividades se saturan.

Máquina de Boltzmann restringida

Aunque el aprendizaje es por lo general poco práctico en las máquinas de Boltzmann, puede llegar a ser muy eficiente en una arquitectura llamada Máquina de Boltzmann restringida o MBR (RBM en inglés: Restricted Boltzmann Machine). Esta arquitectura no permite las conexiones entre las unidades de las capas ocultas. Después de entrenar a una MBR las actividades de sus unidades ocultas pueden ser tratadas como datos para el entrenamiento de una MBR de nivel superior. Este método de apilamiento MBR hace que sea posible entrenar muchas capas de unidades ocultas de manera eficiente y que cada nueva capa sea añadida para mejorar el modelo generativo principal.

Historia

La máquina de Boltzmann es una versión del método de Montecarlo de las redes de Hopfield.

Se cree que la idea de utilizar modelos de Ising para la inferencia fue descrita por primera vez por Geoffrey E. Hinton y Terrence J. Sejnowski[1][2]

La misma idea de aplicar el modelo de Ising con el muestreo de Gibbs templado también está presente en el proyecto de Douglas Hofstadter Copycat.[3][4]

Ideas similares (cambiando el signo de la función de energía) también se pueden encontrar en la "Teoría de la Armonía" de Paul Smolensky.

La analogía explícita extraída de la mecánica estadística en la formulación de la máquina de Boltzmann ha llevado a la utilización de una terminología tomada de la física (por ejemplo, "energía" en lugar de "armonía"), que se ha convertido en estándar en el campo. La adopción generalizada de esta terminología puede haber sido alentada por el hecho de que su uso ha llevado a importar una variedad de conceptos y métodos tomados de la mecánica estadística. Sin embargo, no hay ninguna razón para pensar que las diversas propuestas para el uso de templado simulado para la inferencia descritas anteriormente no sean independientes. (Helmholtz, hizo una analogía similar en los albores de la psicofísica.)

Los modelos de Ising se consideran en la actualidad como un caso especial de los campos aleatorios de Markov, que encuentran una amplia aplicación en diversos campos, como los de la lingüística, robótica, visión artificial e inteligencia artificial.

Bibliografía

  • Fort, J. C.; Gerschenfeld, A. (1988). «El nacimiento de un ordenador neuronal: La máquina de Boltzmann». Mundo Científico 8: 614. 
  • Ackley, D. H.; Hinton, G. E.; Sejnowski, T. J. (1985). . Cognitive Science (en inglés) 9: 147-169. Archivado desde el original el 5 de julio de 2010. 
  • Hinton, G. E.; Sejnowski, T. J. (1986). . En D. E. Rumelhart, J. L. McClelland, and the PDP Research Group, ed. Parallel Distributed Processing: Explorations in the Microstructure of Cognition. Volume 1: Foundations (en inglés) (Cambridge: MIT Press): 282-317. Archivado desde el original el 5 de julio de 2010. 
  • Hinton, G. E. (2002). «Training Products of Experts by Minimizing Contrastive Divergence». Neural Computation (en inglés) 14: 1771-1800. 
  • Hinton, G. E.; Osindero, S.; Teh Y. (2006). «A fast learning algorithm for deep belief nets». Neural Computation (en inglés) 18: 1527-1554. 

Referencias

  1. Geoffrey E. Hinton & Terrence J. Sejnowski, Analyzing Cooperative Computation. In Proceedings of the 5th Annual Congress of the Cognitive Science Society, Rochester, NY, May 1983.
  2. Geoffrey E. Hinton & Terrence J. Sejnowski, Optimal Perceptual Inference. In Proceedings of the IEEE conference on Computer Vision and Pattern Recognition (CVPR), pages 448-453, IEEE Computer Society, Washington DC, June 1983.
  3. Hofstadter, Douglas R., The Copycat Project: An Experiment in Nondeterminism and Creative Analogies. MIT Artificial Intelligence Laboratory Memo No. 755, January 1984.
  4. Hofstadter, Douglas R., A Non-Deterministic Approach to Analogy, Involving the Ising Model of Ferromagnetism. In E. Caianiello, ed. The Physics of Cognitive Processes. Teaneck, NJ: World Scientific, 1987.

Enlaces externos

  • Artículo en Scholarpedia por Hinton sobre las máquinas de Boltzmann (en inglés)
  • Discurso de Geoffrey Hinton en Google en YouTube. (en inglés)
  •   Datos: Q194706

máquina, boltzmann, máquina, boltzmann, tipo, neuronal, recurrente, estocástica, nombre, dado, investigadores, geoffrey, hinton, terry, sejnowski, máquinas, boltzmann, pueden, considerarse, como, contrapartida, estocástica, generativa, redes, hopfield, fueron,. Una maquina de Boltzmann es un tipo de red neuronal recurrente estocastica El nombre le fue dado por los investigadores Geoffrey Hinton y Terry Sejnowski Las maquinas de Boltzmann pueden considerarse como la contrapartida estocastica y generativa de las redes de Hopfield Fueron de los primeros tipos de redes neuronales capaces de aprender mediante representaciones internas son capaces de representar y con tiempo suficiente resolver complicados problemas combinatorios Sin embargo debido a una serie de cuestiones que se abordan mas adelante las maquinas de Boltzmann sin restricciones de conectividad no han demostrado ser utiles para resolver los problemas que se dan en la practica en el aprendizaje o inferencia de las maquinas Aun asi resultan interesantes en la teoria debido a la localizacion y a la naturaleza hebbiana de su algoritmo de entrenamiento asi como por su paralelismo y por la semejanza de su dinamica a fenomenos fisicos sencillos Si se limita la conectividad el aprendizaje puede ser lo bastante eficaz como para ser util en la resolucion de problemas practicos En mecanica estadistica se denominan distribuciones de Boltzmann y son utilizadas en funciones de muestreo Indice 1 Estructura 2 Probabilidad de estado de una unidad 3 Estado de equilibrio 4 Entrenamiento 5 Problemas en la aplicacion practica 6 Maquina de Boltzmann restringida 7 Historia 8 Bibliografia 9 Referencias 10 Enlaces externosEstructura EditarLas maquinas de Boltzmann al igual que las redes de Hopfield poseen unidades con una energia definida para la red Tambien dispone de unidades binarias pero a diferencia de las redes de Hopfield las unidades de una maquina de Boltzmann son estocasticas La energia global E displaystyle E en una maquina de Boltzmann es identica en forma a la de una red de Hopfield E i lt j w i j s i s j i 8 i s i displaystyle E sum i lt j w ij s i s j sum i theta i s i Donde w i j displaystyle w ij es la fuerza de conexion entre la unidad j displaystyle j y la unidad i displaystyle i s i displaystyle s i es el estado s i 0 1 displaystyle s i in 0 1 de la unidad i displaystyle i 8 i displaystyle theta i es el umbral de la unidad i displaystyle i Las conexiones de una maquina de Boltzmann tienen dos limitaciones Ninguna unidad se conecta a si misma w i j w j i i j displaystyle w ij w ji qquad forall i j Todas las conexiones son simetricas Probabilidad de estado de una unidad EditarEl incremento de energia global que resulta de una sola unidad i displaystyle i siendo 0 off frente a 1 on expresada como D E i displaystyle Delta E i viene dada por la expresion D E i j w i j s j 8 i displaystyle Delta E i sum j w ij s j theta i Esto se puede expresar como la diferencia de energia entre dos estados D E i E i off E i on displaystyle Delta E i E text i off E text i on A continuacion sustituimos la energia para cada Estado con su probabilidad relativa de acuerdo con el factor de Boltzmann la propiedad de la distribucion de Boltzmann en la cual la energia de un estado es proporcional al menos logaritmo de probabilidad de dicho estado D E i k B T ln p i off k B T ln p i on displaystyle Delta E i k B T ln p text i off k B T ln p text i on Donde k B displaystyle k B es la constante de Boltzmann y se engloba dentro de la nocion artificial de temperatura T displaystyle T A continuacion se reordenan los terminos considerando que la probabilidad de que una unidad este en on y en off es uno D E i T ln p i on ln p i off displaystyle frac Delta E i T ln p text i on ln p text i off D E i T ln p i on ln 1 p i on displaystyle frac Delta E i T ln p text i on ln 1 p text i on D E i T ln p i on 1 p i on displaystyle frac Delta E i T ln left frac p text i on 1 p text i on right D E i T ln 1 p i on p i on displaystyle frac Delta E i T ln left frac 1 p text i on p text i on right D E i T ln 1 p i on 1 displaystyle frac Delta E i T ln left frac 1 p text i on 1 right exp D E i T 1 p i on 1 displaystyle exp left frac Delta E i T right frac 1 p text i on 1 Finalmente podemos resolver para p i on displaystyle p text i on la probabilidad de que la unidad i displaystyle i este en on p i on 1 1 exp D E i T displaystyle p text i on frac 1 1 exp frac Delta E i T Donde el escalar T displaystyle T se refiere a como esta la temperatura en el sistema Esta relacion es la fuente de la funcion logistica que se encuentra en las expresiones de probabilidad de las distintas variantes de la maquina de Boltzmann Estado de equilibrio EditarLa red se ejecuta repetidamente escogiendo una unidad y estableciendo su estado de acuerdo con la formula anterior Despues de ejecutarse durante suficiente tiempo a una cierta temperatura la probabilidad del estado global de la red va a depender solo del estado global de energia de acuerdo a una distribucion de Boltzmann Esto significa que los logaritmos de las probabilidades de los estados globales se volveran lineales en sus energias Esta relacion se cumple cuando la maquina esta en equilibrio termodinamico lo que significa que la distribucion de probabilidad de los estados globales ha convergido Si empezamos a hacer funcionar la red a alta temperatura y desciende gradualmente hasta llegar a un equilibrio termodinamico a una baja temperatura estaremos garantizando la convergencia a una distribucion donde el nivel de energia fluctue alrededor del minimo global Este proceso se llama Simulated annealing SA o templado simulado Para entrenar a la red de modo que la posibilidad de que converja en un estado global se ajuste a una distribucion externa habra que establecer los pesos para que los estados globales con mayor probabilidad tengan la energia mas baja Para esto se usa el siguiente metodo de entrenamiento Entrenamiento EditarLas unidades de la maquina de Boltzmann se dividen en unidades visibles V y unidades ocultas H Las primeras son las que recibiran informacion del entorno por ejemplo la serie de entrenamiento podria ser un conjunto de vectores binarios aplicado sobre las unidades V La distribucion en el conjunto de entrenamiento se denota P V displaystyle P V En las maquinas de Boltzmann como ya se ha dicho la distribucion de los estados globales convergen hasta un equilibrio termodinamico Despues de que marginalizar por encima de las unidades visibles V displaystyle V la convergencia de la distribucion se puede denotar como P V displaystyle P V Nuestro objetivo es aproximar la distribucion real P V displaystyle P V a la expresion P V displaystyle P V la cual es producida eventualmente por la maquina Para medir la similitud entre las dos distribuciones se usa la divergencia de Kullback Leibler G displaystyle G G v P v ln P v P v displaystyle G sum v P v ln left frac P v P v right Donde el sumatorio es superior a todos los posibles estados de V displaystyle V G displaystyle G varia en funcion de los pesos ya que estos determinan la energia de un estado y la energia a su vez determina P v displaystyle P v segun la distribucion de Boltzmann Por lo tanto podemos utilizar un algoritmo de descenso de gradiente sobre G displaystyle G para un peso determinado w i j displaystyle w ij que se cambiara restando la derivada parcial de G displaystyle G con respecto al peso El entrenamiento de una maquina de Boltzmann consta de dos fases que se van cambiando iterativamente entre ellas Una es la fase positiva en que los estados de las unidades visibles se sujetan a un vector de estado binario particular muestra del conjunto de entrenamiento de acuerdo a P displaystyle P La otra es la fase negativa en la que a la red se le permite ejecutarse libremente es decir los estados de las unidades no estan determinados por datos externos Sorprendentemente el gradiente con respecto a un peso determinado w i j displaystyle w ij esta dado por una ecuacion muy sencilla demostrada por Ackley et al G w i j 1 R p i j p i j displaystyle frac partial G partial w ij frac 1 R p ij p ij Donde p i j displaystyle p ij es la probabilidad de que tanto las unidades i como j esten activadas cuando la maquina este en equilibrio durante la fase positiva p i j displaystyle p ij es la probabilidad de que tanto las unidades i como j esten activadas cuando la maquina este en equilibrio durante la fase negativa R displaystyle R denota la tasa de aprendizaje Este resultado se deduce del hecho de que en el equilibrio termodinamico la probabilidad P s displaystyle P s de cualquier estado global s displaystyle s cuando la red esta funcionando libremente viene dada por la distribucion de Boltzmann de ahi el nombre de maquina de Boltzmann Sorprendentemente esta regla de aprendizaje es bastante plausible desde el punto de vista biologico por el hecho de que la unica informacion necesaria para cambiar los pesos es proporcionada de forma local Es decir la conexion o sinapsis usando terminologia biologica no necesita mas informacion que la que suministran las dos neuronas que conecta Esto es mucho mas realista biologicamente hablando que lo que sucede con la informacion que necesitan muchos otros algoritmos de entrenamiento de redes neuronales como por ejemplo el de retropropagacion En el entrenamiendo de una maquina de Boltzmann no se utiliza el algoritmo EM muy utilizado en Aprendizaje automatico Minimizar la divergencia KL es equivalente a maximizar el logaritmo de la verosimilitud de los datos Por lo tanto el procedimiento de entrenamiento lleva a cabo un gradiente de ascenso sobre el logaritmo de verosimilitud de los datos observados Esto contrasta con el algoritmo EM donde la distribucion posterior de los nodos ocultos debe ser calculada antes de la maximizacion de la verosimilitud llevada a cabo en el paso M En entrenamiento de sesgos es similar pero usa solo la actividad de un solo nodo G 8 i 1 R p i p i displaystyle frac partial G partial theta i frac 1 R p i p i Problemas en la aplicacion practica EditarLas maquinas de Boltzmann presentan un grave problema practico y es que el aprendizaje parece dejar de producirse correctamente cuando la maquina se amplia a algo mas grande que una maquina trivial Esto se debe a una serie de efectos los mas importantes de los cuales son El tiempo que la maquina necesita para recopilar las estadisticas de equilibrio crece exponencialmente con el tamano de la maquina y con la magnitud de la fuerza de las conexiones Las fuerzas de las conexiones son mas flexibles cuando las unidades conectadas tienen probabilidades de activacion intermedias entre cero y uno llevando a la llamada trampa de varianza El efecto neto es que el ruido hace que las fuerzas de las conexiones se vuelvan aleatorias hasta que las actividades se saturan Maquina de Boltzmann restringida EditarAunque el aprendizaje es por lo general poco practico en las maquinas de Boltzmann puede llegar a ser muy eficiente en una arquitectura llamada Maquina de Boltzmann restringida o MBR RBM en ingles Restricted Boltzmann Machine Esta arquitectura no permite las conexiones entre las unidades de las capas ocultas Despues de entrenar a una MBR las actividades de sus unidades ocultas pueden ser tratadas como datos para el entrenamiento de una MBR de nivel superior Este metodo de apilamiento MBR hace que sea posible entrenar muchas capas de unidades ocultas de manera eficiente y que cada nueva capa sea anadida para mejorar el modelo generativo principal Historia EditarLa maquina de Boltzmann es una version del metodo de Montecarlo de las redes de Hopfield Se cree que la idea de utilizar modelos de Ising para la inferencia fue descrita por primera vez por Geoffrey E Hinton y Terrence J Sejnowski 1 2 La misma idea de aplicar el modelo de Ising con el muestreo de Gibbs templado tambien esta presente en el proyecto de Douglas Hofstadter Copycat 3 4 Ideas similares cambiando el signo de la funcion de energia tambien se pueden encontrar en la Teoria de la Armonia de Paul Smolensky La analogia explicita extraida de la mecanica estadistica en la formulacion de la maquina de Boltzmann ha llevado a la utilizacion de una terminologia tomada de la fisica por ejemplo energia en lugar de armonia que se ha convertido en estandar en el campo La adopcion generalizada de esta terminologia puede haber sido alentada por el hecho de que su uso ha llevado a importar una variedad de conceptos y metodos tomados de la mecanica estadistica Sin embargo no hay ninguna razon para pensar que las diversas propuestas para el uso de templado simulado para la inferencia descritas anteriormente no sean independientes Helmholtz hizo una analogia similar en los albores de la psicofisica Los modelos de Ising se consideran en la actualidad como un caso especial de los campos aleatorios de Markov que encuentran una amplia aplicacion en diversos campos como los de la linguistica robotica vision artificial e inteligencia artificial Bibliografia EditarFort J C Gerschenfeld A 1988 El nacimiento de un ordenador neuronal La maquina de Boltzmann Mundo Cientifico 8 614 Ackley D H Hinton G E Sejnowski T J 1985 A Learning Algorithm for Boltzmann Machines Cognitive Science en ingles 9 147 169 Archivado desde el original el 5 de julio de 2010 Hinton G E Sejnowski T J 1986 Learning and Relearning in Boltzmann Machines En D E Rumelhart J L McClelland and the PDP Research Group ed Parallel Distributed Processing Explorations in the Microstructure of Cognition Volume 1 Foundations en ingles Cambridge MIT Press 282 317 Archivado desde el original el 5 de julio de 2010 La referencia utiliza el parametro obsoleto coautores ayuda Hinton G E 2002 Training Products of Experts by Minimizing Contrastive Divergence Neural Computation en ingles 14 1771 1800 Hinton G E Osindero S Teh Y 2006 A fast learning algorithm for deep belief nets Neural Computation en ingles 18 1527 1554 Referencias Editar Geoffrey E Hinton amp Terrence J Sejnowski Analyzing Cooperative Computation In Proceedings of the 5th Annual Congress of the Cognitive Science Society Rochester NY May 1983 Geoffrey E Hinton amp Terrence J Sejnowski Optimal Perceptual Inference In Proceedings of the IEEE conference on Computer Vision and Pattern Recognition CVPR pages 448 453 IEEE Computer Society Washington DC June 1983 Hofstadter Douglas R The Copycat Project An Experiment in Nondeterminism and Creative Analogies MIT Artificial Intelligence Laboratory Memo No 755 January 1984 Hofstadter Douglas R A Non Deterministic Approach to Analogy Involving the Ising Model of Ferromagnetism In E Caianiello ed The Physics of Cognitive Processes Teaneck NJ World Scientific 1987 Enlaces externos EditarArticulo en Scholarpedia por Hinton sobre las maquinas de Boltzmann en ingles Discurso de Geoffrey Hinton en Google en YouTube en ingles Datos Q194706Obtenido de https es wikipedia org w index php title Maquina de Boltzmann amp oldid 133247001, wikipedia, wiki, leyendo, leer, libro, biblioteca,

español

, española, descargar, gratis, descargar gratis, mp3, video, mp4, 3gp, jpg, jpeg, gif, png, imagen, música, canción, película, libro, juego, juegos