fbpx
Wikipedia

Aprendizaje de refuerzo profundo

El aprendizaje de refuerzo profundo o Deep reinforcement learning (DRL) es un subcampo del aprendizaje automático que combina el aprendizaje reforzado con el aprendizaje profundo.[1]​ El aprendizaje reforzado considera el problema de un agente computacional aprendiendo a tomar decisiones por un método de prueba y error. El aprendizaje de refuerzo profundo incorpora el aprendizaje profundo a la solución, permitiendo que dichos agentes puedan tomar decisiones con datos de entrada no estructurados sin ingeniería manual del espacio de estados. Los algoritmos que se usan en el DRL son capaces de coger entradas muy amplias (por ejemplo, cada píxel de la pantalla de un videojuego) y decidir qué acciones realizar para optimizar un objetivo (por ejemplo, maximizar la puntuación del juego). El DRL se ha usado para diversas aplicaciones, incluyendo robótica, videojuegos,[2]procesamiento del lenguaje natural, visión artificial, educación, transporte, finanzas y salud, entre otros.

Visión general

Aprendizaje profundo

El aprendizaje profundo es una forma de aprendizaje automático que usa una red neuronal para transformar un conjunto de entradas en un conjunto de salidas a través de una red neuronal artificial. Los métodos de aprendizaje profundo, a menudo usando aprendizaje supervisado con conjuntos de datos etiquetados, han demostrado capacidad para resolver tareas que implican el manejo de datos complejos y de alta dimensión, como imágenes, con menos ingeniería de características manual que métodos anteriores, permitiendo un progreso significativo en varios campos, incluyendo la visión artificial y el procesamiento del lenguaje natural.

Aprendizaje por refuerzo

El aprendizaje por refuerzo es un proceso en el que el agente aprende a tomar decisiones a través del método de prueba y error. A menudo, este problema es modelado matemáticamente como un proceso de decisión de Markov (MDP), donde un agente en cada paso de tiempo está en un estado s, toma una acción a, recibe una recompensa escalar y pasa al siguiente estado s’ en concordancia con las dinámicas medioambientales p(s’|s,a). El agente trata de aprender una política π(a|s), o mapa de observaciones a acciones, con el objetivo de maximizar su suma de recompensas esperada. En el aprendizaje de refuerzo (al contrario del control óptimo) el algoritmo solo tiene acceso a las dinámicas p(s’|s,a) a través del muestreo.

Aprendizaje de refuerzo profundo

En muchos problemas prácticos de toma de decisiones, los estados s del MDP son de alta dimensión (por ejemplo, imágenes de una cámara o el flujo de sensores en bruto de un robot) y no puede resolverse por algoritmos tradicionales de aprendizaje de refuerzo. Los algoritmos del DRL incorporan el aprendizaje profundo para resolver esos MDPs, a menudo representando la política π(a|s) u otras funciones aprendidas como una red neuronal, y desarrollando algoritmos especializados que funcionan bien en este entorno.

Historia

Junto con el creciente interés por las redes neuronales que comenzó a mediados de los años 80, creció el interés por el DRL, en el que se utiliza una red neuronal[3]​ en el aprendizaje de refuerzo para representar políticas o funciones de valor. Dado que, en un sistema de este tipo, todo el proceso de toma de decisiones, desde los sensores hasta los motores de un robot o agente, implica una única red neuronal, también se denomina a veces aprendizaje por refuerzo de extremo a extremo. Una de las primeras aplicaciones con éxito del aprendizaje por refuerzo con redes neuronales fue el TD-Gammon, un programa informático desarrollado en 1992 para jugar al backgammon. Se utilizaron cuatro entradas para el número de piezas de un color determinado en un lugar concreto del tablero, con un total de 198 señales de entrada. Con un conocimiento nulo incorporado, la red aprendió a jugar el juego a un nivel intermedio por medio del autojuego y de TD(λ).

Los libros de texto fundamentales de Sutton y Barto sobre el aprendizaje por refuerzo, Bertsekas y Tsitsiklis sobre la programación neurodinámica, y otros hicieron avanzar el conocimiento y el interés en este campo.

El grupo de Katsunari Shibata demostró que en este marco surgen diversas funciones, entre las que se incluyen el reconocimiento de imágenes, la constancia del color, el movimiento de los sensores (reconocimiento activo), la coordinación mano-ojo y el movimiento de alcance de la mano, la explicación de las actividades cerebrales, la transferencia de conocimientos, la memoria, la atención selectiva, la predicción y la exploración.

A partir de 2012, la llamada revolución del aprendizaje profundo condujo a un mayor interés en el uso de redes neuronales profundas como aproximadores de funciones en una variedad de dominios. Esto condujo a un renovado interés en los investigadores que utilizan las redes neuronales profundas para aprender la política, el valor y/o las funciones Q presentes en los algoritmos de aprendizaje de refuerzo existentes.

Alrededor de 2013, DeepMind[4]​ mostró impresionantes resultados de aprendizaje utilizando RL profunda para jugar a los videojuegos de Atari.[5]​ El jugador de la computadora una red neuronal entrenada utilizando un algoritmo de RL profunda, una versión profunda de Q-learning[6]​ que denominaron redes Q profundas (DQN), con la puntuación del juego como recompensa. Utilizaron una red neuronal convolucional[7]​ profunda para procesar 4 cuadros de píxeles RGB (84x84) como entradas. Los 49 juegos se aprendieron utilizando la misma arquitectura de red y con un conocimiento previo mínimo, superando a los métodos de la competencia en casi todos los juegos y rindiendo a un nivel comparable o superior al de un probador de juegos humano profesional.

El aprendizaje por refuerzo profundo alcanzó otro hito en 2015, cuando AlphaGo, un programa informático entrenado con RL profunda para jugar al Go,[8][9]​ se convirtió en el primer programa informático de Go que venció a un jugador profesional humano de Go sin desventaja en un tablero de tamaño normal de 19×19. En un proyecto posterior, en 2017, AlphaZero[10]​ mejoró el rendimiento en Go, al tiempo que demostró que podían utilizar el mismo algoritmo para aprender a jugar al ajedrez y al shogi[11]​ a un nivel competitivo o superior al de los programas informáticos existentes para esos juegos, y volvió a mejorar en 2019 con MuZero.[12]​ Por otro lado, otro hito lo consiguieron investigadores de la Universidad Carnegie Mellon[13]​ en 2019 al desarrollar Pluribus, un programa informático para jugar al póker que fue el primero en vencer a profesionales en partidas multijugador de Texas hold 'em sin límite.[14]​ OpenAI Five, un programa para jugar a Dota 2 cinco contra cinco venció a los anteriores campeones del mundo en un partido de demostración en 2019.[15]

El aprendizaje de refuerzo profundo también se ha aplicado a muchos dominios más allá de los juegos. En robótica, se ha utilizado para que los robots realicen tareas domésticas sencillas y resuelvan un cubo de Rubik con una mano robótica. El RL profundo también ha encontrado aplicaciones de sostenibilidad, utilizadas para reducir el consumo de energía en los centros de datos. El RL profundo para la conducción autónoma es un área activa de investigación en el mundo académico y la industria. Loon exploró el RL profundo para navegar de forma autónoma sus globos de gran altitud.

Algoritmos

Existen varias técnicas para entrenar políticas para resolver tareas con algoritmos de aprendizaje de refuerzo profundo, cada una con sus propias ventajas. En el nivel más alto, hay una distinción entre el aprendizaje de refuerzo basado en modelos y el libre de modelos, que se refiere a si el algoritmo intenta aprender un modelo de avance de la dinámica del entorno.

En los algoritmos de aprendizaje de refuerzo profundo basados en modelos, se estima un modelo de avance de la dinámica del entorno, normalmente mediante aprendizaje supervisado utilizando una red neuronal. A continuación, las acciones se obtienen mediante el control predictivo por modelo aprendido. Dado que la dinámica real del entorno suele divergir de la dinámica aprendida, el agente vuelve a planificar con frecuencia cuando lleva a cabo acciones en el entorno. Las acciones seleccionadas pueden optimizarse utilizando métodos de Monte Carlo, como el método de entropía cruzada, o una combinación de aprendizaje de modelos con métodos sin modelos.

En los algoritmos de aprendizaje profundo por refuerzo sin modelo, se aprende una política π(a|s) sin modelar explícitamente la dinámica de avance. Una política puede ser optimizada para maximizar los retornos estimando directamente el gradiente de la política pero sufre de una alta varianza, haciéndola poco práctica para su uso con la aproximación de funciones en la RL profunda. Se han desarrollado algoritmos posteriores para un aprendizaje más estable y se han aplicado ampliamente. Otra clase de algoritmos de aprendizaje profundo por refuerzo sin modelo se basa en la programación dinámica, inspirada en el aprendizaje por diferencia temporal y el aprendizaje Q. En los espacios de acción discretos, estos algoritmos suelen aprender una función Q Q(s,a) de la red neuronal que estima los rendimientos futuros tomando una acción a a partir del estado s. En los espacios continuos, estos algoritmos suelen aprender tanto una estimación del valor como una política.

Investigación

El aprendizaje por refuerzo profundo es un área de investigación activa, con varias líneas de investigación.

Exploración

Un agente de RL debe equilibrar el compromiso de exploración/explotación: el problema de decidir si perseguir las acciones que ya se sabe que producen grandes recompensas o explorar otras acciones para descubrir recompensas más altas. Los agentes de RL suelen recoger datos con algún tipo de política estocástica, como una distribución de Boltzmann en espacios de acción discretos o una distribución gaussiana en espacios de acción continuos, lo que induce un comportamiento de exploración básico. La idea que subyace a la exploración basada en la novedad, o impulsada por la curiosidad, es dar al agente un motivo para explorar resultados desconocidos con el fin de encontrar las mejores soluciones. Esto se hace "modificando la función de pérdida (o incluso la arquitectura de la red) mediante la adición de términos para incentivar la exploración". Un agente también puede ser ayudado en la exploración mediante la utilización de demostraciones de trayectorias exitosas, o la recompensa-formación, dando un agente recompensas intermedias que se adaptan a la tarea que está tratando de completar.

Aprendizaje por refuerzo fuera de la política

Una distinción importante en la RL es la diferencia entre los algoritmos basados en políticas que requieren evaluar o mejorar la política que recoge los datos, y los algoritmos fuera de política, que pueden aprender una política a partir de los datos generados por una política arbitraria. En general, los métodos basados en funciones de valor, como el aprendizaje Q, son más adecuados para el aprendizaje fuera de política y tienen una mayor eficiencia de muestreo: la cantidad de datos necesarios para aprender una tarea se reduce porque los datos se reutilizan para el aprendizaje. En el extremo, la RL fuera de línea (o "por lotes") considera el aprendizaje de una política a partir de un conjunto de datos fijo sin interacción adicional con el entorno.

Aprendizaje de refuerzo inverso

El RL inverso se refiere a inferir la función de recompensa de un agente dado el comportamiento del mismo. El aprendizaje de refuerzo inverso puede utilizarse para el aprendizaje a partir de demostraciones (o aprendizaje de aprendizaje) infiriendo la recompensa del demostrador y optimizando después una política para maximizar los rendimientos con RL. Se han utilizado enfoques de aprendizaje profundo para varias formas de aprendizaje por imitación y RL inverso.

Aprendizaje por refuerzos condicionados por objetivos

Otro área de investigación activa es el aprendizaje de políticas condicionadas por el objetivo, también llamadas políticas contextuales o universales π(a|s,g), que toman un objetivo adicional g como entrada para comunicar un objetivo deseado al agente. La repetición de la experiencia retrospectiva es un método para la RL condicionada por el objetivo que implica el almacenamiento y el aprendizaje de los intentos fallidos anteriores para completar una tarea. Mientras que un intento fallido puede no haber alcanzado el objetivo previsto, puede servir como una lección para lograr el resultado no deseado a través del reetiquetado retrospectivo.

Aprendizaje por refuerzo multiagente

Muchas aplicaciones del aprendizaje por refuerzo no implican a un solo agente, sino a un conjunto de agentes que aprenden juntos y se coadaptan. Estos agentes pueden ser competitivos, como en muchos juegos, o cooperativos, como en muchos sistemas multiagente del mundo real. El aprendizaje multiagente estudia los problemas que se presentan en este entorno.

Generalización

La promesa del uso de herramientas de aprendizaje profundo en el aprendizaje por refuerzo es la generalización: la capacidad de operar correctamente en entradas no vistas previamente. Por ejemplo, las redes neuronales entrenadas para el reconocimiento de imágenes pueden detectar que una imagen contiene un pájaro aunque nunca hayan visto esa imagen en particular o incluso ese pájaro en concreto. Dado que la RL profunda admite datos brutos (por ejemplo, píxeles) como entrada, se reduce la necesidad de predefinir el entorno, lo que permite generalizar el modelo a múltiples aplicaciones. Con esta capa de abstracción, los algoritmos de aprendizaje por refuerzo profundo pueden diseñarse de forma que se generalicen y el mismo modelo pueda utilizarse para diferentes tareas. Un método para aumentar la capacidad de generalización de las políticas entrenadas con RL profunda es incorporar el aprendizaje de representación.

Véase también

Referencias

  1. «Aprendizaje profundo por refuerzo 🥇 - IIC». Instituto de Ingeniería del Conocimiento. Consultado el 3 de diciembre de 2021. 
  2. Arranz Janeiro, Ricardo (2019). «Aprendizaje por refuerzo profundo aplicado a juegos sencillos». eprints.ucm.es. Consultado el 3 de diciembre de 2021. 
  3. Julián, Guillermo (30 de diciembre de 2014). «Las redes neuronales: qué son y por qué están volviendo». Xataka. Consultado el 3 de diciembre de 2021. 
  4. «DeepMind - What if solving one problem could unlock solutions to thousands more?». Deepmind. Consultado el 3 de diciembre de 2021. 
  5. «La Historia de Atari». NeoTeo. 18 de junio de 2019. Consultado el 3 de diciembre de 2021. 
  6. «Aprendizaje por refuerzo: algoritmo Q Learning - Fernando Sancho Caparrini». www.cs.us.es. Consultado el 3 de diciembre de 2021. 
  7. «Redes neuronales convolucionales son un tipo de redes neuronales». Juan Barrios. 15 de junio de 2019. Consultado el 3 de diciembre de 2021. 
  8. Frutos, Ana Muñoz de (2 de diciembre de 2017). «¿Qué es DeepMind Alpha Go?». ComputerHoy. Consultado el 3 de diciembre de 2021. 
  9. «Go - Reglas del juego». www.ludoteka.com. Consultado el 3 de diciembre de 2021. 
  10. «AlphaZero: la inteligencia artificial con intuición humana». La Vanguardia. 7 de agosto de 2019. Consultado el 3 de diciembre de 2021. 
  11. «BrainKing - Reglas de los juegos (Shogi)». brainking.com. Consultado el 3 de diciembre de 2021. 
  12. Sánchez-Migallón, Santiago (2 de mayo de 2020). «La búsqueda de máquinas conscientes: de MuZero a LIDA». Xataka. Consultado el 3 de diciembre de 2021. 
  13. «Información sobre Carnegie Mellon University en Estados Unidos». www.hotcourseslatinoamerica.com. Consultado el 3 de diciembre de 2021. 
  14. «Definición de póker — Definicion.de». Definición.de. Consultado el 3 de diciembre de 2021. 
  15. «Por qué es tan popular Dota 2 y de que trata el videojuego». eGames. Consultado el 3 de diciembre de 2021. 

Enlaces externos

  • Sobre redes neuronales
  • Para saber más de Aprendizaje Q
  • Sobre rredes neuronales convolucionales
  • Estudio de la Universidad de Carnegie Mellon
  • Conceptos de inteligencia artificial: qué es el aprendizaje por refuerzo (Xataka)

aprendizaje, refuerzo, profundo, aprendizaje, refuerzo, profundo, deep, reinforcement, learning, subcampo, aprendizaje, automático, combina, aprendizaje, reforzado, aprendizaje, profundo, aprendizaje, reforzado, considera, problema, agente, computacional, apre. El aprendizaje de refuerzo profundo o Deep reinforcement learning DRL es un subcampo del aprendizaje automatico que combina el aprendizaje reforzado con el aprendizaje profundo 1 El aprendizaje reforzado considera el problema de un agente computacional aprendiendo a tomar decisiones por un metodo de prueba y error El aprendizaje de refuerzo profundo incorpora el aprendizaje profundo a la solucion permitiendo que dichos agentes puedan tomar decisiones con datos de entrada no estructurados sin ingenieria manual del espacio de estados Los algoritmos que se usan en el DRL son capaces de coger entradas muy amplias por ejemplo cada pixel de la pantalla de un videojuego y decidir que acciones realizar para optimizar un objetivo por ejemplo maximizar la puntuacion del juego El DRL se ha usado para diversas aplicaciones incluyendo robotica videojuegos 2 procesamiento del lenguaje natural vision artificial educacion transporte finanzas y salud entre otros Indice 1 Vision general 1 1 Aprendizaje profundo 1 2 Aprendizaje por refuerzo 1 3 Aprendizaje de refuerzo profundo 2 Historia 3 Algoritmos 4 Investigacion 4 1 Exploracion 4 2 Aprendizaje por refuerzo fuera de la politica 4 3 Aprendizaje de refuerzo inverso 4 4 Aprendizaje por refuerzos condicionados por objetivos 4 5 Aprendizaje por refuerzo multiagente 4 6 Generalizacion 5 Vease tambien 6 Referencias 7 Enlaces externosVision general EditarAprendizaje profundo Editar El aprendizaje profundo es una forma de aprendizaje automatico que usa una red neuronal para transformar un conjunto de entradas en un conjunto de salidas a traves de una red neuronal artificial Los metodos de aprendizaje profundo a menudo usando aprendizaje supervisado con conjuntos de datos etiquetados han demostrado capacidad para resolver tareas que implican el manejo de datos complejos y de alta dimension como imagenes con menos ingenieria de caracteristicas manual que metodos anteriores permitiendo un progreso significativo en varios campos incluyendo la vision artificial y el procesamiento del lenguaje natural Aprendizaje por refuerzo Editar El aprendizaje por refuerzo es un proceso en el que el agente aprende a tomar decisiones a traves del metodo de prueba y error A menudo este problema es modelado matematicamente como un proceso de decision de Markov MDP donde un agente en cada paso de tiempo esta en un estado s toma una accion a recibe una recompensa escalar y pasa al siguiente estado s en concordancia con las dinamicas medioambientales p s s a El agente trata de aprender una politica p a s o mapa de observaciones a acciones con el objetivo de maximizar su suma de recompensas esperada En el aprendizaje de refuerzo al contrario del control optimo el algoritmo solo tiene acceso a las dinamicas p s s a a traves del muestreo Aprendizaje de refuerzo profundo Editar En muchos problemas practicos de toma de decisiones los estados s del MDP son de alta dimension por ejemplo imagenes de una camara o el flujo de sensores en bruto de un robot y no puede resolverse por algoritmos tradicionales de aprendizaje de refuerzo Los algoritmos del DRL incorporan el aprendizaje profundo para resolver esos MDPs a menudo representando la politica p a s u otras funciones aprendidas como una red neuronal y desarrollando algoritmos especializados que funcionan bien en este entorno Historia EditarJunto con el creciente interes por las redes neuronales que comenzo a mediados de los anos 80 crecio el interes por el DRL en el que se utiliza una red neuronal 3 en el aprendizaje de refuerzo para representar politicas o funciones de valor Dado que en un sistema de este tipo todo el proceso de toma de decisiones desde los sensores hasta los motores de un robot o agente implica una unica red neuronal tambien se denomina a veces aprendizaje por refuerzo de extremo a extremo Una de las primeras aplicaciones con exito del aprendizaje por refuerzo con redes neuronales fue el TD Gammon un programa informatico desarrollado en 1992 para jugar al backgammon Se utilizaron cuatro entradas para el numero de piezas de un color determinado en un lugar concreto del tablero con un total de 198 senales de entrada Con un conocimiento nulo incorporado la red aprendio a jugar el juego a un nivel intermedio por medio del autojuego y de TD l Los libros de texto fundamentales de Sutton y Barto sobre el aprendizaje por refuerzo Bertsekas y Tsitsiklis sobre la programacion neurodinamica y otros hicieron avanzar el conocimiento y el interes en este campo El grupo de Katsunari Shibata demostro que en este marco surgen diversas funciones entre las que se incluyen el reconocimiento de imagenes la constancia del color el movimiento de los sensores reconocimiento activo la coordinacion mano ojo y el movimiento de alcance de la mano la explicacion de las actividades cerebrales la transferencia de conocimientos la memoria la atencion selectiva la prediccion y la exploracion A partir de 2012 la llamada revolucion del aprendizaje profundo condujo a un mayor interes en el uso de redes neuronales profundas como aproximadores de funciones en una variedad de dominios Esto condujo a un renovado interes en los investigadores que utilizan las redes neuronales profundas para aprender la politica el valor y o las funciones Q presentes en los algoritmos de aprendizaje de refuerzo existentes Alrededor de 2013 DeepMind 4 mostro impresionantes resultados de aprendizaje utilizando RL profunda para jugar a los videojuegos de Atari 5 El jugador de la computadora una red neuronal entrenada utilizando un algoritmo de RL profunda una version profunda de Q learning 6 que denominaron redes Q profundas DQN con la puntuacion del juego como recompensa Utilizaron una red neuronal convolucional 7 profunda para procesar 4 cuadros de pixeles RGB 84x84 como entradas Los 49 juegos se aprendieron utilizando la misma arquitectura de red y con un conocimiento previo minimo superando a los metodos de la competencia en casi todos los juegos y rindiendo a un nivel comparable o superior al de un probador de juegos humano profesional El aprendizaje por refuerzo profundo alcanzo otro hito en 2015 cuando AlphaGo un programa informatico entrenado con RL profunda para jugar al Go 8 9 se convirtio en el primer programa informatico de Go que vencio a un jugador profesional humano de Go sin desventaja en un tablero de tamano normal de 19 19 En un proyecto posterior en 2017 AlphaZero 10 mejoro el rendimiento en Go al tiempo que demostro que podian utilizar el mismo algoritmo para aprender a jugar al ajedrez y al shogi 11 a un nivel competitivo o superior al de los programas informaticos existentes para esos juegos y volvio a mejorar en 2019 con MuZero 12 Por otro lado otro hito lo consiguieron investigadores de la Universidad Carnegie Mellon 13 en 2019 al desarrollar Pluribus un programa informatico para jugar al poker que fue el primero en vencer a profesionales en partidas multijugador de Texas hold em sin limite 14 OpenAI Five un programa para jugar a Dota 2 cinco contra cinco vencio a los anteriores campeones del mundo en un partido de demostracion en 2019 15 El aprendizaje de refuerzo profundo tambien se ha aplicado a muchos dominios mas alla de los juegos En robotica se ha utilizado para que los robots realicen tareas domesticas sencillas y resuelvan un cubo de Rubik con una mano robotica El RL profundo tambien ha encontrado aplicaciones de sostenibilidad utilizadas para reducir el consumo de energia en los centros de datos El RL profundo para la conduccion autonoma es un area activa de investigacion en el mundo academico y la industria Loon exploro el RL profundo para navegar de forma autonoma sus globos de gran altitud Algoritmos EditarExisten varias tecnicas para entrenar politicas para resolver tareas con algoritmos de aprendizaje de refuerzo profundo cada una con sus propias ventajas En el nivel mas alto hay una distincion entre el aprendizaje de refuerzo basado en modelos y el libre de modelos que se refiere a si el algoritmo intenta aprender un modelo de avance de la dinamica del entorno En los algoritmos de aprendizaje de refuerzo profundo basados en modelos se estima un modelo de avance de la dinamica del entorno normalmente mediante aprendizaje supervisado utilizando una red neuronal A continuacion las acciones se obtienen mediante el control predictivo por modelo aprendido Dado que la dinamica real del entorno suele divergir de la dinamica aprendida el agente vuelve a planificar con frecuencia cuando lleva a cabo acciones en el entorno Las acciones seleccionadas pueden optimizarse utilizando metodos de Monte Carlo como el metodo de entropia cruzada o una combinacion de aprendizaje de modelos con metodos sin modelos En los algoritmos de aprendizaje profundo por refuerzo sin modelo se aprende una politica p a s sin modelar explicitamente la dinamica de avance Una politica puede ser optimizada para maximizar los retornos estimando directamente el gradiente de la politica pero sufre de una alta varianza haciendola poco practica para su uso con la aproximacion de funciones en la RL profunda Se han desarrollado algoritmos posteriores para un aprendizaje mas estable y se han aplicado ampliamente Otra clase de algoritmos de aprendizaje profundo por refuerzo sin modelo se basa en la programacion dinamica inspirada en el aprendizaje por diferencia temporal y el aprendizaje Q En los espacios de accion discretos estos algoritmos suelen aprender una funcion Q Q s a de la red neuronal que estima los rendimientos futuros tomando una accion a a partir del estado s En los espacios continuos estos algoritmos suelen aprender tanto una estimacion del valor como una politica Investigacion EditarEl aprendizaje por refuerzo profundo es un area de investigacion activa con varias lineas de investigacion Exploracion Editar Un agente de RL debe equilibrar el compromiso de exploracion explotacion el problema de decidir si perseguir las acciones que ya se sabe que producen grandes recompensas o explorar otras acciones para descubrir recompensas mas altas Los agentes de RL suelen recoger datos con algun tipo de politica estocastica como una distribucion de Boltzmann en espacios de accion discretos o una distribucion gaussiana en espacios de accion continuos lo que induce un comportamiento de exploracion basico La idea que subyace a la exploracion basada en la novedad o impulsada por la curiosidad es dar al agente un motivo para explorar resultados desconocidos con el fin de encontrar las mejores soluciones Esto se hace modificando la funcion de perdida o incluso la arquitectura de la red mediante la adicion de terminos para incentivar la exploracion Un agente tambien puede ser ayudado en la exploracion mediante la utilizacion de demostraciones de trayectorias exitosas o la recompensa formacion dando un agente recompensas intermedias que se adaptan a la tarea que esta tratando de completar Aprendizaje por refuerzo fuera de la politica Editar Una distincion importante en la RL es la diferencia entre los algoritmos basados en politicas que requieren evaluar o mejorar la politica que recoge los datos y los algoritmos fuera de politica que pueden aprender una politica a partir de los datos generados por una politica arbitraria En general los metodos basados en funciones de valor como el aprendizaje Q son mas adecuados para el aprendizaje fuera de politica y tienen una mayor eficiencia de muestreo la cantidad de datos necesarios para aprender una tarea se reduce porque los datos se reutilizan para el aprendizaje En el extremo la RL fuera de linea o por lotes considera el aprendizaje de una politica a partir de un conjunto de datos fijo sin interaccion adicional con el entorno Aprendizaje de refuerzo inverso Editar El RL inverso se refiere a inferir la funcion de recompensa de un agente dado el comportamiento del mismo El aprendizaje de refuerzo inverso puede utilizarse para el aprendizaje a partir de demostraciones o aprendizaje de aprendizaje infiriendo la recompensa del demostrador y optimizando despues una politica para maximizar los rendimientos con RL Se han utilizado enfoques de aprendizaje profundo para varias formas de aprendizaje por imitacion y RL inverso Aprendizaje por refuerzos condicionados por objetivos Editar Otro area de investigacion activa es el aprendizaje de politicas condicionadas por el objetivo tambien llamadas politicas contextuales o universales p a s g que toman un objetivo adicional g como entrada para comunicar un objetivo deseado al agente La repeticion de la experiencia retrospectiva es un metodo para la RL condicionada por el objetivo que implica el almacenamiento y el aprendizaje de los intentos fallidos anteriores para completar una tarea Mientras que un intento fallido puede no haber alcanzado el objetivo previsto puede servir como una leccion para lograr el resultado no deseado a traves del reetiquetado retrospectivo Aprendizaje por refuerzo multiagente Editar Muchas aplicaciones del aprendizaje por refuerzo no implican a un solo agente sino a un conjunto de agentes que aprenden juntos y se coadaptan Estos agentes pueden ser competitivos como en muchos juegos o cooperativos como en muchos sistemas multiagente del mundo real El aprendizaje multiagente estudia los problemas que se presentan en este entorno Generalizacion Editar La promesa del uso de herramientas de aprendizaje profundo en el aprendizaje por refuerzo es la generalizacion la capacidad de operar correctamente en entradas no vistas previamente Por ejemplo las redes neuronales entrenadas para el reconocimiento de imagenes pueden detectar que una imagen contiene un pajaro aunque nunca hayan visto esa imagen en particular o incluso ese pajaro en concreto Dado que la RL profunda admite datos brutos por ejemplo pixeles como entrada se reduce la necesidad de predefinir el entorno lo que permite generalizar el modelo a multiples aplicaciones Con esta capa de abstraccion los algoritmos de aprendizaje por refuerzo profundo pueden disenarse de forma que se generalicen y el mismo modelo pueda utilizarse para diferentes tareas Un metodo para aumentar la capacidad de generalizacion de las politicas entrenadas con RL profunda es incorporar el aprendizaje de representacion Vease tambien EditarAprendizaje profundo Aprendizaje por refuerzo Inteligencia artificialReferencias Editar Aprendizaje profundo por refuerzo IIC Instituto de Ingenieria del Conocimiento Consultado el 3 de diciembre de 2021 Arranz Janeiro Ricardo 2019 Aprendizaje por refuerzo profundo aplicado a juegos sencillos eprints ucm es Consultado el 3 de diciembre de 2021 Julian Guillermo 30 de diciembre de 2014 Las redes neuronales que son y por que estan volviendo Xataka Consultado el 3 de diciembre de 2021 DeepMind What if solving one problem could unlock solutions to thousands more Deepmind Consultado el 3 de diciembre de 2021 La Historia de Atari NeoTeo 18 de junio de 2019 Consultado el 3 de diciembre de 2021 Aprendizaje por refuerzo algoritmo Q Learning Fernando Sancho Caparrini www cs us es Consultado el 3 de diciembre de 2021 Redes neuronales convolucionales son un tipo de redes neuronales Juan Barrios 15 de junio de 2019 Consultado el 3 de diciembre de 2021 Frutos Ana Munoz de 2 de diciembre de 2017 Que es DeepMind Alpha Go ComputerHoy Consultado el 3 de diciembre de 2021 Go Reglas del juego www ludoteka com Consultado el 3 de diciembre de 2021 AlphaZero la inteligencia artificial con intuicion humana La Vanguardia 7 de agosto de 2019 Consultado el 3 de diciembre de 2021 BrainKing Reglas de los juegos Shogi brainking com Consultado el 3 de diciembre de 2021 Sanchez Migallon Santiago 2 de mayo de 2020 La busqueda de maquinas conscientes de MuZero a LIDA Xataka Consultado el 3 de diciembre de 2021 Informacion sobre Carnegie Mellon University en Estados Unidos www hotcourseslatinoamerica com Consultado el 3 de diciembre de 2021 Definicion de poker Definicion de Definicion de Consultado el 3 de diciembre de 2021 Por que es tan popular Dota 2 y de que trata el videojuego eGames Consultado el 3 de diciembre de 2021 Enlaces externos EditarSobre redes neuronales Para saber mas de Aprendizaje Q Sobre rredes neuronales convolucionales Estudio de la Universidad de Carnegie Mellon Conceptos de inteligencia artificial que es el aprendizaje por refuerzo Xataka Obtenido de https es wikipedia org w index php title Aprendizaje de refuerzo profundo amp oldid 142583929, wikipedia, wiki, leyendo, leer, libro, biblioteca,

español

, española, descargar, gratis, descargar gratis, mp3, video, mp4, 3gp, jpg, jpeg, gif, png, imagen, música, canción, película, libro, juego, juegos