fbpx
Wikipedia

Aprendizaje por refuerzo

El aprendizaje por refuerzo o aprendizaje reforzado (en inglés, reinforcement learning) es un área del aprendizaje automático inspirada en la psicología conductista, cuya ocupación es determinar qué acciones debe escoger un agente de software en un entorno dado con el fin de maximizar alguna noción de "recompensa" o premio acumulado. El problema, por su generalidad, se estudia en muchas otras disciplinas, como la teoría de juegos, teoría de control, investigación de operaciones, teoría de la información, la optimización basada en la simulación, estadística y algoritmos genéticos. En otros campos de investigación, donde se estudian los métodos de aprendizaje de refuerzo, se lo conoce como programación dinámica aproximada. El problema se ha estudiado en la teoría de control óptimo, aunque la mayoría de los estudios se centran en la existencia de soluciones óptimas y su caracterización, no en los aspectos de aprendizaje o de aproximación. En la economía y en teoría de juegos, el aprendizaje por refuerzo se puede utilizar para explicar cómo puede surgir equilibrio en condiciones de racionalidad limitada. En aprendizaje de máquina, el medio ambiente es formulado generalmente como un proceso de decisión de Markov (MDP) y muchos algoritmos de aprendizaje por refuerzo están estrechamente relacionados con técnicas de la programación dinámica. La principal diferencia entre las técnicas clásicas y los algoritmos de aprendizaje por refuerzo es que para estos últimos no es necesario el conocimiento de los MDP y se dirigen a grandes MDP donde los métodos exactos se convierten en no viables. El aprendizaje por refuerzo difiere del estándar de aprendizaje supervisado en el que los pares de entradas / salidas correctas nunca se presentan, ni acciones subóptimas corregidas explícitamente. Además, hay un enfoque en el rendimiento en línea, que consiste en encontrar un equilibrio entre la exploración (de un territorio desconocido) y explotación (de los conocimientos actuales).

El encuadre típico de un escenario de Aprendizaje de refuerzo (AR): un agente toma acciones en un entorno, que se interpreta en una recompensa y una representación del estado, que se retroalimentan al agente.

Introducción

El modelo básico de aprendizaje por refuerzo consiste en:

  1. Un conjunto de estados de entorno  ;
  2. Un conjunto de acciones  ;
  3. Reglas de la transición entre los estados;
  4. Reglas que determinan la recompensa inmediata escalar de una transición;
  5. Reglas que describen lo que observa el agente.

Las reglas son a menudo estocásticas. La observación implica típicamente la recompensa inmediata al escalar asociado con la última transición. En escenarios, el agente también supone que observa el estado actual del medio ambiente, en cuyo caso se habla de plena observabilidad, mientras que en el caso contrario se habla de observabilidad parcial. A veces, el conjunto de acciones disponibles para el agente está restringido; por ejemplo, no se puede gastar más dinero del que se posee. Un agente de refuerzo de aprendizaje interactúa con su entorno en pasos de tiempo discretos. En cada tiempo de  , el agente recibe una observación  , que normalmente incluye la recompensa  . Se elige entonces una acción   del conjunto de acciones, que se envía posteriormente al medio ambiente. El entorno se mueve a un nuevo estado   y la recompensa   asociada con la transición   se determina. El objetivo de un agente de aprendizaje por refuerzo es recoger tanta recompensa como sea posible. El agente puede elegir cualquier acción en función de la historia e incluso puede aleatorizar su selección de acciones. Cuando el rendimiento del agente se compara al de un agente que actúa de manera óptima desde el principio, la diferencia entre estos da lugar a la noción de arrepentimiento. Nótese que para poder actuar cerca de manera óptima, el agente debe razonar sobre las consecuencias a largo plazo de sus acciones: «con el fin de maximizar mis ingresos futuros sería mejor ir a la escuela ahora, a pesar de que la recompensa monetaria inmediata asociada a esto podría ser negativa». Por lo tanto, el aprendizaje por refuerzo es especialmente adecuado para los problemas que incluyen un razonamiento a largo plazo frente a uno a corto plazo. Se ha aplicado con éxito a diversos problemas, entre ellos, el control de robots, telecomunicaciones, backgammon y damas. Dos componentes hacen aprendizaje por refuerzo de gran alcance: el uso de muestras para optimizar el rendimiento y el uso de la función de aproximación para hacer frente a entornos de gran tamaño. Gracias a estos dos componentes clave, el aprendizaje por refuerzo se puede utilizar en entornos de un tamaño considerable en cualquiera de las situaciones siguientes:

  • Un modelo del entorno es conocido, pero una solución analítica no está disponible;
  • Solamente un modelo de simulación del medio ambiente se da (el tema de la optimización basada en la simulación);
  • La única manera de recopilar información sobre el medio ambiente es mediante la interacción con él.

Los dos primeros de estos problemas podrían ser considerados problemas de planificación (desde alguna forma si el modelo está disponible), mientras que el último podría ser considerado como un problema de aprendizaje clásico. Sin embargo, bajo una metodología de aprendizaje por refuerzo, los problemas de planificación se convierten en problemas de aprendizaje automático.

Exploración

El problema del aprendizaje de refuerzo, como se ha descrito, requiere mecanismos de exploración inteligente. Seleccionar al azar acciones, sin hacer referencia a una distribución de probabilidad estimada que se conoce, da lugar a un rendimiento muy pobre. El caso de (pequeños) MDP finitos está relativamente bien entendido por ahora. Sin embargo, debido a la falta de algoritmos que escalen bien con el número de estados, en la práctica, la gente recurre a métodos de exploración simples. Uno de tales métodos es  -greedy, cuando el agente elige la acción que se cree tiene el mejor efecto a largo plazo, con una probabilidad  , y, de lo contrario, se elige una acción uniformemente al azar. Aquí,   es un parámetro de ajuste, que a veces se cambia, ya sea de acuerdo con un horario fijo (por lo que el agente explorar menos como pasa el tiempo), ya de forma adaptativa basada en algunas heurísticas (Tokic y Palma, 2011).

Algoritmos para el control de aprendizaje

Aunque el tema de la exploración se tiene en cuenta, e incluso si el estado era observable (que asumimos a partir de ahora), el problema sigue siendo saber qué acciones son buenas basadas en la experiencia pasada.

Criterio de optimalidad

Para simplificar, supongamos por un momento que el problema estudiado es episódico, un episodio que termina cuando se alcanza un estado terminal. Supongamos, además, que no importa el curso de las acciones que toma el agente, la terminación es inevitable. Bajo ciertas condiciones de regularidad adicional está entonces bien definida la expectativa de la recompensa total para cualquier política y cualquier distribución inicial sobre los estados. En este sentido, una política se refiere a una asignación de cierta distribución de probabilidad sobre las acciones a todas las historias posibles. Dada una distribución inicial fija  , Que por lo tanto podemos asignar el retorno esperado   a la política  :  donde la variable aleatoria   denota el retorno y se define por:  donde   es la recompensa recibida después de la  -ésima transición, el estado inicial se realiza un muestreo al azar de   y las acciones son seleccionados por la política  . Aquí,   denota el tiempo aleatorio cuando se alcanza un estado terminal, es decir, el momento en que el episodio termina. En el caso de problemas no episódicos el retorno a menudo se descuenta,:  dando lugar a la esperado criterio de recompensa para un descuento total.   es el llamado factor de descuento. Desde el retorno sin descontar es un caso especial de la devolución de descuento, a partir de ahora asumiremos el descuento. Aunque esto parece bastante inocente, el descuento es de hecho un problema si uno se preocupa por el rendimiento en línea. Esto se debe a que el descuento hace que el tiempo inicial de los pasos más importantes. Puesto que un agente de aprendizaje es probable que cometa errores durante los primeros pasos después de sus inicios "vida", ningún algoritmo de aprendizaje desinformado puede lograr un rendimiento casi óptimo en el descuento, incluso si la clase de entornos está restringida a la de PDM finitos. (Esto no significa sin embargo que, dado el tiempo suficiente, un agente de aprendizaje no puede entender cómo actuar casi de forma óptima, si el tiempo se ha reiniciado.) El problema entonces es especificar un algoritmo que puede ser usado para encontrar una póliza con el máximo rendimiento esperado. De la teoría de la PDM se sabe que, sin pérdida de generalidad, la búsqueda puede ser restringida al conjunto de las llamadas políticas estacionarias. Una política se llama estacionaria si la acción de distribución que devuelve solo depende del último estado visitado (que es parte de la historia de la observación del agente, por nuestro supuesto simplificador). De hecho, la búsqueda se puede restringir aún más a las políticas estacionarias deterministas. Una política estacionaria determinista es aquella que selecciona de manera determinista acciones basadas en el estado actual. Desde cualquiera de estas políticas puede ser identificadas con una correspondencia entre el conjunto de estados en el conjunto de acciones, estas políticas se pueden identificar con este tipo de asignaciones, sin pérdida de generalidad.

Fuerza bruta

El enfoque por fuerza bruta implica las dos etapas siguientes:

  1. Para cada política posible, muestrear resultados.
  2. Elija la política con el mayor retorno esperado.

Un problema con esto es que el número de políticas puede ser extremadamente grande, o incluso infinito. Otra es que la varianza de los rendimientos podría ser grande, en cuyo caso se requiere un gran número de muestras para estimar con precisión el retorno de cada política. Estos problemas se pueden aliviar utilizamos alguna estructura y permitir que las muestras sean generadas a partir de una política para influir en las estimaciones realizadas por otro. Los dos enfoques principales para conseguirlo son función de la estimación del valor y la búsqueda de políticas directas.

Acercamiento al valor de la función

Las funciones de valor intentan encontrar una política que maximice el retorno al mantener un conjunto de estimaciones de los rendimientos esperados por alguna política (por lo general, ya sea la "corriente" o la óptima). Estos métodos se basan en la teoría de los PDM, donde optimalidad se define en un sentido que es más fuerte que los anteriores: Una política se llama óptima si se logra un mejor rendimiento esperado en cualquier estado inicial (es decir, las distribuciones iniciales no juegan ningún papel en esta definición). Una vez más, siempre se puede encontrar una política óptima entre las políticas estacionarias. Para definir la optimalidad de una manera formal, definir el valor de una política   por:   donde   significa el regreso al azar asociado con las siguientes   desde el estado inicial  . Se define   como el valor máximo posible de  , en donde   se le permite cambiar:   Una política que alcanza estos valores óptimos en cada estado se llama óptima. Es evidente que una política óptima en este sentido fuerte también es óptima en el sentido de que maximiza el rendimiento esperado  , desde  , en donde   es un estado de la muestra al azar de la distribución  . Aunque los valores de estado son suficientes para definir el óptimo, que demostrará ser útil para definir la acción-valores. Dado un estado  , Una acción   y una política de  , La acción-valor del par   bajo   se define por:  donde, ahora,   significa el retorno aleatorio asociado con la primera toma de acción   en el estado de   y siguiendo  ,, a partir de entonces. Es bien conocido a partir de la teoría de los PDM que si alguien nos da   para una política óptima, siempre podemos optar por acciones óptimas simplemente eligiendo la acción con el valor más alto en cada estado. La función de acción-valor de una política óptima se llama la función óptima acción-valor y se representa por  . Suponiendo pleno conocimiento de la MDP, hay dos enfoques básicos para calcular la función óptima acción del valor, valor de iteración y la política de repetición. Ambos algoritmos calcular una secuencia de funciones   ( ) Que convergen a  .

Método de Montecarlo

Los Método de Montecarlo más simples se pueden usar en un algoritmo que imita políticas de iteración. La política de iteración consta de dos etapas: la evaluación y mejora. Los Método de Montecarlo se utilizan en la etapa de evaluación. En este paso, dado, la política determinista estacionaria  , el objetivo es calcular los valores de la función   (O una buena aproximación a ellas) para todos los pares estado-acción  . Supongamos (por simplicidad) que el MDP es finito y que hay una tabla de acciones por estados en la memoria. Además, se supone que el problema es episódico y después de cada episodio uno nuevo comienza a partir de un estado inicial aleatorio. Entonces, la estimación del valor de un par estado-acción determinada  se puede calcular simplemente el promedio de los rendimientos de la muestra que se originaron a partir de  Dado el tiempo suficiente, este procedimiento puede así construir una estimación precisa   de la función de la acción-valor  . Aquí termina la descripción de la etapa de evaluación de políticas. En la etapa de mejora de las políticas, como se hace en el algoritmo de iteración, la siguiente política se obtiene mediante el cálculo de una política greedy con respecto a  : Dado un estado  , la nueva política devuelve una acción que maximiza  . En la práctica a menudo se evita el cómputo y el almacenamiento de la nueva política, pero utiliza la evaluación perezosa para aplazar el cómputo de las acciones que maximizan cuando realmente sea necesario. Este procedimiento puede acarrear algunos problemas como los siguientes:

  • Se puede perder mucho tiempo en la evaluación de una política subóptima;
  • Utilizar muestras de manera ineficiente
  • Cuando las trayectorias tienen una alta varianza, la convergencia será lenta;
  • Funciona solo en los problemas episódicos;
  • Actúa en solo MDPs pequeños y finitos.

Métodos de diferencias temporales

El primer problema se puede corregir fácilmente, permitiendo que el procedimiento pueda cambiar la política (en todos, o en algunos estados) antes de que los valores se establezcan. Por muy bueno que parezca, esto puede ser peligroso, ya que esto podría impedir la convergencia. Sin embargo, la mayoría de los algoritmos actuales implementan esta idea, dando lugar a la clase de algoritmo de iteración política generalizada. Observamos de pasada que el actor crítico métodos pertenecen a esta categoría. El segundo problema se puede corregir en el algoritmo, permitiendo trayectorias para contribuir a cualquier par estado-acción en ellos. Esto también puede ayudar, hasta cierto punto con el tercer problema, aunque una solución mejor cuando los rendimientos tienen alta varianza es utilizar diferencia temporal de Sutton (TD) métodos que se basan en la recursiva ecuación de Bellman. Tenga en cuenta que el cálculo en métodos TD puede ser incrementales (cuando después de cada transición de la memoria se cambia y la transición se desecha), o por lotes (cuando se recogen las transiciones y luego las estimaciones se calculan una vez sobre la base de un gran número de transiciones). El métodos por lotes, un excelente ejemplo de lo que es el método de mínimos cuadrados diferencia temporal debido al Bradtke and Barto(1996), puede utilizar la información de las muestras mejor, mientras que los métodos incrementales son la única opción cuando los métodos de proceso por lotes se convierten en inviable debido a su alta computacional o la complejidad de la memoria. Además, existen métodos que tratan de unificar las ventajas de los dos enfoques. Con el fin de abordar la última cuestión mencionada en el apartado anterior, se utilizan métodos de aproximación de funciones. En la aproximación función lineal se parte de una asignación   que asigna un vector de dimensión finita a cada par estado-acción. Entonces, los valores de acción de un par estado-acción   se obtienen mediante la combinación lineal de los componentes   con algunos pesos  :: . La aproximación lineal de la función no es la única opción. Más recientemente, los métodos basados en las ideas de estadística no paramétrica se han explorado (que se pueden ver para construir sus propias características). Hasta ahora, la discusión se limita a la forma de iteración política se puede utilizar como base de los algoritmos de aprendizaje de refuerzo diseño. Igualmente importante, el valor de iteración también se puede utilizar como punto de partida, dando lugar al algoritmo Q-aprendizaje (Watkins 1989) y sus muchas variantes. El problema con los métodos que utilizan los valores de acción es que es posible que necesiten estimaciones muy precisas de los valores de acción de la competencia, que pueden ser difíciles de obtener cuando los rendimientos son ruidosos. Aunque este problema se mitiga en cierta medida por métodos de diferencias temporales y si se utiliza el llamado método de aproximación de funciones compatibles, queda mucho trabajo por hacer para aumentar la generalidad y la eficiencia. Otro problema específico de los métodos de diferencia temporal viene de su dependencia de la ecuación de Bellman recursiva. La mayoría de los métodos de diferencias temporales han llamado así a   parámetro   que permite a interpolar de forma continua entre los métodos de Monte-Carlo (que no se basan en las ecuaciones de Bellman) y los métodos de diferencias temporales básicas (que se basan exclusivamente en las ecuaciones de Bellman), que pueden por lo tanto ser eficaz para paliar este problema.

Búsqueda política directa

Un método alternativo para encontrar una buena política es buscar directamente en (algún subconjunto) del espacio de la política, en cuyo caso el problema se convierte en una instancia de optimización estocástica. Los dos enfoques disponibles se basan en el gradiente y métodos de gradiente libre. Métodos basados en gradiente (que dan lugar a los denominados métodos de política gradiente) comienzan con una asignación de un (parámetro) espacio de dimensión finita al espacio de políticas: dado el vector de parámetros  , dado   denotar la política asociada a  . Definir la función de rendimiento por:   Bajo condiciones suaves esta función será diferenciable como una función del vector de parámetros  . Si el gradiente de   era conocido, se podría utilizar gradiente de ascenso. Desde una expresión analítica para el gradiente no está disponible, uno debe confiar en una estimación ruidosa. Tal estimación puede construirse de muchas maneras, dando lugar a algoritmos como el método Williams' Reinforce. Una gran clase de métodos evita confiar en la información de gradiente. Estos incluyen el recocido simulado, búsqueda de entropía cruzada o métodos de computación evolutiva. Muchos métodos de gradiente libre pueden alcanzar (en la teoría y en el límite) de un óptimo global. En un número de casos que de hecho han demostrado un rendimiento notable. El problema con los métodos de búsqueda es que pueden converger lentamente si la información basada en el que actúan es ruidosa. Por ejemplo, esto sucede cuando está en problemas episódicos las trayectorias son largas y la varianza de los retornos es grande. Como se ha argumentado antes, los métodos basados en el valor de funciones que se basan en diferencias temporales podrían ayudar en este caso. En los últimos años se han propuesto varios algoritmos actor y crítico siguiendo esta idea y han demostrado un buen desempeño en diversos problemas.

Teoría

La teoría de las pequeñas MDP, finitos es bastante madura. Tanto el comportamiento asintótico como el de muestra finita de la mayoría de los algoritmos es bien entendido. Como se mencionó previamente, se conocen algoritmos con demostrablemente buen desempeño en línea. La teoría de la gran MDP necesita más trabajo. Exploración eficiente es en gran parte intacta (salvo para el caso de problemas de bandidos). Aunque los límites de rendimiento en tiempo finito aparecieron muchos algoritmos en los últimos años, se espera que estos límites mejores ya que son bastante vagos y por lo tanto se necesita más trabajo para comprender mejor las ventajas relativas, así como las limitaciones de estos algoritmos. Para algoritmos incrementales se han resuelto problemas de convergencia asintótica. Recientemente, nuevos algoritmos incrementales temporales basados en diferencias han aparecido que convergen en un conjunto mucho más amplio de condiciones de lo que era posible anteriormente.

Referencias

  • Williams, Ronald J. (1987). «A class of gradient-estimating algorithms for reinforcement learning in neural networks». Proceedings of the IEEE First International Conference on Neural Networks. 
  • Sutton, Richard S. (1988). «Learning to predict by the method of temporal differences». Machine Learning (Springer) 3: 9-44. doi:10.1007/BF00115009. 
  • Bradtke, Steven J.; Andrew G. Barto (1996). «Learning to predict by the method of temporal differences». Machine Learning (Springer) 22: 33-57. doi:10.1023/A:1018056104778. 
  • Bertsekas, Dimitri P.; John Tsitsiklis (1996). Neuro-Dynamic Programming. Nashua, NH: Athena Scientific. ISBN 1-886529-10-8. 
  • Kaelbling, Leslie P.; Michael L. Littman; Andrew W. Moore (1996). «Reinforcement Learning: A Survey». Journal of Artificial Intelligence Research 4: 237-285. Archivado desde el original el 20 de noviembre de 2001. 
  • Sutton, Richard S.; Barto, Andrew G. (1998). . MIT Press. ISBN 0-262-19398-1. Archivado desde el original el 4 de septiembre de 2009.  Versión revisada del libro (2018).
  • Peters, Jan; Sethu Vijayakumar; Stefan Schaal (2003). «Reinforcement Learning for Humanoid Robotics». IEEE-RAS International Conference on Humanoid Robots. 
  • Powell, Warren (2007). Approximate dynamic programming: solving the curses of dimensionality. Wiley-Interscience. ISBN 0-470-17155-3. 
  • Auer, Peter; Thomas Jaksch; Ronald Ortner (2010). «Near-optimal regret bounds for reinforcement learning». Journal of Machine Learning Research 11: 1563-1600. 
  • Szita, Istvan; Csaba Szepesvari (2010). «Model-based Reinforcement Learning with Nearly Tight Exploration Complexity Bounds». ICML 2010. Omnipress. pp. 1031-1038. Archivado desde el original|urlarchivo= requiere |url= (ayuda) el 16 de mayo de 2016. 
  • Bertsekas, Dimitri P. (agosto de 2010). «Chapter 6 (online): Approximate Dynamic Programming». Dynamic Programming and Optimal Control II (3 edición). 
  • Busoniu, Lucian; Robert Babuska; Bart De Schutter; Damien Ernst (2010). Reinforcement Learning and Dynamic Programming using Function Approximators. Taylor & Francis CRC Press. ISBN 978-1-4398-2108-4. 
  • Tokic, Michel; Günther Palm (2011). «Value-Difference Based Exploration: Adaptive Control between Epsilon-Greedy and Softmax». KI 2011: Advances in Artificial Intelligence. Lecture Notes in Computer Science 7006. Springer Berlin / Heidelberg. pp. 335-346. 

Enlaces externos

  • (Sutton's lab at the University of Alberta) (en inglés)
  • Autonomous Learning Laboratory (Barto's lab at the University of Massachusetts Amherst) (en inglés)
  • RL-Glue (en inglés)
  • Software Tools for Reinforcement Learning (Matlab and Python) (en inglés)
  • (en inglés)
  • (en inglés)
  • (en inglés)
  • Piqle: a Generic Java Platform for Reinforcement Learning (en inglés)
  • (en inglés)
  • (en inglés)
  • Scholarpedia Reinforcement Learning (en inglés)
  • Scholarpedia Temporal Difference Learning (en inglés)
  • (en inglés)
  • at Delft University of Technology (en inglés)
  • Reinforcement Learning Tools for Matlab (en inglés)
  • Stanford University Andrew Ng Lecture on Reinforcement Learning (en inglés)
  • Relative Entropy Policy Search (en inglés)
  •   Datos: Q830687
  •   Multimedia: Category:Reinforcement learning

aprendizaje, refuerzo, este, artículo, sección, necesita, revisión, ortografía, gramática, puedes, colaborar, editándolo, cuando, haya, corregido, puedes, borrar, este, aviso, iniciado, sesión, puedes, ayudarte, corrector, ortográfico, activándolo, preferencia. Este articulo o seccion necesita una revision de ortografia y gramatica Puedes colaborar editandolo Cuando se haya corregido puedes borrar este aviso Si has iniciado sesion puedes ayudarte del corrector ortografico activandolo en Mis preferencias Accesorios Navegacion El corrector ortografico resalta errores ortograficos con un fondo rojo Este aviso fue puesto el 22 de octubre de 2018 El aprendizaje por refuerzo o aprendizaje reforzado en ingles reinforcement learning es un area del aprendizaje automatico inspirada en la psicologia conductista cuya ocupacion es determinar que acciones debe escoger un agente de software en un entorno dado con el fin de maximizar alguna nocion de recompensa o premio acumulado El problema por su generalidad se estudia en muchas otras disciplinas como la teoria de juegos teoria de control investigacion de operaciones teoria de la informacion la optimizacion basada en la simulacion estadistica y algoritmos geneticos En otros campos de investigacion donde se estudian los metodos de aprendizaje de refuerzo se lo conoce como programacion dinamica aproximada El problema se ha estudiado en la teoria de control optimo aunque la mayoria de los estudios se centran en la existencia de soluciones optimas y su caracterizacion no en los aspectos de aprendizaje o de aproximacion En la economia y en teoria de juegos el aprendizaje por refuerzo se puede utilizar para explicar como puede surgir equilibrio en condiciones de racionalidad limitada En aprendizaje de maquina el medio ambiente es formulado generalmente como un proceso de decision de Markov MDP y muchos algoritmos de aprendizaje por refuerzo estan estrechamente relacionados con tecnicas de la programacion dinamica La principal diferencia entre las tecnicas clasicas y los algoritmos de aprendizaje por refuerzo es que para estos ultimos no es necesario el conocimiento de los MDP y se dirigen a grandes MDP donde los metodos exactos se convierten en no viables El aprendizaje por refuerzo difiere del estandar de aprendizaje supervisado en el que los pares de entradas salidas correctas nunca se presentan ni acciones suboptimas corregidas explicitamente Ademas hay un enfoque en el rendimiento en linea que consiste en encontrar un equilibrio entre la exploracion de un territorio desconocido y explotacion de los conocimientos actuales El encuadre tipico de un escenario de Aprendizaje de refuerzo AR un agente toma acciones en un entorno que se interpreta en una recompensa y una representacion del estado que se retroalimentan al agente Indice 1 Introduccion 2 Exploracion 3 Algoritmos para el control de aprendizaje 3 1 Criterio de optimalidad 3 2 Fuerza bruta 3 3 Acercamiento al valor de la funcion 3 3 1 Metodo de Montecarlo 3 3 2 Metodos de diferencias temporales 3 4 Busqueda politica directa 4 Teoria 5 Referencias 6 Enlaces externosIntroduccion EditarEl modelo basico de aprendizaje por refuerzo consiste en Un conjunto de estados de entorno S displaystyle S Un conjunto de acciones A displaystyle A Reglas de la transicion entre los estados Reglas que determinan la recompensa inmediata escalar de una transicion Reglas que describen lo que observa el agente Las reglas son a menudo estocasticas La observacion implica tipicamente la recompensa inmediata al escalar asociado con la ultima transicion En escenarios el agente tambien supone que observa el estado actual del medio ambiente en cuyo caso se habla de plena observabilidad mientras que en el caso contrario se habla de observabilidad parcial A veces el conjunto de acciones disponibles para el agente esta restringido por ejemplo no se puede gastar mas dinero del que se posee Un agente de refuerzo de aprendizaje interactua con su entorno en pasos de tiempo discretos En cada tiempo de t displaystyle t el agente recibe una observacion o t displaystyle o t que normalmente incluye la recompensa r t displaystyle r t Se elige entonces una accion a t displaystyle a t del conjunto de acciones que se envia posteriormente al medio ambiente El entorno se mueve a un nuevo estado s t 1 displaystyle s t 1 y la recompensa r t 1 displaystyle r t 1 asociada con la transicion s t a t s t 1 displaystyle s t a t s t 1 se determina El objetivo de un agente de aprendizaje por refuerzo es recoger tanta recompensa como sea posible El agente puede elegir cualquier accion en funcion de la historia e incluso puede aleatorizar su seleccion de acciones Cuando el rendimiento del agente se compara al de un agente que actua de manera optima desde el principio la diferencia entre estos da lugar a la nocion de arrepentimiento Notese que para poder actuar cerca de manera optima el agente debe razonar sobre las consecuencias a largo plazo de sus acciones con el fin de maximizar mis ingresos futuros seria mejor ir a la escuela ahora a pesar de que la recompensa monetaria inmediata asociada a esto podria ser negativa Por lo tanto el aprendizaje por refuerzo es especialmente adecuado para los problemas que incluyen un razonamiento a largo plazo frente a uno a corto plazo Se ha aplicado con exito a diversos problemas entre ellos el control de robots telecomunicaciones backgammon y damas Dos componentes hacen aprendizaje por refuerzo de gran alcance el uso de muestras para optimizar el rendimiento y el uso de la funcion de aproximacion para hacer frente a entornos de gran tamano Gracias a estos dos componentes clave el aprendizaje por refuerzo se puede utilizar en entornos de un tamano considerable en cualquiera de las situaciones siguientes Un modelo del entorno es conocido pero una solucion analitica no esta disponible Solamente un modelo de simulacion del medio ambiente se da el tema de la optimizacion basada en la simulacion La unica manera de recopilar informacion sobre el medio ambiente es mediante la interaccion con el Los dos primeros de estos problemas podrian ser considerados problemas de planificacion desde alguna forma si el modelo esta disponible mientras que el ultimo podria ser considerado como un problema de aprendizaje clasico Sin embargo bajo una metodologia de aprendizaje por refuerzo los problemas de planificacion se convierten en problemas de aprendizaje automatico Exploracion EditarEl problema del aprendizaje de refuerzo como se ha descrito requiere mecanismos de exploracion inteligente Seleccionar al azar acciones sin hacer referencia a una distribucion de probabilidad estimada que se conoce da lugar a un rendimiento muy pobre El caso de pequenos MDP finitos esta relativamente bien entendido por ahora Sin embargo debido a la falta de algoritmos que escalen bien con el numero de estados en la practica la gente recurre a metodos de exploracion simples Uno de tales metodos es ϵ displaystyle epsilon greedy cuando el agente elige la accion que se cree tiene el mejor efecto a largo plazo con una probabilidad 1 ϵ displaystyle 1 epsilon y de lo contrario se elige una accion uniformemente al azar Aqui 0 lt ϵ lt 1 displaystyle 0 lt epsilon lt 1 es un parametro de ajuste que a veces se cambia ya sea de acuerdo con un horario fijo por lo que el agente explorar menos como pasa el tiempo ya de forma adaptativa basada en algunas heuristicas Tokic y Palma 2011 Algoritmos para el control de aprendizaje EditarAunque el tema de la exploracion se tiene en cuenta e incluso si el estado era observable que asumimos a partir de ahora el problema sigue siendo saber que acciones son buenas basadas en la experiencia pasada Criterio de optimalidad Editar Para simplificar supongamos por un momento que el problema estudiado es episodico un episodio que termina cuando se alcanza un estado terminal Supongamos ademas que no importa el curso de las acciones que toma el agente la terminacion es inevitable Bajo ciertas condiciones de regularidad adicional esta entonces bien definida la expectativa de la recompensa total para cualquier politica y cualquier distribucion inicial sobre los estados En este sentido una politica se refiere a una asignacion de cierta distribucion de probabilidad sobre las acciones a todas las historias posibles Dada una distribucion inicial fija m displaystyle mu Que por lo tanto podemos asignar el retorno esperado r p displaystyle rho pi a la politica p displaystyle pi r p E R p displaystyle rho pi E R pi donde la variable aleatoria R displaystyle R denota el retorno y se define por R t 0 N 1 r t 1 displaystyle R sum t 0 N 1 r t 1 donde r t 1 displaystyle r t 1 es la recompensa recibida despues de la t displaystyle t esima transicion el estado inicial se realiza un muestreo al azar de m displaystyle mu y las acciones son seleccionados por la politica p displaystyle pi Aqui N displaystyle N denota el tiempo aleatorio cuando se alcanza un estado terminal es decir el momento en que el episodio termina En el caso de problemas no episodicos el retorno a menudo se descuenta R t 0 g t r t 1 displaystyle R sum t 0 infty gamma t r t 1 dando lugar a la esperado criterio de recompensa para un descuento total 0 g 1 displaystyle 0 leq gamma leq 1 es el llamado factor de descuento Desde el retorno sin descontar es un caso especial de la devolucion de descuento a partir de ahora asumiremos el descuento Aunque esto parece bastante inocente el descuento es de hecho un problema si uno se preocupa por el rendimiento en linea Esto se debe a que el descuento hace que el tiempo inicial de los pasos mas importantes Puesto que un agente de aprendizaje es probable que cometa errores durante los primeros pasos despues de sus inicios vida ningun algoritmo de aprendizaje desinformado puede lograr un rendimiento casi optimo en el descuento incluso si la clase de entornos esta restringida a la de PDM finitos Esto no significa sin embargo que dado el tiempo suficiente un agente de aprendizaje no puede entender como actuar casi de forma optima si el tiempo se ha reiniciado El problema entonces es especificar un algoritmo que puede ser usado para encontrar una poliza con el maximo rendimiento esperado De la teoria de la PDM se sabe que sin perdida de generalidad la busqueda puede ser restringida al conjunto de las llamadas politicas estacionarias Una politica se llama estacionaria si la accion de distribucion que devuelve solo depende del ultimo estado visitado que es parte de la historia de la observacion del agente por nuestro supuesto simplificador De hecho la busqueda se puede restringir aun mas a las politicas estacionarias deterministas Una politica estacionaria determinista es aquella que selecciona de manera determinista acciones basadas en el estado actual Desde cualquiera de estas politicas puede ser identificadas con una correspondencia entre el conjunto de estados en el conjunto de acciones estas politicas se pueden identificar con este tipo de asignaciones sin perdida de generalidad Fuerza bruta Editar El enfoque por fuerza bruta implica las dos etapas siguientes Para cada politica posible muestrear resultados Elija la politica con el mayor retorno esperado Un problema con esto es que el numero de politicas puede ser extremadamente grande o incluso infinito Otra es que la varianza de los rendimientos podria ser grande en cuyo caso se requiere un gran numero de muestras para estimar con precision el retorno de cada politica Estos problemas se pueden aliviar utilizamos alguna estructura y permitir que las muestras sean generadas a partir de una politica para influir en las estimaciones realizadas por otro Los dos enfoques principales para conseguirlo son funcion de la estimacion del valor y la busqueda de politicas directas Acercamiento al valor de la funcion Editar Las funciones de valor intentan encontrar una politica que maximice el retorno al mantener un conjunto de estimaciones de los rendimientos esperados por alguna politica por lo general ya sea la corriente o la optima Estos metodos se basan en la teoria de los PDM donde optimalidad se define en un sentido que es mas fuerte que los anteriores Una politica se llama optima si se logra un mejor rendimiento esperado en cualquier estado inicial es decir las distribuciones iniciales no juegan ningun papel en esta definicion Una vez mas siempre se puede encontrar una politica optima entre las politicas estacionarias Para definir la optimalidad de una manera formal definir el valor de una politica p displaystyle pi por V p s E R s p displaystyle V pi s E R s pi donde R displaystyle R significa el regreso al azar asociado con las siguientes p displaystyle pi desde el estado inicial s displaystyle s Se define V s displaystyle V s como el valor maximo posible de V p s displaystyle V pi s en donde p displaystyle pi se le permite cambiar V s sup p V p s displaystyle V s sup limits pi V pi s Una politica que alcanza estos valores optimos en cada estado se llama optima Es evidente que una politica optima en este sentido fuerte tambien es optima en el sentido de que maximiza el rendimiento esperado r p displaystyle rho pi desde r p E V p S displaystyle rho pi E V pi S en donde S displaystyle S es un estado de la muestra al azar de la distribucion m displaystyle mu Aunque los valores de estado son suficientes para definir el optimo que demostrara ser util para definir la accion valores Dado un estado s displaystyle s Una accion a displaystyle a y una politica de p displaystyle pi La accion valor del par s a displaystyle s a bajo p displaystyle pi se define por Q p s a E R s a p displaystyle Q pi s a E R s a pi donde ahora R displaystyle R significa el retorno aleatorio asociado con la primera toma de accion a displaystyle a en el estado de s displaystyle s y siguiendo p displaystyle pi a partir de entonces Es bien conocido a partir de la teoria de los PDM que si alguien nos da Q displaystyle Q para una politica optima siempre podemos optar por acciones optimas simplemente eligiendo la accion con el valor mas alto en cada estado La funcion de accion valor de una politica optima se llama la funcion optima accion valor y se representa por Q displaystyle Q Suponiendo pleno conocimiento de la MDP hay dos enfoques basicos para calcular la funcion optima accion del valor valor de iteracion y la politica de repeticion Ambos algoritmos calcular una secuencia de funciones Q k displaystyle Q k k 0 1 2 displaystyle k 0 1 2 ldots Que convergen a Q displaystyle Q Metodo de Montecarlo Editar Los Metodo de Montecarlo mas simples se pueden usar en un algoritmo que imita politicas de iteracion La politica de iteracion consta de dos etapas la evaluacion y mejora Los Metodo de Montecarlo se utilizan en la etapa de evaluacion En este paso dado la politica determinista estacionaria p displaystyle pi el objetivo es calcular los valores de la funcion Q p s a displaystyle Q pi s a O una buena aproximacion a ellas para todos los pares estado accion s a displaystyle s a Supongamos por simplicidad que el MDP es finito y que hay una tabla de acciones por estados en la memoria Ademas se supone que el problema es episodico y despues de cada episodio uno nuevo comienza a partir de un estado inicial aleatorio Entonces la estimacion del valor de un par estado accion determinada s a displaystyle s a se puede calcular simplemente el promedio de los rendimientos de la muestra que se originaron a partir de s a displaystyle s a Dado el tiempo suficiente este procedimiento puede asi construir una estimacion precisa Q displaystyle Q de la funcion de la accion valor Q p displaystyle Q pi Aqui termina la descripcion de la etapa de evaluacion de politicas En la etapa de mejora de las politicas como se hace en el algoritmo de iteracion la siguiente politica se obtiene mediante el calculo de una politica greedy con respecto a Q displaystyle Q Dado un estado s displaystyle s la nueva politica devuelve una accion que maximiza Q s displaystyle Q s cdot En la practica a menudo se evita el computo y el almacenamiento de la nueva politica pero utiliza la evaluacion perezosa para aplazar el computo de las acciones que maximizan cuando realmente sea necesario Este procedimiento puede acarrear algunos problemas como los siguientes Se puede perder mucho tiempo en la evaluacion de una politica suboptima Utilizar muestras de manera ineficiente Cuando las trayectorias tienen una alta varianza la convergencia sera lenta Funciona solo en los problemas episodicos Actua en solo MDPs pequenos y finitos Metodos de diferencias temporales Editar El primer problema se puede corregir facilmente permitiendo que el procedimiento pueda cambiar la politica en todos o en algunos estados antes de que los valores se establezcan Por muy bueno que parezca esto puede ser peligroso ya que esto podria impedir la convergencia Sin embargo la mayoria de los algoritmos actuales implementan esta idea dando lugar a la clase de algoritmo de iteracion politica generalizada Observamos de pasada que el actor critico metodos pertenecen a esta categoria El segundo problema se puede corregir en el algoritmo permitiendo trayectorias para contribuir a cualquier par estado accion en ellos Esto tambien puede ayudar hasta cierto punto con el tercer problema aunque una solucion mejor cuando los rendimientos tienen alta varianza es utilizar diferencia temporal de Sutton TD metodos que se basan en la recursiva ecuacion de Bellman Tenga en cuenta que el calculo en metodos TD puede ser incrementales cuando despues de cada transicion de la memoria se cambia y la transicion se desecha o por lotes cuando se recogen las transiciones y luego las estimaciones se calculan una vez sobre la base de un gran numero de transiciones El metodos por lotes un excelente ejemplo de lo que es el metodo de minimos cuadrados diferencia temporal debido al Bradtke and Barto 1996 puede utilizar la informacion de las muestras mejor mientras que los metodos incrementales son la unica opcion cuando los metodos de proceso por lotes se convierten en inviable debido a su alta computacional o la complejidad de la memoria Ademas existen metodos que tratan de unificar las ventajas de los dos enfoques Con el fin de abordar la ultima cuestion mencionada en el apartado anterior se utilizan metodos de aproximacion de funciones En la aproximacion funcion lineal se parte de una asignacion ϕ displaystyle phi que asigna un vector de dimension finita a cada par estado accion Entonces los valores de accion de un par estado accion s a displaystyle s a se obtienen mediante la combinacion lineal de los componentes ϕ s a displaystyle phi s a con algunos pesos 8 displaystyle theta Q s a i 1 d 8 i ϕ i s a displaystyle Q s a sum limits i 1 d theta i phi i s a La aproximacion lineal de la funcion no es la unica opcion Mas recientemente los metodos basados en las ideas de estadistica no parametrica se han explorado que se pueden ver para construir sus propias caracteristicas Hasta ahora la discusion se limita a la forma de iteracion politica se puede utilizar como base de los algoritmos de aprendizaje de refuerzo diseno Igualmente importante el valor de iteracion tambien se puede utilizar como punto de partida dando lugar al algoritmo Q aprendizaje Watkins 1989 y sus muchas variantes El problema con los metodos que utilizan los valores de accion es que es posible que necesiten estimaciones muy precisas de los valores de accion de la competencia que pueden ser dificiles de obtener cuando los rendimientos son ruidosos Aunque este problema se mitiga en cierta medida por metodos de diferencias temporales y si se utiliza el llamado metodo de aproximacion de funciones compatibles queda mucho trabajo por hacer para aumentar la generalidad y la eficiencia Otro problema especifico de los metodos de diferencia temporal viene de su dependencia de la ecuacion de Bellman recursiva La mayoria de los metodos de diferencias temporales han llamado asi a l displaystyle lambda parametro 0 l 1 displaystyle 0 leq lambda leq 1 que permite a interpolar de forma continua entre los metodos de Monte Carlo que no se basan en las ecuaciones de Bellman y los metodos de diferencias temporales basicas que se basan exclusivamente en las ecuaciones de Bellman que pueden por lo tanto ser eficaz para paliar este problema Busqueda politica directa Editar Un metodo alternativo para encontrar una buena politica es buscar directamente en algun subconjunto del espacio de la politica en cuyo caso el problema se convierte en una instancia de optimizacion estocastica Los dos enfoques disponibles se basan en el gradiente y metodos de gradiente libre Metodos basados en gradiente que dan lugar a los denominados metodos de politica gradiente comienzan con una asignacion de un parametro espacio de dimension finita al espacio de politicas dado el vector de parametros 8 displaystyle theta dado p 8 displaystyle pi theta denotar la politica asociada a 8 displaystyle theta Definir la funcion de rendimiento por r 8 r p 8 displaystyle rho theta rho pi theta Bajo condiciones suaves esta funcion sera diferenciable como una funcion del vector de parametros 8 displaystyle theta Si el gradiente de r displaystyle rho era conocido se podria utilizar gradiente de ascenso Desde una expresion analitica para el gradiente no esta disponible uno debe confiar en una estimacion ruidosa Tal estimacion puede construirse de muchas maneras dando lugar a algoritmos como el metodo Williams Reinforce Una gran clase de metodos evita confiar en la informacion de gradiente Estos incluyen el recocido simulado busqueda de entropia cruzada o metodos de computacion evolutiva Muchos metodos de gradiente libre pueden alcanzar en la teoria y en el limite de un optimo global En un numero de casos que de hecho han demostrado un rendimiento notable El problema con los metodos de busqueda es que pueden converger lentamente si la informacion basada en el que actuan es ruidosa Por ejemplo esto sucede cuando esta en problemas episodicos las trayectorias son largas y la varianza de los retornos es grande Como se ha argumentado antes los metodos basados en el valor de funciones que se basan en diferencias temporales podrian ayudar en este caso En los ultimos anos se han propuesto varios algoritmos actor y critico siguiendo esta idea y han demostrado un buen desempeno en diversos problemas Teoria EditarLa teoria de las pequenas MDP finitos es bastante madura Tanto el comportamiento asintotico como el de muestra finita de la mayoria de los algoritmos es bien entendido Como se menciono previamente se conocen algoritmos con demostrablemente buen desempeno en linea La teoria de la gran MDP necesita mas trabajo Exploracion eficiente es en gran parte intacta salvo para el caso de problemas de bandidos Aunque los limites de rendimiento en tiempo finito aparecieron muchos algoritmos en los ultimos anos se espera que estos limites mejores ya que son bastante vagos y por lo tanto se necesita mas trabajo para comprender mejor las ventajas relativas asi como las limitaciones de estos algoritmos Para algoritmos incrementales se han resuelto problemas de convergencia asintotica Recientemente nuevos algoritmos incrementales temporales basados en diferencias han aparecido que convergen en un conjunto mucho mas amplio de condiciones de lo que era posible anteriormente Referencias EditarWilliams Ronald J 1987 A class of gradient estimating algorithms for reinforcement learning in neural networks Proceedings of the IEEE First International Conference on Neural Networks Sutton Richard S 1988 Learning to predict by the method of temporal differences Machine Learning Springer 3 9 44 doi 10 1007 BF00115009 Bradtke Steven J Andrew G Barto 1996 Learning to predict by the method of temporal differences Machine Learning Springer 22 33 57 doi 10 1023 A 1018056104778 La referencia utiliza el parametro obsoleto coautores ayuda Bertsekas Dimitri P John Tsitsiklis 1996 Neuro Dynamic Programming Nashua NH Athena Scientific ISBN 1 886529 10 8 La referencia utiliza el parametro obsoleto coautor ayuda Kaelbling Leslie P Michael L Littman Andrew W Moore 1996 Reinforcement Learning A Survey Journal of Artificial Intelligence Research 4 237 285 Archivado desde el original el 20 de noviembre de 2001 Sutton Richard S Barto Andrew G 1998 Reinforcement Learning An Introduction MIT Press ISBN 0 262 19398 1 Archivado desde el original el 4 de septiembre de 2009 La referencia utiliza el parametro obsoleto coautor ayuda Version revisada del libro 2018 Peters Jan Sethu Vijayakumar Stefan Schaal 2003 Reinforcement Learning for Humanoid Robotics IEEE RAS International Conference on Humanoid Robots La referencia utiliza el parametro obsoleto coauthors ayuda Powell Warren 2007 Approximate dynamic programming solving the curses of dimensionality Wiley Interscience ISBN 0 470 17155 3 Auer Peter Thomas Jaksch Ronald Ortner 2010 Near optimal regret bounds for reinforcement learning Journal of Machine Learning Research 11 1563 1600 Szita Istvan Csaba Szepesvari 2010 Model based Reinforcement Learning with Nearly Tight Exploration Complexity Bounds ICML 2010 Omnipress pp 1031 1038 Archivado desde el original urlarchivo requiere url ayuda el 16 de mayo de 2016 La referencia utiliza el parametro obsoleto coauthors ayuda Bertsekas Dimitri P agosto de 2010 Chapter 6 online Approximate Dynamic Programming Dynamic Programming and Optimal Control II 3 edicion Busoniu Lucian Robert Babuska Bart De Schutter Damien Ernst 2010 Reinforcement Learning and Dynamic Programming using Function Approximators Taylor amp Francis CRC Press ISBN 978 1 4398 2108 4 Tokic Michel Gunther Palm 2011 Value Difference Based Exploration Adaptive Control between Epsilon Greedy and Softmax KI 2011 Advances in Artificial Intelligence Lecture Notes in Computer Science 7006 Springer Berlin Heidelberg pp 335 346 Enlaces externos EditarReinforcement Learning and Artificial Intelligence Sutton s lab at the University of Alberta en ingles Autonomous Learning Laboratory Barto s lab at the University of Massachusetts Amherst en ingles RL Glue en ingles Software Tools for Reinforcement Learning Matlab and Python en ingles The UofA Reinforcement Learning Library texts en ingles The Reinforcement Learning Toolbox from the Graz University of Technology en ingles Hybrid reinforcement learning en ingles Piqle a Generic Java Platform for Reinforcement Learning en ingles A Short Introduction To Some Reinforcement Learning Algorithms en ingles Reinforcement Learning applied to Tic Tac Toe Game en ingles Scholarpedia Reinforcement Learning en ingles Scholarpedia Temporal Difference Learning en ingles Stanford Reinforcement Learning Course en ingles Real world reinforcement learning experiments at Delft University of Technology en ingles Reinforcement Learning Tools for Matlab en ingles Stanford University Andrew Ng Lecture on Reinforcement Learning en ingles Relative Entropy Policy Search en ingles Datos Q830687 Multimedia Category Reinforcement learningObtenido de https es wikipedia org w index php title Aprendizaje por refuerzo amp oldid 137159757, wikipedia, wiki, leyendo, leer, libro, biblioteca,

español

, española, descargar, gratis, descargar gratis, mp3, video, mp4, 3gp, jpg, jpeg, gif, png, imagen, música, canción, película, libro, juego, juegos