fbpx
Wikipedia

Ecuación de Hamilton-Jacobi-Bellman

La ecuación de Hamilton-Jacobi-Bellman (HJB) es una ecuación diferencial parcial que es fundamental para la teoría de control óptimo. La solución de la ecuación HJB es la "función de valor" (o "función de costo óptimo"), la cual da el costo mínimo para un sistema dinámico dado, con una función de costo asociada.

Cuando se resuelve localmente, la HJB es una condición necesaria, pero cuando se resuelve sobre la totalidad del espacio de estados, la ecuación HJB es una condición necesaria y suficiente para un óptimo. La solución es de lazo abierto, pero también permite que la solución del problema sea de lazo cerrado. El método HJB puede ser generalizado a sistemas estocásticos.

Hay varios problemas variacionales clásicos, por ejemplo, el problema braquistocrona, se pueden resolver con este método.

La ecuación es un resultado de la teoría de programación dinámica, en la que Richard Bellman fue pionero en la década de 1950.[1]​ La ecuación a tiempo discreto correspondiente se refiere generalmente como la ecuación de Bellman. En tiempo continuo, el resultado puede ser visto como una extensión del trabajo a principios de la física clásica en la ecuación de Hamilton-Jacobi por William Rowan Hamilton y Carl Gustav Jacob Jacobi.

Problemas de control óptimo

Considere el siguiente problema de control óptimo determinista sobre el período de tiempo  :

 

donde C[ ] es la función de tasa de coste escalar y D[ ] es una función que da el valor económico o utilidad en el estado final, x(t) es el vector de estado del sistema, se supone que x(0) está dado, y que u(t) para cada 0 ≤ t ≤ T es el vector de control que estamos tratando de encontrar.

El sistema también está sujeto a la dinámica

 

donde F[ ] da el vector de la determinación de la evolución física del vector de estado con el tiempo.

La ecuación diferencial parcial

Para este sistema simple, la ecuación diferencial parcial de Hamilton-Jacobi-Bellman es:

 

sujeto a la condición terminal

 

donde   es el operador gradiente y   representa el producto punto (o escalar) de los vectores   y  . El escalar desconocido   en la EDP anterior es la "función de valor" de Bellman, que representa el costo en el que se incurre cuando se inicia en el estado x y al tiempo t y, de ahí en adelante, se controla óptimamente el sistema hasta el tiempo final  .

Derivación de la ecuación

Intuitivamente HJB se "deriva" de la siguiente manera. Si   es la función de costo óptimo (también llamada "función de valor"), entonces por el principio de optimalidad de Bellman, al pasar de   a  , se tiene que:

 

Ahora, teniendo en cuenta que el desarrollo de Taylor del último término es:

 

donde   denota los términos en la expansión de Taylor de orden superior a uno. Entonces si cancelamos   en ambos lados, se divide por  , y tomamos límite cuando   tiende a cero, se obtiene la ecuación HJB definida anteriormente.

Resolución de la ecuación

La ecuación HJB suele resolverse usando Inducción hacia atrás, empezando en   y terminando en  .

Cuando se resuelve sobre la totalidad del espacio de estados, la ecuación HJB es una condición necesaria y suficiente para un óptimo.[2]​ Si podemos resolver para   entonces podemos encontrar un control de   donde se consiga el mínimo costo.

En el caso general, la ecuación HJB no tiene una solución clásica (suave). Varios conceptos de soluciones generalizadas se han desarrollado para cubrir este tipo de situaciones, por ejemplo, soluciones viscosas (Pierre-Louis Lions y Michael Crandall), soluciones minimax ( Andrei Izmailovich Subbotin ), entre otros.

Extensión a problemas estocásticos

La idea de la solución de un problema de control mediante la aplicación del principio de optimalidad de Bellman y luego trabajando hacia atrás en el tiempo de una estrategia de optimización puede ser generalizado a los problemas de control estocásticos. Considere como antes

 

ahora con   el proceso estocástico para optimizar y   la dirección. Usando primero Bellman y luego expandiendo   con la regla de Itô, se encuentra la ecuación HJB estocástica.

 

donde   representa el operador de diferenciación estocástica, y sujeto a la condición terminal

 

Tenga en cuenta que la aleatoriedad ha desaparecido. En este caso una solución   de este último no resuelve necesariamente el problema principal, sólo es un candidato el cual debe verificar otros argumentos que permitan establecer si es o no solución. Esta técnica es ampliamente utilizado en las matemáticas financieras para determinar las estrategias óptimas de inversión en el mercado (véase, por ejemplo problema cartera de Merton).

Aplicación al control LQG

Como ejemplo, podemos mirar un sistema LQ que consiste en una dinámica estocástica lineal y un costo cuadrático. Si la dinámica del sistema está dada por:

 

y el costo se acumula en tasa  , La ecuación HJB está dada por

 

Suponiendo una forma cuadrática de la función de valor, se obtiene la habitual ecuación de Riccati para la Arpillera de la función de valor como es habitual para el control lineal-cuadrática de Gauss

Referencias

  1. R. E. Bellman. Dynamic Programming. Princeton, NJ, 1957.
  2. Dimitri P Bertsekas. Dynamic programming and optimal control. Athena Scientific, 2005.
  •   Datos: Q3302775

ecuación, hamilton, jacobi, bellman, ecuación, hamilton, jacobi, bellman, ecuación, diferencial, parcial, fundamental, para, teoría, control, óptimo, solución, ecuación, función, valor, función, costo, óptimo, cual, costo, mínimo, para, sistema, dinámico, dado. La ecuacion de Hamilton Jacobi Bellman HJB es una ecuacion diferencial parcial que es fundamental para la teoria de control optimo La solucion de la ecuacion HJB es la funcion de valor o funcion de costo optimo la cual da el costo minimo para un sistema dinamico dado con una funcion de costo asociada Cuando se resuelve localmente la HJB es una condicion necesaria pero cuando se resuelve sobre la totalidad del espacio de estados la ecuacion HJB es una condicion necesaria y suficiente para un optimo La solucion es de lazo abierto pero tambien permite que la solucion del problema sea de lazo cerrado El metodo HJB puede ser generalizado a sistemas estocasticos Hay varios problemas variacionales clasicos por ejemplo el problema braquistocrona se pueden resolver con este metodo La ecuacion es un resultado de la teoria de programacion dinamica en la que Richard Bellman fue pionero en la decada de 1950 1 La ecuacion a tiempo discreto correspondiente se refiere generalmente como la ecuacion de Bellman En tiempo continuo el resultado puede ser visto como una extension del trabajo a principios de la fisica clasica en la ecuacion de Hamilton Jacobi por William Rowan Hamilton y Carl Gustav Jacob Jacobi Indice 1 Problemas de control optimo 2 La ecuacion diferencial parcial 3 Derivacion de la ecuacion 4 Resolucion de la ecuacion 5 Extension a problemas estocasticos 6 Aplicacion al control LQG 7 ReferenciasProblemas de control optimo EditarConsidere el siguiente problema de control optimo determinista sobre el periodo de tiempo 0 T displaystyle 0 T V x 0 0 min u 0 T C x t u t d t D x T displaystyle V x 0 0 min u left int 0 T C x t u t dt D x T right donde C es la funcion de tasa de coste escalar y D es una funcion que da el valor economico o utilidad en el estado final x t es el vector de estado del sistema se supone que x 0 esta dado y que u t para cada 0 t T es el vector de control que estamos tratando de encontrar El sistema tambien esta sujeto a la dinamica x t F x t u t displaystyle dot x t F x t u t donde F da el vector de la determinacion de la evolucion fisica del vector de estado con el tiempo La ecuacion diferencial parcial EditarPara este sistema simple la ecuacion diferencial parcial de Hamilton Jacobi Bellman es V x t min u V x t F x u C x u 0 displaystyle dot V x t min u left nabla V x t cdot F x u C x u right 0 sujeto a la condicion terminal V x T D x displaystyle V x T D x donde displaystyle nabla es el operador gradiente y a b displaystyle a cdot b representa el producto punto o escalar de los vectores a displaystyle a y b displaystyle b El escalar desconocido V x t displaystyle V x t en la EDP anterior es la funcion de valor de Bellman que representa el costo en el que se incurre cuando se inicia en el estado x y al tiempo t y de ahi en adelante se controla optimamente el sistema hasta el tiempo final T displaystyle T Derivacion de la ecuacion EditarIntuitivamente HJB se deriva de la siguiente manera Si V x t t displaystyle V x t t es la funcion de costo optimo tambien llamada funcion de valor entonces por el principio de optimalidad de Bellman al pasar de t displaystyle t a t d t displaystyle t dt se tiene que V x t t min u C x t u t d t V x t d t t d t displaystyle V x t t min u left C x t u t dt V x t dt t dt right Ahora teniendo en cuenta que el desarrollo de Taylor del ultimo termino es V x t d t t d t V x t t V x t t d t V x t t x t d t o d t displaystyle V x t dt t dt V x t t dot V x t t dt nabla V x t t cdot dot x t dt o dt donde o d t displaystyle o dt denota los terminos en la expansion de Taylor de orden superior a uno Entonces si cancelamos V x t t displaystyle V x t t en ambos lados se divide por d t displaystyle dt y tomamos limite cuando d t displaystyle dt tiende a cero se obtiene la ecuacion HJB definida anteriormente Resolucion de la ecuacion EditarLa ecuacion HJB suele resolverse usando Induccion hacia atras empezando en t T displaystyle t T y terminando en t 0 displaystyle t 0 Cuando se resuelve sobre la totalidad del espacio de estados la ecuacion HJB es una condicion necesaria y suficiente para un optimo 2 Si podemos resolver para V displaystyle V entonces podemos encontrar un control de u displaystyle u donde se consiga el minimo costo En el caso general la ecuacion HJB no tiene una solucion clasica suave Varios conceptos de soluciones generalizadas se han desarrollado para cubrir este tipo de situaciones por ejemplo soluciones viscosas Pierre Louis Lions y Michael Crandall soluciones minimax Andrei Izmailovich Subbotin entre otros Extension a problemas estocasticos EditarLa idea de la solucion de un problema de control mediante la aplicacion del principio de optimalidad de Bellman y luego trabajando hacia atras en el tiempo de una estrategia de optimizacion puede ser generalizado a los problemas de control estocasticos Considere como antes min u 0 T C t X t u t d t D X T displaystyle min u left int 0 T C t X t u t dt D X T right ahora con X t t 0 T displaystyle X t t in 0 T el proceso estocastico para optimizar y u t t 0 T displaystyle u t t in 0 T la direccion Usando primero Bellman y luego expandiendo V X t t displaystyle V X t t con la regla de Ito se encuentra la ecuacion HJB estocastica min u A V x t C t x u 0 displaystyle min u left mathcal A V x t C t x u right 0 donde A displaystyle mathcal A representa el operador de diferenciacion estocastica y sujeto a la condicion terminal V x T D x displaystyle V x T D x Tenga en cuenta que la aleatoriedad ha desaparecido En este caso una solucion V displaystyle V de este ultimo no resuelve necesariamente el problema principal solo es un candidato el cual debe verificar otros argumentos que permitan establecer si es o no solucion Esta tecnica es ampliamente utilizado en las matematicas financieras para determinar las estrategias optimas de inversion en el mercado vease por ejemplo problema cartera de Merton Aplicacion al control LQG EditarComo ejemplo podemos mirar un sistema LQ que consiste en una dinamica estocastica lineal y un costo cuadratico Si la dinamica del sistema esta dada por d x t a x t b u t d t s d w t displaystyle dx t ax t bu t dt sigma dw t y el costo se acumula en tasa C x t u t r t u t 2 2 q t x t 2 2 displaystyle C x t u t r t u t 2 2 q t x t 2 2 La ecuacion HJB esta dada por V x t t 1 2 q t x 2 V x t x a x b 2 2 r t V x t x 2 s 2 V x t x 2 displaystyle frac partial V x t partial t frac 1 2 q t x 2 frac partial V x t partial x ax frac b 2 2r t left frac partial V x t partial x right 2 sigma frac partial 2 V x t partial x 2 Suponiendo una forma cuadratica de la funcion de valor se obtiene la habitual ecuacion de Riccati para la Arpillera de la funcion de valor como es habitual para el control lineal cuadratica de GaussReferencias Editar R E Bellman Dynamic Programming Princeton NJ 1957 Dimitri P Bertsekas Dynamic programming and optimal control Athena Scientific 2005 Datos Q3302775 Obtenido de https es wikipedia org w index php title Ecuacion de Hamilton Jacobi Bellman amp oldid 128427424, wikipedia, wiki, leyendo, leer, libro, biblioteca,

español

, española, descargar, gratis, descargar gratis, mp3, video, mp4, 3gp, jpg, jpeg, gif, png, imagen, música, canción, película, libro, juego, juegos