fbpx
Wikipedia

Ecuación de Bellman

La ecuación de Bellman, también conocida como la ecuación de programación dinámica, nombrada en honor de su descubridor, Richard Bellman, es una condición necesaria para la optimalidad asociada con el método de la optimización matemática conocida como programación dinámica. Se escribe el valor de un problema de decisión en un determinado punto en el tiempo en términos de la recompensa que dan algunas opciones iniciales y el valor del problema de decisión restante que resulta de esas opciones iniciales. Esto rompe un problema de optimización dinámica en subproblemas más simples, tal como el Principio de optimalidad de Bellman establece.

La ecuación de Bellman se aplicó primero a la ingeniería en la teoría de control y otros temas de matemática aplicada y, posteriormente, se convirtió en una herramienta importante en la teoría económica.

Casi cualquier problema que puede ser resuelto usando la teoría de control óptimo también se puede resolver mediante el análisis de la ecuación de Bellman apropiada. Sin embargo, el término "ecuación de Bellman" por lo general se refiere a la ecuación de programación dinámica asociada a tiempo discreto problemas de optimización. En los problemas de optimización en tiempo continuo, la ecuación análoga es una ecuación diferencial parcial que generalmente se llama la ecuación de Hamilton-Jacobi-Bellman.

Conceptos analíticos en programación dinámica

Para entender la ecuación de Bellman, varios conceptos subyacentes deben ser entendidos. En primer lugar, cualquier problema de optimización debe tener un objetivo - reducir al mínimo el tiempo de viaje, reduciendo al mínimo coste, maximizar los beneficios, maximización de la utilidad, etcétera. La función matemática que describe este objetivo se denomina función objetivo.

La programación dinámica descompone un problema de planificación de múltiples períodos en pasos más simples para diferentes momentos. Por lo tanto, se requiere hacer el seguimiento de cómo la situación de decisión está evolucionando en el tiempo. La información sobre la situación actual que se necesita para tomar una decisión correcta se llama el estado (Ver Bellman, 1957, cap. III.2).[1][2]​ Por ejemplo, para decidir cuánto consumir y gastar en cada punto en el tiempo, la gente tendría que saber (entre otras cosas) su riqueza inicial. Por lo tanto, la riqueza sería una de sus variables de estado, pero probablemente habría otras.

Las variables seleccionadas en cualquier punto dado en el tiempo se llaman variables de control. Por ejemplo, dada su riqueza actual, la gente podría decidir cuánto consumir ahora. La elección de las variables de control ahora puede ser equivalente a la elección de la siguiente estado; más en general, el siguiente estado se ve afectada por otros factores, además de la regulación de corriente. Por ejemplo, en el caso más sencillo, la riqueza de hoy (el estado) y el consumo (el control) pueden determinar con exactitud la riqueza de mañana (el nuevo estado), aunque por lo general otros factores pueden afectar la riqueza de mañana también.

El enfoque de programación dinámica describe el plan óptimo mediante la búsqueda de una regla que dice lo que los controles deben ser, teniendo en cuenta cualquier posible valor del estado. Por ejemplo, si el consumo (c) solo depende de la riqueza (W), entonces se buscaría una regla   que da el consumo en función de la riqueza. Tal regla general, la determinación de los controles como una función de los estados, se llama una función de política (Ver Bellman, 1957, cap. III.2).[1]

Por último, por definición, la regla de decisión óptima es la que logra el mejor valor posible del objetivo. Por ejemplo, si alguien elige el consumo, la riqueza dada, con el fin de maximizar la felicidad (suponiendo que la felicidad H puede ser representado por una función matemática, tal como una utilidad de función), a continuación, cada nivel de la riqueza se asocia con algún nivel más alto posible de la felicidad,  . El mejor valor posible del objetivo, escrita como una función del estado, se llama la función de valor.

Richard Bellman mostró que una dinámica de optimización de un problema en tiempo discreto se puede afirmar en un recursivo forma, paso a paso, anotando la relación entre la función de valor en un período y el valor de la función en el próximo período. La relación entre estas dos funciones de valor se llama la ecuación de Bellman.

Derivación de la ecuación de Bellman

Un problema de decisión dinámico

Sea   el estado en el momento  . Para una decisión que comienza en el momento 0, tomamos como dado el estado inicial  . En cualquier momento, el conjunto de posibles acciones depende del estado actual; podemos escribir esto como   , Donde la acción   representa una o más variables de control. También suponemos que el estado cambia de x a un nuevo estado T (x, a) cuando la acción a se toma, y que el pago actual de la adopción de medidas un en el estado de x es F (x, a) . Por último, asumimos la impaciencia, representado por un factor de descuento   .

Bajo estos supuestos, un problema de horizonte infinito decisión toma la siguiente forma:

 

sujeto a las limitaciones:

 

Nótese que se ha definido la notación   para representar el valor óptimo que se puede obtener mediante la maximización de la función objetivo con sujeción a las limitaciones asumidas. Esta función es la función de valor. Es una función de la variable de estado inicial x 0, ya que la mejor relación puede obtener depende de la situación inicial.

Principio de Bellman de optimalidad

El método de programación dinámica rompe este problema de decisión en subproblemas más pequeños. Principio de Richard Bellman de optimalidad se explica cómo hacerlo:

Principio de optimalidad: Una política óptima tiene la propiedad de que cualquiera que sea el estado inicial y la decisión inicial son, las decisiones restantes deben constituir una política óptima en relación con el estado resultante de la primera decisión. (Ver Bellman, 1957, Cap. III.3). [1] [2] [3]

En informática, se dice que un problema que puede ser descompuesto como este para tener subestructura óptima . En el contexto de la dinámica de la teoría de juegos , este principio es análogo al concepto de equilibrio perfecto en subjuegos , a pesar de lo que constituye una política óptima en este caso, está condicionado a los opositores del decisor elegir políticas igualmente óptimos de sus puntos de vista.

Como sugiere el principio de optimalidad, consideraremos la primera decisión por separado, dejando de lado todas las decisiones futuras (vamos a empezar de nuevo de vez en 1 con el nuevo estado  ). La recogida de las futuras decisiones entre paréntesis a la derecha, el problema anterior es equivalente a:

 

sujeto a las restricciones:

 

Aquí estamos eligiendo  , Sabiendo que nuestra elección hará que el tiempo de 1 estado sea  . Ese nuevo estado será entonces afectar el problema de decisión de vez en 1. Todo el problema de decisión futura aparece dentro de los corchetes de la derecha.

Ecuación de Bellman

De momento parece que solo hemos hecho el problema más complicado al separar la decisión de hoy de las decisiones futuras. Pero podemos simplificar por darse cuenta de que lo que está dentro de los corchetes de la derecha es el valor del tiempo de problema de decisión 1, a partir de un estado  .

Por lo tanto se puede reescribir el problema como un recurrente definición de la función de valor:

 

sujeto a la restricción:

 

Esta es la ecuación de Bellman. Se puede simplificar aún más si se cae subíndices de tiempo y el enchufe en el valor del siguiente estado:

 

La ecuación de Bellman se clasifica como una ecuación funcional, porque resolver que significa la búsqueda de la función desconocida V, que es la función de valor. Recordemos que la función de valor describe el mejor valor posible del objetivo, como una función del estado x. Mediante el cálculo de la función de valor, también se encuentra la función a (x) que describe la acción óptima en función de la situación, lo que se llama a la función política.

La ecuación de Bellman en un problema estocástico

Las técnicas de programación dinámica presentan dificultades cuando las toma de decisiones son variables aleatorias a(t,w), y es un enfoque que se vuelve conveniente desarrollar para aproximarse a la realidad.

Sea el ejemplo en el que se considera un consumidor con una dotación inicial de riqueza en t=0. Él cuenta con una función de utilidad U(c) donde c denota el consumo afectada por una tasa de descuento 0 <β <1. Supongamos ahora que no se consume en el período t y se traslada al próximo período con tasa de interés r. El problema de maximización de utilidad del consumidor es elegir un plan de consumo {c(t)} que resuelve:

 

sujeto a:

 

y

 

La primera restricción es la acumulación de capital / ley de movimiento especificado por el problema, mientras que la segunda restricción es una condición de transversalidad en la que el consumidor no paga la deuda al final de su vida. La ecuación de Bellman es

 

Como alternativa, se puede tratar el problema directamente con la secuencia, por ejemplo, la ecuación de hamiltonianos.

Ahora, si la tasa de interés varía de un período a otro, el consumidor se enfrenta con un problema de optimización estocástica. En donde el interés r sigue un proceso de Markov con función de probabilidad de transición Q (r, dμ r) donde dμ r denota la medida de probabilidad que rige la distribución del próximo periodo de tipos de interés, siempre y cuando la tasa de interés actual sea r. En el calendario de este modelo es que el consumidor decide su consumo actual por un periodo clarividente proporcionado que indique o dé su pronóstico de la tasa de interés.

En lugar de simplemente eligir una secuencia única {c} t, el consumidor debe ahora elegir una secuencia {c(w)} t para cada posible realización de un r {t} de tal manera que su utilidad esperada maximiza sea:

 

La expectativa E se toma con respecto a la medida de probabilidad apropiada dada por Q en las secuencias de variables aleatorias. Debido a que r es gobernado por un proceso de Markov en cada intervalo de tiempo. A continuación, la ecuación Bellman es:

 

Bajo algunas hipótesis, la política de la función óptima resultante g(a, r) es medible.

Para un problema de optimización estocástica secuencial general, la ecuación de Bellman toma la forma:

 

Métodos de solución

El método de coeficientes indeterminados , también conocido como "adivinar y verificar", se puede utilizar para resolver algunos de horizonte infinito, autónomas ecuaciones de Bellman.

La ecuación de Bellman puede ser resuelta por inducción hacia atrás , ya sea analíticamente en unos pocos casos especiales, o numéricamente en un ordenador. La inducción hacia atrás numérica es aplicable a una amplia variedad de problemas, pero puede ser no factible cuando hay muchas variables de estado, debido a la maldición de la dimensionalidad. Programación aproximado dinámica ha sido introducido por DP Bertsekas y JN Tsitsiklis con el uso de redes neuronales artificiales ( perceptrones multicapa ) para la aproximación de la función de Bellman. [4] Esta es una estrategia de mitigación eficaz para reducir el impacto de la dimensionalidad mediante la sustitución de la memorización de la correlación de funciones completo para el dominio de todo el espacio con la memorización de los únicos parámetros de la red neural.

Mediante el cálculo de las condiciones de primer orden asociados con la ecuación de Bellman y, a continuación, utilizando el teorema de la envolvente para eliminar los derivados de la función de valor, es posible obtener un sistema de ecuaciones en diferencias o ecuaciones diferenciales llamados los " ecuaciones de Euler . Las técnicas estándar para la solución de la diferencia o ecuaciones diferenciales pueden usarse entonces para calcular la dinámica de las variables de estado y las variables de control del problema de optimización.

Aplicaciones en economía

El primer uso conocido de una ecuación de Bellman en la economía se debe a Martin Beckmann y Richard Muth.[3]​ Martin Beckmann también escribió extensamente sobre la teoría del consumo mediante la ecuación de Bellman en 1959. Su obra influyó Edmund S. Phelps, entre otros.

Una aplicación económica celebrado de una ecuación de Bellman es seminal artículo de Merton 1973 en el Capital Asset Pricing Model intertemporal.[4]​ (Véase también el problema de la cartera de Merton ). La solución al modelo teórico de Merton, uno en el que los inversores optaron entre el ingreso actual y el ingreso futuro o ganancias de capital, es una forma de la ecuación de Bellman. Dado que las aplicaciones económicas de programación dinámica suelen dar lugar a una ecuación de Bellman que es una ecuación en diferencias, los economistas se refieren a la programación dinámica como un "método recursivo" y un subcampo de la economía recursivas es ahora reconocido en Economía.

Nancy Stokey, Robert E. Lucas y Edward C. Prescott describen la programación dinámica estocástica y no estocástica en un detalle considerable y desarrollan teoremas para la existencia de soluciones a problemas que cumplen ciertas condiciones. También describen muchos ejemplos de modelización de problemas teóricos en economía utilizando métodos recursivos.[5]​ Este libro llevó a la programación dinámica que se utiliza para resolver una amplia gama de problemas teóricos en la economía, incluyendo el crecimiento económico óptimo, la extracción de recursos, los problemas agente principal , las finanzas públicas , la inversión empresarial, la fijación de precios de los activos, el suministro de factores y la organización industrial. Lars Ljungqvist y Thomas Sargent aplican una programación dinámica para estudiar una variedad de cuestiones teóricas en política monetaria , política fiscal, impuestos, crecimiento económico , teoría de la búsqueda y economía del trabajo . [8] Avinash Dixit y Robert Pindyck mostraron el valor del método para pensar en el presupuesto de capital.[6]​ Anderson adaptó la técnica a la valuación del negocio, incluyendo negocios privados.[7]

Referencias

  1. Bellman, R.E. 1957. Dynamic Programming. Princeton University Press, Princeton, NJ. Republished 2003: Dover, ISBN 0-486-42809-5.
  2. S. Dreyfus (2002), Operations Research 50 (1), pp. 48–51.
  3. Martin Beckmann and Richard Muth, 1954, "On the solution to the fundamental equation of inventory theory," Cowles Commission Discussion Paper 2116.
  4. Robert C. Merton, 1973, "An Intertemporal Capital Asset Pricing Model," Econometrica 41: 867–887.
  5. Stokey, Nancy; Lucas, Robert E.; Prescott, Edward (1989). Recursive Methods in Economic Dynamics. Harvard Univ. Press. ISBN 0-674-75096-9. 
  6. Dixit, Avinash; Pindyck, Robert (1994). Investment Under Uncertainty. Princeton Univ. Press. ISBN 0-691-03410-9. 
  7. Anderson, Patrick L., Business Economics & Finance, CRC Press, 2004 (chapter 10), ISBN 1-58488-348-0; The Value of Private Businesses in the United States, Business Economics (2009) 44, 87–108. doi 10.1057/be.2009.4. Economics of Business Valuation, Stanford University Press (2013); ISBN 9780804758307. Stanford Press el 8 de agosto de 2013 en Wayback Machine.
  •   Datos: Q1430750

ecuación, bellman, ecuación, bellman, también, conocida, como, ecuación, programación, dinámica, nombrada, honor, descubridor, richard, bellman, condición, necesaria, para, optimalidad, asociada, método, optimización, matemática, conocida, como, programación, . La ecuacion de Bellman tambien conocida como la ecuacion de programacion dinamica nombrada en honor de su descubridor Richard Bellman es una condicion necesaria para la optimalidad asociada con el metodo de la optimizacion matematica conocida como programacion dinamica Se escribe el valor de un problema de decision en un determinado punto en el tiempo en terminos de la recompensa que dan algunas opciones iniciales y el valor del problema de decision restante que resulta de esas opciones iniciales Esto rompe un problema de optimizacion dinamica en subproblemas mas simples tal como el Principio de optimalidad de Bellman establece La ecuacion de Bellman se aplico primero a la ingenieria en la teoria de control y otros temas de matematica aplicada y posteriormente se convirtio en una herramienta importante en la teoria economica Casi cualquier problema que puede ser resuelto usando la teoria de control optimo tambien se puede resolver mediante el analisis de la ecuacion de Bellman apropiada Sin embargo el termino ecuacion de Bellman por lo general se refiere a la ecuacion de programacion dinamica asociada a tiempo discreto problemas de optimizacion En los problemas de optimizacion en tiempo continuo la ecuacion analoga es una ecuacion diferencial parcial que generalmente se llama la ecuacion de Hamilton Jacobi Bellman Indice 1 Conceptos analiticos en programacion dinamica 2 Derivacion de la ecuacion de Bellman 2 1 Un problema de decision dinamico 2 2 Principio de Bellman de optimalidad 3 Ecuacion de Bellman 4 La ecuacion de Bellman en un problema estocastico 5 Metodos de solucion 6 Aplicaciones en economia 7 ReferenciasConceptos analiticos en programacion dinamica EditarPara entender la ecuacion de Bellman varios conceptos subyacentes deben ser entendidos En primer lugar cualquier problema de optimizacion debe tener un objetivo reducir al minimo el tiempo de viaje reduciendo al minimo coste maximizar los beneficios maximizacion de la utilidad etcetera La funcion matematica que describe este objetivo se denomina funcion objetivo La programacion dinamica descompone un problema de planificacion de multiples periodos en pasos mas simples para diferentes momentos Por lo tanto se requiere hacer el seguimiento de como la situacion de decision esta evolucionando en el tiempo La informacion sobre la situacion actual que se necesita para tomar una decision correcta se llama el estado Ver Bellman 1957 cap III 2 1 2 Por ejemplo para decidir cuanto consumir y gastar en cada punto en el tiempo la gente tendria que saber entre otras cosas su riqueza inicial Por lo tanto la riqueza seria una de sus variables de estado pero probablemente habria otras Las variables seleccionadas en cualquier punto dado en el tiempo se llaman variables de control Por ejemplo dada su riqueza actual la gente podria decidir cuanto consumir ahora La eleccion de las variables de control ahora puede ser equivalente a la eleccion de la siguiente estado mas en general el siguiente estado se ve afectada por otros factores ademas de la regulacion de corriente Por ejemplo en el caso mas sencillo la riqueza de hoy el estado y el consumo el control pueden determinar con exactitud la riqueza de manana el nuevo estado aunque por lo general otros factores pueden afectar la riqueza de manana tambien El enfoque de programacion dinamica describe el plan optimo mediante la busqueda de una regla que dice lo que los controles deben ser teniendo en cuenta cualquier posible valor del estado Por ejemplo si el consumo c solo depende de la riqueza W entonces se buscaria una regla c W displaystyle c W que da el consumo en funcion de la riqueza Tal regla general la determinacion de los controles como una funcion de los estados se llama una funcion de politica Ver Bellman 1957 cap III 2 1 Por ultimo por definicion la regla de decision optima es la que logra el mejor valor posible del objetivo Por ejemplo si alguien elige el consumo la riqueza dada con el fin de maximizar la felicidad suponiendo que la felicidad H puede ser representado por una funcion matematica tal como una utilidad de funcion a continuacion cada nivel de la riqueza se asocia con algun nivel mas alto posible de la felicidad H W displaystyle H W El mejor valor posible del objetivo escrita como una funcion del estado se llama la funcion de valor Richard Bellman mostro que una dinamica de optimizacion de un problema en tiempo discreto se puede afirmar en un recursivo forma paso a paso anotando la relacion entre la funcion de valor en un periodo y el valor de la funcion en el proximo periodo La relacion entre estas dos funciones de valor se llama la ecuacion de Bellman Derivacion de la ecuacion de Bellman EditarUn problema de decision dinamico Editar Sea x t displaystyle x t el estado en el momento t displaystyle t Para una decision que comienza en el momento 0 tomamos como dado el estado inicial x 0 displaystyle x 0 En cualquier momento el conjunto de posibles acciones depende del estado actual podemos escribir esto como a t G x t displaystyle a t in Gamma x t Donde la accion a t displaystyle a t representa una o mas variables de control Tambien suponemos que el estado cambia de x a un nuevo estado T x a cuando la accion a se toma y que el pago actual de la adopcion de medidas un en el estado de x es F x a Por ultimo asumimos la impaciencia representado por un factor de descuento 0 lt b lt 1 displaystyle 0 lt beta lt 1 Bajo estos supuestos un problema de horizonte infinito decision toma la siguiente forma V x 0 max a t t 0 t 0 b t F x t a t displaystyle V x 0 max left a t right t 0 infty sum t 0 infty beta t F x t a t sujeto a las limitaciones a t G x t x t 1 T x t a t t 0 1 2 displaystyle a t in Gamma x t x t 1 T x t a t forall t 0 1 2 dots Notese que se ha definido la notacion V x 0 displaystyle V x 0 para representar el valor optimo que se puede obtener mediante la maximizacion de la funcion objetivo con sujecion a las limitaciones asumidas Esta funcion es la funcion de valor Es una funcion de la variable de estado inicial x 0 ya que la mejor relacion puede obtener depende de la situacion inicial Principio de Bellman de optimalidad Editar El metodo de programacion dinamica rompe este problema de decision en subproblemas mas pequenos Principio de Richard Bellman de optimalidad se explica como hacerlo Principio de optimalidad Una politica optima tiene la propiedad de que cualquiera que sea el estado inicial y la decision inicial son las decisiones restantes deben constituir una politica optima en relacion con el estado resultante de la primera decision Ver Bellman 1957 Cap III 3 1 2 3 En informatica se dice que un problema que puede ser descompuesto como este para tener subestructura optima En el contexto de la dinamica de la teoria de juegos este principio es analogo al concepto de equilibrio perfecto en subjuegos a pesar de lo que constituye una politica optima en este caso esta condicionado a los opositores del decisor elegir politicas igualmente optimos de sus puntos de vista Como sugiere el principio de optimalidad consideraremos la primera decision por separado dejando de lado todas las decisiones futuras vamos a empezar de nuevo de vez en 1 con el nuevo estado x 1 displaystyle x 1 La recogida de las futuras decisiones entre parentesis a la derecha el problema anterior es equivalente a max a 0 F x 0 a 0 b max a t t 1 t 1 b t 1 F x t a t s t a t G x t x t 1 T x t a t t 1 2 displaystyle max a 0 left F x 0 a 0 beta left max left a t right t 1 infty sum t 1 infty beta t 1 F x t a t s t a t in Gamma x t x t 1 T x t a t forall t 1 2 dots right right sujeto a las restricciones a 0 G x 0 x 1 T x 0 a 0 displaystyle a 0 in Gamma x 0 x 1 T x 0 a 0 Aqui estamos eligiendo a 0 displaystyle a 0 Sabiendo que nuestra eleccion hara que el tiempo de 1 estado sea x 1 T x 0 a 0 displaystyle x 1 T x 0 a 0 Ese nuevo estado sera entonces afectar el problema de decision de vez en 1 Todo el problema de decision futura aparece dentro de los corchetes de la derecha Ecuacion de Bellman EditarDe momento parece que solo hemos hecho el problema mas complicado al separar la decision de hoy de las decisiones futuras Pero podemos simplificar por darse cuenta de que lo que esta dentro de los corchetes de la derecha es el valor del tiempo de problema de decision 1 a partir de un estado x 1 T x 0 a 0 displaystyle x 1 T x 0 a 0 Por lo tanto se puede reescribir el problema como un recurrente definicion de la funcion de valor V x 0 max a 0 F x 0 a 0 b V x 1 displaystyle V x 0 max a 0 F x 0 a 0 beta V x 1 sujeto a la restriccion a 0 G x 0 x 1 T x 0 a 0 displaystyle a 0 in Gamma x 0 x 1 T x 0 a 0 Esta es la ecuacion de Bellman Se puede simplificar aun mas si se cae subindices de tiempo y el enchufe en el valor del siguiente estado V x max a G x F x a b V T x a displaystyle V x max a in Gamma x F x a beta V T x a La ecuacion de Bellman se clasifica como una ecuacion funcional porque resolver que significa la busqueda de la funcion desconocida V que es la funcion de valor Recordemos que la funcion de valor describe el mejor valor posible del objetivo como una funcion del estado x Mediante el calculo de la funcion de valor tambien se encuentra la funcion a x que describe la accion optima en funcion de la situacion lo que se llama a la funcion politica La ecuacion de Bellman en un problema estocastico EditarLas tecnicas de programacion dinamica presentan dificultades cuando las toma de decisiones son variables aleatorias a t w y es un enfoque que se vuelve conveniente desarrollar para aproximarse a la realidad Sea el ejemplo en el que se considera un consumidor con una dotacion inicial de riqueza en t 0 El cuenta con una funcion de utilidad U c donde c denota el consumo afectada por una tasa de descuento 0 lt b lt 1 Supongamos ahora que no se consume en el periodo t y se traslada al proximo periodo con tasa de interes r El problema de maximizacion de utilidad del consumidor es elegir un plan de consumo c t que resuelve max 0 b t u c t displaystyle max sum 0 infty beta t u c t sujeto a a t 1 1 r a t c t c t 0 displaystyle a t 1 1 r a t c t c t geq 0 y lim t a t 0 displaystyle lim t rightarrow infty a t geq 0 La primera restriccion es la acumulacion de capital ley de movimiento especificado por el problema mientras que la segunda restriccion es una condicion de transversalidad en la que el consumidor no paga la deuda al final de su vida La ecuacion de Bellman es V a max 0 c a u c b V 1 r a c displaystyle V a max 0 leq c leq a u c beta V 1 r a c Como alternativa se puede tratar el problema directamente con la secuencia por ejemplo la ecuacion de hamiltonianos Ahora si la tasa de interes varia de un periodo a otro el consumidor se enfrenta con un problema de optimizacion estocastica En donde el interes r sigue un proceso de Markov con funcion de probabilidad de transicion Q r dm r donde dm r denota la medida de probabilidad que rige la distribucion del proximo periodo de tipos de interes siempre y cuando la tasa de interes actual sea r En el calendario de este modelo es que el consumidor decide su consumo actual por un periodo clarividente proporcionado que indique o de su pronostico de la tasa de interes En lugar de simplemente eligir una secuencia unica c t el consumidor debe ahora elegir una secuencia c w t para cada posible realizacion de un r t de tal manera que su utilidad esperada maximiza sea max E 0 b t u c t displaystyle max E sum 0 infty beta t u c t La expectativa E se toma con respecto a la medida de probabilidad apropiada dada por Q en las secuencias de variables aleatorias Debido a que r es gobernado por un proceso de Markov en cada intervalo de tiempo A continuacion la ecuacion Bellman es V a r max 0 c a u c b V 1 r a c r Q r d m r displaystyle V a r max 0 leq c leq a u c beta int V 1 r a c r Q r d mu r Bajo algunas hipotesis la politica de la funcion optima resultante g a r es medible Para un problema de optimizacion estocastica secuencial general la ecuacion de Bellman toma la forma V x z max c G x z F x c z b V T x c z d m z z displaystyle V x z max c in Gamma x z F x c z beta int V T x c z d mu z z Metodos de solucion EditarEl metodo de coeficientes indeterminados tambien conocido como adivinar y verificar se puede utilizar para resolver algunos de horizonte infinito autonomas ecuaciones de Bellman La ecuacion de Bellman puede ser resuelta por induccion hacia atras ya sea analiticamente en unos pocos casos especiales o numericamente en un ordenador La induccion hacia atras numerica es aplicable a una amplia variedad de problemas pero puede ser no factible cuando hay muchas variables de estado debido a la maldicion de la dimensionalidad Programacion aproximado dinamica ha sido introducido por DP Bertsekas y JN Tsitsiklis con el uso de redes neuronales artificiales perceptrones multicapa para la aproximacion de la funcion de Bellman 4 Esta es una estrategia de mitigacion eficaz para reducir el impacto de la dimensionalidad mediante la sustitucion de la memorizacion de la correlacion de funciones completo para el dominio de todo el espacio con la memorizacion de los unicos parametros de la red neural Mediante el calculo de las condiciones de primer orden asociados con la ecuacion de Bellman y a continuacion utilizando el teorema de la envolvente para eliminar los derivados de la funcion de valor es posible obtener un sistema de ecuaciones en diferencias o ecuaciones diferenciales llamados los ecuaciones de Euler Las tecnicas estandar para la solucion de la diferencia o ecuaciones diferenciales pueden usarse entonces para calcular la dinamica de las variables de estado y las variables de control del problema de optimizacion Aplicaciones en economia EditarEl primer uso conocido de una ecuacion de Bellman en la economia se debe a Martin Beckmann y Richard Muth 3 Martin Beckmann tambien escribio extensamente sobre la teoria del consumo mediante la ecuacion de Bellman en 1959 Su obra influyo Edmund S Phelps entre otros Una aplicacion economica celebrado de una ecuacion de Bellman es seminal articulo de Merton 1973 en el Capital Asset Pricing Model intertemporal 4 Vease tambien el problema de la cartera de Merton La solucion al modelo teorico de Merton uno en el que los inversores optaron entre el ingreso actual y el ingreso futuro o ganancias de capital es una forma de la ecuacion de Bellman Dado que las aplicaciones economicas de programacion dinamica suelen dar lugar a una ecuacion de Bellman que es una ecuacion en diferencias los economistas se refieren a la programacion dinamica como un metodo recursivo y un subcampo de la economia recursivas es ahora reconocido en Economia Nancy Stokey Robert E Lucas y Edward C Prescott describen la programacion dinamica estocastica y no estocastica en un detalle considerable y desarrollan teoremas para la existencia de soluciones a problemas que cumplen ciertas condiciones Tambien describen muchos ejemplos de modelizacion de problemas teoricos en economia utilizando metodos recursivos 5 Este libro llevo a la programacion dinamica que se utiliza para resolver una amplia gama de problemas teoricos en la economia incluyendo el crecimiento economico optimo la extraccion de recursos los problemas agente principal las finanzas publicas la inversion empresarial la fijacion de precios de los activos el suministro de factores y la organizacion industrial Lars Ljungqvist y Thomas Sargent aplican una programacion dinamica para estudiar una variedad de cuestiones teoricas en politica monetaria politica fiscal impuestos crecimiento economico teoria de la busqueda y economia del trabajo 8 Avinash Dixit y Robert Pindyck mostraron el valor del metodo para pensar en el presupuesto de capital 6 Anderson adapto la tecnica a la valuacion del negocio incluyendo negocios privados 7 Referencias Editar a b Bellman R E 1957 Dynamic Programming Princeton University Press Princeton NJ Republished 2003 Dover ISBN 0 486 42809 5 S Dreyfus 2002 Richard Bellman on the birth of dynamic programming Operations Research 50 1 pp 48 51 Martin Beckmann and Richard Muth 1954 On the solution to the fundamental equation of inventory theory Cowles Commission Discussion Paper 2116 Robert C Merton 1973 An Intertemporal Capital Asset Pricing Model Econometrica 41 867 887 Stokey Nancy Lucas Robert E Prescott Edward 1989 Recursive Methods in Economic Dynamics Harvard Univ Press ISBN 0 674 75096 9 Dixit Avinash Pindyck Robert 1994 Investment Under Uncertainty Princeton Univ Press ISBN 0 691 03410 9 Anderson Patrick L Business Economics amp Finance CRC Press 2004 chapter 10 ISBN 1 58488 348 0 The Value of Private Businesses in the United States Business Economics 2009 44 87 108 doi 10 1057 be 2009 4 Economics of Business Valuation Stanford University Press 2013 ISBN 9780804758307 Stanford Press Archivado el 8 de agosto de 2013 en Wayback Machine Datos Q1430750Obtenido de https es wikipedia org w index php title Ecuacion de Bellman amp oldid 127796275, wikipedia, wiki, leyendo, leer, libro, biblioteca,

español

, española, descargar, gratis, descargar gratis, mp3, video, mp4, 3gp, jpg, jpeg, gif, png, imagen, música, canción, película, libro, juego, juegos