fbpx
Wikipedia

Bandido multibrazo

En teoría de la probabilidad, el problema del bandido multibrazo (también llamado (problema del bandido de N o K brazos) es un problema en el que un jugador ante una fila de tragaperras (también denominadas "bandidos de un solo brazo") tiene que decidir con qué máquinas juega, y en qué orden. Cuando juega, cada tragaperras devuelve una recompensa aleatoria derivada de la distribución de probabilidad específica de la máquina. El objetivo del jugador es maximizar la suma de las recompensas obtenidas a través de una secuencia de máquinas.

En versiones iniciales de este problema, el jugador no tiene información inicial sobre las máquinas. El compromiso esencial que el jugador debe abordar en cada iteración es entonces entre la explotación de la máquina con mayor recompensa esperada y la exploración del resto para obtener más información sobre las recompensas esperadas de las demás tragaperras. Este compromiso entre exploración y explotación también aparece en el contexto de aprendizaje reforzado (reinforced learning).

  • Datos: Q2882343

bandido, multibrazo, este, artículo, sección, necesita, referencias, aparezcan, publicación, acreditada, este, aviso, puesto, diciembre, 2017, teoría, probabilidad, problema, bandido, multibrazo, también, llamado, problema, bandido, brazos, problema, jugador, . Este articulo o seccion necesita referencias que aparezcan en una publicacion acreditada Este aviso fue puesto el 4 de diciembre de 2017 En teoria de la probabilidad el problema del bandido multibrazo tambien llamado problema del bandido de N o K brazos es un problema en el que un jugador ante una fila de tragaperras tambien denominadas bandidos de un solo brazo tiene que decidir con que maquinas juega y en que orden Cuando juega cada tragaperras devuelve una recompensa aleatoria derivada de la distribucion de probabilidad especifica de la maquina El objetivo del jugador es maximizar la suma de las recompensas obtenidas a traves de una secuencia de maquinas En versiones iniciales de este problema el jugador no tiene informacion inicial sobre las maquinas El compromiso esencial que el jugador debe abordar en cada iteracion es entonces entre la explotacion de la maquina con mayor recompensa esperada y la exploracion del resto para obtener mas informacion sobre las recompensas esperadas de las demas tragaperras Este compromiso entre exploracion y explotacion tambien aparece en el contexto de aprendizaje reforzado reinforced learning Datos Q2882343 Obtenido de https es wikipedia org w index php title Bandido multibrazo amp oldid 118718140, wikipedia, wiki, leyendo, leer, libro, biblioteca,

español

, española, descargar, gratis, descargar gratis, mp3, video, mp4, 3gp, jpg, jpeg, gif, png, imagen, música, canción, película, libro, juego, juegos