怎么利用深度增强学习解决问题
正如上文的分析,David Silver将深度增强学习算法分为如下三大类 [5] 。 下文将先从增强学习的角度分析如何做决策,然后从深度学习的角度来分析如何学习相应的策略函数、估值函数以及环境函数。
Policy-based DRL
下图展示了利用 Policy Iteration Algorithm
来解决增强学习问题的思路。即给定任意初始策略 ,然后利用估值函数 对其评价,基于该估值函数对策略进一步优化得到 。循环这一过程,直至策略达到最优而不能进一步改善。
至于在深度学习方面,首先对policy function进行参数化 ,其中 为神经网络的参数。其次,参数化后的累积期望收益函数为 。然后,我们就可以得到 策略梯度
(Policy Gradients),在随机性策略函数下为 ,而在确定性策略函数下为 。最后,便可以利用梯度下降算法来寻找最优的神经网络参数 [6] 。
Value-based DRL
下图是解决增强学习问题的 Value Iteration Algorithm
的伪代码。即给定任意初始估值函数 ,利用贝尔曼方程递推得逼近真实的估值函数。