至于深度学习方面,类似的,先对value function进行参数化 ,那我们的目的就是找 。然后,就是优化损失函数 [7] 。David Silver在这里提到如果样本之间存在相关性或者收益函数非平稳,容易导致价值函数的不收敛,因此需要一些机制来予以解决。
Model-based DRL
关于Model-based DRL,David Silver讲的比较少,主要举了Alpha Go的例子,即我们完美知道环境的信息(走子规则、胜负规则等等)。大致意思还是利用神经网络来代替真实的环境函数,也就是让Agent有能力预测环境下一期的状态以及收益等等,基于此来优化Agent的决策过程。下图是网上 [8] 找到的 Model Iteration Algorithm
的伪代码,基本就是通过对状态转移函数以及奖惩函数的搜索,来估计价值函数。
深度增强学习有哪些用途
可以看到凡是任务导向型,并且目标可以被奖惩函数刻画的,均可以利用深度增强学习来解决,所以其应用范围还是蛮广的。以下举了深度增强学习的若干应用,视频均来自Youtube,因此需要科学上网。