深度增强学习：走向通用人工智能之路_国内资讯_智能设备_中国计算网——工业互联网一站式服务平台—

至于深度学习方面，类似的，先对value function进行参数化，那我们的目的就是找。然后，就是优化损失函数 [7] 。David Silver在这里提到如果样本之间存在相关性或者收益函数非平稳，容易导致价值函数的不收敛，因此需要一些机制来予以解决。

Model-based DRL

关于Model-based DRL，David Silver讲的比较少，主要举了Alpha Go的例子，即我们完美知道环境的信息（走子规则、胜负规则等等）。大致意思还是利用神经网络来代替真实的环境函数，也就是让Agent有能力预测环境下一期的状态以及收益等等，基于此来优化Agent的决策过程。下图是网上 [8] 找到的 Model Iteration Algorithm 的伪代码，基本就是通过对状态转移函数以及奖惩函数的搜索，来估计价值函数。

深度增强学习有哪些用途

可以看到凡是任务导向型，并且目标可以被奖惩函数刻画的，均可以利用深度增强学习来解决，所以其应用范围还是蛮广的。以下举了深度增强学习的若干应用，视频均来自Youtube，因此需要科学上网。

游戏策略

机器人控制

7/8 首页上一页 5 6 7 8 下一页尾页