深度增强学习:走向通用人工智能之路

) 、以及它可观测到的其他信息 。最后,循环往复直到任务完成。不同于Planning(规划)问题,Learning(学习)问题一开始并不知道Environment的全部情况,因此需要逐步试错学习环境以及调整自身决策。 关于奖赏的机制这里有一个假设,那就是假定所有的目标都可以被刻画为期望累积收益的最大化。 从上面的描述可以看到关于Agent,有三个很关键的组成要素,

  • Policy function (策略函数):从状态到决策的映射
    • Deterministic policy:
    • Stochastic policy:
  • Value function (价值函数):从状态以及决策到期望累积收益的映射
    • Bellman equation of Q-value function :
    • Bellman equation of Optimal value function :
  • Model function (环境函数):从状态以及决策到环境决策的映射 [3]
    • Deterministic environment:
    • Stochastic environment:

通过折现因子 的引入,Q-value function一来可以转化为贝尔曼方程并满足无后效性以及最优子结构的特征;并且多期的折现又比单纯的one-step lookahead贪婪策略更加具有远见。 总而言之,求解增强学习问题的核心实际上在于价值函数的贝尔曼方程,这也是动态规划里标准的状态转移方程,即定义好边界以及该方程后,就可以通过倒推法或者带记忆的递归予以解决。 不过增强学习也可以通过直接搜索最优策略或者学习环境的奖惩套路来解决。 实际上,这三个要素正是强化学习同深度学习结合的关键。 正如David Silver所说 [4] ,

Reinforcement Learning defines the objective. Deep Learning gives the mechanism. – David Silver

二者的融合

对于复杂的任务以及环境而言,Q-value function实际上很难穷举的完的(针对每一个状态和决策都要给一个累积期望收益值),因此一般需要通过历史信息来估计这一函数。同样的,对Policy function和Model function也有类似的情况。 所以在给定增强学习三大求解目标(Policy-based, Value-based, Model-based)之后,我们便可以利用深度学习来利用历史输入输出来估计这三大目标函数。