Policy function
(策略函数):从状态到决策的映射- Deterministic policy:
- Stochastic policy:
Value function
(价值函数):从状态以及决策到期望累积收益的映射- Bellman equation of
Q-value function
: - Bellman equation of
Optimal value function
:
- Bellman equation of
Model function
(环境函数):从状态以及决策到环境决策的映射 [3]- Deterministic environment:
- Stochastic environment:
通过折现因子 的引入,Q-value function一来可以转化为贝尔曼方程并满足无后效性以及最优子结构的特征;并且多期的折现又比单纯的one-step lookahead贪婪策略更加具有远见。 总而言之,求解增强学习问题的核心实际上在于价值函数的贝尔曼方程,这也是动态规划里标准的状态转移方程,即定义好边界以及该方程后,就可以通过倒推法或者带记忆的递归予以解决。 不过增强学习也可以通过直接搜索最优策略或者学习环境的奖惩套路来解决。 实际上,这三个要素正是强化学习同深度学习结合的关键。 正如David Silver所说 [4] ,
Reinforcement Learning defines the objective. Deep Learning gives the mechanism. – David Silver
二者的融合
对于复杂的任务以及环境而言,Q-value function实际上很难穷举的完的(针对每一个状态和决策都要给一个累积期望收益值),因此一般需要通过历史信息来估计这一函数。同样的,对Policy function和Model function也有类似的情况。 所以在给定增强学习三大求解目标(Policy-based, Value-based, Model-based)之后,我们便可以利用深度学习来利用历史输入输出来估计这三大目标函数。