图 1:a) 预测器架构。前 3 列图分别展现了 0、1、2 步的预测器的路径。0 步的 preturn 退化为标准无模型的价值函数的近似形式;其它 preturn 通过一个内部模型「想象」额外的步骤。每个路径输出 k 步的 preturn(g_k), 这个 preturn 包含了累积折扣奖励(discounted reward)和最终价值函数的估计值。在实践中,所有 k 步的 preturn 都只在向前路径中计算。b) 第 4 列显示了λ-预测器的架构。不同的λ参数阈值对应不同的 preturn。输出是λ-preturn 记为 g_λ,它是 k 步 preturn 的组合值。例如,如果λ_0=I,λ_1=I,λ_2=0,那么我们将 2 步的 preturn 修正为 g_λ=g_2。折扣因子γ_k 和λ参数λ_k 取决于状态 s_k;这种相关性在图中未示出。
声明:本文由机器之心编译出品,原文来自Arxiv,翻译 Jane W,转载请查看要求,机器之心对于违规侵权者保有法律追诉权。