谷歌新论文提出预测器架构：端到端的学习与规划_技术资料_物联网_中国计算网——工业互联网一站式服务平台—

图 1：a) 预测器架构。前 3 列图分别展现了 0、1、2 步的预测器的路径。0 步的 preturn 退化为标准无模型的价值函数的近似形式；其它 preturn 通过一个内部模型「想象」额外的步骤。每个路径输出 k 步的 preturn（g_k）, 这个 preturn 包含了累积折扣奖励（discounted reward）和最终价值函数的估计值。在实践中，所有 k 步的 preturn 都只在向前路径中计算。b) 第 4 列显示了λ-预测器的架构。不同的λ参数阈值对应不同的 preturn。输出是λ-preturn 记为 g_λ，它是 k 步 preturn 的组合值。例如，如果λ_0=I，λ_1=I，λ_2=0，那么我们将 2 步的 preturn 修正为 g_λ=g_2。折扣因子γ_k 和λ参数λ_k 取决于状态 s_k；这种相关性在图中未示出。

声明：本文由机器之心编译出品，原文来自Arxiv，翻译 Jane W，转载请查看要求，机器之心对于违规侵权者保有法律追诉权。

2/2 首页上一页 1 2