深度增强学习:走向通用人工智能之路

本文所指的通用人工智能,便是可以处理通用任务的人工智能。 具体而言,我认为通用人工智能应包括以下三大特点或者说难点:

  • 通用任务:既能唱歌绘画、又能下棋写诗,最重要的是要尽量减少对 领域知识 ( Domain Knowledge )的依赖。
  • 学习能力:无论是通过逻辑推理的 演绎法 来学习,或者是基于经验和记忆的 归纳法 来学习,都要通过学习来提高处理通用任务的适用性。
  • 自省能力:也可以说是关于学习的学习,即 元认知 ,通过自省来纠偏行为。就像泰勒展开一样,我们大可以用低阶导数来逼近函数值,而无需考虑元认知的元认知这类高阶导数。

解决之道

David Silver(Alpha Go的第一作者)曾在ICML2016的 Tutorial: Deep Reinforcement Learning 讲到深度增强学习的前景

General Intelligence = Reinforcement Learning + Deep Learning = Deep Reinforcement Learning – David Silver

更进一步,『Reinforcement Learning defines the objective』(RL中有什么样的映射关系),『Deep Learning gives the mechanism』(DL如何学习给定的映射关系)。 我很同意深度增强学习便是解决通用人工智能难点的核心。 首先关于通用任务,几乎任何任务的解决都可以看做一个从形式编码的输入到决策分布输出的映射,而非线性的神经网络便是很好的 表征 ( representation )学习工具。其次,学习能力主要可分为演绎法和归纳法。增强学习就像是基于奖赏的演绎法,给定外界环境和相应的奖赏函数,我们最终产生合法的决策出来。深度学习就像是基于经验以及记忆的归纳法,给定输入输出,然后通过神经网络来学习表征。最后关于自省能力,这也是人工智能可以产生自我意识、并独立于人类存在的关键。自省从某种程度可以从增强学习来习得,通过不断试错以及奖赏,『增强/强化』自我的决策。但这种自省又受限于其存在的世界观,就像二维线段只能盲人摸象般地观测到三维球体,而三维球体却可以完整地观测二维线段。但总之,只要定义好了世界以及奖赏,我认为相应的自省能力就是在给定环境下不断优化自己的学习能力(即一阶导数大于零)。