深度增强学习:走向通用人工智能之路

本文是系列文章中的第一篇,是对深度增强学习/深度强化学习的基本介绍以及对实现通用人工智能的探讨。

现在但凡写人工智能的文章,必提 Alpha Go 。也正是因为Alpha Go在围棋人机大战中里程碑式的胜利,人工智能迎来了新的春天。 本文也不免俗套,从Alpha Go说起,但希望能指明一些被忽视的但对Alpha Go棋力有深远影响的技术。 围棋人工智能大致可以分为三个阶段 [1] :第一阶段以启发式算法为主,水平低于业余初段,代表软件即以静态势力函数为强项的 手谈 ; 第二阶段以 蒙特卡洛树搜索算法 为代表,水平最高达到业余5段,比如说 Zen , Crazy Stone ;第三阶段以 深度学习 ( Deep Learning )以及 增强学习 ( Reinforcement Learning ,也称强化学习)算法为突破,并战胜了人类职业九段棋手李世乭,这也就是Alpha Go的故事了。每每提到Alpha Go卓越的能力,往往归咎于深度学习的强大,但实际上增强学习算法也功不可没。这二者的结合被称之为 深度增强学习 ( Deep Reinforcement Learning ,DRL),最初见于DeepMind在Nature上发表的 Human-level control through deep reinforcement learning 。 本文试图从深度增强学习的角度来探讨通用人工智能的实现,并简要介绍了深度增强学习的基础知识、常见算法以及相关应用。

如何解决通用人工智能的难点

三座大山

创造出像你我一样具有自我意识和思考的人工智能估计是人世间最迷人的问题之一了吧,新的存在总是想窥探造物主的秘密。同 P=NP 问题一样,验证一个存在是否具有自我意识的难度(见图灵测试 以及 中文房间问题 ) 同创造一个具有自我意识的存在的难度究竟关系如何,恐怕可以看做是判断自我意识是否能涌现的关键了吧。本文不讲那么上层次的人工智能,先来谈谈 通用人工智能 。按照维基百科的解释,

强人工智能也指通用人工智能(artificial general intelligence,AGI),或具备执行一般智慧行为的能力。强人工智能通常把人工智能和意识、感性、知识和自觉等人类的特征互相连结。