增强学习在未来的二至三年,会像深度学习一样影响巨大。
其他研究人工智能的公司和研究员会紧密关注着。DeepMind增强学习的成功让很多机器学习研究员吃了一惊。这项技术是二十世纪八十年代创建的,之前没有其他训练软件的方法那么广泛使用和效果强大,华盛顿大学研究机器学习的教授Pedro Domingos说。DeepMind加强了这项技术,把它和深度学习方法结合起来。深度学习最近有了重大突破,能让计算机解码图片等信息,引发了最近机器学习的热潮。
“DeepMind所做的很了不起,”Domingos说。但是他还说,Hassabis想做的是一个超越现在所有研究的火箭,还是后院里放的烟火,现在要下定论还为时过早——近期让人眼花缭乱的成功不一定能持续。“Demis对增强学习的乐观态度不只是处于成功经验,”Domigos说,“机器学习和人工智能领域中,进步不是线性的;我们有时候会突飞猛进,有时候会慢慢前行。”
Hassabis承认,业界”很多“人都怀疑增强学习的潜能,但是他们不会买账。“我们越是深入,越是感觉我们的理论是正确的,我想我们正在改变整个领域,”他说。“我们认为增强学习在未来的二至三年会像深度学习一样影响巨大。”
安全第一
DeepMind的成功目前支持Hassabis关于增强学习会有很多应用的说法。AlphaGo的成功让很多专业围棋手和计算机专家惊讶,因为围棋实在非常复杂,很难让基本依靠计算不同走法可能结果的软件胜利,也就是1997年IBM的深蓝用来打败世界象棋冠军Garry Kasparov的方法。平均来说,象棋玩家每一步有35种可能的走法;在围棋中,有250种。围棋中位置可能性排列组合的数量,比宇宙中原子的数量都多。“象棋是一种计算游戏,”Hassabis说,“围棋太复杂,所有玩家靠的是直觉。在类别上完全不一样。你可以把AlphaGo想象成一个超级人类的直觉,而非超级人类的计算。”
围棋世界冠军李世石回顾他1-4败于AlphaGo的比赛。图片来源MIT Technology Review。
不论你是否同意AlphaGo具有直觉,能让软件掌握更复杂的任务显然很有用。DeepMind正在和英国国家健康服务的项目合作,训练软件帮助医务工作人员发现肾脏问题的迹象,这些问题经常被忽视,并造成大量可以避免的死亡。团队还在和谷歌业务团队合作,Hassabis说他的技术可以让虚拟助理浮现,改善推荐系统,这对于YouTube等产品非常重要(类似的系统也是谷歌广告产品的基础)。
能解决问题的一个非主流办法是,学习真实的大脑。
更远的未来,DeepMind需要很多突破,才能往Hassabis解决智能的目标靠近,即使是未来几年都在Labyrinth里面试验。最关键的一个缺口是一种叫做分块的技能,人类和动物的大脑用以处理世界的复杂性。Hassabis举了个去机场的例子,你可以想好如何去机场并且完成计划,而不用考虑走去门口的时候每一步走在哪儿,如何转动门把手或控制每一个肌肉纤维。我们可以用高层次的概念来计划和行动,而不用考虑每一个细节,并且通过重新组合我们熟悉的“分块”,或者概念,来适应新环境。“这大概是人工智能领域内未解决的最核心问题之一。”Hassabis说。
这是许多研究团队在钻研的问题,包括其他谷歌团队。但是,DeepMind希望能解决问题的一个非主流办法是,学习真实的大脑。公司有一个由著名研究员Mattew Botvinick领导的神经科学家团队,他直到最近一直是普林斯顿大学的教授。与大部分神经科学研究不同的是,他们不仅要研究大脑如何运作,还要告诉DeepMind如何设计软件。
有一个近期试验测试了Hassabis关于人脑如何组织概念的理论,利用一个伪造记忆的标准程序。它给测试对象呈现一系列相关词,例如“冷”、“雪”和“冰”。人们经常错误地记得听到一些其他相关词,例如”冬天“。