人工智能革命揭秘上篇(上)

无论结局怎样,革命已经开始。去年夏天,伯克利的团队把一套短期记忆系统植入了一个仿真机器人里面。参与该项目的计算机科学家 Sergey Levine 说他们注意到了 “一件奇怪的事情”。为了测试机器人的记忆程序,他们向机器人发出一项指令,要求它把一颗钉放到一左一右两个洞的其中之一。出于控制的考虑,他们再度在移除记忆程序的情况下又试验了一次—令他们感到惊讶的是,机器人仍然知道把钉放进正确的洞口。在没有存储的情况下它是如何记得钉子应该放到哪里的呢?“最终我们意识到,只要机器人接收了指令,它就会旋转机械臂到正确的洞口。” 然后,在命令消失之后,它会看自己的身体扭向什么位置才确定钉子应该放在哪个洞里面。也就是说,机器人自己实际上已经找到了正确执行命令的办法。“这非常令人吃惊,” Levine 说:“也让人不安。”

Abbeel 带我去到他的办公室,这是一间没有窗户的小隔间。在办公室里,他跟我谈到了 DeepMind(2014年 被 Google 以约 4 亿美元收购的 AI 初创企业)最近取得的一项突破。几年前,因为教会计算机玩太空入侵者之类的雅达利视频游戏并且玩得比人类还溜,DeepMind 已经震惊了大家一把。不过更令人震惊的是,DeepMind 是在没有在程序中告诉计算机游戏规则的情况下做到的。。这不像深蓝在国际象棋比赛中击败人类那样,游戏规则是在程序里面写好的。计算机只知道一点:目标是拿高分。计算机采用的是强化学习法来做到这一点,这就好比训练狗,不管它用什么办法,只要它做到了你就表扬一声 “好狗” 一样,计算机就可以通过这种机制来探索游戏,在反馈中自己学会规则。在几个小时之内,计算机就掌握了超人的技巧。这是 AI 的一项重大突破—计算机第一次自己 “学会” 了一项复杂技能。

Abbeel 的实验室的研究人员对这项突破感到着迷,他们决定用自己写的类似强化学习算法来做实验,试图帮助机器人学习游泳、学习单脚跳以及走路。或者玩视频游戏怎样?令他们惊讶的是,这个所谓的 TRPO(Trust Region Policy Optimization,信任区域策略优化)算法实现的结果几乎跟 DeepMind 的算法一样好。换句话说,TRPO 展现出了用一般方法学习的能力。“我们发现 TRPO 不仅可以教机器人走路,” Abbeel 说:“还可以在视频游戏中击败人类。”

Abbeel 调出了一个有关一个机器人模拟器的视频。视频开头可以看到一个机器人摔倒在黑白相间的地板上。“记住,这个算法跟学视频游戏的是一样的,” 他说。机器人被布置了 3 个目标:有多远走多远,不要踩到自己的脚,以及躯干要高于一定高度。“它不知道走路是什么意思,” Abbeel 说:“也不知道自己有手有脚。它只知道自己的目标。然后想办法实现目标。”

Abbeel 按下一个按钮,模拟开始工作。机器人笨重地摔到地上,不知道自己在干什么。“原则上,它应该能确定自己要走还是跳,” Abbeel 说。但是算法是通过实时 “了解” 到只要把自己的腿抬起来,它就能推动自己向前走来确定的。这让机器人可以分析自己上一次的表现,解码出哪一种动作的表现更好,然后在未来相应改变行为。很快机器人就开始蹒跚而行,东倒西歪像喝醉酒一样。它会突然往前扑倒,爬起来,走了几步,然后又倒了。但是慢慢地它的表现开始提高,学会了跌跌撞撞地朝着目标跑过去了。你几乎能感觉到它的信心在增加,抬腿的速度快得就像一名跑锋(running back)一样。机器人不知道自己在跑,因为程序没有进行设置。但现在它已经在跑了。它自己自己学会了复杂的平衡和肢体控制这些物理学的知识。这已经不仅仅是令人吃惊了,简直就是魔术。就好像是在短短 40 秒的时间内目睹一条鱼变成了人一样。

“机器人移动和开始走路的方式让它看起来就像是活的一样,” 我说。

Abbeel 笑了:“差不多吧。”

尽管书本和电影里面有人工智能的各种渲染,但这个东西可不是悬浮在某处蓝色液体箱的一个合成大脑。人工智能是算法—一个数学方程式,它告诉计算机执行什么功能(通俗点你可以把它理解为机器的食谱;更深入的话题可参见寻找生命的基础算法 )。21 世纪的算法就像是 19 世纪的煤矿:是我们的经济引擎,是现代生活的燃料。没有算法,你的电话无法工作,也不会有 Facebook、Google、Amazon。算法规划航班然后引导飞机飞行,算法帮医生诊断疾玻“如果每个算法突然停止工作,我们所熟知的世界就要终结,” 机器学习的流行读物《主算法》的作者 Pedro Domingos(参见有没有主宰世界的主算法 )写道。在 AI 的世界里,圣杯就是发现能够让机器理解世界的那个算法,这就好比是能够让物理学家解释宇宙运作机制的标准模型,只不过前者是数字世界的。