在梦里也能学开车?AI现在都能打“睡拳”了

听说过“睡梦罗汉拳”么?

电影《武状元苏乞儿》中,周星驰在梦中得到老乞丐心法传授,学会了睡梦罗汉拳。

只是睡了一觉,醒来就武功天下第一。

边睡边学习,可能不少同学都YY过……真正做到能有几人?

没想到,现在AI已经学会了。

刚刚,两位人工智能界的大牛:Google Brain团队的David Ha(从高盛董事总经理任上转投AI研究),瑞士AI实验室的Jürgen Schmidhuber(被誉为LSTM之父),共同发布了最新的研究成果:World Models(世界模型)。

简而言之,他们教会了AI在梦里“修炼”。

AI智能体不仅仅能在它自己幻想出来的梦境中学习,还能把学到的技能用到实际应用中。

一众人工智能界同仁纷纷发来贺电。

还有人说他们俩搞的是现实版《盗梦空间》,并且P了一张电影海报图:把Ha和Schmidhuber头像换了上去……

这种神奇能力是怎么回事?

量子位结合两位大牛的论文,尝试解释一下。

在梦里开车

在梦境中学,在现实中用,可以说是高阶技能了,我们先看一个比较基础的:

在现实里学,到梦境中用。

David Ha和Schmidhuber让一个AI在真正的模拟环境中学会了开车,然后,把它放到了“梦境”里,我们来看看这个学习过程:

先在真实的模拟环境中学开车:

当然,上图是人类视角。在这个学习过程中,AI所看到的世界是这样的:

把训练好的AI智能体放到AI的梦境中,它还是一样在开车:

这个梦境是怎么来的?要讲清楚这个问题,量子位还得先简单介绍一下这项研究的方法。他们所构建的智能体分为三部分,观察周围世界的视觉模型、预测未来状态的记忆模型和负责行动的控制器。

负责做梦的主要力量,就是其中的记忆模型。他们所用的记忆模型是MDN-RNN,正这个神经网络,让Google Brain的SketchRNN,能预测出你还没画完的简笔画究竟是一只猫还是一朵花。

在开车过程中,记忆模型负责“幻想”出自己在开车的场景,根据当前状态生成出下一时间的概率分布,也就是环境的下一个状态,视觉模型负责将这个状态解码成图像。他们结合在一起生成的,就是我们开头所说的“世界模型”。

然后,模型中的控制器就可以在记忆模型生成出来的虚假环境中开车了。

在梦里学打Doom

做梦开车很简单,但两位大牛的研究显然不止于此。既然AI幻想出来的环境很接近真实,那理论上讲,他们这项研究的终极目的也是可以实现的:让AI做着梦学技能,再用到现实中。

这一次,他们用了VizDoom,一个专门供AI练习打Doom的平台。

“做梦”的主力,又是我们前面提到过的记忆模型。和赛车稍有不同的是,它现在不仅需要预测环境的下一状态,为了让这个虚拟环境尽量真实,同时还要预测AI智能体的下一状态是死是活。