在梦里也能学开车？AI现在都能打“睡拳”了_大数据_计算头条_中国计算网——工业互联网一站式服务平台—

听说过“睡梦罗汉拳”么？

电影《武状元苏乞儿》中，周星驰在梦中得到老乞丐心法传授，学会了睡梦罗汉拳。

只是睡了一觉，醒来就武功天下第一。

边睡边学习，可能不少同学都YY过……真正做到能有几人？

没想到，现在AI已经学会了。

刚刚，两位人工智能界的大牛：Google Brain团队的David Ha（从高盛董事总经理任上转投AI研究），瑞士AI实验室的Jürgen Schmidhuber（被誉为LSTM之父），共同发布了最新的研究成果：World Models（世界模型）。

简而言之，他们教会了AI在梦里“修炼”。

AI智能体不仅仅能在它自己幻想出来的梦境中学习，还能把学到的技能用到实际应用中。

一众人工智能界同仁纷纷发来贺电。

还有人说他们俩搞的是现实版《盗梦空间》，并且P了一张电影海报图：把Ha和Schmidhuber头像换了上去……

这种神奇能力是怎么回事？

量子位结合两位大牛的论文，尝试解释一下。

在梦里开车

在梦境中学，在现实中用，可以说是高阶技能了，我们先看一个比较基础的：

在现实里学，到梦境中用。

David Ha和Schmidhuber让一个AI在真正的模拟环境中学会了开车，然后，把它放到了“梦境”里，我们来看看这个学习过程：

先在真实的模拟环境中学开车：

当然，上图是人类视角。在这个学习过程中，AI所看到的世界是这样的：

把训练好的AI智能体放到AI的梦境中，它还是一样在开车：

这个梦境是怎么来的？要讲清楚这个问题，量子位还得先简单介绍一下这项研究的方法。他们所构建的智能体分为三部分，观察周围世界的视觉模型、预测未来状态的记忆模型和负责行动的控制器。

负责做梦的主要力量，就是其中的记忆模型。他们所用的记忆模型是MDN-RNN，正这个神经网络，让Google Brain的SketchRNN，能预测出你还没画完的简笔画究竟是一只猫还是一朵花。

在开车过程中，记忆模型负责“幻想”出自己在开车的场景，根据当前状态生成出下一时间的概率分布，也就是环境的下一个状态，视觉模型负责将这个状态解码成图像。他们结合在一起生成的，就是我们开头所说的“世界模型”。

然后，模型中的控制器就可以在记忆模型生成出来的虚假环境中开车了。

在梦里学打Doom

做梦开车很简单，但两位大牛的研究显然不止于此。既然AI幻想出来的环境很接近真实，那理论上讲，他们这项研究的终极目的也是可以实现的：让AI做着梦学技能，再用到现实中。

这一次，他们用了VizDoom，一个专门供AI练习打Doom的平台。

“做梦”的主力，又是我们前面提到过的记忆模型。和赛车稍有不同的是，它现在不仅需要预测环境的下一状态，为了让这个虚拟环境尽量真实，同时还要预测AI智能体的下一状态是死是活。