顶尖AI无法识别简单图案?因为人类已经无法理解它们了

看看下面的黑黄相间的条纹,告诉我你看到了什么。没什么,对吧?不过,如果问最顶尖的人工智能同样的问题,它会告诉你,这个图案代表校车。它会说这一评估的有效度超过 99%。但这个答案 100% 错了。

54ab908186962.jpg

计算机真的非常擅长识别物体。不过,一篇新论文将我们的关注引向了超智能算法完全无用的领域。这篇论文详细阐述了研究人员们如何用随机生成的简单图片愚弄最先进的深度神经网络。这些算法一次又一次地将混合的抽象图形看成是鹦鹉、乒乓球拍、百吉饼和蝴蝶。

这些发现迫使我们了解一个很明显但极其重要的事实:计算机视觉和人类视觉根本不相同。然而,由于计算机越发依赖神经网络来学习观看,我们也不是很确定计算机视觉与人类视觉有何差异。正如开展研究的研究人员之一 Jeff Clune 所说的,在人工智能上,“我们可以在不知道如何获得结果的情况下得到结果。”

升级图片来愚弄人工智能

发现这些自训练算法为何如此聪明的方式之一是,找到它们愚笨的地方。在这个例子中,Clune 和博士生 Anh Nguyen 以及 Jason Yosinski 就是要看顶级图像识别神经网络是否易受误报影响。我们知道,计算机能识别考拉。但是否能让电脑把其他东西认作是考拉呢?

54ab90b46d935.jpg

为了找到这一问题的答案,这个团队通过进化算法生成了随机图像。基本上,这些算法生成了非常有效的视觉诱饵。在进化算法中,程序会生成一张图片,然后稍微改变一下图片(突变)。原始图片和复制后的图片都展示给经过 ImageNet 训练的神经网络。ImageNet 包含 130 万张图片,已经成为训练计算机视觉人工智能的必备资源。如果算法对复制后的照片更确定,研究人员们就会保留它,如此循环往复。否则他们会后退一步,然后再次尝试。Clune 表示道:“这不是适者生存,而是结果最漂亮的图片会生存”,或者更精确的说,计算机识别精度最高的图片会生存。

最终,这一技术生成了几十张神经网络认为精确度超过 99% 的照片。在你看来,这些照片看起来很不一样,就是一系列的蓝色和橙色波浪线,一堆椭圆,以及黄黑条纹等。但在人工智能看来,这些图片都是很明显的匹配:分别是金鱼、遥控器和校车。

一窥黑盒内景

在一些情况中,你能开始弄懂人工智能是如何被愚弄的。眯着眼睛看,校车看起来就像是由黄黑条纹相间组成。类似的,你可以看明白让人工智能认为是“帝王蝶”的随机生成图片确实能够组合出蝴蝶翅膀,以及“滑雪面具”图片确实看起来像是一张夸张的人脸。

但事情要复杂得多。研究人员们还发现,人工智能总是会被纯静态图片所愚弄。研究人员们使用略有不同的进化技术,生成了另一组图片。这些图片看起来几乎都一样,和坏掉的电视机上出现的画面差不多。然而,顶尖神经网络以 99% 的精度确认这些图片中是蜈蚣、猎豹和孔雀。

54ab912bf1cd5.jpg

对 Clune 来说,这些发现暗示神经网络通过多种视觉线索来识别物体。这些线索也许和人视觉线索很像(比如校车),也许不像。静态图片的结果显示,至少在有些时候,这些线索非常颗粒化。也许在训练中,神经网络注意到一条由“绿像素、绿像素、紫像素、绿像素”组成的线条在孔雀的照片中很常见。当 Clune 及其团队生成的照片恰巧有同样的线条,它们就触发了“孔雀”特征。研究人员们还能用完全不像的抽象图片触发“蜥蜴”特征,显示神经网络只依靠几项线索来识别物体,而且每一种线索都能触发确认的特征。

我们周密计划来愚弄这些算法的事实也指出了如今的人工智能中更大的真相:即便这些算法奏效,我们也并不总是知道它们起作用的原因。“这些模型变得非常大,也非常复杂,而且它们在自我学习”,身为美国怀俄明州立大学进化人工智能实验室负责人的 Clune 表示道:“神经网络中有数百万神经元,它们都各行其事。我们也不是很了解它们何以取得如此惊人的成就。”

类似的研究是试图逆向工程这些模型。他们想要了解人工智能的大致轮廓。Clune 解释道:“在过去一两年中,我们了解了很多神经网络黑盒内部的情况。这一切都还很模糊,但我们已经开始看到它了。”

不管怎样,为什么计算机的误判是个重要问题呢?

在本月早些时候,Clune 在蒙特利尔举办的神经信息处理系统大会上与同行研究人员们讨论了这些发现。此次大会聚集了一些人工智能领域最聪明的思考者们。大家的反应可归为两个阵营。一个阵营的人认为这项研究很有意义,这个阵营的人年纪要更大,在人工智能领域的经验更丰富。他们或许预测会出现不同的结果,但同时认为这些结果完全可以合理。

第二个阵营由没有花多少时间思考是什么让如今的计算机大脑运转的人组成,这些人对这一发现表示震惊。至少在最开始,他们很惊讶,这些强大的算法居然也能犯这么简单的错误。需要提醒的是,这些人还发表神经网络的论文,并且出现在今年最高级的人工智能大会上。

对 Clune 来说,两极分化的反应表明:人工智能领域正发生代际转变。几年之前,在人工智能领域工作的人在搭建人工智能。如今,神经网络已经足够好,研究人员们只是获取现有的东西来运用。Clune 表示:“在很多时候,你可以直接用这些算法来解决问题。人们涌入进来运用人工智能就像淘金热一样。”

这并不一定是坏事。但随着越来越多的东西建立在人工智能上,探索人工智能的缺陷也就变得越来越至关重要。如果算法仅凭一条像素线就断定一张图片是某种动物,想想色情照片通过安全搜索过滤器会有多容易。短期来说,Clune 希望这项研究会促进其他研究人员开发将图片全局纳入考虑的算法。换句话说,能让计算机视觉更像人类视觉的算法。

这项研究还让我们考虑这些缺陷的其他表现形式。比如面部识别也是以来同样的技术吗?Clune 表示:“一模一样,面部识别算法也很受同样的问题影响。”

你还可以想象这一发现的所有有趣应用。或许某种 3D 打印的鼻子就足以让电脑认为你是别人。也许穿上一层表面有几何形状的衣服,监控系统就会完全无视你。这一发现证实,随着计算机视觉使用率上升,破坏它的可能性也很随之上升。

往大点讲,随着我们进入自学习系统时代,这一发现也提醒了我们一个快速浮现的现实。现在我们仍然能控制我们创造的东西。但随着它们不断构建自身,我们很快就会发现,它们复杂得让我们看不透了。Clune表示:“人类再也看不懂这些计算机代码。它就像是一个由互动部分组成的经济体,智能从这中间浮现了出来。”

我们肯定会立刻使用这一智能。但在我们这么做时,我们是否能完全理解它就不得而知了。

via wired