1月初,人工智能(Artificial Intelligence,AI)领域出现了一个标志性事件:阿里巴巴和微软的团队在斯坦福大学的阅读理解问答测试中,创造出超越人类水平的成绩。因为这个,有些媒体打出大字标题:人工智能的阅读理解能力已经超过人类。
AI模型已经能够比人类更好地理解文章内容了吗?先放下这个问题,看看AI的另一类重要领域:图像识别。
图像识别是AI最早取得重大突破的领域。2012年,谷歌的两位技术大牛Jeff Dean和吴恩达(Andrew Ng)构建神经网络模型,通过自主学习YouTube上的图像资料,让神经网络模型具备了对于猫的识别能力,并掀起了机器学习构建AI模型的行业热潮。在最前沿的AI行业应用中,如自动驾驶系统,图像识别也是其构建整个应用的基础能力。所以图像识别能力的发展实际上是整个AI产业能力发展的缩影。但就在2017年底至2018年初,AI的图像识别似乎遇到一些难以解决的问题。这些问题,恐怕可以很好地说明一个真相:目前的AI能力,是十分容易被欺骗的,失之毫厘,谬以千里。
黑猩猩事件
2018年1月《连线》杂志报道,谷歌公司偷偷地把“猩猩”(gorilla)、“黑猩猩”(chimp/chimpanzee)和“猴子”(monkey)标签从图片分类选项中去除。这是怎么回事呢,事情还要从三年前说起。
2015年6月,一位黑人程序员在使用谷歌的照片分类模型对自己的照片进行自动分类标注时,惊奇地发现他的一位黑人好友的照片被打上了“猩猩”的标签。他愤而将此事发布在互联网上并得到高度关注。在一向强调政治正确和反对种族歧视的美国,一个企业的产品有如此严重的种族主义错误,这无论如何都是不能被接受的。谷歌公司的反馈也非常之快,他们立即就暂停了该分类标签功能,并表示将尽快调整模型,从根本上防止此类事件的再度发生。当时提供这个分类标签功能的,就是谷歌早期的AI图像识别模型。
按理说,在AI技术飞速发展的三年后,借助于更加丰富的数据来源和更加强大的云计算平台,谷歌的图像识别AI模型应该已经具备了比2015年精确得多的识别能力。
但谷歌最终的解决方法却是静悄悄地把引起麻烦的标签从标签库中去除。我们虽然无法得知其中的细节,但对于目前AI模型的能力不由得会有一丝怀疑:准确区分灵长类动物和黑人对于AI模型就真的那么难吗?是的,在某些场景下,对于几乎所有智力正常的人类甚至三岁小孩都能完成的图像识别,对于AI模型却是难上加难。
Google Inception v-3是Google公司在自己的AI平台Tensorflow上的开源图像识别神经网络模型,Top-5错误率可以低到3.46%,代表了人工智能图像识别领域的领先水平(图像识别的判别指标,模型对每幅图像同时提供5个类别标签,其中任何一个类别标签判别正确,结果都算正确。当5个标签全部错误,才算判别错误)。
麻省理工计算机科学和人工智能实验室的实验人员2017年10月完成了一个有趣的实验。他们通过对于被判别物体的表面和颜色进行特殊处理,单纯改变表面材质和颜色进行欺骗,就可以让Google Inception v-3图像识别AI模型做出错误判断,让其把海龟识别为枪支,把棒球识别为浓缩咖啡(espresso)。
另一个有关图像识别的欺诈则是来自于谷歌公司自己的研究团队。他们在2017年12月创造出一种被称为“对抗性补丁”( Adversarial Patch)的物体,能够成功干扰现有的谷歌图像识别AI模型,让其把香蕉识别为烤面包机。
正常状态下,图像识别模型能够准确识别香蕉。但放置了这个“对抗性补丁”后,图像识别模型立即产生错误判别。根据谷歌的研究结果,这种基于特定“补丁”的图像识别攻击,“补丁”面积只要占据不到10%的识别面积,就可以达到90%以上的攻击成功率。
令人惊叹的是,利用“补丁”攻击的过程非常简单。这些干扰性“补丁”可以很方便地打印出来,添加到任何场景或图片中,或者放置在被识别物品的旁边,以便被图像识别的摄像头捕捉到。哪怕这个“补丁”很小,它们也能够诱导AI模型忽略边上应该被识别的物体,而把识别的焦点吸引到自身,最终导致AI模型做出错误的判断。
一名人类儿童甚至一条狗、一只猫在观察图像时会出现这样的错误吗?当然不会。这像神话一样的操作,恰恰说明了目前基于AI的图像识别,和人类以及动物的图像识别模式是完全不同的。