我们再看另外一个例子就是图片识别。13年的时候,中国移动互联网有一个爆发的应用就是百度魔图,就是普通人可以拍张照,然后系统会告诉你长得最像哪个大咖。我们这个产品在连续三周在iOS总榜排名第一,最多的时候一天900万人上传照片,我们一下子收集了好多人脸照片(观众笑)。至今这也是百度移动产品的记录。
很多高科技公司都会参加一个IFW竞赛,也就是人脸识别的测评,它是怎样的呢?就是一些照片,系统要判断这是属于同一个人还是不同的人。去年Facebook宣称他们取得了最好的结果。但不同的公司也在不断的PK,目前来讲最好的结果是百度的(误差率约0.15%),这个结果现在到了什么情况呢?有人让人来参加了这个评估,结果大概是在这个地方(误差约0.35%),也就是说机器可能比人还要好。当然这只是一个具体的任务上,机器的表现比人好,不代表整个人工智能能达到人的地步。
还有一个很有意思的ImageNet,也就是图像识别分类的竞赛。不同行业的人可能不一定感触到,但我们这个行业能听到轰隆隆的雷声,是由于大数据,由于深度学习在发生非常快的进展。ImageNet做的是图片的分类,过去五年里,我们可以看到错误率在不断下降,10年的第一届,我的这个团队是拿了第一名,后面每年结果都在变化,去年最好的结果是我们在百度的同事做的,斯坦福同样也做了一个评估,看人类来做这个测试结果会是怎样。
(ImageNet)微软在今年1月份发布的结果超过了百度,前段时间Google的同事的结果又比微软好,上个礼拜,我同事和我说,我们的结果比Google还好。所以这个竞争很有意思,很多年后我们再回想就觉得,我们这些不同公司的研究人员就像一个班上的同学一起PK,一起分享经验,实际是在一起推动行业的发展的。
OK,图像的理解始终是和我们人类对知识的理解以及语言总是能够耦合在一起的,那怎么把这个事情做得更加有意思呢?我们在小时候可能做过“看图说话”,用语言来描述这幅图像,比如这幅图,用中文描述就是“起居室里有着百色的沙发和蓝色的地毯,下午的阳光照进房间”。这样的描述实际上是由机器来完成的。这是去年百度的研究人员最早在世界上发表了这样的论文,后来Google等都发表了类似的论文,也引用了我们的研究结果。
我们现在也在做一些中文的描述,比如说这个例子:“一辆双层巴士行驶在街道上”。我们可以做什么呢?比如说做图像识别,我们去找类似的图片,得出来的图像可能是这样的(一些街景),因为这个图像它的主要内容是建筑和街道。但如果我们用自然语言来描述这个场景,我们的出来的类似图片是不一样的。我们在百度如何用自然语言描述去提升我们对图像的理解,它背后的模型再度验证了我刚才的一个观点:深度学习实际提供的是一个语言系统,对于一个具体的问题,你要有能力去构建模型,模拟这样一个问题。这样一个例子就是下面是一个深度的卷积神经网络,它产生的一个表示,上面是一个多层的神经网络去产生语言的模型。这样的结果就是,它既是符合我们语义的语言,同时也反映了图像的内容。
我们再进一步去想:我们可以去做一些更加像人类做的事情。比如说对这样一个图像,我们可以去教小孩,去学习一些东西。这样的图像,机器可能会问小孩:他站在什么上?“他”是单人旁的他,而不是女字旁的“她”哦。我们也希望机器能回答这个问题,根据图片本身的像素,根据本身的问题能够回答:他站在冲浪板上。机器可能还会继续问:那他有穿上衣吗?然后机器可以回答:没有。这都是今天的深度学习神经网络根据图片内容自动生成的。它已经超越了我们过去的图像识别,也就是“你有什么东西”,变成了“你有什么样的语义”和“你有什么样的关系”。
对未来机器人、自动驾驶、人工智能的思考
这里回到一个我们对人工智能目前的现状和未来的一个思考:过去的互联网服务,它做的事情也有几个方面,一个是感知,另外一个理解,还有一个决策。感知就是获取数据,经过大规模的计算,比如处理,索引,然后在决策的时候能展示什么样的结果和服务。这些所有都是线上的。今天移动互联网与人更近,它和你所处的场景有关系。从感知的角度讲我们要从人,从物理世界获得信息,这种线下信息可能比互联网世界更加重要。从服务的角度,以前是线上的服务,它会向线下延伸,向传统行业延伸。像智能硬件、自动驾驶、机器人,会在未来扮演更加重要的角色。