所以我们可以看到,第一我们需要用一个非常复杂的模型,去减少这种偏差,第二个问题我们要用无偏的,也就是大数据去弥补。这样我们得出一个结论:深度学习跟传统的人工智能比较,随着数据的增长能够吸收数据增长带来的红利。传统人工智能模型可能不够复杂,比如是一个线性模型,数据量大了后偏差会比较大。还有一种可能是模型很好,但计算的问题无法解决。比如有一种很好的模型,它的计算复杂度是N的二次方到三次方,这样处理一万个学习样本和一百万个学习样本,需要的计算资源就至少相差一万倍。在大数据的时代,这就只能到此为止了。
深度学习是一套灵活的、复杂的语言系统。在不同的问题里会有不同的语言框架,用不同的结构去处理不同的问题。百度今天在这方面可以说走在相当的前面,从规模上讲,百度可能是世界上第一个运用大规模的GPU Servers的公司 , 12年的时候,当时我们就采购了世界上最大的采购量。
今天我们有五六千台的PC Server,超过两千台GPU的Server在一起做这种混合的大规模的深度学习的训练,所以我们现在能够构建这种相当大的、千亿级参数的世界上最大的人工神经网络。在其他方面很多算法比如语音识别、图像识别、自然语言、广告、用户建模等帮助很大。
今天我们已经不是停留在研究的层面,而是对于百度的业务比如说搜索、广告、图像、语音,因为深度学习带来的提升是非常巨大的。在整个业务里扮演的角色也变得更加的智能,一言以蔽之,我们的业务模式是连接人和信息,连接人和服务,你如何去理解人的意图,比如一个关键词,一张照片,说一句话,如何匹配用户需求,如何推送信息和服务。
深度学习的应用例子
凤巢就是一个用深度学习去实现变现的例子,在过去两年对点击率和搜索满意度的提升都是巨大的。
再举一个例子,我们如何提升搜索的相关性。它是怎么做的呢?大致的思想是,评估相关性过去我们要做很多特征的抽取,今天我们把用户的查询和结果匹配得到一个分数,在神经网络里进行比较,当在训练的时候,我们会把用户体现出来的这种偏好给到一个差异足够大的分数,我用超过一千亿的的样本来训练这个系统,在过去两年里面导致相关性有了一个巨大的提升。
这带来的相关性更多的是在语义的理解,尤其是一天中查询可能不到10次的这种长尾查询,这是最考验搜索引擎的能力的,因为对于非常高频的查询,每个搜索引擎可能都差不多。这里有一个例子是玛莎拉蒂的一款车车头如何放车牌,我们过去的系统得到的基本是基于关键词的匹配,没有回答这个问题。我们的合作伙伴(Google)的结果匹配了“车头”这个关键字,但对语义没有进行进一步的理解。我们运行了我们这个模型后,你可以看到查询的问题是“车头”、“放置车牌”,但结果找到了“前牌照怎么装”,它不是用关键词来进行匹配,而是根据语义来匹配,这就是深度学习带来的一个改变。
还有语音识别的例子。百度的语音识别实际从12年开始做,但深度学习使得过去阳春白雪的东西变成了你用大数据就可以做的东西。过去语音识别从声学角度抽取特征,比如频率特征,将其抽取出来变成一种因素,然后从低层到高层的逐层处理。一开始的时候我们不关心它是什么,只是考虑它读起来是什么样子的,今天的深度学习尽量把中间的步骤变成可以训练的步骤,把中间的步骤变得可学习,中间没有过多的人工干预,带来的好处是用大量的数据训练这个模型。在Benchmark(标杆测试)上我们可以得到一个非常好的结果。
另外再给大家看一个例子,这是运单手写电话号码的识别,过去我们一开始是做检测、切割,切割以后把每一个数字切割出来做识别,但像这个例子,你会发现是没法做分割的,那你只能把它做成一个一体的的解码。这反映的就是深度学习给我们带来的不是一个黑盒,而是一个很丰富的语言系统,我们希望对这些问题有足够理解,然后去开发最适合它的模型。
我刚才提到了图片的识别,加上字符的识别,加上语音的识别,加上机器的翻译,那百度可以做出这样的产品,比如今天中国人到纽约的街头可以问:“附近哪里有川菜馆?”你用中文说了后识别成中文,然后翻译成英文读出来。我们可以不断优化这个事情,在几年的时间里可以变成现实,那么中国的小朋友们就可以更多时间去玩,更少时间用在学无聊的英语上了(观众笑)。当然还有拍照。这是我的一个好朋友,NYU的一个教授到上海,他用这个产品点菜,看菜单他就不担心这个东西是不是凤爪之类他不敢吃的东西。