百度大脑的第二个组成部分是我们计算能力。现在我们已经使用了数十万台的服务器来进行计算,而这当中很多的服务器不是传统基于CPU的服务器,而是基于GPU。早年的时候,GPU主要在游戏等领域使用得比较广泛,在人工智能、尤其是深度学习起来以后,我们发现,其实GPU特别适合人工智能的计算,尤其是深度学习的计算,一块GPU可以顶100个CPU的计算能力。有关GPU的事情,我之后会请一位外部的嘉宾,就是NVIDIA的创始人和CEO黄仁勋先生,让他给大家介绍更多有关GPU的,尤其是在人工智能领域应用的情况。
百度大脑的第三部分是数据。数据也非常非常重要,而且这个数据量也是非常大的。比如说,我们已经收集了全网上万亿的互联网网页内容,这其中包括了很多视频、音频、图像,这些数据也是数以百亿级的。我们还有每天数十亿次网民的搜索请求,而且还有每天数百亿次的网民定位请求,就是说这个人在什么地方,这样的请求也比大家想象得多,每天都有好几百亿次这样的定位请求。
有了算法,有了计算能力,有了数据,百度大脑就可以开始工作了。百度大脑又到底有什么样的功能?让我们来看一看。
我们今天想重点介绍的四个功能:一个是语音的能力,一个是图像的能力,一个是自然语言理解的能力,还有一个就是用户画像的能力。这几个能力虽然都是属于人工智能中比较典型的应用,但是它的发展阶段也是很不一样的。比如说语音,现在就已经进入了相对比较成熟的阶段,在很多很多领域中都开始进入实用阶段,识别的准确率也已经很高了。图像最近几年也有了长足的进展。这两者都属于人工智能当中认知的部分,所以深度学习的算法非常适合处理这些形式。
相对来说,自然语言的理解、或处理能力就更加难一些,并处在一个更加早期的阶段,因为它除了认知方面的能力之外,还要求有推理、规划等等能力,才能够真正地理解自然语言。用户画像的能力,其实从传统意义上来讲并不是人工智能的领域,但是由于近年来大数据的发展,尤其是大型互联网公司有能力搜集很多用户的数据之后,再用人工智能的方法、用机器学习的方法,就可以把一个人的特征描绘得非常非常清楚。所以今天,用户画像也变成了人工智能、或者说变成了百度大脑的一个重要功能。
下面我就分别来讲一下这几个功能,这几个百度大脑的功能。
我们先看一下语音,刚才也讲了应该说今天人工智能发展的最成熟的一部分能力,而语音又分成两个方向,一个是语音的合成,一个是语音的识别。
我们先看看语音识别。今年MIT Technology Review(《MIT科技评论》)杂志,把百度的Deep Speech 2评为“2016改变世界十大突破技术”,这就是百度的语音识别引擎,它已经到了第二代,主要就是使用了深度学习的能力。这样的一个技术已经可以把语音识别的准确度做到多少呢?大概可以做到97%的准确率,这样的准确率已经达到、甚至有时已经超过了人对语音的识别能力。当然,我们讲这些能力不是为了简单地去炫耀这个数字有多好,我更感兴趣的是,当你有了这些能力时,它可以在什么领域应用,又可以在哪些方面帮助到我们,这其实才是最最让我们觉得兴奋的地方。我个人的想象力很有限,整个百度几万人的想象力也是有限的,但是这些能力如果赋予到很多很多人,赋予给几亿人、几十亿人,这个可能性几乎是无限的。先用我们比较有限的想象力来给大家举一个例子。
这是一个销售、电话销售的例子,是一个2B(To B)的应用。这个应用是什么意思呢?很多的公司其实都有电话销售这样的一个部门,都需要这样做。但是销售,尤其是电话销售这个行业,大家知道流动性是比较大的,很多销售都是新人,新人的话就会经过一定的时间培训才能够上岗,但即使是经过培训的话,也不一定有那些有经验的销售那么出活儿、出单。其实有经验、最优秀的销售和一般、较差的销售相比,在效率上有非常大的差别。我们怎么才能够让新手、让没有经验的销售,能够具备最优秀销售的销售能力?过去的做法是,把优秀的销售经验总结成册子让大家去学习,让这些销售去背,但是怎么活学活用还是需要一个过程的。而有了这么高精度的语音识别能力之后,我们就可以彻底改变这样一个状况了,甚至可以让一个刚刚上岗一个月的销售就具备最优秀销售的能力,也就是说,我们可以通过实时的语音识别甄别出用户或客户在问什么问题,然后我们再实时地在屏幕上告诉新的销售,最优秀的销售是怎么回答这个问题的。过去没有实时的语音识别的时候,你需要线下学,学完了之后上去用、很容易就忘了,但是有了这个系统之后,我们就可以解决这样的问题。