百度研究院副院长余凯重磅演讲:从大数据到人工智能

受湾区同学技术沙龙(www.tech-meetup.com)邀请,这周六百度研究院副院长余凯在Santa Clara的Intel总部礼堂做了一场很干货的分享。我觉得“干货”的原因不仅仅是余凯对诸如“百度为什么要做各种智能硬件?”和“百度的自动驾驶和Google有何不同?”等问题进行了回答,而是因为通过这次分享,我们可以看到百度在包括基于大数据的深度学习等一些前沿研究领域的成果,以及在“万物互联”的大数据时代,百度在机器人、无人驾驶等方面的一些思考,也让我们这些互联网从业者对于未来大数据和人工智能的演化有一个更好的了解。

虽然观众几乎坐满了会场,但我估计最多也就有两百来号人分享到了这些东西。所以我对余凯的演讲进行了一些整理,供雷锋网的读者了解和学习。

大数据

以下内容根据演讲整理:

感谢郭晓峰、朱平还有好多朋友在周末来组织这么一个活动。对我来讲回到这个地方和大家交流有一种回家的感觉,因为我是三年前的时候从湾区回国加入百度,开始负责百度的人工智能和深度学习方面的研究。很亲切。回顾这个历史也是满有趣的,当时我在NEC Lab,有好多深度学习方面的工作,今天像Facebook等有很多人在从事深度学习,好多都是从NEC Lab加入的。从湾区回到中国也确实把湾区的一些资源给介绍回去了,像以前我一个很好的朋友Andrew Ng,我也把他忽悠到了百度。

这反映什么呢?以前这些比较前沿的技术研发事情很多是在硅谷在美国去发生,在今天在北京或者深圳其实很多同样事情也在发生,所以我觉得是一个创新的时代。

今天我的题目叫《从大数据到人工智能》。在过去的几年时间里,百度比较有特色的一点就是作为一个私营企业在技术研发这个领域做了很多工作,对我们来讲是一个很鼓舞的事情。

我想即使在Google的朋友也会同意这个观点:搜索引擎本身也是一个人工智能的系统,一方面通过免费的服务提供很多数据,另一方面把这些数据区变现,这中间就要用到很多技术,这当中最重要的就是基于大数据的人工智能,比如说数据挖掘、机器学习、自然语言理解在移动时代或者IOT时代,语音识别语音理解图像识别等很多人工智能技术在中间可以扮演非常重要的角色。

什么是人工智能

那什么是人工智能呢?有很多不同的看法,有强人工智能,有弱人工智能,我们也看到很多电影和小说等,但到今天没有一个公认的统一的定义,但我们讲一个人工智能有几个方面:

第一个是感知。就是采集数据;

第二个是理解。对环境、对对话的对象有一些理解;

第三个是决策。这些数据你要做大量的分析,知道环境是什么样的,基于这上面你会做大量的决策,本身来讲感知、理解、决策这三步也是一个循环的过程。

我们今天看到各种各样所谓的智能产品,那这些产品是否真的具有智能呢?其实一个很本质的差别,也是互联网服务和其他产品不一样的地方,就是这个服务和产品是否能够随着经验不断演化,随着用户使用越来越多对用户越来越了解,这种随着经验演化也就是学习的能力实际上是评估一件产品是否真正具有智能的因素。整个移动互联网,通过手机也好,通过App也好,他对用户是在不断的去了解,去知道用户的需求和喜好。

我们知道在机器学习研究的课程里,有一个词叫经验数据,经验就是数据,数据就是经验。我们今天讲这是一个大数据的时代,大数据时代的意义在什么地方呢?就是能让一个系统有机会变得越来越智能。因为智能本身一个特点就是学习的能力。

万物互联与大数据

大数据的时代从PC互联网到移动互联网有一个飞跃的变化,像这个图是05年教皇选举的场景,8年以后你可以看到,同样的地方,同样一波人,移动互联网对人们的改变是巨大的。每一个人随着这个设备,无论是在打电话,拍照,带在身上,你以为你没有在用它,但手机上面的传感器会把很多数据传到云端。数据的产生是无时不刻的。

大数据

未来我们会进入一个物联网的时代或者机器人的时代,那万物互联的时代是一个什么样的场景呢?我们可以想象到2020年,前段时间孙正义在乌镇互联网大会上说,到2020年一个人可能会连接到上千个设备。今天在中国我们每个人可能都带着两三个手机,因为一个人在生活中会扮演很多角色(观众笑)。加上穿戴式设备和其他连接,在中国平均一个人带三四个设备是很正常的。面向未来的话可能一个纽扣都会是一个设备,所以说每个人连接一千个设备并不是那么耸人听闻。