百度余凯:大数据人工智能

深度学习其实它不是一个新事情,在30年前80年代末的时候,深度学习就已经是得到了广泛关注,而到了大数据时代的今天,它获得了更多的成功和影响力。为什么呢?

第一方面,深度学习模拟了大脑的行为。一开始做深度学习这帮人,他们的想法受到卷积神经系统网络的影响,在80年代受到了神经科学家对于视觉神经系统理解的影响;

第二,从统计和计算的角度来看,深度学习特别适合大数据;

第三,深度学习是End-to-end学习;

第四,深度学习提供一套建模语言。

大数据时代传统深度学习的误区

我具体给大家讲讲第二点,深度学习特别适合大数据下。在统计上面分析机器学习系统效果时,一个最根本的角度叫推广误差,推广误差可以帮助我们找到误差来源,从而设计出更好的算法。一个经典的分解方法,把推广误差分解成两部分:

Approximation error:数学模型不完美导致的误差;

Estimation error:数据不完美,比如数据有限或数据有偏,导致的误差;

Optimization error:算法不完美导致的误差。

随着数据规模的扩大,从推广误差的角度来说,传统的深度学习研究中存在着一些误区:

从Approximation error的角度来说,过去我们认为简单的模型就是好的,但实际上简单的模型是不够好的,随着机器的增多,参数越来越多,模型越来越复杂,是大趋势,过去认为简单的模型是好的这是错误的观念;

从Estimation error的角度来说,为了保证数据的精确,应该收集充分的数据;

从Optimization error的角度来说,通常是学术界的观点是,开发研究非常精致的优化算法,但是这些算法存在一个大问题:不能覆盖大数据。比如,SVM的复杂度是在数据二次方到三次方之间的复杂度,今天处理一万个训练样本没问题,但是如果变成十万个训练样本,你需要一百倍到一千倍的计算资源,这是灾难性的问题,所以在大数据的时代,工业界反而要倡导的是desgin “an OK algorithm”。

深入百度大脑

我给大家举一些百度大脑的例子:

A deep model for image recognition

DLmodelfor query-docrelevance

Long-short term memory for time series

网上抢票验证码识别

运单手写电话号码识别

述说图片的故事,字幕用深度学习程序写成

同时理解图像和自然语言

深度学习已经取得了关键性进展,首先在广告系统,这可能是世界上首次把深度学习成功应用于广告变现,并带来收入提升,在用了深度学习之后,我们跟竞争对手的差距是拉开了两倍还多。

在物体检测模型上我们取得了世界上最好的成绩,百度第一,谷歌第二。

未来的展望

人类大脑的平均重量是1.5公斤,占2%的身体体重,消耗20%的能量。最近的一个报道显示,谷歌的服务器消耗美国用电量的百分之几,美国的所有互联网公司占美国耗电量的9%。在中国,三大互联网公司也占中国耗电量百分之几,智能计算是非常耗能量的。而人类大脑有一千亿个神经原有5000个的连接,每个连接触发每秒钟两次,做一个简单计算,人类大脑计算能力是10的17次方。在过去人工智能发展过程中,计算能力是非常强大的东西,我们今天的计算能力跟20年、30年前更是不可同日而语的,能构造更好的计算方法。

未来计算决定着智能水平的发展,人工智能这个奇点临近连接了,谢谢大家!