百度首席科学家吴恩达在今天百家BIG TALK硅谷活动上提到,从优秀产品到大量用户,再到海量数据,最后返回优秀产品是一个良性循环,但最后一个环节“海量数据到优秀产品”会出现问题,因为当数据积累过多时,就无法对这些数据进行完整和准确的处理,从而也无法为优秀产品的后续更新提供参考。直到深度学习出现才改善了这种局面,他把数据比作火箭的燃料,把深度学习比作发动机,是深度学习将数据这种燃料点燃从而将人工智能推到另外一个高度。而值得一提的是,在今天BIG TALK以及其他活动的演讲中,各领域专家都直接或间接的提到了深度学习。所以,我大胆的得出一个结论,深度学习不仅是人工智能的发动机,更是其他众多领域、甚至是整个社会科技进步的动力。
1、 深度学习的定义
传统人工智能的机器学习是通过标记数据进行有监督学习,随着其所需处理数据量的增大,外界对其的支持和帮助也就更大,而且计算结果的准确性也会受到影响。因此,对于这种传统算法,越来越多的数据将成为负担,也更容易达到极限或产生错误结果。但深度学习是从未经标记的数据展开学习,这更接近人脑的学习方式,可以通过训练之后自行掌握概念。面对海量数据,深度学习算法可以做到传统人工智能算法无法做到的事情,而且输出结果会随着数据处理量的增大而更加准确。这将大幅度提高计算机处理信息的效率。同时,深度学习在加速回归定律的指引下会使得进化过程中产物(输出结果)获得指数级增长,当深度学习的效率变得更高,就会吸引更多的资源向它聚合,使其发展更为迅速。王威廉在《国际机器学习大会ICML2013参会感想》提到:“用半监督或无监督学习方法挖掘无标签的数据,不仅是过去10年,还很可能是大数据时代的一个热点。
回到“海量数据到优秀产品”这一环节,这些数据处理效率的指数级增长其实是来源于我们对互联网产品的每一次微小的使用以及相应的每次数据的贡献,而这些汇集起来的数据再借助深度学习算法就会为会我们输出更加准确的结果,提供更好的服务,其产生的效果也会像滚雪球一样越来越大。这就是吴恩达在今天的讲座中提到的深度学习所促成的完整流程,也是他之前提到的人工智能正循环。
而深度学习带来的正循环不仅体现在人工智能领域,还体现在机器人技术、信息化医疗、社会物理学和能源问题等领域。
2、 深度学习对大数据的价值
如吴恩达所言,数据是人工智能的燃料。随着各个行业信息化程度的普及,任何行业所积累的数据会越来越多,但当真正面对海量数据时,各行业才意识到数据处理能力远远不够。在今天上午参观百度美国研究院时,百度高级技术总监吕厚昌提到了深度学习对大数据的重要性,他认为,此前在数据的数量和效率之间存在矛盾,收集更多的数据有助于提高最终结果的准确性,但数据越多,处理起来就越慢。当没有足够高效的处理工具时,大数据就变成了数据坟墓,即使这些数据再大,也无法提取出任何价值,因为没办法对其进行高效处理,这也违背了我们收集数据的初衷。
深度学习的出现就是解决了如何快速处理海量数据的问题,拿百度举例,吕厚昌说,百度的数据处理自上而下分成开放云、数据工厂和百度大脑三个层级,最底层的开放云收集数据,数据工厂对数据库进行管理,最上层百度大脑的模拟神经网络通过机器学习高效的输出结果,从而实现行业应用。深度学习就是在最后一个环节体现出巨大价值,带来更好的信息处理能力,从而产生更加广泛和深入的行业应用,比如百度大数据此前在医疗、交通和金融领域的应用。
此外,MIT人类动力实验室主任Alex Pentland的社会物理学就是基于大数据对人类的各种社会行为进行分析,从而得出结论并提供决策依据;伯克利大学能源专家Daniel Kammen也是基于大数据来解决气候变迁这个宏大的人类课题。这两个领域都需要有海量数据支撑,因此,拥有高效、良性处理能力的深度学习技术就显得尤为重要。