对于Andrew Ng,大家最熟悉的事件可能是他在谷歌期间借助深度学习让机器通过对数百万份 YouTube 视频的学习自行掌握了“猫”的概念,这成为世界深度学习领域广为人知的成功案例之一,也成为对谷歌人工神经网络“DistBelief”的一次有力验证。
80 年代初期,当时的人工智能研究都在试图寻找捷径,希望可以绕过人脑神经网络来直接模拟出行为,而不是试图通过模仿大脑运作来实现。但有两位技术牛人一直坚持研究模拟神经网络的深度学习,最终他们的算法得到了全球人工智能界和科技公司的关注和重视,他们就是深度学习的领军人物、后来分别被谷歌和Facebook招致麾下的Hinton 和 LeCun。Andrew Ng在大学时期曾经一度放弃了人工智能的研究,直到后来被Jeff Hawkins(Palm创始人,《人工智能的未来》作者)的HTM算法(意思是人类智能来源于这个单一算法)所影响,重新开始了对人工智能的研究,而他的研究方向一直是深度学习。
如今,已经转投百度的Andrew Ng在不久前的百度世界大会上再次强调了深度学习对人工智能的重要意义。从目前看来,深度学习是实现人工智能最有效、也是取得成效最大的实施方法。Andrew Ng在演讲中提到目前百度大脑的新算法就是属于深度学习,他虽然没有具体指明该算法的领先程度,但却强调了其在处理数据方面比传统人工智能算法存在的优越性,并可以使人工智能实现一种正循环。
2、奇点临近——人工智能的正循环
人工智能的正循环是Andrew Ng演讲中的核心要点,在拥有深度学习算法之后,将不再惧怕海量数据,反而会因为数据的增长而取得更好的效果,而这些效果将直接体现在图像搜索、语音识别等具体的互联网服务中,从而为用户提供更好服务并吸引更多用户,这又会产生更多数据。
“人工智能正循环”的确令人兴奋,但人工智能技术发展了几十年,为何恰恰在今天有条件实现正循环?我在文章搜索引擎到人工智能的终极演进提到了搜索引擎到人工智能演进的几个重点条件,包括搜素引擎积累的战略数据、模拟神经网络的机器学习,从Andrew Ng的演讲中已经证实了这两个条件的成熟,他提到“百度有海量数据”以及“百度大脑的新算法”。还有一个重要条件是“技术奇点的出现”,指在积累数据的前提下,硬件存储、超级计算和模拟神经网络等相关技术的成熟。
库兹韦尔在《奇点临近》一书中提到,奇点思想是:人类创造技术的节奏正在加速,技术的力量也正以指数级得速度在增长。指数级的增长是具有迷惑性的,它始于极微小的增长,随后又以不可思议的速度爆炸式地增长。
对于人工智能来说,深度学习的出现就是这样一个奇点。面对海量数据,深度学习算法可以做到传统人工智能算法无法做到的事情,而且输出结果会随着数据处理量的增大而更加准确。
传统机器学习是通过标记数据和有监督学习,这意味着,如果想让机器学会如何识别某一特定对象,就必须人为干预对样本进行标注,也就是说,随着其所需处理数据量的增大,外界对其的支持和帮助也就更大,而且计算结果的准确性也会受到影响。因此,对于这种传统算法,越来越多的数据将成为负担,也更容易达到极限或产生错误结果。但深度学习是从未经标记的数据展开学习,这更接近人脑的学习方式,可以通过训练之后自行掌握概念,这将大幅度提高计算机处理信息的效率。王威廉在《国际机器学习大会ICML2013参会感想》提到:“用半监督或无监督学习方法挖掘无标签的数据,不仅是过去10年,还很可能是大数据时代的一个热点。”拿机器视觉举例,机器学习是通过构建多层类似人类视觉神经系统的算法使机器自行明白物体整体的形态,而传统的人工智能算法往往需要工程师人工输入物体视觉或者声音的信息,然后由机器学习算法来处理这些信息数据。