Facebook对深度学习的追求:让机器理解我们

  心理学家Frank Rosenblatt 在1956年使用这一理论,结合软件和硬件对神经元进行了模拟,他开发出的一套“感知器”可以对图片进行简单的分类。虽然他是在笨拙的大型机上实现的这一想法,但他奠定了如今人工神经网络的基石。

  他造的这台计算机由大量的马达和光学监测器相连,一共拥有8个虚拟的神经元。首先,监测器会侦测图片的光学信号,并将信号传递给神经元。这些神经元在获取到监测器传递的信号后,会对其进行加工并返回出一个值。借由这些值,机器能 “描绘”出其“看到”的东西。一开始的测试结果很糟糕,但是Rosenblatt 使用了一种高级学习的方法,使得及其可以正确区分出不同的形状。他在向机器展示图片的同时,也会告诉其正确答案,之后机器会对输入的信号进行判别,计算出如果要得到正确答案,各个神经元的信号权重是多少,并进行再分配和纠正。在重复了大量例子之后,机器可以识别出从来没有见过的图片。现今的深度学习网络使用了更加高级的算法,并且拥有数百万个模拟神经元,但训练方式和之前是一样的。

  Rosenblatt 预言,他的感知器将有广泛的应用,比如可以让机器用名字和人问候。如果人们能实现在神经网络的多个层间传递图片和信号,则可以让感知器解决更加复杂的问题。不幸的是,他的学习算法在多层领域并不奏效。1969年,AI领域的先驱Marvin Minsky更是出版了一本书,把人们对神经网络的兴趣扼杀在了摇篮里。Minsky声称多层面并不会让感知器更加有用。于是AI研究人员抛弃了这一想法,取而代之的是使用逻辑操作开发人工智能产品,而神经网络则被推到了计算机科学的边缘地带。

  当1980年Lecun在巴黎念书时,他发现了之前人们的这些工作,并惊讶于为什么会抛弃了这一想法。他在图书馆寻找相关的论文,最后发现在美国有一个小组在研究神经网络。他们研究的内容是 Rosenblatt遇到的老问题,即如何训练神经网络,让其坚决多层问题。这份研究有些“地下工作”的意味,为了不被审稿人拒稿,研究人员尽量避免使用 “神经”、“学习”等字样。

  在读到这些之后,Lecun加入了这个团队。在那里他认识了现在任职于Google的Geoff Hinton,他们一致认为,只有人工神经网络才是构建人工智能的唯一途径。此后,他们成功开发出了应用于多层面的神经网络,但是其适用性非常有限。而贝尔实验室的研究人员则开发出了另一套更加实用的算法,并很快被Google和Amazon等公司应用于反垃圾和商品推荐。

  在Lecun离开贝尔实验室去了纽约大学以后,他和其他研究人员组成了一个研究小组。为了证明神经网络的作用,他们不动声色地让性能强大的机器学习和处理更多的数据。此前 Lecun的手写识别系统由5个神经元层构成,现在则加到了10多个。到了2010年后,神经网络在图片分类等领域打败了现有的技术,并且微软等大公司开始将其应用于语音识别。但对于科研人员来说,神经网络还是很边缘化的一门技术。2012年的时候,Lecun还写过一封匿名信对此痛斥一番,因为他们的一篇介绍神经网络新记录的文章投稿被一场顶尖会议给拒绝了。

  6个月以后的一件事情,让一切都发生了变化。

  Hinton带着两个学生,参加了一场机器图像识别比赛,并在大赛中取得了傲人的成绩。他们在比赛中所用的网络就和之前Lecun开发的支票阅读网络类似,在这场比赛中,软件要辨识超过1000种各种各样的物品,而他们的这套系统辨识率高达85%,超过第二名10个百分点。深度学习软件的第一层对神经元进行优化,找到边角等简单的特点,而其他层则连续寻找形状等特点。Lecun现在还能回想起当时的情景,作为胜出者的他们拿出论文,仿佛对着屋子里那些曾经无视他们研究的人脸上狠狠打了一巴掌,而他们只能说:“OK,我们承认,你们赢了。”

  经此一役,计算机视觉领域的风向很快就变了,人们迅速抛弃旧的方法,而深度学习很快变成了人工智能领域的主流。Google买下了Hinton成立的公司,开发Google Brain。微软也开始立项研究这一技术,Facebook的CEO 扎克伯格甚至也出现在神经网络的研究会议上,宣布Lecun在纽约大学担任教职的同时,加入到他们的FAIR团队中。

  

Facebook对深度学习的追求:让机器理解我们