Jürgen Schmidhuber的人工智能畅想曲

人们在思考问题的时候,并不会从零开始,而是会凭借自己以往的一些经验与记忆做出判断。但是,传统的神经网络可做不到这一点。比如,你想要对一部电影里的每个镜头进行分类,判断荧幕上都在演些什么。但是,传统神经网络可能只能孤立地看待每一帧,而无法把上一个镜头串联起下一秒发生的事情。RNN(循环神经网络)就是为解决这个问题而生的,顾名思义,也就是能够让信息在网络中再次循环的网络。

在慕尼黑工业大学拿到了数学和计算机科学学位后,30 岁时,Jürgen Schmidhuber 获聘成为该大学教授。Jürgen Schmidhuber 的第一位学生(现在是教授)Sepp Hochreiter 识别并分析出 RNN 存在的巨大问题:梯度突然消失或爆炸(explode)。

“这也促成了我们后续在 20 世纪 90 年代和 21 世纪的所有深度学习研究,”他说。

在瑞士、德国和欧盟的公共资金的资助下,Jürgen Schmidhuber 开发了 LSTM 等深度学习方法,解决 RNN 存在的短板。1997 年,他和 Sepp Hochreiter 共同撰写了一篇论文,其中提出了一种利用记忆功能来增强人工神经网络(模拟人类大脑的计算机系统)的方法,即根据之前获得的信息,添加解释文字或图像模式的循环。他们称之为“长短期记忆(LSTM)”。

LSTM 和传统 RNN 唯一的不同就在与其中的神经元(感知机)的构造不同。传统的 RNN 每个神经元和一般神经网络的感知机没啥区别,但在 LSTM 中,每个神经元是一个“记忆细胞”,细胞里面有一个“输入门”(input gate), 一个“遗忘门”(forget gate),一个“输出门”(output gate),俗称“三重门”。

LSTM 的优势在于,能够解决梯度消失的问题。LSTM 还可以保留误差,用户沿时间和层进行反向传递。“我们的神经网络跟别人不一样的地方在于,我们搞清楚了怎么让神经网络更深、更强,尤其是RNN,最普遍也是最深层的神经网络,有反馈连接,在理论上能够运行任意的算法或程序与环境互动。”

遗憾的是,当时 LSTM 也并没有受到业界更多的重视,在 1995 年,首个论述 LSTM 的论文被著名的 NIPS 会议拒绝了。1997 年,关于 LSTM 的论文被麻省理工学院退稿。“即便是美国、加拿大及其他地区的著名的神经网络专家,都没能意识到我们自 1990 年代起于高山上实验室研发的深度循环神经网络的潜能。”Schmidhuber 多次在媒体采访时表露出遗憾。

很多研究者也都体验过这样的失意。蒙特利尔大学教授、蒙特利尔学习算法研究所的主任 Yoshua Bengio 曾一度很难找到愿意与他合作的研究生。“当时,很少有研究者对此感兴趣,但我们坚持了下来,随着计算力越来越便宜,通过这样的方法赢得比赛只是时间问题。我很高兴看到其它深度学习实验室和公司现在也大量使用我们的算法。”Jürgen Schmidhuber 说。

2007 年,Jürgen Schmidhuber 团队 CTC(2006 年)训练的 LSTM 开始革新语音识别,性能表现超越了键盘识别任务中传统方法。2009 年,LSTM 成为首个在国际模式识别竞赛获奖的 RNN,由 Jürgen Schmidhuber 曾经的博士生和博士后 Alex Graves 推动。同年,Dan Ciresan 领导团队在没有使用任何预训练的情况下,赢得一系列机器学习竞赛,成绩比以前的系统有了大幅提升:2011 年在图像识别任务上率先取得超越人类的表现,2012 年成为最先在物体检测和图像分割竞赛中获奖的深度学习系统,2012 年在医疗图像癌症检测最佳、2013 年 MICCAI 挑战赛冠军等。

但是,LSTM 真正受到应有的关注和评价,源于科技巨头先后加入到 LSTM 阵营。

20 世纪 90 年代以来,欧洲纳税人资助了在深度学习(Deep Leaning)和 LSTM 方面的基础研究,开始推动 Google 等公司的语音识别、图像字幕生成、机器翻译和自动邮件应答等应用。

2015 年,谷歌使用 LSTM 减少了 49% 的语音识别错误,成为一个飞跃性进步。接着谷歌还将 LSTM 用于自然语言处理、机器翻译、生成图说、自动邮件回复、智能助手等领域。随后,语音识别、视觉领域的研究都越来越多地采用 LSTM 概念。苹果也在其 WWDC 2016 开发者大会上对它如何使用 LSTM 提升 iOS 操作系统性能做了解说。