揭秘谷歌虚拟脑技术计算:人工智能的新突破

视频识别、语音识别、脸部识别、语音搜索、图片搜索、谷歌眼镜、自动驾驶汽车,在谷歌规划的一系列智能产品和应用的背后,是谷歌在神经网络技术的进步和在虚拟脑技术计算领域的突破。

这幅图片可以让谷歌神经网络技术识别为猫脸

这幅图片可以让谷歌神经网络技术识别为猫脸

这一看似高深的技术以大数据处理和海量计算为基础,为人工智能提供计算服务,使得越来越计算成为可能。在今年夏天该技术因谷歌的猫脸设别而广为了解,近日《麻生理工创业技术》上刊登了一篇文章,详细介绍了该技术的进展,以下是文章全文。

今年夏天,谷歌在人工智能领域获得突破。谷歌发明了一个软件,只需要看一下YouTube上的视频,就能学会识别猫和人,还有其他东西。这项技术根据脑细胞的运作方式建立,并已开始让谷歌的产品变得更聪明。而语音识别也成了这一软件的首个盈利服务。

谷歌的学习软件基于对一组相互连接的脑细胞的模拟。这些脑细胞可以彼此沟通,互相施加影响。当把这样一个神经网络暴露在数据面前,不同神经元之间的关系会发生改变。这样,网络就会发育出对某个类别的输入数据作出特定反应的能力。通过这种方式,网络“学”到了一些东西。

在过去的几十年里,神经网络已被使用在机器学习的领域,例如国际象棋软件或脸部识别。谷歌的工程师找到了可以利用更多计算力量的方法,这是之前做不到的。他们制造出的神经网络可以不需要人的帮助,而且还很稳定,可以走出实验室展示阶段,进入商业化过程。

谷歌的神经网络可以自己决定什么类型的数据需要特别注意,什么模式特别重要。例如,哪些颜色和特别的形状是软件正在识别的物体的重点?所以它无需人类使用者来做决定。

谷歌现在正使用神经网络来更准确地识别语音,对于谷歌的智能手机操作系统安卓来说,这一功能变得越来越重要,对谷歌在苹果上的搜索应用来说也是如此。我们在修正错误单词方面改进了20%到25%,”谷歌的语音识别领导文森特?凡豪克(Vincent Vanhoucke)说,“这意味着更多的人会得到无错的完美体验。”目前,神经网络只对美式英语有效,不过凡豪克表示谷歌正在其他方言和语言上作出相似的尝试。

其他一些谷歌的产品也会从新型学习软件中受益。例如,谷歌的图片搜索工具可以更好地理解图片的内容,而不依赖周围的环境。而谷歌的无人驾驶汽车和嵌入移动计算机的眼镜也能依靠软件来更好的理解现实世界数据。这项新技术在今年6月登上了很多媒体的头条。那时,谷歌的工程师发表了实验结果。他们从YouTube的视频中获得了1000万张图片,并把这些图片扔到了模拟脑细胞中,为了完成这一工作,几千台计算机的1万6千个处理器连续不断地工作了10天。

“大部分人只用一台机器来建模,但我们希望用一个很大的神经网络来进行实验,”杰夫?迪安(Jeff Dean)说,他是谷歌帮助领导研究的工程师。“如果你能扩大模型和模型处理数据的规模,你就能理解更细微的差别和更复杂的特征。”

通过这种方式产生的神经网络更加灵活。“这些模型可以更好地理解环境,”迪安说,他给出了一个语音识别世界的例子。例如,如果谷歌系统认为它听到一个人说“我要吃一个荔枝,”但是“荔枝”这个词却没听清楚,它会从过去的经历中进行猜测。因为“荔枝”是一种水果,会在和“苹果”或“橙子”相同的语境下使用。

迪安介绍说,他的研究团队还在测试可以同时理解图片和文字的模型。“如果你输入‘鼠海豚’这几个字,它就会给你鼠海豚的照片,如果你提供一张鼠海豚的照片,它就会给你‘鼠海豚’这几个字。”

下一步,研究人员会让同一个模型学习词汇的声音,可以把不同的数据关联起来。这些数据可以让语音识别从视频中收集到额外的线索,也可以让谷歌的无人驾驶汽车提升性能,因为它可帮助这些汽车结合不同来源的数据(例如对附近障碍的激光扫描和汽车引擎的数据),更好地理解周围环境。

蒙特利尔大学(University of Montreal)的教授乔舒亚?本希奥(Yoshua Bengio)表示,谷歌在神经网络上的工作让我们朝着人工智能的终极目标迈进了一小步:匹配动物甚至人类的智慧。本希奥研究的也是类似的机器学习技术。“这条路会通向更加广义的人工智能,如果你不能把大量关于这个世界的知识放到机器里,你就不可能得到一个智能的机器,”他说。

本希奥还表示,谷歌的神经网络事实上和哺乳动物的视觉皮层运作方式相似。视觉皮层属于脑部的一部分,负责处理视觉信息。“结果是,[谷歌的]学习网络的特性和脑部用来发现物体是否存在的方法相似。”

不过,他很快补充说,即使是谷歌的神经网络也比脑部要小得多,而且也不能进行很多对智能来说必要的活动,例如根据外部世界收集来的信息进行推理。

迪安同样也很谨慎地不把他构建的有限的只能同任何生物脑相比。但是他还是忍不住指出,在某些竞赛中,谷歌的神经网络却能击败人类。

他说,“在一些视觉任务中,它比人类的表现更好。”迪安举了一个分类标记的例子。在这个任务中,门牌号码会出现在谷歌街景汽车拍摄的照片中,这一过程一般来说都会交给很多人来干。

“它们开始使用神经网来决定[图片中的]某一块区域是否是门牌号码,”迪安说,它们表现得比人还好。这只是一个小胜利,但却凸显了人工神经网络和你脑袋里的神经网差距是多么的巨大。“很可能这并不那么让人激动,不过计算机却永远不会厌倦,”迪安说。真实的智慧却会厌倦。