人工智能驱动第四次浪潮

随着人工智能,AI(Artificial Intelligence)的应用前景逐渐明朗,各大高科技公司开始重金投资这个领域。2014年8月,IBM发布了模仿人脑神经元结构的芯片TrueNorth,功耗仅为现有芯片功耗的1/1 000。百度投资3亿美元在硅谷建立新的研发中心,并聘请人工智能专家、斯坦福大学的吴恩达教授担任首席科学家。吴教授是深度学习方面的专家,同时还是在线教育网站Coursera的创始人。

计算机领域现在最火的词是“深度学习”

2013年初,谷歌收购了由深度神经网络理论提出者、“深度学习之父”、多伦多大学教授杰弗里·希尔顿(Geoffrey Hinton)创立的DNNResearch,并于今年1月以6.5亿美元的价格收购了英国的人工智能公司DeepMind。这些科学家投身谷歌,一方面是因为谷歌有足够的财力和开放的心态去接纳人才,另一方面是因为谷歌拥有世界上最大规模的数据量和足以处理它们的运算能力。此外,亚马逊公司最近也加紧了深度神经网络方面的研究,甚至专程从西雅图总部派团来中国招聘。亚马逊为挖角百度IDL的资深研究员,开出了近20万美元的高薪。

人工智能时代要来了?还是已经来了?

语言学家斯蒂夫·平克对神经网络的理论提出了挑战

从图灵测试说起

人工智能领域有一个著名的“图灵测试”。其基本的步骤是:把某件事让电脑做的结果和真人做的结果拿给另外一个人评判,如果这个裁判无法区分出哪个是电脑做的,哪个是真人做的,则认为电脑通过了测试,就实现了图灵所定义的人工智能。

你一定知道那个战胜了国际象棋大师的“深蓝电脑”,它通过学习大量的象棋对战历史而胜出。2011年,IBM的Watson电脑,利用专家系统数据库和自然语言理解技术,在问答游戏Jeopardy中战胜了人类冠军。从广义上说,深蓝和Watson分别通过了国际象棋领域和问答游戏领域的图灵测试。

人脸识别是人工智能的一个重要应用,今年几个领先的人脸识别系统纷纷通过了图灵测试。它们背后的算法是基于人工神经网络的“深度学习”技术。人工神经网络是用计算机中的变量来模仿人脑中的神经元,通过在变量间的加权求和运算来模仿人脑神经元之间的信号传递过程。变量间的权重,是通过从有标签的数据中学习来训练计算的。为了保证学习的效率,传统的人工神经网络不能超过三层。2006 年,希尔顿教授提出了深度神经网络的学习算法,即“深度学习”,其核心思想是通过自编码方法逐层初始化权重,然后在这个初始化基础上,再加入有标签的数据来训练,从而大大提高了深度超过三层的人工神经网络中的学习效率。

深度学习的核心是“自编码”。不妨假设我们有一组输入图像(Input Image),通过调整一个人工神经网络的参数(即变量间的权重),使得它的输出图像(Output Image)与原来的输入图像之间的差别尽量小,这就形成了一个自编码的神经网络。深度学习的基本思路是堆叠多个自编码神经网络,前一层的输出作为后一层的输入,通过这种方式实现对输入信息的分级特征提龋

特征提取是图像识别问题中最关键的步骤,传统的机器学习算法需要科学家去手工设计各种最适合所求解问题的特征。例如,在人脸识别领域,经过近百名科学家2~3年的不断尝试,才能发现一个被公认有效的特征。而深度学习算法,通过训练“自编码”神经网络,让计算机去发现训练数据中的规律,在这个过程中自动产生特征提取的算法,大大提高了发现和筛选新特征的效率,这是深度学习算法与传统机器学习最大的区别。

深度学习将特征设计的步骤自动化,彻底改变了以往由领域专家手工设计和筛选特征的研究模式。谷歌甚至提出:获取更多的数据要比改进算法设计更为重要。为了展示这种无需人工指导就能学习新概念的算法,谷歌将1000万张截取自YouTube视频的图片扔进由1.6万个CPU组成的深度神经网络学习,最终获得了一张看起来像猫的图像。当然,深度神经网算法从希尔顿教授2006年首次公开发表到现在,取得的成果远不止找到猫。借助这种算法,微软和谷歌将语音识别的误识率降低了20%,Facebook基于深度神经网络开发的DeepFace算法,以及香港中文大学汤晓鸥团队的DeepID算法,在权威的人脸识别测试集LFW(Labeled Face in the Wild)上分别取得了超过真人的识别准确率,可以说是通过了人脸识别领域的图灵测试。