转自 界面
12月中旬的一天,我出门去百度位于加州桑尼维尔的研究院采访,当我对手机说出研究院地址,手机自动打开地图为我导航……
对于用惯了智能手机的我们来说,这一切早已稀疏平常,但想起20年前在小学机房,我需要用费劲背下来的固定语句向Dos系统的电脑输入指令,就为了打开个文档,不得不感叹这些年人和机器之间交流的方式发生了怎样翻天覆地的变化——不用会写代码,甚至不用识字,用平时说话的方式就能操作智能设备。
为了实现和机器交流能够像“和人聊天”一样,背后是为数不多的一群科学家数十年沉浸于神经网络和深度学习领域的研究——这是一个曾不被学界认可的领域,研究人员也经历过数次受追捧和被冷藏的沉浮。
几年前,谷歌等科技公司忽然意识到这个领域的价值,开始了重金争夺这群为数不多的科学家,与此同时,这也让越来越多的公司加入这场“军备竞赛”。
意外的是,百度作为一家中国公司卷入其中。作为一家中国公司在美国硅谷的研究院,百度位于加州桑尼维尔的研究院吸引了吴恩达(Adrew Ng)——深度学习研究领军人物的加入,让人大感意外,在此之后,他的学生,他的信徒也追随其来到百度。
1.
百度的研究院所在地桑尼维尔并不是硅谷的核心地区,一栋并不大的建筑里,没有人有自己独立的办公室,大多数会面都在餐厅,吴恩达(Adrew Ng)在这个下午不时走到餐厅,像是安排了什么会面,因为他的加入,即便是美国媒体在谈论深度学习时,也无法避开百度。
深度学习再一次受到关注与这些科技公司的“军备赛”不无关系。2014年,谷歌花费4亿美元收购人工智能初创公司DeepMind,而此前Facebook对这家公司也在猛烈追求;但Facebook并不肯示弱,在谷歌拥有Geoffrey Hinton这样的研究巨擎时,它邀请到Hinton的亲密队友——纽约大学Yann LeCun建立实验室;而百度,则邀请到了吴恩达建立自己的实验室,他曾为谷歌建立了被外界称为“谷歌大脑”项目,能够在诸多图片中识别出“猫”,成为谷歌最重要的研究成果之一,也是深度学习的里程碑。
Tesla的创始人Elon Musk最近的“参赛”更是让人闻到了火药味。这名超人式的硅谷企业家曾不止一次对外界表达对人工智能的负面思考,担心人工智能未来会摧毁人类。而最近他表示,和Y Combinator的董事长Sam Altma一起出资10亿美元建立非盈利性人工智能(AI)研究机构Open AI,他表示,不希望人工智能在未来成为少数公司所独有的资源。撇开这个机构设立的目的,毫无疑问,它的出现会进一步加剧人才之间的争夺。
即便深度学习现在是炙手可热的领域,但几年前还是一个冷门领域,少有博士生从事这个领域的研究,而在这几年重新受人关注之后,专注于这一课题的博士生们大多还在学习过程中,因此人才极为稀缺。
“实际上这个领域有几次寒冬”,当我问Adam Coates,百度硅谷AI实验室主管,怎么看待上一次深度学习寒冬出现的原因时,他纠正我说,并不止一次,而是有很几次。
如果仅仅是跟风一个热门的领域,并不需要一个企业需要太多前瞻眼光,但在深度学习领域的投入多少是具有不确定性的,即便是在百度确立这个目标的两三年前。
早在1960年代,深度学习的前身“神经网络”概念雏形就已经出现,轰动一时,关键词是“训练机器”,让机器能够识别物体。但由于这一理论迥异于传统人工智能研究方法——那种能够被数学计算证明的路径,同时由于当时计算能力的局限,并未在应用领域显示出自己的优势,最终在向政府争取研究经费时输给了传统派。到了1980年代末,神经网络重新被关注,《纽约时报》在头版位置报道,好莱坞也以此博取眼球,阿诺德·施瓦辛格扮演的机器人终结者说:“我的CPU是一个神经网络处理器,一个会学习的计算机。”但1960年代景象最终重现——神经网络仍然没能达到外界预期,而被学界冷落。
只有一小群人坚持了下来,包括现在加入谷歌的Geoffrey Hinton和为Facebook主持实验室的LeCun一直坚持扎根于这一领域。
再次兴起带有偶然。2007年前后,计算机计算能力到达了一个新的节点,而Google等公司也收集了大量数据,Hinton一个学生将Hinton的语音识别技术导入了Google系统,旋即取得成功,这几乎是让Google尝到甜头的开端,此后几年间,Google花了较大精力投入,包括邀请到吴恩达(Adrew Ng)和Hinton的加入。
“人工智能”这个词近几年几乎被过度应用,投行、媒体或者是企业开始用“深度学习”代替“人工智能”,分析它的商业前景、变现能力。
“一些企业家又在承诺,过几年之后深度学习又会带来怎样的愿景,毫无疑问这是过度宣传。”下午3点,Adam百度餐厅旁会议室接受界面新闻记者采访时说,“可能是因为我们身在其中做研究的缘故,我们更关注眼下人工智能和深度学习能够做什么。”他希望此次这些人不要对这个领域带来什么负面影响。
Adam是吴恩达(Adrew Ng)的学生,今年32岁,典型的美国大学里好学生的样子,2014年跟随吴恩达一起来到百度。
2.
2014年5月,吴恩达离开Google,甚至逐渐淡出自己的在线教育创业项目Cousera的管理,加入百度,主持这家中国公司的人工智能实验室。
对于吴恩达加入百度的原因,并不乏媒体报道,大多诉诸于百度的“灵活性”,但这个理由似乎并不那么充分——至少在美国几大科技公司中,谷歌是具有相当灵活性的,Hinton曾表示,微软和IBM比谷歌都要先得到他的学生,但是在产品化上,谷歌比任何人都要快。
无论如何,吴恩达的到来为百度吸引到了最顶尖的科学家。Adam Coates在斯坦福大学师从吴恩达,研究进入博士后阶段时,“我问他,做什么事情,在哪里做,能够让我们的研究在这个世界上能够产生最大的影响力?他告诉我应该去百度。”
无论是吴恩达还是谷歌的Hinton或者是Facebook的Lecun,这样学院派人物加入企业非常重要的一点是他能够带来自己门生和追随者。
在百度工作一年半之后,在接受界面新闻采访时,Adam同意了吴恩达当初的说法,他说百度让人激动的是百度的这些产品是和十亿级的用户紧密地联系在一起。
除此之外,这些顶尖的科学家愿意从大学实验室来到互联网公司的重要原因就是数据和计算能力。关于数据对于人工智能的重要性,谷歌创始人之一拉里佩奇和凯文·凯利之间的一段对话能够作为例证:早在2002年,在接受凯文·凯利采访时就表示,Google未来不是用人工智能改进搜索,人工智能未来是谷歌主营业务,谷歌将用搜索得到的数据来改进人工。而当2007年语音识别产品在谷歌偶然被Hinton的学生运行成功时,基于的却是他若干年前的研究成果,“回顾往昔,缺乏的只是数据量和计算能力”,Hinton当时感叹——彼时他经历了深度学习在学界数次沉浮。
百度也是依靠数据和计算能力吸引到诸多科学家,Adam Coates在接受采访时不断强调数据量和计算能力的重要性。Tony Han说吴恩达以及百度的数据量和计算能力是他加入的重要原因,原本在Missouri大学担任副教授,受困于学校数据量和计算能力的限制,他给Andrew写邮件争取到了加入团队的机会。
但无论如何,是百度在人工智能领域确立了目标,才有后来吴恩达和一系列科学家的加入。
徐伟原本是Facebook的一名科学家,在吴恩达到来之前加入了百度。Facebook的创始人扎克伯格对于办公室布局有一个有趣的偏好,他会把一段时间内他认为重要领域的同事安排在他附近的座位,这样便于他随时学习这个领域的知识,而徐伟在Facebook就是坐在扎克伯格附近的人。徐伟在学生阶段学习的正是神经网络,在Facebook时也是利用神经网络解决这个社交网络的图片识别等问题,但这家公司在2013年年初时并没有像Google和百度那样确定地表示要在这一领域做研发投入,直到他加入百度半年后,Facebook才成立AI实验室。
作为一个中国公司在美国的研究院,要招聘到顶尖当地人才并非易事。百度硅谷研究院2011年成立时,HR联系硅谷当地工程师,许多人都担忧是否该相信这样一家中国公司,“他们看得到,许多中国公司来美国设立办公室又撤走,招人又裁员”,郑字斌是百度美国研究院总经理,他清楚地看到这几年的变化,他说,从2011年起整整两三年的时间,百度主要是招中国工程师回国工作,这些人或许在Google这样的公司工作了七八年时,事业到了一个平台期,而回国进入百度能够担任管理职位,有些人因为家人在美国或者绿卡的原因,还需要往返中国美国,“美国研究院在当时就类似一个方便他们出差的小办公室”。
一切都发生了变化,在吴恩达加入后。
3.
研究领域重要人物的移动意味着研究成果的跟随,吴恩达的加入意味着百度在深度学习领域起步于他之前的成果。
吴恩达在谷歌曾被外界广泛关注的成果就是机器在数百万张Youtube视频图像认出了图片中的猫。相比之前,这一“看图说话”成果的重要性在于,它利用的是一种“无监督学习”机制——研究人员之前并没有给这些图片标注过“猫”或者其它名称,而机器在看了不计其数的“猫”之后,能够断定这属于同一事物——它们表现出来的统计模式已经具备了足够的普遍性,从而可以将这些物体进行分类。
这对于一两岁孩童是十分简单的事情,却是无数研究人员花费数十年试图去教会机器的。就是这样,对于有规则可循的事情,比如能够用方程式所解释的,机器能够搞定人们穷尽一生都无法完成的计算量,但对于无法从数学计算规则解释的事情,低龄儿童都能够完成的事情对于机器来说就像是不可能的任务。
相比之前研究人员需要像机器展示无数标注有“猫”的图片后,机器才能够在看到一张没有标注的图片,认出“猫”,无监督学习机制就像更接近人类某一种认知过程——小孩子在辨认猫时,并不一定要去看几百万张妈妈为他标记有“猫”的图片,仅仅是学习到猫的样子,在偶尔一次问到“这是什么”的时候,目前或是什么人告诉他们“这是猫”的时候,他们就学会了。无监督学习就是这样一种只需要在学习后期阶段干预,甚至是不需要干预的机制。
而之后一个重要的进展在于能够同时识别不同的物体,甚至是物体特殊部分,然后可以用自然语言做出描述。
百度在此之上的一个重要进展就是可以对机器用复杂的自然语言提问:“除了人之外,草坪上还有什么”或者是“那个人手里拿着什么”,机器能够正确回答草坪上“还有狗”或者是“手里拿着桔子”。
不仅仅是图像识别,语音领域同样如此。就在Adam接受我采访的当天,百度发布了新的深度语音产品,在这背后是一条全新的语音识别路径,“语音识别过去是由很多部分组成的,让许多部分一起工作,最后要得到较为精确的语义传送是很难的,而我们是用的另外一条路径,由深度学习来代替既往那种许多细小的部分,最后的结果是更为精确的。”
“我们做中文实际上是从今年2月份开始做的,到今年8、9月份的时候我们已经超过国内语音的识别率了。”Tony Han是语音团队里仅有的华裔工程师之一,鉴于中文语言特殊性,他是参与了中文版本建设,“百度内部使用的最好中文语音识别系统错误率是7.7%,我们当时打算超过优于这个系统10%的时候就上线,也就是错误率6.8%,但是我们六个月的时间把它推到5.7%了。”
但他们希望不断提高正确率。在语音识别中细小的准确率之间的差别,在具体使用中却会有很大的差别。95%的精确度意味着每20个字里就有一个错别字,相当于每次在手机上使用语音识别时都不得不回过头来纠正错别字,而99%则完全不同,语音识别就已经达到可靠的程度,就会一直使用,这4%的差别并不仅仅是4%的渐进改善,在用户层面几乎是一直用和几乎不用的天壤之别。
Tony Han指出,百度语音识别利用的“端到端”的路径是一个适用性较强的基础框架,在这个框架之下,只需要稍作改动,就可以运行另一个语言的版本,这也是他们能够在6个月推出中文版的原因。
“去年我们的那个版本在英语环境下运行得很好,而新版本在两个语言环境下都能够顺利运行。”Adam向我介绍说。撇开这种说明书式的描述,将它与Siri相比,能够明显地比较出优势。Siri无法同时支持中英文的——比如在我的iPhone使用英文系统时,Siri能够听懂我的英文指令,当我要求它给我通讯录里某个人打电话,如果这个人人名是中文名字时,它就无法识别,除非你重新设定系统的语言。
“机器对自然语言的识别,用你平时说话的方式交流,它就能够明白你要做什么,这对我来说是相当激动的,完全改变了我们和设备的交流方式。”Adam说。但大多数我们并不能为这种学术性的描述以及几个百分点的进步而激动,但如果试图想象当无人驾驶汽车在路上运行或者是机器人提供服务,需要对诸多意外状况做出自主自动的反应,就能理解这些细小进步的意义。
4.
这种人和机器交流方式的改变对于中国有特殊的意义。
百度最近关于深度学习产品化的一个重要方向就是在O2O产品中植入美国研究院的语言识别成果,“我认为人工智能和O2O就是为彼此而生的,O2O正是把互联网的技术应用于线下的真实世界,为了提升O2O服务质量,电脑就需要理解人们在真实世界的那些行为,比如人们交谈的方式。”Adam为自己研究成果进入中国这样一个十亿级市场感到兴奋。
这样一个十亿级市场规模也意味着用户受教育程度参差不齐。吴恩达在一次采访中指出,人工智能能够让中国非受教育用户群体便捷地使用智能设备——毫无疑问,这是前端科学民主的一面。
当Elon Musk等人表达对人工智能未来毁灭性的一面的担忧时,这些身在其中的科学家想的是如何更好地教育机器,让机器能够更聪明的和人交流。“我认为人们说的人工智能将拥有和人脑同样的能力的说法,现在是不可能的,我也没有看到在可预见的将来有创造这种东西的可能性。”Adam。
“长大过程中,我一直在看《变形金刚》,卡车汽车突然变成了机器人,我每天钻进汽车的时候,并没有担心它会突然变成机器人”。
如果说这些科学家们有什么担忧的,就是如何在公司事务中争取更多的科研时间。百度美国研究院扮演的是技术平台的角色,让百度其它工程师基于这个平台上开发出其它产品,“工作里,有相当一部分时间会花在怎么去让我们这个系统更好地支持百度各种各样的产品。”徐伟说,他更大的兴趣是在科研上,但直到今年才有了更多时间在科研上。
学界领军人物都进入了公司,外界层担心这会影响科研的进度。但从目前来看,Geoffrey Hinton仍然在多伦多大学任教,除了偶尔会来谷歌硅谷的总部,大多数时候只是在这家公司位于多伦多的办公室;Lecun仍然在纽约大学任教,Facebook把实验室总部设在了纽约。
一线的科研人员在有钱有数据的公司中生存,而不是依赖于以往的政府研究基金,除去为企业牟利的一面,如果你想到以往的贝尔实验室,毫无疑问这有它积极的一面。