因为亚马逊缺乏人才,它利用自己雄厚的财力来收购有技术专长的公司。林普说:“在开发Alexa的早期,我们收购了很多公司。”2011年9月,亚马逊收购了Yap公司,这是一家语音文本公司,在将口语转化为书面语言方面很出色。2012年1月,亚马逊收购了英国剑桥的Evi公司,该公司的软件可以像Siri那样响应语音请求。2013年1月,亚马逊收购了一家专门从事文本转为语音业务的波兰公司Ivona,该公司提供的技术让Echo拥有对话能力。
但是亚马逊的保密文化阻碍了它吸引学术界顶尖人才的努力。它的其中一个潜在招募对象是亚历克斯。斯莫拉,他是这个领域的超级大碗,曾在雅虎和谷歌工作过。亚马逊网络服务公司的深度学习和人工智能的总经理马特。伍德说:“他确实是深度学习领域的教父之一。”(谷歌学术上斯莫拉的学术文章的引用超过9万次。)亚马逊的高管们甚至不会向他或其他候选人透露他们将来的工作计划。斯莫拉拒绝了这个工作邀请,选择在卡内基梅隆大学负责建立一个实验室。
Alexa的总监Ruhi Sarikaya和Alexa引擎的副总裁艾尔·林赛,他们不仅创建了智能音箱产品线Echo,还致力于为其他公司的产品提供语音服务。
林赛说:“在我们发布产品之前,一直都有不看好的声音。他们会说,‘我为什么要去亚马逊工作,我对售卖产品的工作不感兴趣!’”
但亚马逊在一个方面确实有吸引力。因为亚马逊一直都喜欢先预想好最终产品的样子再进行开发研究的工作习惯,很多时候这些初步设计稿里面有很多目前技术尚未解决的问题。这些困难的问题对于一些有野心的科学家来说具有的致命吸引力。特别是想要在语音方面,要有一种对话式的人工智能技术,比如具备唤醒词(“嗨,Alexa!”),能够识别并理解命令,提供合理的答案等等,这些技术在当时都还不存在。
即使亚马逊没有公布太多这个项目的开发细节,也引起了罗希特。普拉萨德的兴趣,他是一位受人尊敬的语音识别科学家,在波士顿一家名为Raytheon BBN的科技公司就职。(亚马逊让他在自己的家乡建立了一个团队,这对于吸引他来亚马逊就职有所帮助。)他认为亚马逊缺乏专业知识是它的一个特征,而不是缺陷。他说:"这里是一块尚待开拓的土地。谷歌和微软多年来一直致力于语音技术的研究。 在亚马逊,我们可以白手起家,解决难题。“2013年,他入职亚马逊后便直接加入了Alexa的项目。他表示:”这款设备目前只在硬件阶段可行,想要搭载语音技术还为时尚早。“
Echo智能音响中最棘手的部分是一种被称为远场语音识别的技术,它涉及到识别并理解与麦克风保持一定距离的语音指令,即使这些指令会受到环境噪音或其他声音的影响。这要求亚马逊在技术上有新的突破,并且从整体上而言,也提升了亚马逊在机器学习方面的竞争力。一个很有挑战性的因素是,这款设备不能浪费太多时间去思考你说的话。它必须把音频发送到云端,并迅速给出一个答案,让人感觉像是正在进行一段对话,而不是反应慢到让人尴尬得觉得自己在跟一个好像快睡着的人聊天。构建一个能够在嘈杂的环境中理解指令,并给出响应的机器学习系统需要大量的数据。亚马逊能从哪里得到这些数据也是一个问题。
现在,各种各样的亚马逊设备和第三方产品都使用了Alexa语音服务。通过Alexa收集的数据有助于改进系统并且从广义上来说也增加了亚马逊在人工智能方面的工作量。
亚马逊设备及服务高级副总裁林普说,远场技术以前就存在了。但“它应用于美国三叉戟潜艇的鼻锥部分,造价十亿美元。”亚马逊试图将其内置在一个可以放在厨房柜台上的设备上,而且它必须足够便宜,让消费者能够买得起这样一款新奇的小产品。普拉萨德说:“我的团队中有90%的人认为这完全不可能。我们在公司外面有一个技术咨询委员会,我们没有告诉他们我们在做什么,但他们说,‘不管你做什么,都不要想着研究远场识别!’”