四
对苹果机器学习方面进展的最佳测量方式,或许来自它在AI上最重要的收购:Siri。Siri最初诞生自DARPA在智能助理上的一项计划,后来部分科学家成立了一家公司,用同样的技术开发了一款应用。2010年,乔布斯亲自说服公司创始成员将公司出售给苹果,并指示将Siri整合进操作系统。在2011年10月iPhone 4S的发布会上,Siri是一大点亮。现在它早已不是用户长按Home键,或发出“Hey, Siri”指令进行唤醒(这一功能本身也使用了机器学习,允许iPhone在不耗电的情况下了解周围情况)这么简单了。Siri的智能整合进了Apple Brain,即便不发场时也在工作。
作为核心产品而言,Cue提到了四个组成:语音识别(理解你何时与它对话),自然语言理解(理解说话内容),执行(满足查询或请求)以及响应(产生回话)。“机器学习对所有这些都有重要影响。”
Tom Gruber(上)与Alex Acero
Siri高级研发部主管Tom Gruber是在最初的收购后加入了苹果的,他表示,在苹果把神经网络用于Siri之前,其用户量已经在产生大量数据,而这对训练神经网络十分重要。“乔布斯说,一夜之间就会拥有数百万用户,还不用公测。突然之间就会有用户,他们会告诉你,人们如何与应用对话。这是第一次革命,那之后神经网络时代到来了。”
随着Siri转移到用神经网络处理语音识别而来的,还有几位AI专家,其中包括现在语音组的主管Alex Acero。Acero的语音识别经历始于90年代的苹果,后来他在微软研究院工作了多年。“我喜欢这类工作,也发表了很多论文。当Siri出现时,我意识到这是让深度神经网络应用得以实现的机会,不是让几百人用,而是让数百万人用。”换句话说,他就是苹果想找的那类科学家优先考虑产品而非发表论文。
当Acero在三年前加入时,Siri用的语音技术仍基本来自第三方的授权,而这种情况必须改变。Federighi意识到,这是苹果不断在重复的一种模式。“随着一项技术对开发核心产品变得越来越重要,我们会让内部逐渐接手开发。要开发伟大的产品,我们希望内部拥有技术,并在内部创新,语音识别就是一个很好的例子。”
团队开始训练神经网络,以替代Siri早前的技术。苹果的GPU集群不停运转,调用了大量数量。2014年7月的发布证明,所有努力都没有白费。
Acero表示,“当时在所有语言上,错误率降低了两倍,在很多场景下还不止如此。这都要归功于深度学习及对它的优化,不仅是算法方面,更是在产品开发的整个过程上。”
苹果不是第一家在语音识别中使用DNN的公司,但它证明,控制整个运转系统会产生优势。Acero表示,正是因为苹果自己设计芯片,他能直接与编写固件的芯片设计组工程师合作,最大化提升神经网络的性能。Siri团队的需求甚至影响了iPhone设计的方方面面。
Fdferighi表示,“不仅仅是芯片,还涉及设备上的麦克风,以及麦克风安装的位置,还有如何调整硬件,以及处理音频的软件栈。这需要所有组件的协调,比起只是开发软件的公司,有着惊人的优势。”
另一个优势是,当苹果的神经网络在一个产品上成功时,还能成为其它产品的核心技术。机器学习让Siri理解了用户,也让输入方式由手动变成了听写。也正是因为Siri的技术,用户语音输入的信息也变得更流畅和完整。
Cue提到的Siri第二个部分是自然语言理解。Siri在2014年11月开始用机器学习理解用户的意图,并在一年后推出了深度学习版。如在语音识别上一样,机器学习提升了体验,特别是在理解指令上。
苹果认为,没有Siri上的技术,它不太可能开发出最新版的Apple TV,因为后者也有语音控制功能。尽管早期的Siri版本要求你用清晰的方式说话,但深度学习加强版不仅能从大量电影和音乐中找到特定的选择,更能处理“播放一部汤姆汉克斯主演的优秀惊悚片”这样的概念。这在以前是完全不可能的。