一个语音虚拟助理,比如Siri、Alexa、Cortana或者Google Home的表现,很大程度上是由驱动其的数据决定的。要训练这些程序来理解你正在说什么,首先要拥有大量关于人类对话的现实案例数据。
这让现有的语音识别公司拥有天然的优势,因为他们已经大量地积累了对话样本数据,能用于训练算法。所以,希望在这个舞台上竞争的创业公司必须拥有自己的一套语音音频文件,也许可以从现有的文档(如TED Talk转录构建的大约300小时的语料库)获得。
卡内基梅隆大学研究教授 Alexander Rudnicky说,开发人员通常需要访问数百或数千小时的音频。
谷歌从某种程度上也认可了这一说法,上周,他们发布了全球录音的众包数据集。这一包含了 65,000 条一秒钟音频剪辑的语料库包括了来自世界各地的人们说的简单的指令词 :“ 是的”,“不”,“停止”,“去”等等。
Mozilla是开源Firefox浏览器的拥有者。Mozilla最近推出了一个名为Common Voice的新项目。他们的目标是建立一个免费对外提供的,众包的世界各地语音样本数据集,包含各种样本单词和句子。
谷歌的录音是AIY自动动手开发人工智能项目的一部分,旨在使创客们能够体验机器学习。 “我们用来创建数据的基础设施也是开源的,我们希望看到它被更广泛的社区用来创建自己的版本,特别是覆盖服务不足的语言和应用程序,”谷歌软件工程师Pete Warden说。
总的来说,它不仅是超过一千兆字节的声音,还是谷歌收集的用于训练自己的AI系统的语音数据总量的一小部分。该公司曾经开设了一个自动化的助理服务,事实证明,这是他们收集人类语音数据的一种方式。
亚马逊的Alexa将用户的语音查询命令传输到服务器,用于进一步训练该工具。苹果通过聘请朗读者来阅读特定的文本,教会Siri新的语言和方言,并让人从服务器上的语音到文本转换模型上转录写语音片段。据报道,微软已经在世界各地设立了模拟公寓,以栩栩如生的环境中捕捉到的音频片段来训练Cortanan 数字助理。
但是,以上所有这些都是私人公司持有的,通常不对学术界、研究人员或将来的竞争对手开放。这就是为什么Mozilla决定推出其Common Voice项目。
“当我们开始开发这些系统时,我们发现我们可以在算法的基础上建立其他人的作品,并在算法方面做自己的创新工作,但是对于所有这些,数据选择,创建和聚合是一个挑战,“Mozilla新兴技术高级副总裁肖恩·怀特(Sean White)说。 “如果你想做一个新的语音识别系统,你不能到市场上随便就能找到一个高质量的数据集来使用。”
Common Voice 邀请所有具有互联网连接和麦克风的人通过网页浏览器上的几次点击来提交他们自己阅读特定句子的简短记录。这与谷歌的项目工作方式类似,虽然Common Voice要求人们提交完整的句子,而谷歌只要求录入那些通常用作命令的特定单词和数字。
这些句子是由志愿者提交的那些会话短语的混合,比如 -“她把充电器还给我了”是项目的GitHub文件中的一个,出自经典电影Charade and It’s a Wonderful Life。 Mozilla还要求参与者提供一些基本的人口统计信息,如年龄,性别和英语方言区(例如美国英语,加拿大英语或英语,西印度群岛和百慕大)。
该项目在首次开放的大约57天内收集了大约307,000个录音,每段约3至5秒。 Mozilla开放式创新团队数字战略家Michael Henretty说,这使得总音频的播放时间达到了 340 到 520小时。
他说:“我们已经超越了TED演讲,那是其中一个较大的开源数据集。
Mozilla的目标是在今年晚些时候发布一个版本的数据集,希望能在这段时间内拥有10,000小时的音频,这个数字估计足以训练现代的生产质量标准的系统。这远远超过谷歌刚刚提供的18小时的音频剪辑数据库。拥有大量和各种各样的语音样本的关键原因之一是使得在其上训练的算法避免了意想不到的偏见。因为任何一个尝试使用语音助手的重口音的人都可以证明,这些系统在理解简单的英语方面比别的更好。