【开源之战】在搜集人类语音数据上,谷歌与火狐展开正面交锋

谷歌收购的数据科学社区 Kaggle 的数据准备分析师 Rachael Tatman 在今年早些时候发表了一篇关于性别和方言如何影响 YouTube 自动化标题准确性的文章。她发现 YouTube 自动标题对于女性和苏格兰口音的演讲不太准确,但根据训练数据的使用情况,不同的系统可能会出现不同的错误模式。

“如果是我看了很多弗吉尼亚州的女性发表的演讲,我也会对来自弗吉尼亚州的女性的演讲听得更准确,而对来自加利福尼亚州的男性就听不了这么准确。”Tatman 说。

现有的开源数据集已经被发现存有“偏见”——例如德州仪器最初收集的交换机对话数据集,现在托管在宾夕法尼亚大学语言数据联盟。有偏见的数据在人工智能的其他领域一直是个问题,一些算法被认为更好地识别白人面孔,或者在理解推特上非裔美国人的英语时有困难,这对旨在为不同受众服务的高科技公司和开源项目来说尤其是问题。

Mozilla 还邀请用户验证提交的样本,验证录音的正确性。最近,由网站进行验证的样品包括来自英语世界各个地方口音的正确录音,还配了一个听不清的样本,以及一段猫王的音乐。

Tatman 说,大多数语音助手背后的公司都没有提供内部语音记录,这并不完全是为了防止竞争。 由于很多查询都包含了个人信息,例如网络搜索或短信,如果开放数据将会造成隐私泄露。通过一个人独特的声音就可以识别他。

不过,这些公司仍会在内部使用这些数据:苹果公司过去曾表示,它可以保留两年的Siri数据,以及相应的用户标识(如抽取出的 ID 号码和电子邮件地址),以帮助改进算法。该公司没有对其当前Siri音频保留政策引发的每个评论的进行反馈。

“你的声音是可识别的,”Tatman 说。 “这被认为是可识别的信息。”

Mozilla 也采取了措施来保护用户隐私,因为它收集的是开源语音数据。“我们费尽心力地将用户与相应的录音分开,使得剪辑本身没有嵌入个人识别信息。”

和一些现有的公开可用语音记录数据集(如经过标记的 TED 演讲)相比,Mozilla 数据集的一个优点是,和Siri或Alexa设备的声音样本一样,录音时的环境条件与人们实际使用语音识别软件时的环境条件相似。

Rudnicky解释道:“他们基本上是用浏览器来收集数据,这意味着所收集的数据的更多地代表了目标用户可能具有的特征。例如,我坐在办公室里,我用的麦克风是办公环境下桌面使用的那种,类似这样。”

所收集的录音拥有各种各样的讲者及口音以及所预期规模的数据集,因而会比现有的那些免费的音频资源更实用,甚至比那些大公司秘而不宣的数据集更有价值。“我们在尽可能地撒一张大网”,Henretty称。