Google的内部报告:大数据的类型和数量同样重要

一份来自Google的内部报告显示,大数据在构建面向消费者的服务(如智能手机中的语音搜索)时尤其重要。用来训练人工智能模型的数据越多,它越有可能猜出你下一句会说啥。虽然这份报告背后的数学知识可能超出大部分人的理解范围,但是原理并不复杂。报告还提到了为何大家都对“大数据”这一概念如此兴奋,以及选择恰当的数据来训练智能模型的重要性。

Google一直秉承着这样一个观点:“数据越多越好。”Google的研发总监Peter Noevig也在09年的论文《数据的非理性效应》中表达了这样的观点,一般来说,更多的数据能催生更好的算法。你能为模型提供可供学习的数据越多,模型的准确度也会越高。

这一理论同样适用于语音识别系统的构建。研究者发现更大的数据集和语言模型能够提高依据一个单词猜测下个单词的准确度。Google的数据专家Ciprian也在一篇博文中提到一个例子:更好的语言模型会在前两个词是“New York”时,更倾向于预测下个词是“披萨”而不是“燕麦卷”。在语音搜索中,Ciprian的团队也发现如果将模型大小提高两个数量级,错误率会相应的降低约10%。

就像所有的数据科学家会告诉你的那样,真正的关键在于弄清什么类型的数据最适合用来训练你的模型。在语音搜索领域,Google使用的数据包含2300亿个单词,这些单词都来自Google接收到的搜索请求。由于人们在说话和打字时的语言使用习惯不一样,训练YouTube模型的数据主要来自于新闻广播的录音文本和大型网络爬虫。

这份报告中并没有介绍太多突破性进展,但是可以帮助大家更好的理解为何大数据突然变得如此有吸引力。随着消费者对智能应用和顺畅用户体验的要求越来越高,如何对大数据进行分析也将越来越重要。