我们能从谷歌流感趋势预测的失败中学到什么?

但GFT的失败并不能够抹灭大数据本身的价值。相反,这个项目很好的凸显出了很多大数据应用实践中的问题,也就是我们所说的“大数据的傲慢”。

“大数据傲慢”指的是这样一种观点:即认为大数据可以完全取代传统的数据收集方法,而非作为后者的补充。这种观点的最大问题在于,绝大多数大数据与经过严谨科学试验得到的数据之间存在很大的不同。

编写一个将5000万搜索关键词与1152个数据点相匹配的算法是非常困难的,很有可能会出现过度拟合(将噪声误认为信号)的情况:很多关键词只是看似与流感相关,但实际上却并无关联。事实上,在2013年的报道之前,GFT就多次在很长一段时间内过高地估计了流感的流行情况。 2010年的一项研究发现,使用CDC的滞后预测报告(通常滞后两周)来预测当前的流感疫情,其准确性甚至都高于GFT的预测结果。

但如果能够得到正确的运用,像谷歌这样的巨头掌握的数据体量的价值基本上是无法估量的。也就是说这些巨头们有责任把这些数据运用到最有利于公众利益的方面。

在2014年发表在《科学》杂志的一篇文章中,来自美国东北大学、休斯顿大学以及哈佛大学的研究人员解析了谷歌预测流感趋势失败的原因。该文章把GFT的预测表现欲建立在CDC(美国疾病预防控制中心)数据基础上的简单预测模型进行了对比,结果发现GFT的总体表现实际上更差。该文章还认为,GFT的模式可能能够在2-3年内保持比较稳定的预测准确率,但之后则容易出现较大的差错,需要进行重要的修改。

当然,本文的目的也并不是要埋没大数据的价值,目前的研究已经证明了大数据在建立疾病传播模型、突发事件的确认以及经济情况的预测等方面相比于传统的方式都显示出了独特的价值。虽然谷歌在流感预测方面的努力很有价值,但是他们在方法及数据方面极其不透明的情况都导致了无法很好的利用谷歌流感趋势(Google Flu Trends,GFT)的结果来进行任何的决策支持。