我们能从谷歌流感趋势预测的失败中学到什么?

 

每天都有成千上万的人通过Google来搜索信息,从旅途需要花费多长时间到怎样治疗他们孩子的病,各式各样的信息都有,这无疑极大的方便了人们的生活。

这一系列的搜索数据也从侧面显示出了搜索这些信息的人本身的情况,比如他们的想法、需求、忧虑等非常有价值的信息。如果这些信息的搜索可以准确的反映出人们的生存情况,那么分析人员就有可能利用这些信息追踪疾病情况,预测新商品的销售情况,甚至预测选举的结果。

大数据并不是万能的,我们能从谷歌流感趋势预测的失败中学到什么?

2008年,谷歌的研究人员探索了其中的可能性,并宣称他们能够根据人们在搜索引擎上留下的信息对流感进行“即时预报”。研究人员在《自然》杂志上撰文表示,能够进行这种预测的关键在于一旦人们患上了流感,就会在谷歌中搜索很多关于流感的相关信息,这就可以形成有关于流感流行情况的整体性趋势信号。该文章还表示,如果把谷歌搜索引擎上的相关信息与美国疾病预防控制中心(Centers for Disease Control and Prevention,CDC)的流感监测信息进行调整对比,就可以提供更为精准的流感趋势预测,这不仅把人们在搜索引擎上留下的“垃圾”变成了拯救生命的“启示”,并比当前CDC的数据预测预测提早至少2周。

这一切听起来都很有道理,然而理想很丰满,现实很骨感。谷歌流感趋势(Google Flu Trends,GFT)最终还是失败了,而且失败得彻彻底底:相比于2013年实际的流感趋势,GFT的预测偏差高达140%。当谷歌黯然关闭GFT的时候,这个项目已经从“大数据运用的典范”变成了“大数据的缺陷的典范”。