大数据分析的光荣与陷阱——从谷歌流感趋势谈起

从数据生成机构来看,他们对待数据的态度也可能发生微妙的变化。例如,过去社交媒体企业记录保存客户信息的动机仅仅是本公司发展业务需要,算法演化也是单纯为了更好地服务消费者。但随着大数据时代的推进,“数据为王”的特征越来越明显,公司逐渐意识到,自己拥有的数据逐渐成为重要的资产。除了可以在一定程度上给使用者植入广告增加收入之外,还可以在社会上产生更为重要的影响力。这时就不能排除数据生成机构存在为了自身的利益,在一定程度上操纵数据的生成与报告的可能性。比如,在Facebook等社交媒体上的民意调查,就有可能对一个国家的政治走向产生影响。而民意调查语言的表述、调查的方式,都可能受到数据生成企业自身利益的影响。

简而言之,天真地认为数据使用者和数据生成机构都是无意识生产大数据、忽略了人们行为背后趋利避害的动机的大数据统计分析,可能对于数据特征的快速变化迷惑不解,即便看到模型预测表现差,也难以找到行之有效的克服方法。

◆ ◆ ◆

四、前车之鉴

目前,我国高度重视大数据发展。2015年8月31日,国务院印发《促进大数据发展行动纲要》,系统部署大数据发展工作。《纲要》认为,大数据成为推动经济转型发展的新动力、重塑国家竞争优势的新机遇,和提升政府治理能力的新途径。《纲要》指出,2018年底前,要建成国家政府数据统一开放平台,率先在信用、交通、医疗等重要领域实现公共数据资源合理适度向社会开放。与此相应,近年来多地成立了大数据管理局、业界学界对于大数据的分析利用也予以热烈回应。因此,了解大数据分析的优势与陷阱,对我国的经济发展和实证研究具有极其重要的意义;而GFT项目折射出的大数据使用中可能存在的机会与问题,都值得关注。

(一) 防范“大数据自大”带来的风险

GFT案例表明,如果认为大数据可以代替小数据,那么过度拟合问题可以带来巨大的估计误差。这一点在“大众创业、万众创新”的今天尤其需要关注。这是因为大数据作为目前“创新”最闪亮的新元素被高度推崇的,而我国经济处于转型时期的特征,使企业或者机构面对的微观数据不断发生动态变化。如果在数据挖掘中忽略这些变化,往往要面临过度拟合带来的损失。