大数据分析的光荣与陷阱——从谷歌流感趋势谈起

目前有些流行观点认为,在大数据时代,技术容许人们拥有了总体因此抽样不再重要、另外由于数据挖掘术的进展,只需关心相关关系而不必再关心因果关系。而GFT的实例表明,即便谷歌公司用于GFT计算的是数十亿的观测值,也不能认为谷歌公司拥有了流感人群的总体。误认为数据体量大就拥有了总体,就无法谦卑结合其他渠道的小数据,得到更为稳健的分析结论。而GFT估计的偏误原因,从来都离不开人们的主动的行为– 无论是谷歌公司自己认为的GFT的流行导致更多人使用该搜索、还是Lazer等人认为的算法变化、丢弃异常值。因此,不明白数据生成机理变化的原因而只看相关关系的后果,于谷歌是GFT的计算偏误丢了脸,而对热情地投身于采用大数据到创新、创业中的中国民众和相关机构来说,则可能是不得不面对重大的意外经济损失。