大数据分析的光荣与陷阱——从谷歌流感趋势谈起

在与小数据互为补充推动研究与认知方面,大数据大有可为。将大数据与小数据相结合,可以大大提高数据的颗粒度和预测精度。比如对CDC流感发病率的预测研究发现,将GFT采用的大数据和CDC的历史数据相结合的模型,其预测能力比单独运用大数据或者小数据要好很多。

大数据往往可以实时生成,对于观察特定社区的动态具有小数据无可替代的优势。比如,美国在“九一一”之后,出于快速准确估计在某个特定小社区活动的人口的需要而启动了“工作单位和家庭住址纵向动态(LEHD)”项目,该项目将人口普查数据、全国公司数据、个人申请失业保险、补贴、纳税等记录联通,可以对社区在短时间内的“新陈代谢”作出较为全面的刻画。

这类的数据结合研究,对于了解我国社会经济状况的动态变化会十分重要。一个可能的应用是,将城市人口、工作状态、性别、年龄、收入等小数据采集的信息,和实时产生的交通状况相结合,来预测人们的出行特征,来解决城市交通拥堵、治理雾霾等问题。另一个可能的应用是,推动人民银行征信中心个人征信系统数据和民间征信系统大数据的结合,建立高质量的中国个人征信体系。

另外,我国经济处于转型时期,有不少政策亟需快速评估政策果效。以小数据为基础,利用大数据数据量丰富的优势,可以通过互联网做一些随机实验,来评估一些政策的效果,也是可能的发展方向。

在过去的十多年中,我国在通过非官方渠道采集小数据、特别是微观实证数据方面取得了长足进展。在多方努力下,更多经过严格科学论证而产生的数据可被公众免费获得并用于研究。例如,北京大学的“中国健康与养老追踪调查”、“中国家庭追踪调查”,都由经济、教育、健康、社会学等多领域的专家协同参与问卷的设计和数据采集的质控。在这些努力下,小数据的生成机制更为透明,交叉验证调查数据的可信度等实证研究的必要步骤也更为可行。

但是,目前在小数据的收集和使用、政府和有关机构的小数据开放运用方面,我国还有很大推进空间。只有在对涉及我国基本国情的小数据进行充分学习研究之后,我国学界和业界才能对经济政治社会文化等领域的基本状况有较清晰的把握。而这类的把握,是评估大数据质量、大数据可研究问题的关键,对推进大数据产业健康发展有举足轻重的作用。