大数据分析的光荣与陷阱——从谷歌流感趋势谈起

例如,互联网金融以大数据计算为业务基础,其健康状况就与这类偏误的严重程度密不可分。 根据中国P2P网贷行业2014年度运营简报和2015年上半年的运营简报,在图一我们可以推算2006年到2004年间和2015年1-5月间月均新增问题平台数,并与2015年6月新增问题平台数作比较

新增问题平台的大幅增加原因虽然有多方面,但是从数据分析方法的局限是不可忽视的原因。由于还没有合法的数据共享机制,P2P平台在甄别客户质量时,往往只依靠自身渠道和从社交媒体等挖掘的数据,并采用数据挖掘方法建立相应建立模型。在数据分析中,不少P2P平台往往疏于查考自身样本的代表性、也忽略宏观经济数据和其他微观数据所包含的信息。由于互联网金融公司出现时间短、又主要成长于经济繁荣期,如果单单依赖有限的数据渠道,数据挖掘与机器学习过程对新常态下个体行为没有足够的认识,在经济下行时仍然根据历史数据而低估逾期率,导致高估平台健康状况,最终不得不面对问题平台不断增加的局面。

(二) 大数据和小数据齐头并进大势所趋

大数据和小数据各有优劣。简而言之,小数据通常不会假定该数据就是总体,因此收集数据前往往需要确定收集数据的目标、根据该目标设计的问卷或者收集方法、确定抽样框。在数据采集后,不同学者往往可以通过将新收集数据与不同数据的交叉验证,来评估数据的可信度。小数据在收集上有变量定义清晰、数据生成机制基本可控、检验评估成本相对较低等优点,但是缺点是数据收集成本高,时间间隔长、颗粒度较粗。

大数据的优势就包括数据体量大、收集时间短、数据类型丰富,颗粒度很细。但是,由于大数据往往是一些企业和机构经营活动的附带产品,因此并不是通过精心论证的测度工具生成。另外,由于大数据的体量很大,交叉验证数据的可信度、不同学者采用相同数据独立研究以检验数据的前后一致性等工作难度较大。这些特点意味着大数据本身未必有科学研究要求的那样准确、可靠,在数据分析中就需要对大数据适合研究的问题有较清晰的认识。