因此在政策导向上,为要实现大数据、小数据相得益彰推动经济发展的目标,在促进发展大数据的同时也要大力发展小数据相关产业,推动小数据相关研究与合作,使大数据与小数据齐头并进、互为补充。
(三) 提高大数据使用的透明度,加强对大数据质量的评估
大数据面临的透明度问题远比小数据严重。在GFT案例中,Lazer等人指出,谷歌公司从未明确用于搜索的45个关键词是哪些;虽然谷歌工程师在2013年调整了数据算法,但是谷歌并没有公开相应数据、也没有解释这类数据是如何搜集的。我国大数据相关企业的数据,也鲜有学者可以获得并用于做研究的例子。
与透明度相关的就是大数据分析结果的可复制性问题。由于谷歌以外的研究人员难以获得GFT使用的数据,因此就难以复制、评估采用该数据分析结果的可靠性。因此利用大数据的研究难以形成合力,只能处于案例、个例的状态。
另外还要注意到,如果数据生成机制不清晰,研究结论难以复制,而算法演化也表明,最终数据往往成为使用者和设计者共同作用的结果。这种数据生成的“黑箱”特征,容易成为企业或者机构操纵数据生成过程和研究报告结果的温床。唯有通过推动大数据的透明化、公开化,我们才能在大数据产业发展之初,建立健康的数据文化。
因此,在大数据时代,为了更好利用大数据,需要采取相关措施,增加在大数据生成过程的透明度方面的努力。例如,采取措施推进数据生成企业在妥善处理隐私信息后,定期公布大数据随机抽样数据、要求数据生成企业及时公布数据算法的变更,鼓励采用大数据的研究实现可复制性、便于交叉验证等。
◆ ◆ ◆
五、结语