当然,并不是任何数据都可以从现成的大数据中获得,这里存在一个针对性、安全性和成本比较问题。因此,我们既要继续采用传统的方式方法去收集特定需要的数据,又要善于利用现代网络信息技术和各种数据源去收集一切相关的数据,并善于从大数据中进行再过滤、再选择。问题在于什么是无用的或不重要的数据? 该如何过滤与选择数据? 这就需要对已经存在的数据进行重要性分析、真伪别和关联物定位。
此外,大的数据库可能需要将信息分散在不同的硬盘或电脑上,这样一来,在不能同步更新数据信息的情况下如何选择、调用和匹配数据又是一个问题。因此从某种意义上讲,从大数据中收集数据就是识别、整理、提炼、汲取( 删除) 、分配和存储元数据的过程。
(三)分析数据的思维要变化。基于上述两个变化,数据分析的思维必然要跟着变化,那就是要主动利用现代信息技术与各种软件工具从大数据中挖掘出有价值的信息,并在这个过程中丰富和发展统计分析方法。
关于数据分析思维的变化,特别需要强调三点:
第一,传统的统计分析过程是“定性—定量—再定性”,第一个定性是为了找准定量分析的方向,主要靠经验判断,这在数据短缺、分析运算手段有限的情况下很重要。现在我们是在大数据中找矿,直接依赖数据分析做出判断,因此基础性的工作就是找到“定量的回应”,这在存储能力大为增强、分析技术与分析速度大为提高的今天,探测“定量的回应”变得越来越简单,所要做的就是直接从各种“定量的回应”中找出那些真正的、重要的数量特征和数量关系,得出可以作为判断或决策依据的结论,因此统计分析的过程可以简化为“定量—定性”,从而大大提高得到新的定性结论的可能性。
第二,传统的统计实证分析,一般都要先根据研究目的提出某种假设,然后通过数据的收集与分析去验证该假设是否成立,其分析思路是“假设—验证”,但这种验证往往由于受到假设的局限、指标选择的失当、所需数据的缺失而得不出真正的结论。特别是,一旦假设本身不科学、不符合实际,那么分析结论就毫无用处、甚至扭曲事实真相。事实证明,很多这样的实证分析纯粹是为了凑合假设。现在,我们有了大数据,可以不受任何假设的限制而从中去寻找关系、发现规律,然后再加以总结、形成结论。也就是说,分析的思路是“发现—总结”。这将极大地丰富统计分析的资源与空间,有助于发现更多意外的“发现”。
第三,传统的统计推断分析,通常是基于分布理论,以一定的概率为保证,根据样本特征去推断总体特征,其逻辑关系是“分布理论—概率保证—总体推断”,推断的评判标准与具体样本无关,但推断是否正确却取决于样本的好坏。现在,大数据强调的是全体数据,总体特征不再需要根据分布理论进行推断,只需进行计数或计量处理即可。不仅如此,还可以根据全面数据和实际分布来判断其中出现某类情况的可能性有多大,其逻辑关系变成了“实际分布—总体特征—概率判断”,也即概率不再是事先预设,而是基于实际分布得出的判断。按照迈尔 -舍恩伯格的观点,这个概率判断就可用于预测了。
伴随着上述三大变化,统计分析评价的标准又该如何变化?传统统计分析的评价标准无非两个方面,一是可靠性评价,二是有效性评价,而这两种评价都因抽样而生。所谓可靠性评价是指用样本去推断总体有多大的把握程度,是以概率来度量的———有时表现为置信水平,有时表现为显著性水平。特别是在假设检验和模型拟合度评价中,显著性水平怎么定是一个难题,一直存在争议,因为所参照的分布类型不同其统计量就不同,显著性评价的临界值就不同,而临界值又与显著性水平的高低直接相关。然而在大数据的背景下,大数据在一定程度上就是全体数据,我们可以对全体数据进行计数或计量分析,这就不存在以样本推断总体的问题了,那么这时还有没有可靠性的问题? 还要不要确定置信水平?怎么确定? 依据是什么? 如何比较来自不同容量数据库的分析结论的可靠性?