大数据与统计新思维

二、统计思维的变化

改变统计思维,是大数据时代的必然要求。否则,统计学科就有可能被大数据的潮流所吞没,至少会被边缘化,失去一次重要的参与推动历史变革的机遇。当然,统计思维的变化应该以一个永恒不变的主题为前提,那就是通过数据分析去揭示事物的真相,这个真相就是事物的生存规律、联系规律和发展规律。也就是说,数据分析要以数据背后的数据去还原事物的本来面目,以达到求真的目的。如果说,我们原来限于各种条件只能根据有限的样本数据去实现这个目的,那么现在我们则可以在很多方面借助大数据去实现这个目的,关键就看我们开展数据分析的能力有多大,或者说利用大数据、从一切数据中提取有价值信息的能力有多大——因为大数据无疑增加了统计分析的难度,而这又首先取决于我们统计思维能否适应大数据时代的变化。正如迈尔·舍恩伯格所说: 大数据发展的核心动力就是人类测量、记录和分析世界的渴望。

那么,统计思维应该发生怎样的变化? 笔者认为主要要有如下三大变化:

(一)认识数据的思维要变化。前面已经提到,与传统数据相比,大数据不仅体量大、变化快,而且其来源、类型和量化方式都发生了根本性的变化,使得数据杂乱、多样、不规整。

首先,从来源上看,传统的数据收集因为具有很强的针对性,因此数据的提供者大多是确定的,身份特征是可识别的,有的还可以进行事后核对。但大数据通常来源于物联网,不是为了特定的数据收集目的而产生,而是人们一切可记录的信号(当然,任何信号的产生都有其目的,但它们是发散的) ,并且身份识别十分困难。从某种意义上讲,大数据来源的微观基础是很难追溯的。

其次,从类型上看,传统数据基本上是结构型数据,即定量数据加上少量专门设计的定性数据,格式化,有标准,可以用常规的统计指标或统计图表加以表现。但大数据更多的是非结构型数据、半结构型数据或异构数据,包括了一切可记录、可存储的信号,多样化、无标准、难以用传统的统计指标或统计图表加以表现。同时,不同的网络信息系统有不同的数据识别方式,相互之间也没用统一的数据分类标准。再者,现在有的数据库是非关系型的数据库,不需要预先设定记录结构即可自动包容大量各种各样的数据。

第三,从量化方式上看,传统数据的量化处理已经有一整套较为完整的方式与过程,量化的结果可直接用于各种运算与分析。但大数据中大量的非结构化数据如何量化(结构化)、如何从中提取信息、如何与结构化数据对接是一个崭新的问题。正如Franks 所说: “几乎没有哪种分析过程能够直接对非结构化数据进行分析,也无法直接从非结构化的数据中得出结论。”更为重要的是,“量化”的含义恐怕也不一样了,即此“量化”不一定等同于彼“量化”,量化结果的表现形式自然也不相同。显然,我们不能套用已有的方式去量化非结构化数据。

可以说,大数据是杂乱、不规整、良莠不齐的,但我们不能因此而回避它、拒绝它,只能接纳它、包容它。我们需要将统计研究的对象范围从结构型数据扩展到一切数据,需要重新思考数据的定义和分类方法,并以此为基础发展和创新统计分析方法。从某种意义上讲,没有无用的数据,只有未被欣赏的数据,关键是我们从哪个角度看数据。

(二)收集数据的思维要变化。收集数据是开展统计分析的前提,“没有黏土,如何做砖?”以往,收集统计数据的思维是先确定统计分析研究的目的,然后需要什么数据就收集什么数据,所以要精心设计调查方案,严格执行每个流程,但往往是投入大而数据量有限。现在,我们拥有了大数据,就等于拥有了超大量可选择的数据——备选“黏土”的体量与种类都极大地增加了,所要做的最重要的工作就是比较与选择,因此我们的思维应该是如何充分利用大数据,凡是大数据源中能找到的数据就不再需要进行专门的调查。

但是,由于大数据来源与种类的多样性,以及数据增加的快速性,我们在享受数据的丰富性的同时也不得不面临这样一些困境: 存储能力够不够,分析能力够不够(是否及时、充分),如何甄别数据的真伪,如何选择关联物,如何提炼和利用数据,如何确定分析节点? 现在TB级的数据库已经很多,PB 级的数据库也不少见,以后还会出现EB、甚至ZB、YB级的数据库。今天的大数据,明天就不再是大数据。这样一来,