大数据与统计新思维

所谓有效性评价指的是真实性,即误差大小。这里又有两个相关的概念: 准确性与精确性。准确性一般是指一个观察值与真实值的吻合程度,通常情况下是无法做出测度的; 而精确性一般指样本统计量分布的离散程度,以抽样分布的标准差来衡量。很显然,精确性是针对样本数据而言的。也就是说样本数据既有精确性问题又有准确性问题,样本数据中的误差既包括抽样误差也可能包括非抽样误差。抽样误差可以基于抽样分布理论进行计算和控制,而非抽样误差只能通过各种方式加以识别或判断,但多数情况下由于样本量不是太大而可以得到较好的防范。但对于大数据,由于它是全体数据,因而不再有抽样误差问题,只有非抽样误差问题,也就是说大数据的真实性只表现为准确性而非精确性。然而由于大数据是超大量数据,再加上混杂性与多样性,因此其非抽样误差很难防范与控制,这就使得准确性评价问题变得更为困难———如何测度? 标准怎样?

三、积极应对大数据

面对大数据,我们唯有积极应对,别无选择。如何应对,需要考虑以下几个方面:

(一)需要改变总体、个体乃至样本的定义方式

传统的统计分析,是先有总体,再有数据,即必须先确定总体范围和个体单位,再收集个体数据,分析总体。但对大数据来说,情况完全不同了,是先有数据,再有总体。从某种意义上说,大数据的产生系统多数是非总体式的,即无事先定义的目标总体,只有与各个时点相对应的事后总体,原因就在于个体是不确定的,是变化着的,是无法事先编制名录库的,这与传统的总体与个体有很大的不同。更为复杂的是,事后个体的识别也很困难,因为同一个个体可能有多个不同的网络符号或称谓,而不同网络系统的相同符号(称谓)也未必就是同一个个体,而且还经常存在个体异位的情况(即某一个体利用另一个体的符号完成某种行为),因此我们对于大数据往往是只见“数据”的外形而不见“个体”的真容。但对大数据的分析,仍然有一个总体口径问题,依然需要识别个体身份。这就需要我们改变总体与个体的定义方式——尽管它们的内涵没有变。与此对应,如果要从大数据库中提取样本数据,那么样本的定义方式也需要改变。当然,考虑到大数据的流动变化性,任何时点的总体都可以被理解为一个截面样本。

(二)需要改变对不确定性的认识

众所周知,统计学是为了认识和研究事物的不确定性而产生的,因为无论是自然现象还是社会经济现象,都时时处处充满着因个体的差异性而引起的不确定性,因为在大多数情况下我们缺乏足够的信息或缺乏足够的知识去利用有效信息,而人们总是期望通过量化事物的不确定性去发现规律、揭示真相,认识不确定性背后的必然性。要研究不确定性就需要收集数据,在只能进行抽样观测的情况下,这种不确定性就表现为如何获得样本、如何推断总体(包括估计与检验)和如何构建模型等方面。对于大数据,仍然存在着个体的差异性,区别只在于它包括了一定条件下的所有个体,而不是随机获得的一个样本。这样,大数据的不确定性就不再是样本的获取与总体的推断,而是数据的来源、个体的识别、信息的量化、数据的分类、关联物的选择、节点的确定,以及结论的可能性判断等方面。可以说,大数据的不确定性只来自于其来源的多样性与混杂性,以及由于个体的可变性所引起的总体多变性,而不是同类个体之间的差异性——因为我们已经掌握了一定条件下的完全信息。

(三)需要建立新的数据梳理与分类方法

大数据的多样性与混杂性,以及先有数据、后有总体的特点,原有的数据梳理与分类方法将受到诸多的限制。传统的数据梳理与分类是按照预先设定的方案进行的,标志与指标的关系、分类标识与分组规则等都是结构化的,既是对有针对性地收集的数据的加工,也是统计分析的组成部分。但对于大数据,由于新的网络语言、新的信息内容、新的数据表现形式不断出现,使得会产生哪些种类的信息、有哪些可以利用的分类标识、不同标识之间是什么关系、类与类之间的识别度有多大、信息与个体之间的对应关系如何等,都无法事先加以严格设定或控制,往往需要事后进行补充或完善。面对超大量的数据,我们从何下手? 只能从数据本身入手,从观察数据分布特征入手。这就需要采用不同的数据梳理与分类方法。否则,要想寻找到能有效开展数据分析的路径是不可能的。因此根据大数据的特点,创新与发展数据的梳理与分类方法,是有效开展大数据分析的重要前提。这里需要强调的是,能否建立起能自动进行初步的数据梳理与分类的简单模型? 因为从技术上讲,我们已经具备了一定的对大数据进行多次迭代建模的算法。