大数据与熵:临界分析

其中:λ是常数,H(X)= -∑p(xi)*log

p(xi),即随机变量X的熵。

例1:了解总体为N个人对某事物的看法,是或否两个选择,其熵约为1,(假设两种回答人数基本相当),则在一定的置信度、置信区间的要求下(本文不做精确的抽样理论推导,仅举例定性说明,以下同),S随着N的增加(比如到10万)逐步趋向为一个常数;400,此时λ=200。 可以证明,当其它条件不变,随着熵增加,S指数增加,λ保持不变。

换一个方式解释λ。

定义1:λ是在一次抽样中,“典型状态”出现的期望值。

定义2:典型状态指该状态出现概率等于或近似等于相同熵值平均分布下各状态出现概率的那个状态。

举例来说,X服从一个8状态平均分布,其熵为3比特,其每个状态都是“典型状态”,其出现概率都是1/8。

如果X服从一个12个状态的分布,其状态分布概率为

p(x1,x2,x3,x4,x5…x12)=(1/3,1/5,1/6,1/7,1/8,1/15…1/50),H(X) ~=3 比特。其典型状态是 x5, 出现概率为1/8.

基于上述规定,如果λ取1,H(X)=3,则样本大小S =8,在一次抽样中,典型状态(出现概率1/8)出现次数的期望值为1,等于λ。但状态出现是依概率的,尽管期望值为1,但观察值也可能为0,2,3…,这样的估计误差过大。

如果λ取100,H(X)=3,则样本大小S =800,在一次抽样中,典型状态出现的期望值为100,等于λ。其实际观察值在极大概率下落在95-105之间,如果误差可接受,取λ=100,否则,加大λ。

另外一个影响λ的因素是分层。将例1中的总体N分为高收入(20%),中等收入(50%),低收入(30%)3类人来调查对某事物看法。如果采用纯随机抽样,要保证每层的分布得到准确的估计结果,就要使得最少个体的层能够抽到足够数量,因此λ要乘5(20%的倒数)。但事实上,人们更关心总体结果,兼顾分层的结果,因此,为了节约成本,实际的λ修正系数会小一些,比如取3,这时,样本大小约为1200 。这时,不管总体是10万人还是3亿人,对1200人的样本进行的调查结果可以在3%的误差范围内反映出实际情况。

通过以上分析可以看出,λ是一个100-1000之间的常数,具体数值取决于调查方希望在一次抽样中得到多少个典型状态(或分层的)的个体(期望值),并满足误差要求。在确定了λ之后,样本的大小就只和系统熵相关,呈指数增长关系,即公式(1)。

采用传统抽样方法时,研究对象的随机状态和变化有限,或通过人为的分类使之变得有限,导致熵值很小,因此,使用较小的样本就可以准确地估计总体。加之那时的取样成本很高,调查方要花费很大精力设计抽样方案,在不失精度的前提下,使得样本规模尽量缩小。

互联网时代的状况恰恰相反,研究对象是互联网的行为,获取数据非常容易,因为数据已经产生,不管你用不用它,它就在那里。而互联网上许多研究对象的状态无限多,也很难统计归类(比如“长尾现象”),系统熵值很大,导致样本规模巨大或根本无法确定规模。此时,采用总体分析,即大数据方法就具有优势。当然,即使总体数据已经存在,对其整理和运算也相当消耗资源。一些情况下,采用抽样的方法仍然是最佳的选择。

现在,让我们尝试回答上节最后提出的问题:面对一个具体问题如何选取分析方法?

首先,考察研究对象所需的数据是否已经在应用中自动被收集,比如,用户的线上购物行为。如果不是,比如线下购物,需要研究者设计方法去收集数据,此时,应该采用传统抽样方法。

其次,面对互联网已经(或可以实时在线)获得的海量数据,当研究对象熵值小于5,建议仍采用传统抽样方式,可以得到更高效率;当熵值介于5-15之间,总体分析或抽样分析都可以考虑,视具体情况;熵值大于15,建议采用总体分析,即大数据方法。

上述建议仍然很抽象。在下一小节中,我们借用长尾理论的描述方法,将统计研究对象分为4种类型,分别讨论适用的方法。

分类:

第一类:“无尾模型”。