大数据与熵:临界分析

此时,研究对象的状态明确且数量有限,出现概率最小的状态仍然具有统计意义。如民主投票,状态有赞成、反对、弃权3个状态,或是有限个被选举人的支持率;再如收视率调查,状态有几十或几百个电视台。统计结果的描述方法通常是分布直方图,即将状态出现的频次从高向低顺序以柱状图的方式表示出来。连接直方图的各个顶点,就得到总体的概率分布曲线。按照相同顺序排列频次累计数并将顶点相连,就得到所谓“帕累托曲线”。两个曲线表现为凹函数,或二阶导数恒为负值(借用连续的分析,实际上是离散的),在曲线尾部没有出现变化。随着状态数的增多,“二八现象”会显著,即少数状态(比如20%)占到了多数频次(比如80%)。

第二类:“翘尾模型”。此时,研究对象的状态较明确且数量较多,出现概率很小的状态相对失去统计意义,在统计上把这些状态统一归类为“其它”状态。绝大多数情况下,由于其它状态是由许多状态构成的,其出现概率的和高于排列在前的某些较小概率状态的概率,因此,总体概率分布曲线及帕累托曲线在尾部会出现上翘,即所谓“翘尾模型”。为了保证统计效果,其它状态总的概率一般不超过5%。这时,二八现象极为显著,便于“ABC分析”和重点管理,因此翘尾模型在企业管理上应用极为广泛。如质量管理(缺陷分析),库存管理(零配件库、商店、卖场,特别是实体书店,可与后面网络书店的长尾现象比较)等。

以上两种模型运用传统的抽样方法均可以取得良好的统计结果。随着对象状态数量增加,并不存在明显界限。以收视率调查为例:选择3万个调查样本户进行收视调查,当有二、三十个电视台台时,收视率最低的电视台也能得到显著的观察值,可以认为是无尾模型。当电视台数量超过100,许多收视率达不到0.3%的电视台在一次抽样中就无法达到可以保证相对精度的观测值,此时,既可以扩大样本范围来满足精度要求,也可以将小于0.3%的状态合并为“其它”,采用“翘尾模型”。

随着三网融合的进展,绝大多数电视机将具有双向功能,总体数据变得唾手可得,此时,抽样方法仍然有效,它可以用来做实时的、频繁的统计,而采用总体的大数据方法可以定时进行校正,毕竟处理几万个样本比处理几亿条总体数据要迅速、便宜得多。

第三类:“长尾模型”。此时,研究对象的状态不够明确且数量很多,出现概率很小、相对失去统计意义的状态众多。但是,这些小概率状态的全部或部分和占到总体状态的30%-40%,甚至更多。反映在概率分布或帕累托图上就形成一个长长的尾巴(渐进于X轴或Y=1的直线)。如果采用翘尾模型,用抽样的办法,会使总体的30%-40%,甚至更多的状态无法描述。从而必须采用全体数据即大数据的方法。

举例来说:一个实体书店的货架上有1000种书籍,经过统计,老板会发现,卖得好的前200种书占到其销售额的80%以上,而卖得不好的后500种书的占比甚至不到5%,统计上可以并为一类。这就是所谓“二八现象”,老板采用抽样统计的方法可以掌握占销售额95%的书籍的分布情况。而一个网络书店的数据库中可能列有20万种书籍,其中热卖的200种占销售额的20%,前2000种共占到40%。而余下的19.8万种书籍构成其余60%的销售额,但每种份额是如此之小,以至于无论如何扩大样本,都不易被显著地观察到。在这种情况下只能采用大数据方法,否则,60%的销售额都不知道从哪里产生的统计还有什么作用。

第四类:“全尾模型”。此时,研究对象的状态很不明确、甚至未知,而数量极多甚至无限,正常情况下,无论如何选择样本都无法在统计意义上显著地得到各个状态的观察值,一旦可以观察到,说明出现异常。其分布曲线是无限接近且平行于X轴的直线。所以我们也可以称之为“平尾”。

典型的例子如关键词搜索,事先无法确定状态,即系统事先不知道用户要搜索什么,且搜索的内容可能无限多,因此无法事先设计抽样模型。采用分析全体的大数据方法,可以在出现异常时即使发现并加以分析。比如,某种疾病或药物的名词在某一地区的搜索量大增,就可以预测这一地区可能流行某种疾病。事实上,谷歌的大数据分析在这方面已经比传统的流行病预测机制和机构做得更好、更有效率。