大数据与熵:临界分析

34

引言:

大数据的概念一经提出,立即获得业界追捧,一时间各个高科技论坛言必称大数据。迈克—舍恩伯格在其《大数据时代》[Big Data: A Revolution That Will Transform

How We Live, Work and Think]一书中提出的三个重大思维转变更是被追随者奉为圭臬,即:“首先,要分析与某事物相关的所有数据,而不是依靠分析少量的数据样本。其次,我们乐于接受数据的纷繁复杂,而不再追求精确性。最后,我们的思想发生了转变,不再探求难以捉摸的因果关系,转而关注事物的相关关系。”

大数据的践行者们不仅在思维上进行了转变,在数据处理上同样采取“大数据”的方法:分析全体而不是样本,不追求精确性,“知其然,不知其所以然”(注:第三句是笔者归纳,原文意思是只要知道“是什么”,不必知道“为什么”,或只问相关性,不问因果关系)。同时宣布传统的抽样方法已经过时,不能适应当今互联网信息社会的要求。

上述断言过于武断。如果断言的目的是为了强调面对信息爆炸,人们必须不断地寻找新的方法,包括“大数据方法”,来分析和处理数据,那么如何夸大和渲染,都是可以理解并接受的;但是,如果断言的目的是为了劝导人们放弃传统的抽样理论,转而皈依“大数据思维”,这就值得商榷。

纵观科技史,人们对物体运动规律的研究,牛顿定律曾被认为绝对正确。但随着科学家们对微观粒子世界,高速运动(近似光速)物体的研究,牛顿定律不再适用,而代之以量子力学和相对论。但这并不意味着牛顿定律的死亡,在人们生活所及的物理社会里,仍然是牛顿定律起主导作用。

信息社会也是如此,信息的不断膨胀、变化、繁杂使得传统抽样统计方法显得力不从心,于是所谓的“大数据思维”出现了。但“大数据”究竟是要取代传统方法,还只是传统方法的补充,有待于进一步的观察。

质疑:

对于“大数据思维”的三个转变,可以提出三点质疑:首先,如果通过分析少量的样本数据就可以得到事物的准确性质,是否还有必要花费成本去搜集全体数据?其次,如果能够得到准确数据,还有必要刻意追求不准确吗?最后,如果能够了解到因果关系,会视而不见,只去分析相关吗?

合理的解释是:首先,如果通过分析少量的样本数据无法得到事物的性质,人们不得不花费更多成本去搜集全体数据来分析。其次,如果得不到准确数据,人们不得不接受不那么准确的、差强人意的数据来进行分析。最后,如果不能够了解到因果关系,人们会退而求其次,以分析相关关系来了解事物。

基于上述解释,大数据方法不应该是刻意为之,而应该是不得已而为之。换言之,大数据方法仅在传统的抽样统计方法不起作用的时候有其用武之地。这就像只有当物体的运动速度接近于光速时我们才用相对论取代牛顿定律。

当然,不可否认,在飞速发展的网络空间里,人们的研究对象,即数据,变得越来越庞大,越来越繁杂模糊,越来越非结构化,这一大趋势使人们乐于接受大数据思维。举个不太恰当的例子,当人们不能解释许多自然现象时,更容易接受某种宗教的解释。

在信息爆炸的今天,传统的抽样统计方法不仅不应该被抛弃,而应该通过一系列改进得到加强,成为高效、实时反映事物状态的主要手段之一。同时,我们欢迎并乐意采用新的方法,比如如日中天的“大数据方法”以及可能的“模糊数据方法”等等。

至此,一个关键问题出现了:面对一个具体事物,如何确定应该用传统方法还是大数据方法?当物理学家研究微观粒子之间的作用力时,会采用量子力学;研究一个桥梁受力时,会采用牛顿力学。信息或数据专家们有这样的理论或判别标准吗?本文下一小节将对此展开讨论。

分析:

首先,考察一般意义上的选取样本大小的规则。

定理:设X1,X2…Xn为独立同分布随机变量,分布为p(x), x∈(x1,x2..xn),则一般抽样样本大小S为:

S = λ*2 ^H(X) …………………………(1)