解读《大数据时代》:为什么不是随机样本

迈尔大叔的这个全体数据是“一个为全美五分之一人口提供服务的无线运营商提供的”“四个月内所有的移动通信记录”。啥意思?说白了,就是一家移动公司四个月的通信记录。令人不解的是,虽然这仅仅是全美1/5人口四个月的通信记录,迈尔大叔却说“这是第一次在全社会层面用接近于“样本=总体”的数据资料进行网络分析。”

“全社会”与“全美1/5人口”,“样本=总体”与“四个月内所有的移动通信记录”,其间如何联系在一起?

还有,如果四个月的数据是全体数据,那三个月或者两个月的数据算不算全体数据呢?

看来貌似简单的全体数据,在迈尔大叔这里也不是那么简单。

全体数据的前世今生

上面案例中涉及的全体数据,实质上就是一家移动运营商数据库中四个月的通信数据。从《大数据时代》中对全体数据的诸多应用可以看到,迈尔大叔所说的全体数据,实际上就是我们通常所说的数据库数据。

“全体”或许只是指包含了数据库中所有的记录。

即使在互联网流行之前,因为有了计算机以及数据库技术,人类已经开始数据的记录和累积。特别是一些特殊的行业如银行、电信等,顾客的购买记录最先被完整地记录下来,从而构成了迈尔大叔所谓的全体数据。

这绝对是小数据时代的故事。也就是说,所谓全体数据并不是大数据时代的产物,全体数据在小数据时代就已经普遍存在了。

对所谓全体数据的分析以及基本的统计分析方法也是小数据时代的普遍现象。

被人们津津乐道的食品超市啤酒搭着尿布一起卖的故事,其数据来源甚至可能都不是所谓全体数据,因为食品超市并没有强求每个消费者都要注册后才能购买。

全体数据并不是我们想象的那样是“所有的数据”,甚至也不是迈尔大叔想象的那样是“所有相关的数据”。全体数据依旧是部分数据,比如说只包含了一家公司的顾客数据。全体数据依旧是取样数据,比如说上面案列中的四个月的取样。

谁说取样必须只是随机取样呢?

全体数据的分析误差

迈尔大叔对随机样本生气的一个主要原因,就是基于随机取样的分析与真实情况有统计误差,不准确。那么,有了全体数据,我们的分析结果就一定没有误差了吗?

假定我们确实有关于北京地区吃麦当劳的全体数据。是的,如果有了所谓的全体数据,关于单个变量的分析结果确实没有统计上的误差,实际上此分析也根本用不到统计学的概念。可是,我们花那么大精力搞一个全体数据,肯定不只是计算一些百分比,或者进行一些简单的单元分析。我们要用这个全体数据来做更多的事,比如说预测哪些顾客下次来会购买巨无霸。分析师会给我们一批顾客名单,告诉我们:这些顾客75%的可能下次购买巨无霸。

75%的可能?也就是说这个顾客还有25%的可能下次不买巨无霸。这就是分析误差。

事实是,除了单个变量的计算(对全体数据来说不是统计分析),全体数据在做任何统计分析时,分析结果都是概率性的,都有统计意义上的误差。

可是《大数据时代》给读者的印象是,只要用了全体数据,你就不用再担心误差了。

全体数据的取样

根据《大数据时代》,用了全体数据,我们就再也不需要取样了。事实果然如此吗?

有意思的是,在上面迈尔大叔给我们提供的全体数据分析的案例里,研究人员只取了数据库里4个月的数据。为什么只是4个月的数据?难道该企业的数据库只有4个月的数据?

当然不是!事实应该是研究人员从企业的数据库里之取样了四个月的数据。那么,为什么即使有了“全体数据”,研究人员还只取了其中四个月的数据?

因为对数据分析来说,绝对不是数据越多越好。即使我们拥有无与伦比的计算速度,过多的数据也会浪费研究人员的时间资源,不必要的数据甚至可能影响分析的结果。何况根据迈尔大叔的介绍,4个月的数据取样已足以得到满意的研究结果了。

看来有了全体数据,也有必要进行数据取样。

更多关于全体数据的取样

就上篇文章中迈尔大叔所举的那个全体数据的例子来说,分析人员只取了数据库中四个月的数据进行分析。为什么?因为分析的任务不是要得到数据库中每个顾客长期的人脉关系,而是通过一定时期内人际关系的分析,了解拥有不同人际关系的个人对整个社区关系网的影响。因此,适当的阶段性数据的取样就十分必要。