在《大数据时代》一书中,迈尔-舍恩伯格给出了著名的关于大数据时代的三大特征:1)不是随机样本,而是全体数据;2)不是精准性,而是混杂性;3)不是因果关系,而是相关关系。本文解读一把为什么“不是随机样本,而是全体数据”。
为什么是随机样本?
首先什么是随机样本。如果你碰巧哪天在街头被人拦住做问卷调查,或者接到电话问卷调查,恭喜你,你成为某项统计分析的随机样本。
很显然,迈尔大叔所例举的美国人口普查以及有关细分领域分析预测不准确的例子,谈到的随机样本应该就是指问卷调查。或许随机样本是迈尔大叔在书中唯一展示其有关统计学知识的部分。
那么,为什么要用随机样本呢?原因有下:一是全体数据获取不可能或者成本太高。比如说你想知道北京有多少人吃过麦当劳,你不可能每个人都问一遍;二是有资源限制。如果你要在3天内给出答案,即使不计成本你也做不到去问每个人;三是没有必要。因为我们可能只是需要知道吃过麦当劳的人数在北京总人口中的百分比,而且允许一定的误差,所以只要随机取样,通过统计分析就能够得到比较满意的答案。
根据统计学原理,如果我们随机取样1000人进行问卷调查,如果结果是某种百分比,那么得到的结果在置信度90%时的误差应该在3%左右。
显然,在数据需要通过问卷调查的形式获取时,随机样本就成为我们的首选甚至是唯一的选择。
所以随机样本在小数据时代很流行。
为什么不是随机样本?
迈尔大叔对随机样本不高兴,原因有三:1)实现采样的随机性非常困难;2)当人们想了解更深层次的细分领域的情况时,随机采样的方法就不可取了;3)人们只能从采样数据中得出事先设计好的问题的结果。
白话一把迈尔大叔的内容。1)样本难以真正随机是因为你无法根据全体数据的分布去取样。比如说你电话调查,有电话的人口就已经不是随机的样本空间;2)如果你要进一步知道海淀区30岁以下女性吃过麦当劳的人口比例,结果误差就会超过预期;3)问卷以外的内容你是无知的。比如说你突然想要知道吃过麦当劳的人中有多少同时吃过肯德基但你却没有在调查中问这个问题,那你就甭想得到答案。
全体数据在哪儿?
我们已经处在大数据时代,如果你要了解北京有多少人吃过麦当劳,你会怎么做?
显然,麦当劳童鞋并没有为我们准备好必要的所谓全体数据。或许麦当劳能够告诉我们N多年来他们在北京地区卖出了多少个巨无霸,或许麦当劳会进一步告诉我们N多年来北京地区有多少人次光顾过麦当劳。可是,麦当劳却没有数据告诉我们现而今北京人有多少人吃过麦当劳。
看来现实世界比迈尔大叔想象的要复杂得多。告别随机样本,我们需要全体数据。可是,我们所需的北京地区吃麦当劳的全体数据存在吗?
未来这个全体数据会存在吗?也许,除非麦当劳必须先注册再购买。你认为麦当劳何时会实现先注册再购买呢?这样做真的有必要吗?
即使如此,你仍旧面临如何解决例如“究竟谁吃了全家桶”的问题。
全体数据是个抽象的概念。但涉及到具体问题,所需的全体数据很有可能并不存在,即使是在大数据时代。
要知道北京多少人吃过麦当劳,可能还是需要进行随机样本分析,哪怕是在大数据时代的今天。
看来即使是在大数据时代,我们还是无法告别随机样本分析。
何为全体数据?
在《大数据时代》一书中,全体数据是与随机样本相对立的概念。迈尔大叔这样描述道:“首先,要分析与某事相关的所有数据,而不是依靠分析少量的数据样本。”因而,全体数据明白无误地就是“所有的相关数据”。
如果我们想要知道“北京地区有多少人吃过麦当劳”,这个全体数据就应该是北京地区所有人吃麦当劳的情况。很遗憾,我们知道这个全体数据是不存在的。
看看《大数据时代》书中全体数据的一个案例:艾伯特-拉斯洛·巴拉巴西和他的同事想研究人与人之间的互动。于是他们调查了四个月内所有的移动通信记录——当然是匿名的,这些记录是一个为全美五分之一人口提供服务的无线运营商提供的。这是第一次在全社会层面用接近于“样本=总体”的数据资料进行网络分析。通过观察数百万人的所有通信记录,我们可以产生也许通过任何其他方式都无法产生的新观点。