试想一下,如果研究人员采用了数据库中所有的数据,则可能将更多的人际关系发展的变化也包括进来,这反倒可能影响研究的结果。所以说,全体数据不加区别的应用并不一定是最佳的选择。
再举一个对全体数据进行取样分析的例子。早年我曾经做过一个搜索引擎算法分析的应用,原理就是根据随机取样的关键词,到各大搜索引擎(美国的)上去爬取搜索结果的网页,分析各种SEO技术对各搜索引擎网页排名的影响。时间长了,我所爬取的网页数据库也就成了迈尔大叔所谓的全体数据。我是不是应该每次分析时都使用所有的数据呢?当然不是。因为搜索引擎在不断改变其搜索排名的算法,如果我将已经过时的排名网页信息包括在我的搜索引擎排名关键因素的分析中,那就会适得其反导致分析结果的不准确。
迈尔大叔数次提起的有关飞机票价预测的数据分析,也存在着同样的情况。航空公司可能会改变其机票价格的决定机制。如果在票价预测分析中包含了已经过时的票价决定机制的信息,那分析的结果就会受到干扰而增加误差。
数据并非绝对越多越好。即使是全体数据,也要根据分析任务进行必要的取样。原因可能是多种,适当的取样是优化分析过程和分析结果的一种选择。而且,取样也不只限于随机取样。
全体数据的陷阱
第一个陷阱就是所谓全体数据,在绝大多数情况下并不是“全体”。我们来看看那些绝对重量级的互联网企业,它们最可能拥有所谓全体数据,比如说谷歌、百度、FACEBOOK、淘宝天猫,哪个公司的数据库能够被称为“全体”呢?
一个企业有了数据库,往往更愿意局限于自己的数据库来进行各种分析。有句老话叫做“种瓜得瓜种豆得豆”。这个全体数据分析的陷阱就是:如果你种的是瓜,你就分析不出豆来。
例如某新闻网站经常用很黄很暴力的新闻吸引网友下载它的新闻app。久而久之,其app的用户就可能是“黄衫军”了。如果这时你想通过这个“全体数据”的分析了解怎样在他们中间推销红汗衫,肯定是不妥的。
再举一个简单的例子。比如说你通过对全体数据的分析,得出某款商品是你顾客最喜欢的。但实际情况果真如此吗?或许顾客喜欢的商品根本就不在你的全体数据里,所以你再怎么分析也根本得不到你的顾客最喜欢什么样的商品。
外面的世界很精彩。你经常需要跳出全体数据,来体验外面世界的精彩。
全体数据与随机样本
随机样本与所谓的全体数据应该属于两个不同范畴的概念,两者并非杨白劳Vs黄世仁,阶级斗争不可调和。更重要的是,无论是随机样本,还是所谓的全体数据分析,都不应该是一个时代的代表。
事实是,即使拥有全体数据,随机取样的问卷调查分析也是需要的,甚至是必须的。
因为全体数据几乎都不是什么真正的“全体”数据,不可能包含所有我们想了解的信息,所以经常需要在全体数据的基础上获得更多的信息。其中一种来源是与其他“全体数据”对接,比如说在美国可以根据个人社会保险号对接个人信用信息;另一种方法就是在“全体数据”中随机(或用其他方法)选取部分样本,然后对这些顾客进行问卷调查,以补充数据库中缺失的信息,然后通过对接将问卷调查的信息融入到全体数据的分析中。
这样的分析迈尔大叔应该没有听说过,否则他就不会将随机样本与全体数据这样绝对地对立起来。但这样的分析却在小数据时代就被普遍应用了。
文章最后对随机样本和所谓全体数据做个总结:
1)迈尔大叔所谓的全体数据,在绝大多数情况下只是指企业的数据库数据;
2)对绝大多数问题,所谓的全体数据可能都不存在;
3)随机样本与所谓全体数据并不是你死我活的绝对对立,而是可以和平共处,甚至是相互补充;
4)绝大多数所谓对全体数据的分析方法,早在小数据时代就已经普遍存在;
5)随机样本分析在大数据时代也还会继续展示其存在价值;
6)即使是所谓的全体数据,往往也有必要通过取样进行更有效的分析;
7)注意全体数据的陷阱。分析所谓全体数据时,应该想到外面世界可能更精彩。