大数据时代,数据被称为新时期的石油,但与石油又不同,其价值的体现很大程度依赖于人的解释,虽然数据本身不会说谎,但这给数据说谎提供了操作空间,具备数据甄别能力对于你更真实的去理解数据大有好处。
对于大数据这么一个快速发展的新生事物,没有谁可以说是真正的权威,具备批判精神有利于理论和应用的百花齐放。
但你要戳穿它是不容易的,不如跟着笔者走一遭,看看你信了多少回?
Part 1:编造的谎言
这是一个关于零售帝国沃尔玛的故事。 在一次例行的数据分析之后, 研究人员突然发现: 跟尿布一起搭配购买最多的商品,竟是啤酒!尿布和啤酒,听起来风马牛不相及,但这是对历史数据进行挖掘的结果,反映的是数据层面的规律。这种关系令人费解,但经过跟踪调查,研究人员发现,一些年轻的爸爸常到超市去购买婴儿尿布,有30%~40%的新爸爸,会顺便买点啤酒犒劳自己。随后,沃尔玛对啤酒和尿布进行了捆绑销售,不出意料,销售量双双增加。这个故事虽经典,但是让你意想不到的是:案例是编造的,这个经典的“啤酒和尿布” (Beer and Diapers)的案例,不仅是《大数据》类图书的常客,事实上,它更是无数次流连于“数据挖掘”之类的书籍中,特别是用来解释“关联规则(Association Rule)”的概念,更是“居家旅行,必备之良药(周星驰语)”。实际上,它是Teradata公司一位经理编出来的“故事”,目的是让数据分析看起来更有力,更有趣,而在历史上从没有发生过。
数据挖掘史上有很多著名的经典案例,但遗憾的是,历史有时候赋予太多的光圈和晕轮,但还原历史的真相,是每一个人的责任,不论那真相是什么,但这个并不影响数据挖掘带来的成就,历史车轮的推动,真相和谎言总是伴随。
Part 2:困惑的专家
“专家”曾经是一个让人竖然起敬的头衔,然而现在是一个专家充斥的年代,你打开电视,草草扫过几个频道,就能遇到形形式式的专家,大到国际民生、经济形势,小到股票涨落、养生保健的各个领域生产着形形式式的意见,各种时事评论类的新闻上,经常会引用专家的言论,“据专家预测……”,这些专家看起来对于预测很自信,但他们真得能够有效预测吗?伯克利大学的心理学家TetLock曾经做过一个长期跟踪研究。他选择了284位专家,让这些专家预测是否将要发生某些政治或经济事件,例如,南非会不会以非暴力方式结束种族隔离?,在约20年中,TetLock收集了这些专家的82361个预测,这些问题大多以三选一的方式出现,然而,专家预测和事态实际发展的对比结果出人预料,哪怕让三岁婴儿在红黄蓝三个球中随机挑一个都比这些专家的预测更好。当然,专家自己并不承认他们的预测能力不佳,当预测正确时,他们将之归功于自己的洞察和专业能力,如果错误,要么怪形式超出常规,要么消失或根本不承认自己错了。
很多看似专家主导的专业领域,专家表现也差强人意,Olivier等人曾经对金融分析师在1987至2004年的预测进行研究,在20年中,分析师对于每股盈利这个重要经济指标预测能力很差,甚至不如简单的把上一年每股盈利作为下一年预测效果好。从这个角度看,这些分析师什么也没做。
虽然这些例子有点久远,但法则并未失效,当你碰到满口数据分析预测的专家时,请以批判的精神去看这些专家和数据,在大量的领域,专家已经被用烂了,无法证伪的任何事实都值得怀疑。
Part 3:牵强的附会
谈影视大数据,怎么都绕不开《纸牌屋》。“Netflix通过分析3000万北美用户观看视频的行为数据,发现凯文·史派西、大卫·芬奇和‘英剧《纸牌屋》’’3个关键词的受众存在交集,由此预测将三种元素结合在一起的片子将会大火特火。”这段模凌两可的描述真的太诱人了,简直像要发起一场影视革命!但回到原点,美剧《纸牌屋》成功的原因,真的就是“1+1+1”这么简单吗?数据倘若真的这么NB,那为什么Netflix的第一部自制剧《莉莉海默》和《纸牌屋》之后的自制剧《铁杉树丛》并没有复制辉煌呢?这不禁令人生疑:如果大数据应用如此可行,Netflix为何情有独钟《纸牌屋》。
真相被淹没在有关《纸牌屋》和大数据关系的海量报道中。早在去年7月,美剧《纸牌屋》改编方、美国独立制片公司MRC的联合CEO莫迪·维克茨克(Modi Wiczyk)就公开表示,此剧的诞生源自公司一名实习生的推荐。你没看错,是至今姓甚名谁都不知道的实习生,和大数据没有半毛钱关系。事实上,《纸牌屋》的诞生,决定性因素不是“大数据”,而是影视圈里永恒的关键词——“资金”和“人脉”,这其中,数据最多只是一个指南针,甚至只是一个手电筒。可以说,《纸牌屋》的成功宣传了大数据,而不是大数据造就了《纸牌屋》,大数据只是Netflix在宣传《纸牌屋》的过程中使用的噱头。