现在,就看Netflix真正用大数据算出的下一部自制剧是否会大红大紫了。亦或仅仅是个牵强的附会。
Part 4:失效的法则
谷歌在2008年推出的流感趋势系统监测全美的网络搜索,寻找与流感相关的词语,比如“咳嗽”和“发烧”等。它利用这些搜索来提前9个星期预测可能与流感相关的就医量,这个案例被当成大数据应用的一个经典案例。
但是,没有人关注这个事情的然后,真相是这样的,在过去3年,该系统一直高估与流感相关的就医量,在这类数据最有用的流感季节高峰期尤其预测不准确。在2012/2013流感季节,它预测的就医量是美国疾控中心(CDC)最终记录结果的两倍;在2011/2012流感季节,它高估了逾50%,原因可能是媒体对于流感流行的报道会增加与流感相关的词汇的搜索次数,进而影响Google的预测。
很多案例刚开始看起来很惊艳,但看久了,不仅仅会审美疲劳,美人自己也会迟暮,总要变化的看数据,未来大数据的例子也需要与时俱进。
Part 5:有偏的样本
在1936年美国总统选举前,一份颇有名气的杂志(Literary Digest)的工作人员做了一次民意测验。调查兰顿(A.Landon)(当时任堪萨斯州州长)和罗斯福(F.D.Roosevelt)(当时总统)中谁将当选下一届总统,为了了解公众意向,调查者通过电话簿和车辆登记簿上的名单给一大批人发了调查表(注意在1936年电话和汽车只有少数富人拥有)。通过分析收回的调查表,显示兰顿非常受欢迎,于是此杂志预测兰顿将在选举中获胜。实际选举结果正好相反,最后罗斯福选举获胜。
为什么会产生这种预测失误呢?原因在于《文摘》所选的样本限定在了拥有电话薄和车辆登记簿的一群人身上,但是在那个年代,有能力购买电话和订阅杂志的人并不能真正代表选民.至少在经济上,他们是极特殊的,是有偏差的,你们是要负责任的。又比如今年春节爆料的男人比女人更孝顺的言语,都是有偏样本的典型。
几年前,一个叫做可尼斯博士(Dr.Cornish)的牙粉上市了,并宣传“在治疗臼齿方面获得了极大的成功”,因为该牙粉中含有尿素,而经过实验室的证明,尿素对于治疗臼齿有极大功效。然而,值得一提的是,实验室的结论完全先入为主而且仅仅建立在6个案例之上,没有披露的数据其实很可能是经过人为操纵的数据,当数据的样本量越小最终的结果就越多变,然后在众多的结果中选择有利于自己的一种,就可以诱导公众进行我们所期待的行动。
统计抽样,总要随机化和足够的数量,这是基本的原则,任何发布数据的单位,总要披露统计的方式,我们有权利知道,否则,就值得怀疑。
Part 6:欺人的算法
最有欺骗性的的例子莫过于统计学中著名的辛普森悖论,看看来自斯坦福讲义里的一个简单例子(http://plato.stanford.edu/entries/paradox-simpson/#Causation)。某大学历史系和地理系招生,共有13男13女报名。
Men Women
History 1/5 < 2/8
Geography 6/8 < 4/5
University 7/13 > 6/13
历史系5男报名录取1男,8女报名录取2女。地理系8男报名录取6男,5女报名录取4女。分析数据,会发现以下问题:
(1) 整个学校统计,男生录取率(7/13)高于女生录取率(6/13)
(2) 但是,按系统计,每个系的女生的录取率却都高于男生录取率。历史系女生的录取率(2/8)大于男生录取率(1/5)。地理系女生录取率(4/5)也高于男生录取率(6/8)。
你有没看出来问题?
英国政府 2015 年开始同意让父亲和母亲共休产假。但一年后的统计数据却显示,只有 1% 的父亲选择了休假。BBC、《卫报》等各大媒体报道之后引发强烈社会反响。真的是这样吗?原来,这个 “1%” 的分母不是“有资格休假的父亲”,而是“所有男性”。有人指出,如果这么算,即使当年所有新生父亲都选择休假,调查得到的数字也只不过是 5%。
很多时候,让一个数据变大变小很简单,分母上口径上动点手脚,什么目标都实现了。数字不会说谎,但说谎的人会想出办法。
Part 7:画图的伎俩
在显示趋势时,直线图形非常有用。而对于趋势,人们总是津津乐道于发现它、分析它,甚至预测它。下面,我们将用图形来显示国民收入怎样在一年内实现了10%的增长。