从《古惑仔》里看流氓的数据陷阱

正确的数据比大量的数据更有用。这里的正确,不仅仅指结论正确,也包括取样正确、分析方向正确。      在2013年,大数据成为了IT界最火热的词汇,哪个公司如果不说自己会大数据分析,简直没有脸在行业内行走。但是,如果盲目地追求数据量的大,而忽视了数据的对,那么就容易在错误的道路上越走越远。       在各种数据统计教材中,有一个案例被反复提及,那就是当年罗斯福竞选总统时,美国著名期刊《文学文摘》放出了1000万份读者调查表,并做了大量的电话调查,最后得出的结论是共和党的兰登将以57%对43%的绝对优势战胜民主党的罗斯福。而最后的结果却是罗斯福以62%的支持率得以连任,给《文学文摘》一记响亮的耳光。   在这个例子里,是因为样本的数量不够吗?发出1000万份调查,回收240万份数据,同样的数据量放在今日都堪称庞大。核心问题在于样本的选择出现了无意识的偏差,1000万《文学文摘》读者并不能代表全体美国人的特征,乐于参与调查的240万人跟剩下的760万人也没有相似性。    由此可以看出,样本数越大的数据分析,如果出现偏差的话,造成的危害越大。例如如果在10万个被派出所抓获的嫖客中做一个调查,问我国是否应该放开性交易,那么最后可能媒体出来的标题纷纷是《人性啊呼唤解放,99%中国人力争性交易合法化》。       三、从包皮被色诱看数据分析的精准需求      

  在大天二藏起来养伤的时候,东兴乌鸦手下的四眼仔为了找到大天二的行踪,派出了自己那丰满黄毛小太妹去色诱包皮,这一招就叫做精准。因为他如果派出几百人去满大街打听,性价比低又容易打草惊蛇,如果去色诱陈浩南山鸡,他们压根看不上这种胸大无脑的粗俗小太妹。而包皮呢?作为能接触到大天二信息的核心骨干,正是最好的突破点。   这就是在开始做任何数据分析之前,一定要先清楚自己最想要什么,得到想要的结果哪些数据是必需的,不盲目地扩展维度,那样的话只会让分析结果混乱不堪。   不管是对于一个网站还是对于一个应用来说,会有很多种数据指标,先要想清楚自己最关注哪个指标,然后再看跟这一指标强相关的是哪几个数据,最后再得出结论和运营方案。例如对于网站,老板最关注的是UV数据,那么在做方案的时候就要关注到站外流量最大的导入方、SEO关键词、第三方平台的分享量等。如果老板最关注PV数据,那么运营就需要注意用户浏览页面数、用户停留时间、用户的二跳页面等等。       四、我不是教你诈之数据陷阱   在很多人眼中,数据是最公正最客观最铁面无私的,恨不得把数据提升到顶礼膜拜的地步。但数据其实就是工作的一个伙伴,好的数据就是神一样的队友,不好的数据就是猪一样的队友。数据分析本身没有对错之分,只有合适不合适,合理不合理。(在基本的数学运算无误的情况下)       美国佐治亚州曾经在2011年和2012年陆续宣布了对亚特兰大市35位教育工作者的65项指控,这些人中,大部分是校长、年级主任。指控主要集中在考试舞弊。因为亚特兰大市从2005年开始,学生的各项成绩有了阶梯性的进步,最开始所有人都夸奖新上任的教育主管教导有方。       但是后来,州教育部门在做数据统计的时候,突然发现亚特兰大市学生的答卷上,由错改对的比例远远大于其他地方的学生。要知道从概率上来说,一个学生的答题因为其突然打通任督二脉,由错改对还有点儿可能,但是如果一个考场的学生涂改的痕迹全部都是把错误的改成正确的,这概率微乎其微。   就由这一点数据异常着手,从而破获了让整个世界瞠目结舌的亚特兰大考试舞弊案。最令人发指的事情是有一群老师在考试后举办了一个披萨狂欢派对,在派对上大家把学生做错的试题全部改成了正确的。   这才是教育界的业界良心啊!!!   如今的数据越来越多,陷阱也越来越多,有时玩弄下文字游戏就能让业绩看起来高大上起来。我有一个QQ群,群里一共有三位男士,在今年的某一天,其中的一位土豪朋友给他老婆买了一件生日礼物,是一辆保时捷SUV,价值120万。后来,我对老婆说:“在这个群里,每个男人今年平均给自己老婆的生日礼物价值40万人民币,你还有什么不满意的?”那天,家里的平底锅终于派上了用场。       曾经有某个应用的运营同学写过一份周报,“经过一周的运营推广,本应用的下载量提升了100%”。我看了之后对其崇拜之情油然而生,这就是力挽狂澜啊!后来,他酒后对我说:“其实我就是把下载量从之前的25个提升到了50个。”刹那间,我明白了,原来他只是在一个小的QQ群里推广了一下。由此可见,喝酒有害健康。       除了文字游戏,数据背后的产生过程也往往陷阱密布。例如一个高中理科班,里面一共有10个女生,平均罩杯是B,而在高二的时候,里面一个A罩杯的女生转学了,平均罩杯变成了C。那么从数据上,我们是可以得出这样的结论“从B罩杯到C罩杯,高中学习有利于女生身材养成”。       同理可得,矮子出去了,平均身高就提高了,差生出去了,平均成绩就提高了。所以未来在看到任何数据的时候,请不要马上就欢呼雀跃或者垂头丧气,先去想一想,数据合理吗?