再举个例子,美国与西班牙战争爆发后,不少美国人不愿意参军,坦诚因为怕死,针对这种情况,美国军方做了一份统计报告来奉劝大家参军:“据可靠数据统计,美国海军的死亡率是0.9%,而同时期纽约市民的死亡率是1.6%”,潜台词是如果惧怕死亡更应该参军,因为军营比纽约的家中还安全,你能找到这个悖论的原因吗?
再看看“外地人都挺有本事的,看看来这里的个个都很有能耐”,“别人家的孩子都考上了重点中学”,“省级医院的这个科室的病人死亡率甚至比小县城的还高”这些言语,你真得觉得不合理吗?
统计学是一门严谨的逻辑学问,锻炼自己的思考能力总能帮你更容易认识本质。
Part 11:个体的悲哀
有一个数学教授平生最怕坐飞机,他研究了近20年的统计数据,发现恐怖分子带炸弹上飞机的几率其实非常低,但是他还不安心,他又进一步研究数据发现,两个人同时带炸弹上飞机的几率几乎为零,于是从此他坐飞机都自己携带一枚炸弹。
有时候我们会拿着一些统计数据来预测一些事情,比如你很想知道自己的孩子将来会长多高,你找到统计局得到孩子每个年龄段的平均身高数据,你为自己的孩子当前未达标的身高苦恼不已,但你要知道,统计数据针对的是群体,对于个体它失去了效用,如果要预测个体,看看你自己长多高比统计数据靠谱的多。
有时候,我们混淆了统计和个体的差别,被平均是太正常的事情,因此,大多数时候,股市涨,专家看涨,你还总是亏钱,这是太正常的事情,你自己却无法理解。
11种数据说谎的艺术,总是时不时的出现在我们的周围,无论你多么小心,总会时不时的被欺负一下,用以下颇有讽刺意味的科学家故事结束。
“阿基米德的浴缸、牛顿的苹果、瓦特的茶壶、爱因斯坦的小板凳......科学史上流传着太多我们耳熟能详的故事,它们带着强烈的传奇色彩,在孩提时代曾那样打动我们的心灵,唤起对于天才的崇敬和对于科学的无限向往,然而时至今日,我们再度回头审视这些传说,却发现许多时候,它们的象征意义过于浓厚,从而不可避免掩盖了历史的本来面目,令人吃惊的是,大家从小所熟悉的那些科学家故事,若是仔细推敲起来,几乎没有多少是站得住脚的,传奇最终变成了神话,而我们也终究长大”。
大数据,一门揭露真相的艺术,不要重蹈覆辙吧。
作者简介:傅一平,博士,毕业于浙江大学,从事电信行业工作,专注于大数据采集、处理、建模、管理、变现及产业等研究。