写给记者的坏数据处理指南

样本有偏差

就像非随机样本那样,有偏差的样本来自对抽样执行过程的缺乏关注,或者故意扭曲它。一个样本的偏差可能因为它在互联网上实施,而较穷的人们比起富人来较少使用网络。调查结果必须仔细加权以确保它们按比例覆盖了任何可能扭曲结果的人口细分群体。这几乎不可能做到完美,所以往往是错误的。

数据已经被手工编辑

手工编辑和人工录入数据几乎是相同的,除了发生在事实之后,以及往往是善意的。事实上,数据经常被手工编辑以试图修复人工录入的错误。如果编辑的人不具有关于原始数据的完整知识,问题就会悄然出现。我曾看到有人自发把数据集中的姓名由Smit“改正”成Smith。那个人真的叫Smith吗?我不知道,但我知道这个值现在是一个问题了。没有修改记录,很难验证它应该是什么。

手工编辑的问题也是为什么总是需要确保数据出处有据可查的原因之一。缺乏出处说明可能有人从中搞了什么。学者往往从政府获取数据,修改它,然后重新分发给记者。没有更改记录就不能了解他们的改动是否出于正当理由。如果可以,总是试图得到数据的最初来源,或者至少你能拿到的最早版本,在其上进行你自己的分析。

通货膨胀扭曲数据

货币通货膨胀意味着钱随时间改变价值。没有办法只通过看得知数字是否经过“通胀调整”。如果你得到数据而不确定是否已经调整,检查你的数据来源。如果还没有,你可能要进行调整。这个通货膨胀调节器可能是一个很好的开始。

自然/季节变动扭曲数据

许多类型的数据会由于某些潜在作用自然波动。这方面最著名的例子是季节性的就业波动。经济学家已经开发了各种方法抵消这种变化。这些方法的细节并不是特别重要,重要的是你要知道使用的数据是否已经进行过“季节性调整”。如果没有,而你又希望比较不同月份的就业情况,你可能会想要从来源得到调整后的数据。(自己调整它比通胀更难。)

人为操纵的时间范围

数据源可以通过提供在某个特定时间停止或开始的数据有意无意地扭曲世界。一个强有力的例子可见2015年广泛报道的“全国犯罪浪潮”。并没有犯罪浪潮,有的只是在特定城市中仅与过去几年对比出现的一些峰值。只要记者检查更宽的时间范围就会看到,事实上10年前美国各处的暴力犯罪更多,而20年前几乎是翻倍的.

如果你的数据涵盖时间范围有限,尽量避免从最开始的时间段开始计算。如果数据只有几年(或者几个月,或者几天),确保没有做出增加一个额外数据点就会失效的对比。

人为操纵的参考范围

为了政治目的,犯罪统计数字经常通过与犯罪率高的年份对比人为操纵。这可以表示为变化(自2004年以来下降了60%)或者指数(40,其中2004年 = 100)。在上述的两种情况中,2004年可能是也可能不是一个适当的对比年份。该年可能有异常高的犯罪率。

这也发生在地区间的对比上。如果我想要一个国家看起来很糟糕,只要表现有关它的数据和在相关方面做的最好的国家数据。

这个问题往往出现在人们有强烈确认偏误的主题中。(“就像我认为的,犯罪率正在上升!”)只要有可能,尝试从几个不同的起始点对比,看看数字如何变化。以及无论做什么,不要自己用这种方法得出你认为很重要的观点,这是不可原谅的。

第三方专业人士应该帮助你解决的问题

作者不值得信任

有时候你唯一能得到的数据来自一个不可信赖的数据源。在某些情况下这可以接受。唯一知道枪支制造数量的人只能是制造者自己。不过,如果你的数据来自一个有问题的制作者,那么每次都找另一位专业人士检查它,更好的是检查两到三次。不要发布来自一个有偏向的来源的数据,除非有大量确实的证据。

收集过程不透明

错误假设、误差或彻底的虚假很容易出现在数据收集过程中。为此,使用的方法保持透明非常重要。你很少确切了解一个数据集如何数据,但是包含不切实际的精度或太完美的数字可能会暗示存在问题。

有时来源故事可能只是令人怀疑:这样那样的学者真的采访了来自芝加哥南边的50名活跃团伙成员吗?如果数据收集方式看起来似乎有问题,而你的数据来源不能提供确实的出处,那么你应该与另一位专业人士验证该数据是否按照说明的方法合理收集。