写给记者的坏数据处理指南

不切实际的数据精度

在自然科学以外,很少有常规测量可以得到超过两位小数的精度。如果一个摆在你桌子上的数据集声称显示一家工厂7位小数点的排放量,那么几乎可以肯定它是从其他值估计的。这本来可能不是问题,但估计的透明度很重要,他们往往是错误的。

存在令人费解的离群值

我最近创建了一个数据集,有关互联网上消息传递到不同目的地花费的时长。所有的时间都在0.05-0.8秒之间,只有三个例外。这三个都超过了5000秒。这是数据生产过程中出现差错的重要标志。在这个例子中,我编写代码的错误导致了所有其他消息被发送和接收时持续计数的一些失败。

像这样的离群值会大大搞砸你的统计——尤其当使用平均值时。(你可能应该使用中位数。)每当得到一个新的数据集时,最好看看最大值和最小值,确保它们在合理范围内。如果数据能自我解释,你也可能想要做一些统计上更严格的分析,使用标准差或中位数偏差。

从这里还可以得到一个额外好处,离群值往往是一个找到故事线索很棒的方式。如果互联网上确实有一个需要花费5000倍的时间发送消息的地区,这将是一个惊人的故事。

指数掩盖了潜在差异

想要跟随一个问题趋势的分析师经常创建不同值的指数以追踪进展。使用指数本来没有问题,它们可以具有很强的解释力。然而,重要的是要格外小心不同度量相结合的指数。

例如,联合国性别不平等指数(GII)包含了与女性平等进展有关的几个量度。其中一个是“议会中的女性表征”。世界上有两个国家法律规定了议会中的性别表征:中国和巴基斯坦。结果这两个国家在该指数上表现得远好于在其他所有方面都相似的国家。这公平吗?其实一点也不重要,因为它困扰的是那些不了解这一原因的人。GII和类似的指数应该始终被用于仔细分析以确保潜在变量不会以意想不到的方式改变指数。

结果被P值篡改

P值篡改是人为操纵这个阈值,使结果被认为具有统计显著性,这样研究会显示出更强的结论。在这个问题上已经有一些很不错的报告。

如果你要发布一项研究的结果,需要理解p值是什么,它有什么含义,然后做出关于结果是否值得使用的合理决定。许许多多的垃圾研究结果在出版物上出现,就是因为记者不懂p值。

本福德定律失效

本福德定律是指小数字(1,2,3)出现在一个数字开头的频率远高于大数字(7,8,9)。虽然实际上容易被误用,但理论上本福德定律可以用于检测会计实践或选举结果中的异常。如果怀疑一个数据集创建或修改的目的是为了欺骗,本福德定律是优秀的第一次测试,但是在得出数据被操纵的结果之前,你应该总是和专业人士一起验证它。

太完美而不真实

还没有公共舆论的全球数据集。没有人知道生活在西伯利亚的确切人口数字。犯罪统计数据没有跨越国界的可比性。美国政府不会告诉你持有多少核材料。

提防任何自称代表你不可能知道的东西的数据。它不是数据,而是某人的估计,并且很可能是错误的。然后再一次……它可能是个故事,因此找专业人士检查它。

程序员应该帮助你解决的问题

数据汇总到错误的分类或地理区域

有时你的数据细节已经在适当级别上(既不太粗也不太细),但有时被汇总到了你不想要的组。有一个经典的例子,数据是按照邮政编码汇总的,而你想要按照城市街区。在许多情况下,没有得到更细粒度的数据时这是一个不可能解决的问题,但是有时数据可以按比例从一个组映射到另一个。这必须在仔细理解此过程可能引入的误差范围后进行。如果你得到汇总到错误组的数据,问一个程序员是否可能重新汇总它。

扫描文档中的数据

多亏信息自由法案,很多时候可以要求政府提供数据——即使他们真的不想这么做。这时很常见的手法是给你页面的扫描或照片。这些可能是实际的图像文件,或者更可能的是,收集起来制成PDF文件。

从图像中提取文本,并转成数据是可能的。这通过一个被称为光学字符识别(OCR)的过程完成。现代OCR经常可以达到几乎100%的准确性,但这很大程度上取决于文档的质量。任何时候使用OCR提取数据,你会希望有一个验证结果是否和原始文件一致的过程。