写给记者的坏数据处理指南

你应该解决的问题

文本乱码

计算机以数字表示所有字幕。编码问题是在用一组特定数字表示文本(称为“编码”)时出现的问题,而你不知道它是什么。这导致一种叫乱码的现象,让数据中的文本看起来像垃圾,或者像这样:���。

绝大多数情况下你的文本编辑器或电子表格程序会找出正确的编码,然而,当你想要发布某个中间包含奇怪字符的人名时,问题就会出现。数据源应该能够告诉你数据是如何编码的。如果他们不能,有一些相当可靠的方法可以猜测编码,去问一个程序员吧。

PDF文件中的数据

大量数据——尤其是政府数据——只能以PDF格式提供。如果你的PDF中包含真正的文本数据,有几个不错的选择提取它。(如果你得到的是扫描文档,那是完全不同的问题。)一个优秀的免费工具是Tabula。然而,如果你有Adobe Creative Cloud,也可以访问Acrobat Pro,它有一个非常棒的特性是将PDF中的表格导出为Excel。这两种方法应该可以从PDF中提取大多数表格数据。

数据粒度太细

这与数据粒度太粗正相反。在这种情况下,你得到城市的数据,但你想要州的,或者你得到了月度数据但你想要年度。幸运的是,这通常相当简单直接。

可以通过使用Excel或Google文档中的透视表功能,使用SQL数据库或自己写代码汇总数据。透视表是一个极好的工具,每个记者都应该学习它。但它也有局限性。在处理异常大的数据集或汇总到特别的组时,你应该找个程序员问问,他们可以手工创建一个更容易验证和复用的解决方案。

人工录入数据

人工录入的数据一般至少综合存在10条这里其他主题描述的问题。没有什么比让一个人录入数据更能搞砸它的方式了。例如,我曾得到伊利诺伊州库克县完整的养狗许可证数据库,系统的创建者不是要求主人从列表里选择一个品种来为他们的狗注册,而是简单地给出一个文本框,让他们自行输入。结果该数据库里的吉娃娃至少有250种拼写方式。即使有最好的工具可用,这样杂乱的数据也不能保留,它实际上毫无意义。狗数据也许不那么重要,但你不会希望它发生在士兵受伤或股票行情数据上。小心人工录入的数据。

基于缺失值计算的汇总

想象一个数据集,它有100行,还有一列名为cost。cost列中有50行为空,该行的平均值是什么?是sum_of_cost / 50还是sum_of_cost / 100?没有一个确定的答案。一般来说,如果你打算计算缺失值列的汇总,安全的方法是把缺失的行过滤掉,但是注意不要比较两个不同行缺失的列的汇总值!在某些情况下缺失值可以被合理地解释为0,如果你不确定,问一下专业人士,或者干脆别这么做。

这是一个你可能在分析中犯的错误,但也可能是别人犯错然后传递给你们,所以如果数据已经带有计算好的汇总,当心它们。

样本不随机

非随机抽样误差发生在调查或其他抽样数据集不能覆盖全体人口时,无论是故意的还是无意的。这可能有各种原因,从一天中的时间到被访者的母语,它是社会学研究中常见的误差来源。原因也可能不太明显,例如一名研究者认为他们有一个完整的数据集,但是选择只处理其中的一部分。如果原始数据集因各种原因不完整,那么从样本中得到的任何结论都不正确。惟一可以修复一个非随机样本的方法是不使用该数据。

误差范围太大

我所知道导致更多报道误差的问题除草率使用大误差范围(MOE)数据之外没有其他。MOE通常与调查数据有关。记者最可能遇到它的地方是在使用投票数据或美国人口普查局的美国社区调查(ACS)数据时。MOE是对可能真实值范围的量度。它可以被表示成数字(400 +/- 80)或百分比(400 +/- 20%)。相关人群越小,MOE越大。例如,根据2014.5年度ACS估计,生活在纽约的亚洲人数量为1106,989 +/- 3,526(0.3%),菲律宾人数量为71,969 +/- 3088(4.3%),萨摩亚人为203 +/- 144(71%)。

前两个数字可以安全地发表,第三个数字永远不应该用在公开报道中。关于一个数字何时不应该被使用的规则是不存在的,但是作为经验,你应该谨慎使用任何MOE超过10%的数据。

误差范围未知

有时问题并不是误差范围太大,而是首先就没有人计算这个值。这是不科学的民意调查出现的问题。不计算MOE就无法知道结果有多准确。作为一般规则,任何时候得到来自调查的数据都应该问问MOE是什么。如果来源不能告诉你,这些数据可能不值得用于任何认真的分析。