写给记者的坏数据处理指南

糟糕的类别还可以人为排除数据。这经常出现在犯罪统计上。随时间退役,联邦调查局用各种不同的方式定义了“强奸罪”。事实上,他们在指出什么是强奸这一点上做的如此之差,使得许多犯罪学家争辩说这些统计资料完全不应该被使用。一个糟糕的定义可能意味着犯罪被计入一个与期望不同的类别或根本不被计入。在处理那些含义往往随心所欲的话题时格外注意这个问题,例如民族或种族。

字段名称不明确

居住地是什么?是某个人生活的地方?还是他们缴税的地方?是一个城市或者一个乡镇?数据中的字段名应该尽可能具体,需要特别关注明显具有两个或更多含义的那些。即使你正确推断出字段值代表什么意思,歧义也可能容易导致收集数据的人录入错误值。

不记录数据出处

数据可以来自各种类型的个人和组织,包括企业、政府、非营利组织和疯子阴谋论者,也可以以各种不同的方式收集,包括调查、传感器和卫星。它可能被键盘录入,录音或草草写就。了解数据从哪里来能够给你大量对其局限性的洞察。

例如,调查数据很少是全面无遗漏的。传感器会随精度改变。政府也常常不愿意提供无偏的信息。由于穿越前线的危险性,来自一个战争地区的数据可能带有强烈的地域偏见。更糟的是,这些不同来源往往串接在一起。学者有时将他们从政府得到的数据重新分布。医生写下的数据可能由护士更新密钥。这个链条中的每个阶段都有机会出现错误。了解你的数据从哪里来。

存在可疑数字

如果你在数据中看到下面数字的任何一种,非常谨慎地对待它们:

65,535

2,147,483,647

4,294,967,295

555-3485

99999

其中每个数字都表示人或计算机的特定错误。如果看到它们,确定你所认为的是它们的实际含义。

数据粒度太粗

你已经得到了州和你需要的县,也有雇主和需要的员工。他们给你的是年度数据,但你想要月度。在许多情况下,得到的数据对我们的目的来说汇总的太多。

数据一旦被汇总就不可能再分开。如果你得到的数据太粗,需要向来源寻求更具体的东西。他们可能没有。如果有也可能无法或者不愿意给你。有许多联邦数据集不能在地方层面上访问,目的是保护可能由它们惟一标识的个人隐私。(例如,某个单独的索马里国民生活在西德克萨斯州。)你可以做的就是询问。

永远不应该做的一件事情是把一年的数据划分为12份,并称之为“平均每个月”。这总是不正确的,不要这样做。

总计与公布的汇总不同

想象一下,经过长期的《信息自由法案》斗争后,你得到了一个“完整的”警察使用武力事件列表。你打开它,发现它有2467行。太好了,是时候发表它了。事情不会那么快。在你发表任何来自该数据集的内容之前,去找找上一次警署总长对他的部门使用武力的记录。你可能发现在六周前的一次采访中他说“少于2000次”,或者他给出了一个与数据集不一致的具体数字。

公开统计数据和原始数据之前这些各种各样的差异可能是一个非常大的线索来源。很多时候答案相当简单。例如,你得到的数据可能和他说的不是同一时期,但有时你会发现他们在撒谎。无论怎样,你应该确保已公布的数字和你得到的数据总计一致。

电子表格包含65536行

一个旧版的Excel电子表格最多允许65536行。如果你收到一个这样的数据集,几乎可以确定数据被截断了。回去要其他的吧。较新版本的Excel允许1048576行,你不太可能处理超过这个限制的数据。

电子表格包含1900或1904年的日期

由于一些鲜为人知的原因,Excel默认使用1900年1月1日为起始计算所有其他日期,在Mac上使用Excel时则是1904年1月1日。Excel中的数据有多种可能被错误输入或计算的方式,导致显示这两个日期之一。如果你在数据中发现了它们,这可能是一个问题。

文本被转换成数值

并不是所有的数字符号都是数值。例如,美国人口普查局使用“FIPS代码”标识美国的每个地方。这些代码长度不同,都是数字形式的。然而,它们不是数值。037是洛杉矶的FIPS代码,它不是数字37,而且数字37也是一个有效的FIPS代码,代表北卡罗来纳州。Excel和其他电子表格经常会犯的错误是假设数字符号就是数值,并去掉前面的0。如果你试图转换文件格式或与其他数据集合并,这会带来各种问题。注意数据中可能会发生这种情况的部分。