写给记者的坏数据处理指南

中国IDC圈1月4日报道:对真实世界数据中存在的问题,以及有关如何解决这些问题建议的一份详尽参考。这些问题中大部分是可以解决的。可能有一些无法解决,这意味着你不应该使用那些数据。别人不能解决,但是你可以带着注意事项继续使用数据。为了澄清这些含糊之处,这本指南按照最有能力解决问题的人组织,那可能是你,你的数据来源,或者一个专家等等。如果那个人无法帮助你,在每个问题的描述中也可以找到如何去做的建议。

你可能不能对遇到的每个数据集检查所有这些问题。如果你试图这样做,可能永远得不到任何可以发布的内容。然而,熟悉这些可能遇到的问题,会让你更好地在犯错误之前识别问题。

应该由数据来源解决的问题

值缺失

要小心空白或“null”值,除非你确信了解它们的意思。如果数据是年度的,该值代表那一年没有被收集?如果是一个调查,是被访者拒绝回答问题了吗?

每次使用包含缺失值的数据时,你应该问问自己:“我是否知道没有这个数据意味着什么?”如果答案是否,你应该问问数据源。

零替换缺失值

比缺失值更糟糕的是使用任意值代替。这可能是由于某个人没有考虑含意进行的操作,或者无法处理缺失值的自动处理过程导致的结果。无论怎样,如果你在一系列数字中看到多个0,应该问问自己值是否真的是0,还是代表了“没有”。如果无法确定,问问你的数据源。

本应有的数据缺失

有时数据缺失不能从数据集本身看出来,但仍然可以知道,因为你知道哪些数据有关。如果有一个覆盖整个美国的数据集,你可以检查它以确保50个州都存在。(别忘了领土问题——如果数据集包含波多黎各,50就不是正确的数字。)如果你在处理一个棒球运动员的数据集,确保球队数量是你期望的。验证几个你知道的球员是否包含其中。如果某些东西看起来缺失了,相信你的直觉,再次检查来源。你的数据宇宙可能比你认为的更小。

重复行或值

如果同一行在数据集中出现两次,你应该找出原因。有时不一定是整行重复。一些市场活动财务数据包括“修订”,使用与原始事务同样的唯一标识符。如果你不知道这些,那么对数据进行的计算将会是错误的。如果某些东西看起来像是唯一的,验证它。如果你发现它不是,问问你的数据源为什么。

拼写不一致

拼写是检查数据是否手工编制最明显的方法之一。不要只看人名——那些往往是检查拼写错误最困难的地方。取而代之的是寻找那些城市或州名称不一致的地方(Los Angelos是一个很常见的错误)。如果发现问题,就可以确信数据是手工编制或编辑的,而这就是对它保持怀疑态度的原因。手工编辑的数据最有可能出现错误。这并不意味着不应使用它,而是你可能需要手动更正这些错误,或在报道中说明它们。

人名顺序不一致

你的数据是否包含中东或东亚人名?是否确定姓氏总在同一个地方?数据集中是否存在留名方式成名的人?这些都是数据创建者习惯性犯错的地方。如果你正在使用不同种族人名的列表,在假设合并first_name和last_name列不会带来发布问题之前,你至少应当进行一个粗略的检查。

日期格式不一致

下面哪个日期是9月份的:

10/9/15

9/10/15

如果第一个由欧洲人书写,第二个由美国人书写,那么它们都是。不知道数据历史的情况下无法确定。了解你的数据来自哪儿,以及确保它们都由来自同个地方的人们创建。

单位未指定

weight和cost都无法传递任何关于测量单位的信息。不要太着急假设数据是在美国产生的,使用磅和美元。科学数据通常采用公制计量单位。国外商品价格可能用当地货币。如果数据没有说明单位,回到来源并找出它们。即使声明了单位,也要注意其含义可能随时间转变。2010年的1美元并不是现在的1美元。1短吨(ton)不是1长吨(ton)也不是1公吨(tonne)。

分类

小心那些看起来只有true和false,但实际并非如此的数据。这通常在调查中,拒绝或无回答也是有效——并且有意义——的值。另一个常见的问题是类别其他的用法。如果数据集中的类别是一些国家和其他,这是什么意思?这意味着收集数据的人不知道正确答案吗?他们是否在国际水域?外籍人士?或者难民?