写给记者的坏数据处理指南_大数据资讯

中国IDC圈1月4日报道：对真实世界数据中存在的问题，以及有关如何解决这些问题建议的一份详尽参考。这些问题中大部分是可以解决的。可能有一些无法解决，这意味着你不应该使用那些数据。别人不能解决，但是你可以带着注意事项继续使用数据。为了澄清这些含糊之处，这本指南按照最有能力解决问题的人组织，那可能是你，你的数据来源，或者一个专家等等。如果那个人无法帮助你，在每个问题的描述中也可以找到如何去做的建议。

你可能不能对遇到的每个数据集检查所有这些问题。如果你试图这样做，可能永远得不到任何可以发布的内容。然而，熟悉这些可能遇到的问题，会让你更好地在犯错误之前识别问题。

应该由数据来源解决的问题

值缺失

要小心空白或“null”值，除非你确信了解它们的意思。如果数据是年度的，该值代表那一年没有被收集?如果是一个调查，是被访者拒绝回答问题了吗?

每次使用包含缺失值的数据时，你应该问问自己：“我是否知道没有这个数据意味着什么?”如果答案是否，你应该问问数据源。

零替换缺失值

比缺失值更糟糕的是使用任意值代替。这可能是由于某个人没有考虑含意进行的操作，或者无法处理缺失值的自动处理过程导致的结果。无论怎样，如果你在一系列数字中看到多个0，应该问问自己值是否真的是0，还是代表了“没有”。如果无法确定，问问你的数据源。

本应有的数据缺失

有时数据缺失不能从数据集本身看出来，但仍然可以知道，因为你知道哪些数据有关。如果有一个覆盖整个美国的数据集，你可以检查它以确保50个州都存在。(别忘了领土问题——如果数据集包含波多黎各，50就不是正确的数字。)如果你在处理一个棒球运动员的数据集，确保球队数量是你期望的。验证几个你知道的球员是否包含其中。如果某些东西看起来缺失了，相信你的直觉，再次检查来源。你的数据宇宙可能比你认为的更小。

重复行或值

如果同一行在数据集中出现两次，你应该找出原因。有时不一定是整行重复。一些市场活动财务数据包括“修订”，使用与原始事务同样的唯一标识符。如果你不知道这些，那么对数据进行的计算将会是错误的。如果某些东西看起来像是唯一的，验证它。如果你发现它不是，问问你的数据源为什么。

拼写不一致

拼写是检查数据是否手工编制最明显的方法之一。不要只看人名——那些往往是检查拼写错误最困难的地方。取而代之的是寻找那些城市或州名称不一致的地方(Los Angelos是一个很常见的错误)。如果发现问题，就可以确信数据是手工编制或编辑的，而这就是对它保持怀疑态度的原因。手工编辑的数据最有可能出现错误。这并不意味着不应使用它，而是你可能需要手动更正这些错误，或在报道中说明它们。

人名顺序不一致

你的数据是否包含中东或东亚人名?是否确定姓氏总在同一个地方?数据集中是否存在留名方式成名的人?这些都是数据创建者习惯性犯错的地方。如果你正在使用不同种族人名的列表，在假设合并first_name和last_name列不会带来发布问题之前，你至少应当进行一个粗略的检查。

日期格式不一致

下面哪个日期是9月份的：

10/9/15

9/10/15

如果第一个由欧洲人书写，第二个由美国人书写，那么它们都是。不知道数据历史的情况下无法确定。了解你的数据来自哪儿，以及确保它们都由来自同个地方的人们创建。

单位未指定

weight和cost都无法传递任何关于测量单位的信息。不要太着急假设数据是在美国产生的，使用磅和美元。科学数据通常采用公制计量单位。国外商品价格可能用当地货币。如果数据没有说明单位，回到来源并找出它们。即使声明了单位，也要注意其含义可能随时间转变。2010年的1美元并不是现在的1美元。1短吨(ton)不是1长吨(ton)也不是1公吨(tonne)。

分类

小心那些看起来只有true和false，但实际并非如此的数据。这通常在调查中，拒绝或无回答也是有效——并且有意义——的值。另一个常见的问题是类别其他的用法。如果数据集中的类别是一些国家和其他，这是什么意思?这意味着收集数据的人不知道正确答案吗?他们是否在国际水域?外籍人士?或者难民?

糟糕的类别还可以人为排除数据。这经常出现在犯罪统计上。随时间退役，联邦调查局用各种不同的方式定义了“强奸罪”。事实上，他们在指出什么是强奸这一点上做的如此之差，使得许多犯罪学家争辩说这些统计资料完全不应该被使用。一个糟糕的定义可能意味着犯罪被计入一个与期望不同的类别或根本不被计入。在处理那些含义往往随心所欲的话题时格外注意这个问题，例如民族或种族。

字段名称不明确

居住地是什么?是某个人生活的地方?还是他们缴税的地方?是一个城市或者一个乡镇?数据中的字段名应该尽可能具体，需要特别关注明显具有两个或更多含义的那些。即使你正确推断出字段值代表什么意思，歧义也可能容易导致收集数据的人录入错误值。

不记录数据出处

数据可以来自各种类型的个人和组织，包括企业、政府、非营利组织和疯子阴谋论者，也可以以各种不同的方式收集，包括调查、传感器和卫星。它可能被键盘录入，录音或草草写就。了解数据从哪里来能够给你大量对其局限性的洞察。

例如，调查数据很少是全面无遗漏的。传感器会随精度改变。政府也常常不愿意提供无偏的信息。由于穿越前线的危险性，来自一个战争地区的数据可能带有强烈的地域偏见。更糟的是，这些不同来源往往串接在一起。学者有时将他们从政府得到的数据重新分布。医生写下的数据可能由护士更新密钥。这个链条中的每个阶段都有机会出现错误。了解你的数据从哪里来。

存在可疑数字

如果你在数据中看到下面数字的任何一种，非常谨慎地对待它们：

65,535

2,147,483,647

4,294,967,295

555-3485

99999

其中每个数字都表示人或计算机的特定错误。如果看到它们，确定你所认为的是它们的实际含义。

数据粒度太粗

你已经得到了州和你需要的县，也有雇主和需要的员工。他们给你的是年度数据，但你想要月度。在许多情况下，得到的数据对我们的目的来说汇总的太多。

数据一旦被汇总就不可能再分开。如果你得到的数据太粗，需要向来源寻求更具体的东西。他们可能没有。如果有也可能无法或者不愿意给你。有许多联邦数据集不能在地方层面上访问，目的是保护可能由它们惟一标识的个人隐私。(例如，某个单独的索马里国民生活在西德克萨斯州。)你可以做的就是询问。

永远不应该做的一件事情是把一年的数据划分为12份，并称之为“平均每个月”。这总是不正确的，不要这样做。

总计与公布的汇总不同

想象一下，经过长期的《信息自由法案》斗争后，你得到了一个“完整的”警察使用武力事件列表。你打开它，发现它有2467行。太好了，是时候发表它了。事情不会那么快。在你发表任何来自该数据集的内容之前，去找找上一次警署总长对他的部门使用武力的记录。你可能发现在六周前的一次采访中他说“少于2000次”，或者他给出了一个与数据集不一致的具体数字。

公开统计数据和原始数据之前这些各种各样的差异可能是一个非常大的线索来源。很多时候答案相当简单。例如，你得到的数据可能和他说的不是同一时期，但有时你会发现他们在撒谎。无论怎样，你应该确保已公布的数字和你得到的数据总计一致。

电子表格包含65536行

一个旧版的Excel电子表格最多允许65536行。如果你收到一个这样的数据集，几乎可以确定数据被截断了。回去要其他的吧。较新版本的Excel允许1048576行，你不太可能处理超过这个限制的数据。

电子表格包含1900或1904年的日期

由于一些鲜为人知的原因，Excel默认使用1900年1月1日为起始计算所有其他日期，在Mac上使用Excel时则是1904年1月1日。Excel中的数据有多种可能被错误输入或计算的方式，导致显示这两个日期之一。如果你在数据中发现了它们，这可能是一个问题。

文本被转换成数值

并不是所有的数字符号都是数值。例如，美国人口普查局使用“FIPS代码”标识美国的每个地方。这些代码长度不同，都是数字形式的。然而，它们不是数值。037是洛杉矶的FIPS代码，它不是数字37，而且数字37也是一个有效的FIPS代码，代表北卡罗来纳州。Excel和其他电子表格经常会犯的错误是假设数字符号就是数值，并去掉前面的0。如果你试图转换文件格式或与其他数据集合并，这会带来各种问题。注意数据中可能会发生这种情况的部分。

你应该解决的问题

文本乱码

计算机以数字表示所有字幕。编码问题是在用一组特定数字表示文本(称为“编码”)时出现的问题，而你不知道它是什么。这导致一种叫乱码的现象，让数据中的文本看起来像垃圾，或者像这样：��。

绝大多数情况下你的文本编辑器或电子表格程序会找出正确的编码，然而，当你想要发布某个中间包含奇怪字符的人名时，问题就会出现。数据源应该能够告诉你数据是如何编码的。如果他们不能，有一些相当可靠的方法可以猜测编码，去问一个程序员吧。

PDF文件中的数据

大量数据——尤其是政府数据——只能以PDF格式提供。如果你的PDF中包含真正的文本数据，有几个不错的选择提取它。(如果你得到的是扫描文档，那是完全不同的问题。)一个优秀的免费工具是Tabula。然而，如果你有Adobe Creative Cloud，也可以访问Acrobat Pro，它有一个非常棒的特性是将PDF中的表格导出为Excel。这两种方法应该可以从PDF中提取大多数表格数据。

数据粒度太细

这与数据粒度太粗正相反。在这种情况下，你得到城市的数据，但你想要州的，或者你得到了月度数据但你想要年度。幸运的是，这通常相当简单直接。

可以通过使用Excel或Google文档中的透视表功能，使用SQL数据库或自己写代码汇总数据。透视表是一个极好的工具，每个记者都应该学习它。但它也有局限性。在处理异常大的数据集或汇总到特别的组时，你应该找个程序员问问，他们可以手工创建一个更容易验证和复用的解决方案。

人工录入数据

人工录入的数据一般至少综合存在10条这里其他主题描述的问题。没有什么比让一个人录入数据更能搞砸它的方式了。例如，我曾得到伊利诺伊州库克县完整的养狗许可证数据库，系统的创建者不是要求主人从列表里选择一个品种来为他们的狗注册，而是简单地给出一个文本框，让他们自行输入。结果该数据库里的吉娃娃至少有250种拼写方式。即使有好的工具可用，这样杂乱的数据也不能保留，它实际上毫无意义。狗数据也许不那么重要，但你不会希望它发生在士兵受伤或股票行情数据上。小心人工录入的数据。

基于缺失值计算的汇总

想象一个数据集，它有100行，还有一列名为cost。cost列中有50行为空，该行的平均值是什么?是sum_of_cost / 50还是sum_of_cost / 100?没有一个确定的答案。一般来说，如果你打算计算缺失值列的汇总，安全的方法是把缺失的行过滤掉，但是注意不要比较两个不同行缺失的列的汇总值!在某些情况下缺失值可以被合理地解释为0，如果你不确定，问一下专业人士，或者干脆别这么做。

这是一个你可能在分析中犯的错误，但也可能是别人犯错然后传递给你们，所以如果数据已经带有计算好的汇总，当心它们。

样本不随机

非随机抽样误差发生在调查或其他抽样数据集不能覆盖全体人口时，无论是故意的还是无意的。这可能有各种原因，从一天中的时间到被访者的母语，它是社会学研究中常见的误差来源。原因也可能不太明显，例如一名研究者认为他们有一个完整的数据集，但是选择只处理其中的一部分。如果原始数据集因各种原因不完整，那么从样本中得到的任何结论都不正确。惟一可以修复一个非随机样本的方法是不使用该数据。

误差范围太大

我所知道导致更多报道误差的问题除草率使用大误差范围(MOE)数据之外没有其他。MOE通常与调查数据有关。记者最可能遇到它的地方是在使用投票数据或美国人口普查局的美国社区调查(ACS)数据时。MOE是对可能真实值范围的量度。它可以被表示成数字(400 +/- 80)或百分比(400 +/- 20%)。相关人群越小，MOE越大。例如，根据2014.5年度ACS估计，生活在纽约的亚洲人数量为1106,989 +/- 3,526(0.3%)，菲律宾人数量为71,969 +/- 3088(4.3%)，萨摩亚人为203 +/- 144(71%)。

前两个数字可以安全地发表，第三个数字永远不应该用在公开报道中。关于一个数字何时不应该被使用的规则是不存在的，但是作为经验，你应该谨慎使用任何MOE超过10%的数据。

误差范围未知

有时问题并不是误差范围太大，而是首先就没有人计算这个值。这是不科学的民意调查出现的问题。不计算MOE就无法知道结果有多准确。作为一般规则，任何时候得到来自调查的数据都应该问问MOE是什么。如果来源不能告诉你，这些数据可能不值得用于任何认真的分析。

样本有偏差

就像非随机样本那样，有偏差的样本来自对抽样执行过程的缺乏关注，或者故意扭曲它。一个样本的偏差可能因为它在互联网上实施，而较穷的人们比起富人来较少使用网络。调查结果必须仔细加权以确保它们按比例覆盖了任何可能扭曲结果的人口细分群体。这几乎不可能做到完美，所以往往是错误的。

数据已经被手工编辑

手工编辑和人工录入数据几乎是相同的，除了发生在事实之后，以及往往是善意的。事实上，数据经常被手工编辑以试图修复人工录入的错误。如果编辑的人不具有关于原始数据的完整知识，问题就会悄然出现。我曾看到有人自发把数据集中的姓名由Smit“改正”成Smith。那个人真的叫Smith吗?我不知道，但我知道这个值现在是一个问题了。没有修改记录，很难验证它应该是什么。

手工编辑的问题也是为什么总是需要确保数据出处有据可查的原因之一。缺乏出处说明可能有人从中搞了什么。学者往往从政府获取数据，修改它，然后重新分发给记者。没有更改记录就不能了解他们的改动是否出于正当理由。如果可以，总是试图得到数据的最初来源，或者至少你能拿到的最早版本，在其上进行你自己的分析。

通货膨胀扭曲数据

货币通货膨胀意味着钱随时间改变价值。没有办法只通过看得知数字是否经过“通胀调整”。如果你得到数据而不确定是否已经调整，检查你的数据来源。如果还没有，你可能要进行调整。这个通货膨胀调节器可能是一个很好的开始。

自然/季节变动扭曲数据

许多类型的数据会由于某些潜在作用自然波动。这方面最著名的例子是季节性的就业波动。经济学家已经开发了各种方法抵消这种变化。这些方法的细节并不是特别重要，重要的是你要知道使用的数据是否已经进行过“季节性调整”。如果没有，而你又希望比较不同月份的就业情况，你可能会想要从来源得到调整后的数据。(自己调整它比通胀更难。)

人为操纵的时间范围

数据源可以通过提供在某个特定时间停止或开始的数据有意无意地扭曲世界。一个强有力的例子可见2015年广泛报道的“全国犯罪浪潮”。并没有犯罪浪潮，有的只是在特定城市中仅与过去几年对比出现的一些峰值。只要记者检查更宽的时间范围就会看到，事实上10年前美国各处的暴力犯罪更多，而20年前几乎是翻倍的.

如果你的数据涵盖时间范围有限，尽量避免从最开始的时间段开始计算。如果数据只有几年(或者几个月，或者几天)，确保没有做出增加一个额外数据点就会失效的对比。

人为操纵的参考范围

为了政治目的，犯罪统计数字经常通过与犯罪率高的年份对比人为操纵。这可以表示为变化(自2004年以来下降了60%)或者指数(40，其中2004年 = 100)。在上述的两种情况中，2004年可能是也可能不是一个适当的对比年份。该年可能有异常高的犯罪率。

这也发生在地区间的对比上。如果我想要一个国家看起来很糟糕，只要表现有关它的数据和在相关方面做的好的国家数据。

这个问题往往出现在人们有强烈确认偏误的主题中。(“就像我认为的，犯罪率正在上升!”)只要有可能，尝试从几个不同的起始点对比，看看数字如何变化。以及无论做什么，不要自己用这种方法得出你认为很重要的观点，这是不可原谅的。

第三方专业人士应该帮助你解决的问题

作者不值得信任

有时候你唯一能得到的数据来自一个不可信赖的数据源。在某些情况下这可以接受。唯一知道枪支制造数量的人只能是制造者自己。不过，如果你的数据来自一个有问题的制作者，那么每次都找另一位专业人士检查它，更好的是检查两到三次。不要发布来自一个有偏向的来源的数据，除非有大量确实的证据。

收集过程不透明

错误假设、误差或彻底的虚假很容易出现在数据收集过程中。为此，使用的方法保持透明非常重要。你很少确切了解一个数据集如何数据，但是包含不切实际的精度或太完美的数字可能会暗示存在问题。

有时来源故事可能只是令人怀疑：这样那样的学者真的采访了来自芝加哥南边的50名活跃团伙成员吗?如果数据收集方式看起来似乎有问题，而你的数据来源不能提供确实的出处，那么你应该与另一位专业人士验证该数据是否按照说明的方法合理收集。

不切实际的数据精度

在自然科学以外，很少有常规测量可以得到超过两位小数的精度。如果一个摆在你桌子上的数据集声称显示一家工厂7位小数点的排放量，那么几乎可以肯定它是从其他值估计的。这本来可能不是问题，但估计的透明度很重要，他们往往是错误的。

存在令人费解的离群值

我最近创建了一个数据集，有关互联网上消息传递到不同目的地花费的时长。所有的时间都在0.05-0.8秒之间，只有三个例外。这三个都超过了5000秒。这是数据生产过程中出现差错的重要标志。在这个例子中，我编写代码的错误导致了所有其他消息被发送和接收时持续计数的一些失败。

像这样的离群值会大大搞砸你的统计——尤其当使用平均值时。(你可能应该使用中位数。)每当得到一个新的数据集时，好看看大值和最小值，确保它们在合理范围内。如果数据能自我解释，你也可能想要做一些统计上更严格的分析，使用标准差或中位数偏差。

从这里还可以得到一个额外好处，离群值往往是一个找到故事线索很棒的方式。如果互联网上确实有一个需要花费5000倍的时间发送消息的地区，这将是一个惊人的故事。

指数掩盖了潜在差异

想要跟随一个问题趋势的分析师经常创建不同值的指数以追踪进展。使用指数本来没有问题，它们可以具有很强的解释力。然而，重要的是要格外小心不同度量相结合的指数。

例如，联合国性别不平等指数(GII)包含了与女性平等进展有关的几个量度。其中一个是“议会中的女性表征”。世界上有两个国家法律规定了议会中的性别表征：中国和巴基斯坦。结果这两个国家在该指数上表现得远好于在其他所有方面都相似的国家。这公平吗?其实一点也不重要，因为它困扰的是那些不了解这一原因的人。GII和类似的指数应该始终被用于仔细分析以确保潜在变量不会以意想不到的方式改变指数。

结果被P值篡改

P值篡改是人为操纵这个阈值，使结果被认为具有统计显著性，这样研究会显示出更强的结论。在这个问题上已经有一些很不错的报告。

如果你要发布一项研究的结果，需要理解p值是什么，它有什么含义，然后做出关于结果是否值得使用的合理决定。许许多多的垃圾研究结果在出版物上出现，就是因为记者不懂p值。

本福德定律失效

本福德定律是指小数字(1，2，3)出现在一个数字开头的频率远高于大数字(7，8，9)。虽然实际上容易被误用，但理论上本福德定律可以用于检测会计实践或选举结果中的异常。如果怀疑一个数据集创建或修改的目的是为了欺骗，本福德定律是优秀的第一次测试，但是在得出数据被操纵的结果之前，你应该总是和专业人士一起验证它。

太完美而不真实

还没有公共舆论的全球数据集。没有人知道生活在西伯利亚的确切人口数字。犯罪统计数据没有跨越国界的可比性。美国政府不会告诉你持有多少核材料。

提防任何自称代表你不可能知道的东西的数据。它不是数据，而是某人的估计，并且很可能是错误的。然后再一次……它可能是个故事，因此找专业人士检查它。

程序员应该帮助你解决的问题

数据汇总到错误的分类或地理区域

有时你的数据细节已经在适当级别上(既不太粗也不太细)，但有时被汇总到了你不想要的组。有一个经典的例子，数据是按照邮政编码汇总的，而你想要按照城市街区。在许多情况下，没有得到更细粒度的数据时这是一个不可能解决的问题，但是有时数据可以按比例从一个组映射到另一个。这必须在仔细理解此过程可能引入的误差范围后进行。如果你得到汇总到错误组的数据，问一个程序员是否可能重新汇总它。

扫描文档中的数据

多亏信息自由法案，很多时候可以要求政府提供数据——即使他们真的不想这么做。这时很常见的手法是给你页面的扫描或照片。这些可能是实际的图像文件，或者更可能的是，收集起来制成PDF文件。

从图像中提取文本，并转成数据是可能的。这通过一个被称为光学字符识别(OCR)的过程完成。现代OCR经常可以达到几乎100%的准确性，但这很大程度上取决于文档的质量。任何时候使用OCR提取数据，你会希望有一个验证结果是否和原始文件一致的过程。

有很多网站可以通过上传文档进行OCR，但是也有一些免费工具，程序员可以为特定文档进行调整。问问他们对你所有的文档来说什么是好的方法。