) \+ k; {- ?: `* k1 f 没有指定单位 2 x2 S& u7 ]$ i* Xweight 和 cost 都不能传达关于计量单位的任何信息。不要认为美国境内生产的数据就一定是以磅和美元为单位。本地货币中可能会提到到国外的价格。如果数据没有指定单位,请检查你的数据源。5 @: z6 h$ ~: ?( D; c+ q+ M
3 N+ g V1 q, r( b+ D* v! T) v$ { 来源没有记录9 O: f7 Q& W/ [2 a+ d: u
数据通常由各种个人和组织创建,包括企业、政府、非营利组织等。我们通过很多不同的方式收集数据,包括问卷调查、传感器和卫星。了解你的数据来自哪里可以让你深入了解它的局限性。 / g6 _8 o; ]4 n& E例如,问卷调查数据通常都不会很详尽。传感器的精度各不相同。政府往往不愿意给你无偏见的信息。由于存在穿越战线的危险,来自战区的数据可能具有强烈的地域偏见。更糟糕的是,这些不同的来源经常混在一起。政策分析师经常会打乱从政府收集来的数据。医生指定的数据可能是由护士输入。每种情况都有可能发生错误,所以还是要检查你的数据来源。& J. |4 l; s6 {: S# D
* P {! |. r. l$ w4 U 数据太粗糙 ) X/ F4 J! W6 u你有州的数据,但你需要的是县的数据。你有雇主的数据,但你需要的是雇员的数据。他们给了你几年的数据,但你想要几个月的数据。在很多情况下,我们收集的数据对于我们的使用目的而言已经太过了。 e! S8 l' A1 P. z4 T3 `% J- f* z, Q( d& K$ o; ^( A5 f2 k2 ~
一旦数据合并在一起,通常很难再把它们分开。如果你提供的数据太粗糙,就需要向数据来源索要更具体的内容。他们可能没有。即使有,也可能无法或不愿意把它们交给你。为了保护个人隐私,很多联邦数据集无法在本地访问。 : o; P# h$ q1 l( s: R1 K4 a R $ O% }3 d+ x" z2 Y! X1 C& B永远不应该做的一件事是将年度数据除以 12,并称之为“每月平均值”。如果不知道数值的具体分布,那么这个数字就没有意义。这是错误的,所以不要这样做。 ! y% ]2 G- T- g % g; W8 l2 ?. m( e 拥有 65536 行数据的电子表格; g! \, o7 L5 u x9 e& |
老式 Excel 电子表格允许的最大行数为 65,536。如果你收到具有该行数的数据集,则几乎可以肯定你收到的数据是被截断的。较新版本的 Excel 支持 1,048,576 行,因此数据行不太可能达到极限。 k- }+ v. R1 B) f+ F# N: A8 x1 ]: W7 e* u4 U3 C R% \ 拥有 255 列数据的电子表格 o/ H) j2 K/ |, v1 W1 P! `9 C
Apple 的 Numbers 应用程序只能处理包含 255 列的电子表格,并且应用程序会截断具有更多列的文件而不会警告用户。如果你收到的数据集正好为 255 列,那么就要确认这个文件是否在 Numbers 中打开或转换过。1 S" I3 j( l `. y
- J: d. B, B# `; t/ y* F1 k% l 文本被转换为数字 ; r7 O- `* I% S' n8 s% Q" U6 ]并非所有的数字都是数字。例如,美国人口普查局使用“FIPS 代码”代表美国的每一个地方。这些代码具有不同的长度,都是由数字组成,但它们其实不是数字。037 是洛杉矶县的 FIPS 代码,不是指数字 37。37 是北卡罗来纳州的 FIPS 代码。Excel 和其他电子表格通常会认为它们是数字,就把前导零去掉了。, C& i- F- r! ~! h2 G
3 w3 U8 O A5 |3 H) E( d 数字以文本形式保存) F9 `/ m5 n* C% a1 o1 v3 M
在使用电子表格时,数字可能会被保存为文本。例如,一个单元格可能使用字符串“1,000,000”、“1 000 000”或“USD 1,000,000”,来表示百万美元,而不是直接使用数字 1000000。Excel 可以利用内置函数来处理一些简单的情况,但通常需要使用公式去除字符,直到单元格的内容可以被识别为数字。最好的做法是不使用格式来保存数字,并在列名或元数据中包含相关信息。 0 O5 p! n: \( f' A# m! w) { 0 o' N, w. ^- g p7 J, S& J应该由你自己解决的问题 $ o) i) B0 s) h 3 W+ X2 T6 S$ y, c" Q1 ]文本乱码 2 G8 n0 Y2 G% v# N j# F在绝大多数情况下,你的文本编辑器或电子表格应用程序会找出正确的编码,但是,你可能会发现某些人的名字中有怪异的字符。你的数据来源应该能够告诉你数据采用了什么编码。如果他们无法提供这些信息,你可以通过一些可靠的方式猜出来,或去问程序员。# V2 O5 f0 Q S. f- g) ]: z
) ? R( r6 N q 换行符是乱码. p d; Q5 c9 F3 ?8 ?" l& p+ {
所有文本和“文本数据”文件(如 CSV)都使用不可见字符来表示换行符。Windows、Mac 和 Linux 一直以来没有在换行符该使用什么字符上达成过一致。试图在一个操作系统上打开在另一个操作系统上保存的文件有时会导致 Excel 或其他应用程序无法正确识别换行符。# C5 q" ]3 }3 S) E% i
5 B3 }0 a. q4 x) q+ F
通常,只需在通用文本编辑器中打开文件并重新保存即可轻松解决该问题。如果文件特别大,你可能需要考虑使用命令行工具或向程序员寻求帮助。+ b' \- |! Y8 R" \% S0 G# N2 O
' l' n6 b# B q- @$ Y$ }% a' P) P' l PDF 中的数据 : A3 f" p9 i2 @" n! A7 ?大量的数据——尤其是政府数据——只能以 PDF 格式提供。如果你在 PDF 中有真实的文本数据,那么可以通过几种方式来提取它们。Tabula 是一个优秀的免费工具。如果你订阅了 Adobe Creative Cloud,那么可以使用 Acrobat Pro,它提供了将 PDF 表格导出到 Excel 的功能。+ _ m+ g* ?$ }1 X. D) ]4 ]& F
6 h( ` R" M, g4 h1 N# @ 数据太细/ t) J6 V- T: q
这与数据太粗糙刚好相反。在这种情况下,你有县的数据,但你想要州或有几个月的数据。所幸的是,这通常很简单。0 j2 w, D j4 n; M, J
6 x9 Z( a" Q7 D) }
可以使用 Excel 或谷歌文档的数据透视表(Pivot Table)功能来汇总数据。透视表是每个记者都应该学习的神奇工具,但它们也有其局限性。对于非常大的数据集,你应该向程序员求助,他们可以制定一个更容易验证和重用的解决方案。* m z- J% K5 N* v& X- G& s* Y
! h2 O* C7 c5 g7 k2 P" v' C5 x/ F. F 手动输入的数据 0 A, m4 X3 N+ J4 E8 \) t- Q+ n4 Q手动数据输入是一个常见问题,至少在这里描述的其他问题中有 10 个与它相关。没有比让一个人输入数据却没有对其进行验证更糟糕的方式来搞砸数据了。例如,我曾经拿到伊利诺伊州库克县完整的养狗许可数据库。系统创建者让狗的主人通过一个文本框输入狗的品质,而不是提供一个狗的品质列表给他们选择。结果这个数据库出现了至少 250 个不同的吉娃娃品种。 # V6 n, t; p* g" A7 Z) A* @& q" \7 t 数据与格式和注释混杂在一起: e: y# o8 k2 F! y6 l
HTML 和 XML 复杂的数据表示在数据和格式之间有清晰的分隔,但对于电子表格的数据表示来说并非如此。电子表格数据的一个常见问题是,前几行数据实际上是关于数据的描述或备注,而不是列标题或数据本身。数据字典也会被放在电子表格的中,标题行可能会重复,或者在同一张表格中包含多个表(可能有不同的列标题),而不是分成不同的表格存放。 * S! n+ J$ A0 \- L7 X; z n 6 L- ?6 B% h: z) _& a( `很明显,试图对具有这些问题的电子表格进行分析都会失败。所以,在首次查看新数据时,请确保数据中不包含额外的标题行或其他格式化字符。 - `8 O0 F& b/ E 1 N, B- G/ J/ M 基于缺失值进行聚合1 L. w3 y' ?. {1 ?
设想一个数据集有 100 行数据,其中有一列叫作 cost。在其中的 50 行中,cost 列是空白的。那么该列的平均值是多少?是 sum_of_cost/50 还是 sum_of_cost/100?没有一个明确的答案。一般情况下,如果要在缺失值的列上进行聚合,可以先安全地过滤掉带有缺失值的行。在某些情况下,缺失的值也可能被设置为 0。如果你不确定,请向专家咨询,或者不要做聚合计算。 8 |9 ~( @$ F8 | T! i! Z) p' R5 z+ K" O 误差幅度过大/ r9 \, g% O; A% Z5 }/ e
没有什么能够比使用误差幅度很大的数据得出的报告包含更多的错误。而不是具有非常大的错误余量的数字的非反应性使用。误差幅度通常与问卷调查数据有关。投票数据或美国人口普查局的美国社区调查数据是最有可能出现误差幅度的。误差幅度一般用于衡量真值的范围。它可以表示为一个数字(400 +/- 80)或百分比(400 +/- 20%)。相关人口越少,误差幅度就越大。例如,根据 2014 年 5 年的 ACS 估计,居住在纽约的亚裔人数为 1,106,989 +/- 3,526(0.3%)。菲律宾人的数量是 71,969 +/- 3,088(4.3%)。萨摩亚人的数量是 203 +/- 144(71%)。前两个数字是安全可信的,但第三个数字不应该用于已发布的报告。关于什么样的数字不能够使用并不存在规则,但经验告诉我们,应该谨慎使用误差幅度超过 10%的数字。- ^5 v; E3 `3 \/ b* g
, V$ m( t% G* c. p 误差幅度未知 : b% g4 x T8 ?有时候,问题不在于误差幅度过大,而在于没有人想过要弄清楚它究竟是什么。这是一个不科学的民意调查问题。如果不计算误差幅度,就不可能知道结果的准确程度。作为一般规则,只要你有问卷调查数据,就应该询弄误差幅度是什么。如果数据来源无法提供这一信息,那么这些数据可能不值得用在分析上。8 g. l& Z S u& s- c
6 @4 w: ]# I8 ?5 S 数据样本有偏见 ) T1 f' Z5 q1 n0 p) ]" K9 p8 F有偏见的样本是由不谨慎的抽样导致的,或者有人故意扭曲。样本可能包含偏见,因为它是从互联网上收集的,而穷人不像富人那样可以频繁使用互联网。问卷调查必须仔细加以权衡,以确保它们覆盖所有的人口比例,避免出现扭曲。要完美做到这一点几乎是不可能的,所以人们经常会做错。 ' n1 ~' H: j. ] M* @& X/ t r+ U2 R. Q2 k5 T- Z7 H# `* W 数据被手动编辑过 / g; z3 p0 J. z; Z手动编辑存在的问题几乎与人类输入数据的问题相同,只不过它是在后面才发生。事实上,手动编辑数据通常是为了修复人类最初输入的数据。当编辑人员不完全了解原始数据时,就会出现问题。我曾经看到有人自发地进行“修正”,将数据集中的 Smit 改为 Smith。那个人的名字真的是 Smith 吗?我不知道,我只知道现在值出现了问题。7 I, d6 ?1 L/ p& O