3 j3 I) M; y7 Z; J 换行符是乱码 8 ?6 x# d1 j) N所有文本和“文本数据”文件(如 CSV)都使用不可见字符来表示换行符。Windows、Mac 和 Linux 一直以来没有在换行符该使用什么字符上达成过一致。试图在一个操作系统上打开在另一个操作系统上保存的文件有时会导致 Excel 或其他应用程序无法正确识别换行符。 ! s4 u% H: S5 L- c; j : u5 b3 ]$ o8 W! A! u( S+ r0 K, f通常,只需在通用文本编辑器中打开文件并重新保存即可轻松解决该问题。如果文件特别大,你可能需要考虑使用命令行工具或向程序员寻求帮助。 ) c6 e7 a% O2 i& G/ x! |0 d7 e: p8 F4 e/ O) a o( D$ T' Z) `9 j7 ^$ L PDF 中的数据 # A5 l7 p- w1 O5 L# l6 w A大量的数据——尤其是政府数据——只能以 PDF 格式提供。如果你在 PDF 中有真实的文本数据,那么可以通过几种方式来提取它们。Tabula 是一个优秀的免费工具。如果你订阅了 Adobe Creative Cloud,那么可以使用 Acrobat Pro,它提供了将 PDF 表格导出到 Excel 的功能。 ; _- y( v4 ~) k: M" S* W* A 7 i, G. K3 r$ ]' k, @5 I 数据太细# Q. q5 }7 A) R t) i
这与数据太粗糙刚好相反。在这种情况下,你有县的数据,但你想要州或有几个月的数据。所幸的是,这通常很简单。 & D% ~! |0 ~: [. m+ K+ G) B0 q( U1 D $ T( O( E5 r" p9 @7 k! _1 ~可以使用 Excel 或谷歌文档的数据透视表(Pivot Table)功能来汇总数据。透视表是每个记者都应该学习的神奇工具,但它们也有其局限性。对于非常大的数据集,你应该向程序员求助,他们可以制定一个更容易验证和重用的解决方案。! D& Y7 \+ o2 G/ {1 X. i# U
2 l" P {! A+ H 手动输入的数据 6 d; L" P. \* q- b手动数据输入是一个常见问题,至少在这里描述的其他问题中有 10 个与它相关。没有比让一个人输入数据却没有对其进行验证更糟糕的方式来搞砸数据了。例如,我曾经拿到伊利诺伊州库克县完整的养狗许可数据库。系统创建者让狗的主人通过一个文本框输入狗的品质,而不是提供一个狗的品质列表给他们选择。结果这个数据库出现了至少 250 个不同的吉娃娃品种。- f' ]# z8 x3 m9 h
4 t9 \1 `# A# a$ ?$ E 数据与格式和注释混杂在一起8 U2 s- c) d2 z7 Z8 T! K9 p
HTML 和 XML 复杂的数据表示在数据和格式之间有清晰的分隔,但对于电子表格的数据表示来说并非如此。电子表格数据的一个常见问题是,前几行数据实际上是关于数据的描述或备注,而不是列标题或数据本身。数据字典也会被放在电子表格的中,标题行可能会重复,或者在同一张表格中包含多个表(可能有不同的列标题),而不是分成不同的表格存放。! c5 l! D4 u3 n) L6 `* J- h
8 d$ F- V5 T+ Z& }4 Y很明显,试图对具有这些问题的电子表格进行分析都会失败。所以,在首次查看新数据时,请确保数据中不包含额外的标题行或其他格式化字符。2 l. }1 n$ f1 ?0 F7 ~4 O
5 q" y6 Z/ u2 @- i# U' S 基于缺失值进行聚合: v% v$ s, |2 ]# y5 f' ?4 ]
设想一个数据集有 100 行数据,其中有一列叫作 cost。在其中的 50 行中,cost 列是空白的。那么该列的平均值是多少?是 sum_of_cost/50 还是 sum_of_cost/100?没有一个明确的答案。一般情况下,如果要在缺失值的列上进行聚合,可以先安全地过滤掉带有缺失值的行。在某些情况下,缺失的值也可能被设置为 0。如果你不确定,请向专家咨询,或者不要做聚合计算。 ! \' Z5 Y( n# u: E ; x" q6 H, i9 f& J; \* `% K/ _ 误差幅度过大& m: r, ?2 b7 I2 B* Y
没有什么能够比使用误差幅度很大的数据得出的报告包含更多的错误。而不是具有非常大的错误余量的数字的非反应性使用。误差幅度通常与问卷调查数据有关。投票数据或美国人口普查局的美国社区调查数据是最有可能出现误差幅度的。误差幅度一般用于衡量真值的范围。它可以表示为一个数字(400 +/- 80)或百分比(400 +/- 20%)。相关人口越少,误差幅度就越大。例如,根据 2014 年 5 年的 ACS 估计,居住在纽约的亚裔人数为 1,106,989 +/- 3,526(0.3%)。菲律宾人的数量是 71,969 +/- 3,088(4.3%)。萨摩亚人的数量是 203 +/- 144(71%)。前两个数字是安全可信的,但第三个数字不应该用于已发布的报告。关于什么样的数字不能够使用并不存在规则,但经验告诉我们,应该谨慎使用误差幅度超过 10%的数字。 8 s6 {& n- B5 h ; A) \! X* A* |. t 误差幅度未知 - ?+ k) W3 u6 L0 s9 D有时候,问题不在于误差幅度过大,而在于没有人想过要弄清楚它究竟是什么。这是一个不科学的民意调查问题。如果不计算误差幅度,就不可能知道结果的准确程度。作为一般规则,只要你有问卷调查数据,就应该询弄误差幅度是什么。如果数据来源无法提供这一信息,那么这些数据可能不值得用在分析上。 ! G& a& n/ u+ D% B: v: a , N8 x0 V% U9 h# s: f6 u 数据样本有偏见# X$ x0 e) s0 E. N
有偏见的样本是由不谨慎的抽样导致的,或者有人故意扭曲。样本可能包含偏见,因为它是从互联网上收集的,而穷人不像富人那样可以频繁使用互联网。问卷调查必须仔细加以权衡,以确保它们覆盖所有的人口比例,避免出现扭曲。要完美做到这一点几乎是不可能的,所以人们经常会做错。 5 L M7 E. }1 Y 4 F+ V; n2 }6 B7 }6 a 数据被手动编辑过 2 _$ Q! T! o5 x手动编辑存在的问题几乎与人类输入数据的问题相同,只不过它是在后面才发生。事实上,手动编辑数据通常是为了修复人类最初输入的数据。当编辑人员不完全了解原始数据时,就会出现问题。我曾经看到有人自发地进行“修正”,将数据集中的 Smit 改为 Smith。那个人的名字真的是 Smith 吗?我不知道,我只知道现在值出现了问题。) K4 S% i s. l) b3 Q- L
1 v8 Q# ~5 F6 k6 _$ [8 X9 B 通货膨胀歪曲了数据 X/ ~0 n+ y0 c) q
通货通胀表示货币的价值随着时间的流逝而发生变化。我们没有办法通过观察数字来判断数字是否已经出现了“膨胀调整”。如果你在获得数据后不知道它们是否已经被调整过,请检查你的数据来源。如果他们没有进行过调整,你可能会想要自己进行调整,可以借助这个工具 http://inflation-adjust.herokuapp.com 进行数据调整。2 h' Y& j ?" s0 H( Q
, O, Z+ u+ w u3 l! y, N 自然 / 季节变化歪曲了数据 ; m' m& z1 s$ {$ l, I由于某些潜在的原因,很多类型的数据会发生自然波动。最著名的例子就是随季节而变化的就业形式。经济学家已经开发出各种补偿这种变化的方法。这些方法的细节并不重要,重要的是要知道你使用的数据是否已经经过“季节性调整”。如果他们没有,并且你想比较每月的就业情况,你可能需要向数据来源所要调整过的数据(自己调整它们要比膨胀调整要困难得多)。 4 w+ e4 m+ _. m- } ! _0 }9 J" b5 r& V/ L- G需要由第三方专家帮你解决的问题 , T- t4 y5 n9 j$ ]0 X4 \. e1 k9 e' ~. O, A- q5 ~ K* ]2 J 作者不可信2 C& D5 E2 [5 w- Q: i2 Z1 }
有时候,你拥有的唯一数据是来自你不想依赖的来源。在某些情况下,这很好。只有枪械制造商才知道他们究竟生产了多少把枪。但是,如果你的数据来自可疑制造商,那么请务必与其他专家核对,最好与两三个专家一起检查。除非你有确凿的证据,否则不要发布来自包含偏见的来源的数据。- w+ a% K. q& @" |8 c. O
8 S# w x9 d7 S% t8 `- d6 Q 收集过程不透明 ; K& \/ S" Q( w; F- F5 N在数据收集过程中引入不真实的假设、错误或纯粹的谬误是非常容易的。因此,收集数据的方法必须是透明的,这一点很重要。很少有人知道数据集是如何收集的,不过可以从一些表象看出问题来,比如不切实际的断言精确度和结果好过头的数据。- w$ I9 f& O# e T* |
4 G/ Z* s' B: i8 P8 D$ ?1 u) X 不切实际的精确度 ! ^2 e B- @" F$ C6 n/ r. V除了硬科学之外,很少有东西会以超过两位小数的精确度进行测量。如果某个数据集意图将工厂的排放量显示在小数点后第七位,它们可能是从其他数值估算出来的。它们往往是错误的。 ! a0 N# \$ }. f: F: O, c& p3 c5 N1 v* N C b3 A. W3 ` 莫名其妙的异常值/ G, f/ N Q8 t) O0 n+ V7 q
我最近创建了一个数据集,表示消息通过互联网到达不同目的地需要多长时间。除了其中的三个超过了 5000 秒,其他所有时间都在 0.05 到 0.8 秒的范围内。这表示数据生成过程中出现了问题。我写的代码出现了一个错误,导致在发送和接收其他消息时,无法计算某些消息的时间。4 i- \3 @) m, ]
5 B z) y" }+ t
这些异常值可能会极大地影响你的统计数据——特别是如果你要使用平均值(你应该使用中位数)。在获得一个新数据集时,最好先查看它们的最大值和最小值,并确保它们处于合理的范围内。如果数据正确,你可能还想使用标准偏差或中位数偏差进行更加严格的分析。 " {8 d0 c. @ R1 F: i. g' B$ h" L
异常值往往是找出问题的好方法。如果真的有一个国家在互联网上发送一个消息多花费了 5000 倍的时间,那就有意思了。 " ^' _# V; f+ J6 b* H- K; p: v 7 h0 O. g" u5 V 指数掩盖了底层的变化 # u+ @" b3 ?) N) C4 Q# U想要跟踪问题趋势的记者通常会创建各种价值指数来跟踪进度。使用指数没有任何内在问题,它们有很好的解释力。但是,要注意那些由离散指标组合而成的指数。9 g/ o* O; g$ R7 N3 G' I
" F- ?: P4 |( N& Z8 V" y例如,联合国性别不平等指数(GII)由与妇女平等发展进程相关的几项指标组成。GII 采取的指标之一是“妇女在议会中的代表权”。世界上有两个国家的法律规定在其议会中需要有不同性别比例的代表:中国和巴基斯坦。因此,这两个国家在指数上的表现要好于其他国家。这是否公平?这并不重要,因为任何不了解这个情况的人通常都会感到困惑。在使用 GII 和类似指数时应该进行仔细的分析,以确保底层的变化不会以意想不到的方式造成指数的波动。 * m5 y V& [5 W, k/ e& l# x1 y / p/ m6 [- ]1 s- H! x 结果被 p-hack 5 _# h( Y1 v( `) O; }P-hacking 故意改变数据、改变统计分析结果或有选择地报告结果,以获得具有统计意义的结果。这方面的例子包括:一旦有了重要结果就停止收集数据,删除观察结果以获得重要结果,或者执行多次分析,只报告少数重要结果。关于这个问题已经有一些报道 http://fivethirtyeight.com/features/science-isnt-broken。 4 t- F3 Z( X3 @, E# v % {* R& d8 _: L+ U. d+ K如果你要公布研究结果,你需要了解 p 值是什么,它意味着什么,然后对结果是否值得使用做出明智的决定。许多垃圾研究成果让它出现在主要的出版物中,因为记者不了解 p 值是什么。 5 e, M% w: _4 ?, o6 K+ [ ( T2 \3 X3 m& F A0 G9 c Benford 定律失效5 r2 T: P) ?/ a( H& }, }( S
Benford 定律是一种理论,即小数字(1,2,3)出现在数字开头的频率比大数字(7,8,9)大得多。理论上,Benford 定律可以用来检测会计或选举结果的异常情况,但实际上它很容易被误用。如果你怀疑某个数据集已被篡改,Benford 定律是一个很好的检验手段,但在得出数据被篡改的结论之前,应该先与专家验证你的结果。3 N! V, h' O( H4 {
; L- t) m( u" \, T; ]6 c 结果好得过了头0 Z& k* j: m" f9 A. H# C/ K$ S! w
没有人知道生活在西伯利亚的确切人数。跨境犯罪统计数据不具可比性。美国政府不会告诉你它手上有多少裂变材料。 $ [! x* A* U: i& Y8 a; W/ r/ y& u8 r4 G( ]) f3 d
对于那些声称可以告诉你某些你不可能知道的”真相“的数据要特别小心。它们不是数据,可能只是某些人的臆想,而且是错误的。有可能它只是个趣闻,所以务必和专家确认。 * K7 h2 f& V4 W$ X5 X & I' t6 C1 @% n4 x应该由程序员帮你解决的问题2 L9 ^; ] c, U' [
: a" t h$ w1 [# g7 f# @: X X 基于错误的类别或地区聚合数据! [7 H" d4 Y4 n" e" x' n
有时候你的数据具有恰到好处的细节(既不太粗糙也不太细化),但是它们已经按照你不想要的分组进行了聚合。举个典型的例子,一组按照邮政编码进行聚合的数据,但你希望能够按照相邻的城市进行聚合。在很多情况下,如果不从数据来源获取更多细化的数据,就不可能解决这个问题,但有时可以将数据按比例从一个组映射到另一个组,但要十分小心不要在这一过程中引入误差幅度。如果你按照错误的组聚合了数据,请向程序员求助,看看是否可以重新聚合数据。7 \/ E5 C0 b2 v9 U# r0 M
, M# {. v V e. S1 P 扫描文档中的数据! S8 Y+ C' y5 k$ A) y
多亏了 FOIA,政府往往需要向你提供数据,即使他们真的不想。在这些情况下,一个非常常见的策略是让他们给你数据页的扫描或照片。它们可能是图像文件,或者是 PDF 文档。3 f8 c- D0 P$ f1 j
/ O2 u R+ d ^我们可以从图像中提取文本并将其重新转换为数据。这是通过称为光学字符识别(OCR)的技术完成的。现代 OCR 技术通常可以达到 100%的准确率,但它非常依赖于文档的质量。每次使用 OCR 提取数据时,你都希望有一个过程来验证结果是否与原始数据匹配。 ; U. Q! U% {1 K6 S" X, F' g# d) j( ]# e$ i
有很多网站可以上传文件进行 OCR 操作,但也有免费工具可让程序员调整你的文档,可以向他们求助,看看怎样更好地处理你的 PDF 文档。/ t. o; E# l( j; Y+ g* |6 M
4 F8 X! W% [% p& ~# I2 P: V$ g1 I " S- p' H: ?3 A! y 8 h X) s8 T/ H# y4 s {3 o9 Q4 e5 E4 O
4 ?; ?( V$ |* ^8 I& A- i# x
+ G3 m9 s0 u$ O# o v/ o