标题: 数据处理中的各种问题的解决技巧!解决数据类问题的建模人员必读! [打印本页] 作者: madio 时间: 2020-3-4 16:26 标题: 数据处理中的各种问题的解决技巧!解决数据类问题的建模人员必读! 应该从数据来源解决的问题' ], y! y, I& T) O- p
4 Z( V. T& }' y# o0 s% x' x. C3 F4 k 值缺失 1 I( Y. Q+ {1 W1 V) p% U注意数据集中的空值或“null”,除非你知道它们的确切含义。如果数据是年度数据,那么有没有哪年的数据没有被收集到?如果是一项问卷调查,有没有受访者拒绝回答问题?当你在处理缺失数据时,应该问自己:“我知道这个值的缺失是什么意思吗?”如果答案是否定的,你应该检查你的数据来源。 ' N: {7 N0 S h2 z" a- L/ F" r ! o: |. B8 C3 U9 w4 g 使用零代替缺失值% @) b8 v9 i& p/ [& Y# F: V, J5 X( q6 ~
使用任意值代替缺失值比缺失值本身更糟糕。这可能是人类无意义思考的结果,也可能是不知道如何处理空值的自动化处理造成的。无论如何,如果你看到一长串的零,应该问自己,这些值真的是零,还是表示“没有”(有时候也会用 -1)。如果你不确定,请检查你的数据来源。 2 A, ] Q& q1 s6 ^" _: U * x6 R3 f3 h- _* R4 r0 s; x, A6 X 行或值重复6 K0 u N" j7 J3 s1 F8 O
如果同一行数据不止一次出现在数据集中,你应该找出原因,有时它可能不是一整行都一样。一些活动财务数据包含了一些修订数据,这些修订数据使用了与原始交易相同的唯一标识符。如果你不知道这点,那么你对数据所做的任何计算都是错误的。如果某些东西看起来应该是唯一的,那就验证它。如果你发现它不是,请检查你的数据来源。 % b, {$ O$ M7 Z* v$ l7 Z: Z# f* @8 n4 D% N( m 拼写不一致1 }2 `; n( V! _8 G8 N3 t3 X. h6 w
拼写检查是判断数据是否由手动输入的最明显的方式之一。不要只看人们的名字——这些往往是最难检测到拼写错误的地方——应该查找城市名称或州名不一致的地方。如果你发现了这些问题,那么就可以确信数据是手动编辑过的。手动编辑的数据最有可能出错。这并不意味着你不应该使用它们,但你可能需要手动更正这些错误,或者在报告中对其进行说明。 , B: F) n0 j2 S/ W& _ : Y0 B: [2 F* m* Q. ` 日期格式不一致 7 w4 W; T6 A$ F% f& N+ V下面两个日期哪个是表示 9 月份: $ Q" ?% Z& G# l+ Z3 f o, S' y% | p8 i( E
10/9/157 A$ \8 X7 W+ K) a8 o
9/10/15 2 y2 b7 a$ q% ~8 W如果第一个是欧洲人写的,第二个是美国人,那么它们两个都是表示 9 月份。如果你不知道数据的来源,你就无法确定。所以要确定你的数据来自哪里,并确保它是由来自同一大洲的人生成的。* B) e4 Q9 z# ~9 Z% s6 T1 L; D8 D
$ Y( _) v# |! J+ G5 a" v! [) [ 没有指定单位6 D7 O, a+ {" o, ^9 P& z8 X
weight 和 cost 都不能传达关于计量单位的任何信息。不要认为美国境内生产的数据就一定是以磅和美元为单位。本地货币中可能会提到到国外的价格。如果数据没有指定单位,请检查你的数据源。 ( W, b( n# c; [0 [# g! X! H1 ~+ d4 G/ W/ v# d0 D 来源没有记录 , D4 o' _! [* e7 P; }2 o! q2 j数据通常由各种个人和组织创建,包括企业、政府、非营利组织等。我们通过很多不同的方式收集数据,包括问卷调查、传感器和卫星。了解你的数据来自哪里可以让你深入了解它的局限性。 ; A K5 l4 k9 o. ^) ~例如,问卷调查数据通常都不会很详尽。传感器的精度各不相同。政府往往不愿意给你无偏见的信息。由于存在穿越战线的危险,来自战区的数据可能具有强烈的地域偏见。更糟糕的是,这些不同的来源经常混在一起。政策分析师经常会打乱从政府收集来的数据。医生指定的数据可能是由护士输入。每种情况都有可能发生错误,所以还是要检查你的数据来源。8 {7 z9 u% s5 H- Q: {) l/ P: F7 O
/ v* P. _% O" B" O% M6 M% l z& P+ @! w 数据太粗糙 7 Q- R4 ~" E r4 R你有州的数据,但你需要的是县的数据。你有雇主的数据,但你需要的是雇员的数据。他们给了你几年的数据,但你想要几个月的数据。在很多情况下,我们收集的数据对于我们的使用目的而言已经太过了。5 F- t) @! D- I' n U" C