数学建模社区-数学中国
标题:
数据挖掘中的数据预处理方法总结
[打印本页]
作者:
浅夏110
时间:
2020-5-19 09:40
标题:
数据挖掘中的数据预处理方法总结
1.原始数据存在的几个问题:不一致;重复;含噪声;维度高。
4 d" Y4 S' V) O- k. R6 i& _
% W) ~; c& Q3 A2 m: X
2.数据预处理包含数据清洗、数据集成、数据变换和数据归约几种方法。
# ]+ x5 Q' a& w; g+ F
! [/ e1 u, `- U5 W3 D
3.数据挖掘中使用的数据的原则
. \+ W' a: Z- j( ]6 L
0 d2 S5 y/ r8 J/ ^8 ~
应该是从原始数据中选取合适的属性作为数据挖掘属性,这个选取过程应参考的原则是:尽可能赋予属性名和属性值明确的含义;统一多数据源的属性值编码;去除惟一属性;去除重复性;去除可忽略字段;合理选择关联字段。
/ h, G5 o1 Z6 K, a n% @
, R; p* [/ \; e" ?
4.处理空缺值的方法:忽略该记录;去掉属性;手工填写空缺值;使用默认值;使用属性平均值;使用同类样本平均值;预测最可能的值。
4 F1 b, b& f5 G* g3 x
4 f& Q# a. p% r+ e/ p
5.噪声数据的处理方法:分箱;聚类;计算机和人工检查结合;回归
* H" T- _- D( m3 K2 w
+ ~4 Y, N( w% u$ @. V+ T! C
6.分箱:分箱方法是一种简单常用的预处理方法,通过考察相邻数据来确定最终值。所谓“分箱”,实际上就是按照属性值划分的子区间,如果一个属性值处于某个子区间范围内,就称把该属性值放进这个子区间所代表的“箱子”内。把待处理的数据(某列属性值)按照一定的规则放进一些箱子中,考察每一个箱子中的数据,采用某种方法分别对各个箱子中的数据进行处理。在采用分箱技术时,需要确定的两个主要问题就是:如何分箱以及如何对每个箱子中的数据进行平滑处理。
: X2 L0 X8 v, w z# ~( s
/ P. f( U' u; q! n# A
分箱的方法:有4种:等深分箱法、等宽分箱法、最小熵法和用户自定义区间法。
& A2 x- ] k5 l$ I& T; {/ }
/ J0 G. @, Y, Y1 E2 C3 S
统一权重,也成等深分箱法,将数据集按记录行数分箱,每箱具有相同的记录数,每箱记录数称为箱子的深度。这是最简单的一种分箱方法。
: K- e' ^4 p. w/ l
1 R& C; k# }+ C! G9 n
统一区间,也称等宽分箱法,使数据集在整个属性值的区间上平均分布,即每个箱的区间范围是一个常量,称为箱子宽度。
7 q9 C) x1 \: z9 R1 d2 T! ] R- L% s
: G& K& v/ v( `7 w p7 \" `8 q# [ {
用户自定义区间,用户可以根据需要自定义区间,当用户明确希望观察某些区间范围内的数据分布时,使用这种方法可以方便地帮助用户达到目的。
) F+ Y5 s$ w8 Z0 Z8 L) n+ n6 D& `$ |
% f, L; L; D3 H ~ B
例:客户收入属性income排序后的值(人民币元):800 1000 1200 1500 1500 1800 2000 2300 2500 2800 3000 3500 4000 4500 4800 5000,分箱的结果如下。
8 B/ o+ O. Y5 S4 v b5 h1 y+ i' q
( {! ^# i2 v9 @1 e; F* {
统一权重:设定权重(箱子深度)为4,分箱后
% {9 G, n- z! v5 ?/ a
2 a& q# }- R# e( l7 b& M g8 I/ i
箱1:800 1000 1200 1500
0 p* d6 P/ n3 @# J) s$ I; I
: F/ ?. z% u$ R% s
箱2:1500 1800 2000 2300
+ x' X- |2 ~. t% m4 \) ?
+ M* E. Q' f9 N( b, x! q& O$ G
箱3:2500 2800 3000 3500
$ V! _# F! R. @/ @$ u/ P
$ _. L* Z! W6 j8 q( {, ?5 i* H6 j
箱4:4000 4500 4800 5000
: E, C* I$ @3 _, C
3 |% f. Q3 |8 D# i- V
统一区间:设定区间范围(箱子宽度)为1000元人民币,分箱后
; R# `; t3 v( J1 H+ b8 M
- r. C$ X* z3 |+ r, [7 H: G
箱1:800 1000 1200 1500 1500 1800
K' v: `; C! l2 D1 s
, n2 }, q( O Q- o _9 M
箱2:2000 2300 2500 2800 3000
0 e) f3 q, ]: C
: l/ ~# X+ }. P: [% S) e3 I8 {# Z$ M, C
箱3:3500 4000 4500
, ]7 O+ n) D, j9 l4 J, X
' z& U f* \8 g) J' E
箱4:4800 5000
, K& K; [# V* T. e j, u" p
. F+ C2 l0 @2 M7 w$ k
用户自定义:如将客户收入划分为1000元以下、1000~2000、2000~3000、3000~4000和4000元以上几组,分箱后
& Y" b# x/ B# N
6 {4 I3 G! h! B8 i E
箱1:800
" k; D0 d! g7 z2 q: ]$ `$ Z' ]
- ]; k# ]; [: l' n$ N1 j
箱2:1000 1200 1500 1500 1800 2000
; }- l, ?( J" `1 @, P
: @+ e: h0 C0 a& q3 j
箱3:2300 2500 2800 3000
- s$ b E1 b. R8 a$ R
9 b. v8 r8 z3 {0 V* P( `
箱4:3500 4000
8 j3 G2 I" a( E* H# K
2 g# l5 Z0 m# J# x) t
箱5:4500 4800 5000
" \$ G8 l- P7 [* y: _& c* _
* d0 b/ T* E* B% Z/ U \
7.数据平滑方法:按平均值平滑、按边界值平滑和按中值平滑。
- u; j2 L9 \. @8 @3 ]
3 q; J* D; F. p; o5 g/ R: g
⑴按平均值平滑
0 ? a8 v R: Y
1 C0 Z# K1 f& \! w: A3 I
对同一箱值中的数据求平均值,用平均值替代该箱子中的所有数据。
& B1 K/ F" a3 A( Z1 [- S
8 _/ o% }! Q" ?3 Y3 B: e
⑵按边界值平滑
( ]$ G4 f9 m2 |) A
$ d' O' p, ]8 P, Y- g
用距离较小的边界值替代箱中每一数据。
, D/ W' Q0 X P: f, c: N/ ^! L
4 K' k+ X) G8 U8 {& @) @3 w( h
⑶按中值平滑
( K. g! Y" T9 L; h3 ?
5 G- K" f+ p* m& P
取箱子的中值,用来替代箱子中的所有数据。
, m( e# |- V% t$ K: B. \
% h! A" y) u8 |
8.聚类:将物理的或抽象对象的集合分组为由类似的对象组成的多个类。
& _! ]: c7 s y6 N! T
: L7 k& Q( `* U; g" P, q
找出并清除那些落在簇之外的值(孤立点),这些孤立点被视为噪声。
" {9 {: E4 I: S
4 @" \5 Y7 Q* v1 K, w, C8 A
9.回归;试图发现两个相关的变量之间的变化模式,通过使数据适合一个函数来平滑数据,即通过建立数学模型来预测下一个数值,包括线性回归和非线性回归。
( J; X$ Y4 X6 y% `
9 Q( H u9 _- r7 \: n6 g* i, u, Z
10.数据集成:将多文件或者多数据库中的异构数据进行合并,然后存放在一个一致的数据存储中。考虑以下几个问题: 1.模式匹配2.数据冗余3.数据值冲突
6 F6 \) X! U3 R* O, Z
6 p0 m* d& X J1 [8 E; J% V
11. 数据变换:1.平滑2.聚集3.数据概化4.规范化(1)最小-最大规范化(2)零-均值规范化(3)小数定标规范化5.属性构造
; S+ x! g$ R; ^- t8 T
& ~- x& ]0 l1 B+ v
12.数据集成:将多文件或者多数据库中的异构数据进行合并,然后存放在一个一致的数据存储中。考虑以下几个问题: 1.模式匹配2.数据冗余3.数据值冲突
2 Z% U& U2 \, H+ N5 q: s" B, \
- _1 `) o* z) A$ \5 U
13.数据归约:目的是为了获得比原始数据小的多的,但不破坏数据完整性的挖掘数据集,该数据集可以得到与原始数据相同的挖掘结果。
) M! l( g# g; [) r8 }5 u
/ m3 |) F9 _( r
数据归约的方法: 1.数据立方体聚集:把聚集的方法用于数据立方体。2.维归约:检测并删除不相关、弱相关或冗余属性。3.数据压缩:选择正确的编码压缩数据集。4.数值压缩:用较小的数据表示数据,或采用较短的数据单位,或者用数据模型代表数据。5.离散化和概念分层生成:使连续的数据离散化,用确定的有限个区段值代替原始值;概念分层是指用较高层次的概念替换低层次的概念,以此来减少取值个数。
1 x7 ]4 p5 n! ~% b; X
7 v6 I4 ^ V# T- ^# b
14.数据立方体聚集 :是数据的多维建模和表示,由维和事实组成。
8 J) A. z" N+ X& o* A* z9 K
# m) Q- W& ]& F6 O- G$ _6 x
维归约:去掉不相关的属性,减少数据挖掘处理的数据量。
: N$ s. L$ \* j% i: ^* D
) J, ]( q0 |. \+ N @' N: r
属性子集选择的基本方法包括以下几种: 1.逐步向前选择2.逐步向后删除3.向前选择和向后删除结合4.判定树归纳5.基于统计分析的归约
! C" e) h: v$ O" y
2 z2 G: T" `) @# N1 q5 z
数据压缩:方法分为两类:无损压缩和有损压缩
' N8 i% r# h- U
/ e( u" _" L$ K: J3 v; G6 d
数值归约常用的方法: 1.直方图2.聚类3.抽样:不放回简单随机抽样、放回简单随机抽样、聚类抽样和分层抽样4.线性回归5.非线性回归
& B! @: u/ K1 V: {/ X" m
0 g0 b M% R7 b! J+ I( ?! A- L
15.数据变换涉及以下几个方面:1.平滑2.聚集3.数据概化4.规范化(1)最小-最大规范化(2)零-均值规范化(3)小数定标规范化5.属性构造
- N( t8 p$ ]& D. h. Y# ~- w
. {6 D. D( z+ e6 o
*规范化:(1)最小—最大规范化。原取值区间 [old_min,old_max],规范化后的新的取值区间[new_min,new_max]。
1 v( U6 P4 r* g% x& b6 D
6 C# k5 t& b7 Z* D( e
x’= 其中:x是属性的真实值,x’是规范化后的值。
+ T/ \" r9 l+ D; \0 U
, W3 M- Y. U) g1 p8 d& f
例如:“客户背景数据”表中的客户月收入income属性的实际值范围为[12000,98000],要把这个属性值规范到[0,1],对属性值73600应用上述公式:
' a- A- X& S8 G! }- b: R- j8 x
- S5 Y; d% D' |+ L! ?+ x, Q1 T
x’=(1.0-0)+0=0.716
+ Z2 N4 ~& w) F |+ c; A
( U' Z0 k2 Z+ k
根据精度要求保留小数(假设精度要求0.01),最终取值0.72就是属性值73600规范化后的值。
6 R# b$ L, m1 `3 Z
, l8 l) I1 f- b8 c, t# J- \
(2)零—均值规范化(z—score规范化),是根据属性值的平均值和标准差进行规范化,即:
+ ~; u5 G/ I: ~, q, L j4 B& J3 l
! q e* T# B0 C ]% h4 l; U. u
x’= = = 为所有样本属性值的平均值,为样本的标准差。当属性值范围未知的时候,可以使用此方法进行规范化。
7 u! Y/ a2 B8 b' Y
) s3 b" M/ G6 U
例:假设某属性的平均值和标准差分别为80、25,采用零-均值规范化66为:x’==-0.56
5 R9 l6 K* h/ A5 K& b8 l! \
9 d+ u% @% l' q1 R
(3)小数定标规范化:通过移动属性A的小数点位置进行规范化 。
6 g K# q2 u" x, L2 X) f
) _( B9 D2 @4 P$ d
x’= 为满足式<1的最小整数。
1 A2 c0 \( d c# \& y
, q8 t) Q/ H7 @0 i0 a5 }
例:假设某属性规范化前的取值范围为[-120,110],采用小数定标规范化66。由于该属性的最大绝对值为120,则由<1可得出=3,因此,66规范化后为:x’==0.066
% }. k- M9 P3 `5 y
————————————————
- q! u) i) f. ^ o
版权声明:本文为CSDN博主「搬砖老头」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
4 ~0 @! R0 o, k$ k+ V
原文链接:https://blog.csdn.net/wang1127248268/article/details/53571956
* c3 ~5 n. I. U; ]
5 \& V9 C4 e1 g) y6 a
; ^" P8 ~/ }& o% v( M" b9 \
作者:
huangyanzuo
时间:
2020-5-19 12:06
棒!棒!棒!棒!棒!棒!棒!棒!
1 z0 a0 }/ o+ v$ d! l3 }/ @
作者:
德古拉
时间:
2020-5-20 08:04
good content but bad edition~
0 T ~/ b, L0 G% Q/ v
作者:
浅夏110
时间:
2020-5-21 11:36
huangyanzuo 发表于 2020-5-19 12:06
8 a- o+ S! f, [# P
棒!棒!棒!棒!棒!棒!棒!棒!
7 ~5 i& `' q; o4 t2 X- G/ T
* R8 ]8 V* \. q- V$ q i9 w- {
作者:
浅夏110
时间:
2020-5-21 11:36
浅夏110 发表于 2020-5-21 11:36
7 e0 m9 \# K# p2 X& |- @1 \
% n3 p5 q3 T% H( W* P8 x6 D+ j
欢迎光临 数学建模社区-数学中国 (http://www.madio.net/)
Powered by Discuz! X2.5