数学建模社区-数学中国

标题: 数据挖掘中的数据预处理方法总结 [打印本页]

作者: 浅夏110    时间: 2020-5-19 09:40
标题: 数据挖掘中的数据预处理方法总结
1.原始数据存在的几个问题:不一致;重复;含噪声;维度高。
9 v# H" k) V6 Z* \# t& d( i' B2 n: h  x) C* J6 ^8 j& i
2.数据预处理包含数据清洗、数据集成、数据变换和数据归约几种方法。4 N3 B# b1 x" N

$ `3 F: `" p( R- R4 J/ o& c4 i) D3.数据挖掘中使用的数据的原则
1 v- y7 \3 z  L+ _7 L' n9 B" x! w: L% X6 ^
应该是从原始数据中选取合适的属性作为数据挖掘属性,这个选取过程应参考的原则是:尽可能赋予属性名和属性值明确的含义;统一多数据源的属性值编码;去除惟一属性;去除重复性;去除可忽略字段;合理选择关联字段。
6 T1 P4 i/ G0 B/ W) k1 {' P: _6 I4 Y; i$ a+ J7 X" m; {
4.处理空缺值的方法:忽略该记录;去掉属性;手工填写空缺值;使用默认值;使用属性平均值;使用同类样本平均值;预测最可能的值。
# B# ?$ g3 n2 }+ O
7 x' \. O+ c+ w/ ?5.噪声数据的处理方法:分箱;聚类;计算机和人工检查结合;回归
5 Q9 ^; q, ?6 m9 @  v0 C. H4 h9 U  X% p) k) R2 {3 u& [( E* q
6.分箱:分箱方法是一种简单常用的预处理方法,通过考察相邻数据来确定最终值。所谓“分箱”,实际上就是按照属性值划分的子区间,如果一个属性值处于某个子区间范围内,就称把该属性值放进这个子区间所代表的“箱子”内。把待处理的数据(某列属性值)按照一定的规则放进一些箱子中,考察每一个箱子中的数据,采用某种方法分别对各个箱子中的数据进行处理。在采用分箱技术时,需要确定的两个主要问题就是:如何分箱以及如何对每个箱子中的数据进行平滑处理。
! ?0 }9 G0 x6 Y: ^# ?  x
" f' K" ^' h5 K分箱的方法:有4种:等深分箱法、等宽分箱法、最小熵法和用户自定义区间法。* U) P: S, b1 |- o- m

% T& M4 |  p# }) m/ g  z& _' D统一权重,也成等深分箱法,将数据集按记录行数分箱,每箱具有相同的记录数,每箱记录数称为箱子的深度。这是最简单的一种分箱方法。( y+ F, w7 ^+ A: V- V* C
& s7 ^$ A) @1 w4 v9 o
统一区间,也称等宽分箱法,使数据集在整个属性值的区间上平均分布,即每个箱的区间范围是一个常量,称为箱子宽度。
) Z6 T* s' s9 @9 E4 U% e. `! l
6 @- f& [7 T& O用户自定义区间,用户可以根据需要自定义区间,当用户明确希望观察某些区间范围内的数据分布时,使用这种方法可以方便地帮助用户达到目的。  x& `# E: I. y3 Z8 v. }- ~
% u- c7 m6 W3 J0 P7 F# a5 c+ _' a. K
例:客户收入属性income排序后的值(人民币元):800 1000 1200 1500  1500 1800 2000 2300 2500 2800 3000 3500 4000 4500 4800 5000,分箱的结果如下。( x* D$ A' q1 z: y! ]

) q+ o6 g; s9 f统一权重:设定权重(箱子深度)为4,分箱后
( a9 B6 x2 h$ L! e% {
" D* U; N( x2 ~0 [箱1:800 1000 1200 1500
  _$ M' F) G  x0 d: t  H
' |* H9 W# E( N4 s# g( u) S! N箱2:1500 1800 2000 2300 8 ]0 x: S1 t: `3 X

) u! B- ]- B1 |- R/ r$ Z% Q0 r箱3:2500 2800 3000 3500( V4 T0 j1 v& y9 U) Y$ v9 z

5 J+ f# X7 \$ W2 t箱4:4000 4500 4800 5000   $ [) v5 q/ e7 ^& n  n& [

4 l+ s/ s7 c. P' J, j3 L& g统一区间:设定区间范围(箱子宽度)为1000元人民币,分箱后+ j5 C1 k0 ]/ e! G5 c3 ^' I( D& K
1 M# i- H$ C; L% H; E
箱1:800 1000 1200 1500 1500 1800  u6 `. s; a( I

8 p, E  R9 ]) s箱2:2000 2300 2500 2800 3000) W# S2 y$ E# }. ]2 f/ r. G' ]- c

+ t# \0 Q* z  y( \  P/ {" r' r5 ?箱3:3500 4000 4500
6 w$ I/ f5 G. g& Y  S, }. C' K6 q$ Y7 y" L, }6 e
箱4:4800 5000
& _" b3 L4 B# H3 u2 h
, s+ g) {4 _5 A* e& ?2 P" c" T  y& K用户自定义:如将客户收入划分为1000元以下、1000~2000、2000~3000、3000~4000和4000元以上几组,分箱后* Y( G( \6 S9 l
$ ?* F* \1 x) ~" T. O
箱1:800 1 A$ i+ [3 @8 {- V8 o" N
* O; K+ k0 K1 y: R1 B' T
箱2:1000 1200 1500 1500 1800 2000 9 s) h, Q" s; \: P" ?& c/ r- T# I2 _

; Q3 M# @6 J2 H& i* i箱3:2300 2500 2800 3000  
4 [6 G5 F2 f- c
  [. W% ?. E2 h+ M箱4:3500 4000
0 }8 U( i1 X) ?8 c- j7 E& @3 d7 V* k6 \1 U: `! r
箱5:4500 4800 5000
6 O: j4 F- g; }/ Q* |/ u& ?" A0 R8 w2 S+ N6 \( K2 Y+ t
7.数据平滑方法:按平均值平滑、按边界值平滑和按中值平滑。
! B' c2 k2 J- _) e& ~/ K
2 \( u, Y$ t2 U9 g) x⑴按平均值平滑 % J$ k. o% C! Z5 \2 k, ]. r# T( N
, b; A8 s2 Q3 o6 G3 c. U
对同一箱值中的数据求平均值,用平均值替代该箱子中的所有数据。 0 W% u! M# c7 D) @  t# T5 S
, f/ E4 L, x1 T- O* o
⑵按边界值平滑 4 [! }9 E* f8 ?/ {  e# J0 r

; N3 i+ R( ?: l: X用距离较小的边界值替代箱中每一数据。 7 \, D  N. y) z7 j5 i

3 N8 [) W- N4 k- X5 n⑶按中值平滑 8 J2 a# p4 s' |' I

& E1 L: ^8 O" g4 _& P( x取箱子的中值,用来替代箱子中的所有数据。 , f  t( {5 A) _# u1 r5 _3 k9 m- j
9 v/ }$ a5 w% b  J9 y' G; O
8.聚类:将物理的或抽象对象的集合分组为由类似的对象组成的多个类。, ?0 G5 [: P, i- s7 u

2 _& \+ k/ x% m! r* S找出并清除那些落在簇之外的值(孤立点),这些孤立点被视为噪声。
/ c6 `8 @3 C* N0 ^( x- q8 k
( b2 x3 \! y: U8 ]" j" \& T7 f; m$ j1 T9.回归;试图发现两个相关的变量之间的变化模式,通过使数据适合一个函数来平滑数据,即通过建立数学模型来预测下一个数值,包括线性回归和非线性回归。   
2 `2 x$ O4 L+ A5 }3 l( a) \; u
$ F" w. z( A$ k# K10.数据集成:将多文件或者多数据库中的异构数据进行合并,然后存放在一个一致的数据存储中。考虑以下几个问题: 1.模式匹配2.数据冗余3.数据值冲突 5 P9 K. R1 N  `  e5 W) e
2 o# R' z: W# Z2 h* {1 L4 T
11. 数据变换:1.平滑2.聚集3.数据概化4.规范化(1)最小-最大规范化(2)零-均值规范化(3)小数定标规范化5.属性构造6 C: G- v1 E: J" r0 p& y& q
7 L) N) X( h  ]$ U: f& p" ~
12.数据集成:将多文件或者多数据库中的异构数据进行合并,然后存放在一个一致的数据存储中。考虑以下几个问题: 1.模式匹配2.数据冗余3.数据值冲突 : t, i+ Y+ H) i) J0 T! J
6 f6 O) _; a. N/ H. P! K
13.数据归约:目的是为了获得比原始数据小的多的,但不破坏数据完整性的挖掘数据集,该数据集可以得到与原始数据相同的挖掘结果。 9 {2 n  C$ Q& r( w2 n

" M* [' \4 |0 T0 t- b- y3 U数据归约的方法: 1.数据立方体聚集:把聚集的方法用于数据立方体。2.维归约:检测并删除不相关、弱相关或冗余属性。3.数据压缩:选择正确的编码压缩数据集。4.数值压缩:用较小的数据表示数据,或采用较短的数据单位,或者用数据模型代表数据。5.离散化和概念分层生成:使连续的数据离散化,用确定的有限个区段值代替原始值;概念分层是指用较高层次的概念替换低层次的概念,以此来减少取值个数。2 I/ I, u, k6 [( E( g6 L- J

7 K) H9 d. b* t# }0 o3 _  N6 m14.数据立方体聚集 :是数据的多维建模和表示,由维和事实组成。 * i% P  {1 U6 }& L; ^- M

* O0 P* E$ ?! J% L维归约:去掉不相关的属性,减少数据挖掘处理的数据量。 + E2 w' ^% T7 C; ?
( ]: |6 @) N3 d& M0 x6 Q- W7 h% f
属性子集选择的基本方法包括以下几种: 1.逐步向前选择2.逐步向后删除3.向前选择和向后删除结合4.判定树归纳5.基于统计分析的归约   . B7 b- d/ S, f

- Y1 t- G4 L9 v3 a' p数据压缩:方法分为两类:无损压缩和有损压缩
! ?8 Y1 Y& l( H' X! N/ x+ P1 ?% b
+ P5 ^3 Z! Y. e7 \0 ^数值归约常用的方法: 1.直方图2.聚类3.抽样:不放回简单随机抽样、放回简单随机抽样、聚类抽样和分层抽样4.线性回归5.非线性回归     $ o/ R  v8 q3 Z2 \9 d# n6 ~
1 G% }/ A9 h! X2 R% m% \
15.数据变换涉及以下几个方面:1.平滑2.聚集3.数据概化4.规范化(1)最小-最大规范化(2)零-均值规范化(3)小数定标规范化5.属性构造' M; N0 t8 ~0 Y: E. U% F
. n0 b8 g1 p9 g8 J2 c. ?
*规范化:(1)最小—最大规范化。原取值区间 [old_min,old_max],规范化后的新的取值区间[new_min,new_max]。/ u% A3 @3 Z. T) C/ w9 ^: Y
% O1 g0 D1 L- R; ?. P8 [
x’=  其中:x是属性的真实值,x’是规范化后的值。
7 g- |6 E1 n3 q. W& d( S9 Y/ @/ L$ O; T; l
例如:“客户背景数据”表中的客户月收入income属性的实际值范围为[12000,98000],要把这个属性值规范到[0,1],对属性值73600应用上述公式:
9 Y7 I9 _# r( p( t/ s2 g; S" q/ j4 k9 I6 M9 l' [
x’=(1.0-0)+0=0.716
2 |5 H$ }3 B( N6 G3 c4 i) C( f" q, B3 l  ~5 t0 o* v; P
根据精度要求保留小数(假设精度要求0.01),最终取值0.72就是属性值73600规范化后的值。: d% y# f' f. {: o: |( D5 K
4 X4 x& |5 X8 a- o1 e
(2)零—均值规范化(z—score规范化),是根据属性值的平均值和标准差进行规范化,即:5 X* d5 C# {  r6 g4 G! b( \
( f* i4 q3 x% G% M8 l5 H: I7 {3 J8 V
x’=   =  =    为所有样本属性值的平均值,为样本的标准差。当属性值范围未知的时候,可以使用此方法进行规范化。
' |" J4 ~+ z  ^* H, p; g) B
, j9 F/ q( s6 N  y- Z9 Q    例:假设某属性的平均值和标准差分别为80、25,采用零-均值规范化66为:x’==-0.56
. K, T  ?) o) v( n& a$ e' @. I7 p3 p
2 ^- T& e6 }; a+ b& B! @(3)小数定标规范化:通过移动属性A的小数点位置进行规范化 。
; m; }+ x0 l+ P- C; ~6 P" o
& a; g' T2 |: U: N# Y+ ?% Z- g3 `: jx’= 为满足式<1的最小整数。
% T2 r1 B7 P% }8 ^/ K* B$ I( z& e2 f6 Y) v7 E
例:假设某属性规范化前的取值范围为[-120,110],采用小数定标规范化66。由于该属性的最大绝对值为120,则由<1可得出=3,因此,66规范化后为:x’==0.066
9 l: K: O. p% G+ B* E6 j( @' Z4 Z: E————————————————
/ p# ?) L- v, |" E# z版权声明:本文为CSDN博主「搬砖老头」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
5 F$ E! W8 o; F2 S; K原文链接:https://blog.csdn.net/wang1127248268/article/details/53571956
. O  l9 X$ C/ V8 D- Q0 C# `( {6 y! b! w3 O

) w3 O; e0 l+ M* z; v, r4 x+ B) _
作者: huangyanzuo    时间: 2020-5-19 12:06
棒!棒!棒!棒!棒!棒!棒!棒!
( ]& H. S# w/ Q+ v! q; Y2 w
作者: 德古拉    时间: 2020-5-20 08:04
good content but bad edition~
. E) o9 V6 r" w# {& P  q
作者: 浅夏110    时间: 2020-5-21 11:36
huangyanzuo 发表于 2020-5-19 12:06
6 @: m* `7 @* [6 ]- _4 p% w' h+ Z: F棒!棒!棒!棒!棒!棒!棒!棒!

4 ]1 `5 O1 N9 x# Z' T# n! }) f7 W0 J& ~& {4 {. Y2 u

作者: 浅夏110    时间: 2020-5-21 11:36
浅夏110 发表于 2020-5-21 11:36

- K# d  k+ x; D! d# f
3 d- \  o2 N, w& k% N! [6 k% l




欢迎光临 数学建模社区-数学中国 (http://www.madio.net/) Powered by Discuz! X2.5