数学建模社区-数学中国
标题:
数据挖掘中的数据预处理方法总结
[打印本页]
作者:
浅夏110
时间:
2020-5-19 09:40
标题:
数据挖掘中的数据预处理方法总结
1.原始数据存在的几个问题:不一致;重复;含噪声;维度高。
# v2 J' T! A9 f: G2 o1 j( U7 A
# T4 V; K0 c. A; V( k) ^
2.数据预处理包含数据清洗、数据集成、数据变换和数据归约几种方法。
$ _$ n* s+ P" }& s0 L
4 G& N+ r, y/ e& y, {! y2 d
3.数据挖掘中使用的数据的原则
4 [+ a! }& _/ M% @& ^
2 a' R9 M6 o& d* F7 G/ D0 ~3 X" T
应该是从原始数据中选取合适的属性作为数据挖掘属性,这个选取过程应参考的原则是:尽可能赋予属性名和属性值明确的含义;统一多数据源的属性值编码;去除惟一属性;去除重复性;去除可忽略字段;合理选择关联字段。
% ~1 u% R/ v3 |, t2 Z$ ?$ @
6 [, ~2 R1 s$ u5 D. }+ Y, V( h( U
4.处理空缺值的方法:忽略该记录;去掉属性;手工填写空缺值;使用默认值;使用属性平均值;使用同类样本平均值;预测最可能的值。
- Z( c4 x6 w# N
# I+ r/ m, C! X: s4 ^1 A, T- [
5.噪声数据的处理方法:分箱;聚类;计算机和人工检查结合;回归
+ H" D6 |( y3 a, g% n: ~" G
" ~) E0 V9 Y2 G+ E( l
6.分箱:分箱方法是一种简单常用的预处理方法,通过考察相邻数据来确定最终值。所谓“分箱”,实际上就是按照属性值划分的子区间,如果一个属性值处于某个子区间范围内,就称把该属性值放进这个子区间所代表的“箱子”内。把待处理的数据(某列属性值)按照一定的规则放进一些箱子中,考察每一个箱子中的数据,采用某种方法分别对各个箱子中的数据进行处理。在采用分箱技术时,需要确定的两个主要问题就是:如何分箱以及如何对每个箱子中的数据进行平滑处理。
! {. l& }* ]+ ]+ X" u- A* R: I
5 P7 |3 G' R% c1 @" t/ t' _6 e/ p
分箱的方法:有4种:等深分箱法、等宽分箱法、最小熵法和用户自定义区间法。
u1 i8 J& O& d7 \1 ~ j* G# u7 p1 r
9 ]5 p' n+ [- h7 c1 T( q# D* ]
统一权重,也成等深分箱法,将数据集按记录行数分箱,每箱具有相同的记录数,每箱记录数称为箱子的深度。这是最简单的一种分箱方法。
* A- y7 D5 I1 n0 }
$ I/ O7 _5 \ l- d6 [
统一区间,也称等宽分箱法,使数据集在整个属性值的区间上平均分布,即每个箱的区间范围是一个常量,称为箱子宽度。
4 R* _6 X8 _, r8 s% U
/ r8 }! b- c5 h% }
用户自定义区间,用户可以根据需要自定义区间,当用户明确希望观察某些区间范围内的数据分布时,使用这种方法可以方便地帮助用户达到目的。
2 i4 T% Q8 ~- u7 l" F+ ^
* _3 l( |% l& e4 v) A2 h! h" a
例:客户收入属性income排序后的值(人民币元):800 1000 1200 1500 1500 1800 2000 2300 2500 2800 3000 3500 4000 4500 4800 5000,分箱的结果如下。
, O1 S7 X: z) {6 U5 A# d
' N. d' E9 E3 F5 n7 f( B
统一权重:设定权重(箱子深度)为4,分箱后
0 q0 u) ?( O* f; k! b8 y
$ K; y3 F, C! @) U# L9 K6 p# |7 x
箱1:800 1000 1200 1500
. o, K ]* m8 g H* o% D1 ~
2 ^6 Q% j8 b( x) ~8 P
箱2:1500 1800 2000 2300
6 q5 P4 r; X9 ^9 F
) o) i8 n& a' w4 d# u& I; Y8 Z. Z
箱3:2500 2800 3000 3500
2 X0 [0 P8 `6 @0 q. [
$ g# E1 P I: Z( \- _0 x
箱4:4000 4500 4800 5000
4 O, v- X$ ?' _- R9 |) N6 P
( m* u) B# H6 l; r* b
统一区间:设定区间范围(箱子宽度)为1000元人民币,分箱后
$ }) e2 Q- v: `+ T' [1 L3 Z( ^
9 @8 d" Q; C% `5 t' i) R
箱1:800 1000 1200 1500 1500 1800
# t% q$ x8 w: d8 E) Q. t- r! f
* Q$ S$ _& o+ M l) N8 b
箱2:2000 2300 2500 2800 3000
5 o1 ~, q6 @( q# v
- F3 Y% p- c2 ?
箱3:3500 4000 4500
1 ]' W6 l, d; X7 V. p$ e
# ]% |1 O8 J8 m1 v
箱4:4800 5000
6 e5 l+ a9 Q$ p
, ^6 u$ G0 \) z3 X3 S7 ^( F. t
用户自定义:如将客户收入划分为1000元以下、1000~2000、2000~3000、3000~4000和4000元以上几组,分箱后
, E5 t; J3 Q- ~# p9 @
' j; F3 y% |1 n
箱1:800
0 k) @0 ]# b4 e0 y/ C# V" D5 J
; ^) p1 p5 u' h. Y$ P- C, W. P% \8 ]
箱2:1000 1200 1500 1500 1800 2000
) b/ n% O+ H( P5 v4 M. v% ]
! p8 g0 f8 V: V5 H; z& D& w$ G
箱3:2300 2500 2800 3000
5 ~5 x5 `4 x l" o o9 q3 u
; h$ v; t4 T8 H( p5 i
箱4:3500 4000
0 } M+ k. V' P
! ^. \' F% r. r0 O! K
箱5:4500 4800 5000
' o5 T$ o7 ` `# b- z" S, P0 e
( V6 J7 a) r& Y& v5 x
7.数据平滑方法:按平均值平滑、按边界值平滑和按中值平滑。
! @" J% m% g% y& G
9 J* g! I) D- \0 Q1 L1 g* E O
⑴按平均值平滑
7 a2 s0 ?2 I0 [2 I
, b% J6 U& h1 o! }% c( I
对同一箱值中的数据求平均值,用平均值替代该箱子中的所有数据。
4 P+ r! c/ H+ s \: Q; J& l. _
2 `0 n" M$ s# a9 T5 _
⑵按边界值平滑
& U( {* I3 p, \/ ~$ W; \1 n% k: Q1 G
8 _: Z* e4 B! W
用距离较小的边界值替代箱中每一数据。
# ]% X! h$ h; q3 D# x! E
: ]3 T s+ y/ \1 J+ j) y0 k
⑶按中值平滑
6 ?5 i! C+ q4 a7 ~) X9 |0 u8 A5 g5 f
: m4 c3 E6 N' r9 I: C
取箱子的中值,用来替代箱子中的所有数据。
' X+ P0 i$ }# U5 N! D( ]6 h. B
0 ^' [0 G( |$ {* p6 u5 U0 }- O+ o
8.聚类:将物理的或抽象对象的集合分组为由类似的对象组成的多个类。
@0 V. b) L2 i( ^; k7 g- f
. q- Y! z4 N: L6 { T! }
找出并清除那些落在簇之外的值(孤立点),这些孤立点被视为噪声。
/ v" E2 n( Y+ a7 L5 l; }
" _) s4 g" y" `( l8 p7 H
9.回归;试图发现两个相关的变量之间的变化模式,通过使数据适合一个函数来平滑数据,即通过建立数学模型来预测下一个数值,包括线性回归和非线性回归。
1 L7 `; ?& \3 c- o! g$ ?
+ u7 y8 W* p* [0 N
10.数据集成:将多文件或者多数据库中的异构数据进行合并,然后存放在一个一致的数据存储中。考虑以下几个问题: 1.模式匹配2.数据冗余3.数据值冲突
- R+ B- K3 j1 ?2 H3 D
) l* P$ j& m3 b" }: t; a+ `
11. 数据变换:1.平滑2.聚集3.数据概化4.规范化(1)最小-最大规范化(2)零-均值规范化(3)小数定标规范化5.属性构造
6 Q1 j- b8 h3 L2 u9 @6 G
0 g8 i- f3 ]3 \! {
12.数据集成:将多文件或者多数据库中的异构数据进行合并,然后存放在一个一致的数据存储中。考虑以下几个问题: 1.模式匹配2.数据冗余3.数据值冲突
3 r/ u% M6 g; `; f4 y6 \
8 X5 K; \' A' b% S- m
13.数据归约:目的是为了获得比原始数据小的多的,但不破坏数据完整性的挖掘数据集,该数据集可以得到与原始数据相同的挖掘结果。
5 I7 A. }( M& @. h7 r
( l& i$ ~: |* }% l0 ?
数据归约的方法: 1.数据立方体聚集:把聚集的方法用于数据立方体。2.维归约:检测并删除不相关、弱相关或冗余属性。3.数据压缩:选择正确的编码压缩数据集。4.数值压缩:用较小的数据表示数据,或采用较短的数据单位,或者用数据模型代表数据。5.离散化和概念分层生成:使连续的数据离散化,用确定的有限个区段值代替原始值;概念分层是指用较高层次的概念替换低层次的概念,以此来减少取值个数。
# I, x; z5 ^! a. R/ ^1 t8 J8 o ~; X
, J9 ?& M7 \; \& c7 O& @3 x5 s0 ]
14.数据立方体聚集 :是数据的多维建模和表示,由维和事实组成。
" ^8 O9 ^4 Q4 }: E% G& Z: B B
; }; z4 X: o% H
维归约:去掉不相关的属性,减少数据挖掘处理的数据量。
% n$ A- Z% H& U6 b& {
) y- z* O/ f. r% X) q' s
属性子集选择的基本方法包括以下几种: 1.逐步向前选择2.逐步向后删除3.向前选择和向后删除结合4.判定树归纳5.基于统计分析的归约
0 B' B) f$ X. V7 A; S7 E8 R3 M
' H6 [8 O2 X o" x& R" V9 \( S0 o
数据压缩:方法分为两类:无损压缩和有损压缩
, V. {# F4 _: L
4 Z9 k A( e' @% ^
数值归约常用的方法: 1.直方图2.聚类3.抽样:不放回简单随机抽样、放回简单随机抽样、聚类抽样和分层抽样4.线性回归5.非线性回归
' v( A+ }* k8 `% j' y
6 T% Q& P+ r+ I
15.数据变换涉及以下几个方面:1.平滑2.聚集3.数据概化4.规范化(1)最小-最大规范化(2)零-均值规范化(3)小数定标规范化5.属性构造
9 T$ O6 S1 q+ g& f6 P) p8 Z
/ F( @& l% Y/ _6 F, \
*规范化:(1)最小—最大规范化。原取值区间 [old_min,old_max],规范化后的新的取值区间[new_min,new_max]。
( \0 [7 C! f( M0 i
# j5 O' Z' B% }1 `( X
x’= 其中:x是属性的真实值,x’是规范化后的值。
8 \9 ]0 o4 T$ r8 d/ y
$ g, Y( h( W8 h9 Z( q& u9 |
例如:“客户背景数据”表中的客户月收入income属性的实际值范围为[12000,98000],要把这个属性值规范到[0,1],对属性值73600应用上述公式:
1 O, V8 D, s+ k! [' O
" Q0 ^1 V. r6 y$ Z5 S
x’=(1.0-0)+0=0.716
. _8 T7 t* q. N
/ E1 O, [/ z6 {$ v u: k& B4 s7 j
根据精度要求保留小数(假设精度要求0.01),最终取值0.72就是属性值73600规范化后的值。
- o+ p! p `( l
( y6 @7 w4 L2 o
(2)零—均值规范化(z—score规范化),是根据属性值的平均值和标准差进行规范化,即:
9 a/ C7 L, J7 Z
$ N! T Y, }. q, I
x’= = = 为所有样本属性值的平均值,为样本的标准差。当属性值范围未知的时候,可以使用此方法进行规范化。
9 V0 |9 p& a; r; N- K5 C
% q$ G. j+ ~8 s$ \$ Q+ T# E& i) A
例:假设某属性的平均值和标准差分别为80、25,采用零-均值规范化66为:x’==-0.56
" X4 l' X5 D8 j* f: f
8 {, d, ?- ^6 _4 M+ G
(3)小数定标规范化:通过移动属性A的小数点位置进行规范化 。
( ~# d8 J8 v' [! O+ \6 ]/ C9 B
# ]2 d6 m' j% N3 I% I- v, F
x’= 为满足式<1的最小整数。
3 ^5 g+ H+ ^' r& }' P# c
* g8 g! J" V9 ?: U* A2 y. t- n
例:假设某属性规范化前的取值范围为[-120,110],采用小数定标规范化66。由于该属性的最大绝对值为120,则由<1可得出=3,因此,66规范化后为:x’==0.066
2 F( z' [% T7 N4 @
————————————————
/ a2 L" C5 t, W1 s1 c. M* |
版权声明:本文为CSDN博主「搬砖老头」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
( C& `% y% ]! x
原文链接:https://blog.csdn.net/wang1127248268/article/details/53571956
u; `& i5 E2 D
' C7 y: y" G& q8 L: [ B1 k
- l# [" R' Y( x5 ^5 j/ ~
作者:
huangyanzuo
时间:
2020-5-19 12:06
棒!棒!棒!棒!棒!棒!棒!棒!
" ]( e0 s$ Y9 L+ V6 r/ j. D) N
作者:
德古拉
时间:
2020-5-20 08:04
good content but bad edition~
% a, h; B, D- |8 Z: O
作者:
浅夏110
时间:
2020-5-21 11:36
huangyanzuo 发表于 2020-5-19 12:06
{- C9 J5 q& v! ]
棒!棒!棒!棒!棒!棒!棒!棒!
" a% d! f( [0 [8 X
9 ~& P1 N( B4 K- W
作者:
浅夏110
时间:
2020-5-21 11:36
浅夏110 发表于 2020-5-21 11:36
. E, q4 b/ _3 w% @
: S2 B3 F- V% o
欢迎光临 数学建模社区-数学中国 (http://www.madio.net/)
Powered by Discuz! X2.5