- 在线时间
- 791 小时
- 最后登录
- 2022-11-28
- 注册时间
- 2017-6-12
- 听众数
- 15
- 收听数
- 0
- 能力
- 120 分
- 体力
- 36352 点
- 威望
- 11 点
- 阅读权限
- 255
- 积分
- 13866
- 相册
- 0
- 日志
- 0
- 记录
- 1
- 帖子
- 616
- 主题
- 542
- 精华
- 12
- 分享
- 0
- 好友
- 225
TA的每日心情 | 开心 2020-11-14 17:15 |
|---|
签到天数: 74 天 [LV.6]常住居民II
 群组: 2019美赛冲刺课程 群组: 站长地区赛培训 群组: 2019考研数学 桃子老师 群组: 2018教师培训(呼伦贝 群组: 2019考研数学 站长系列 |
1.原始数据存在的几个问题:不一致;重复;含噪声;维度高。
. M. N+ C$ b* S# }, I
[' u1 `/ s. _" q3 |2.数据预处理包含数据清洗、数据集成、数据变换和数据归约几种方法。- {2 ~+ J& L0 m% u9 I# }! l, t
7 m2 V! w+ m3 v$ W5 g3.数据挖掘中使用的数据的原则
4 o) Z% k& l- o. J9 p
' F, V' H* @, g0 c" T* K1 `应该是从原始数据中选取合适的属性作为数据挖掘属性,这个选取过程应参考的原则是:尽可能赋予属性名和属性值明确的含义;统一多数据源的属性值编码;去除惟一属性;去除重复性;去除可忽略字段;合理选择关联字段。4 b5 J& a8 a& |7 s5 b
, S8 F7 R3 v7 a# f1 M# B& F4.处理空缺值的方法:忽略该记录;去掉属性;手工填写空缺值;使用默认值;使用属性平均值;使用同类样本平均值;预测最可能的值。
/ j- l; t/ S4 K; @" b0 T0 ^; B
$ R/ |) u/ x, A/ B- r5.噪声数据的处理方法:分箱;聚类;计算机和人工检查结合;回归
* h9 \. Y- g& _, H2 h
3 x- p: C) h& h6.分箱:分箱方法是一种简单常用的预处理方法,通过考察相邻数据来确定最终值。所谓“分箱”,实际上就是按照属性值划分的子区间,如果一个属性值处于某个子区间范围内,就称把该属性值放进这个子区间所代表的“箱子”内。把待处理的数据(某列属性值)按照一定的规则放进一些箱子中,考察每一个箱子中的数据,采用某种方法分别对各个箱子中的数据进行处理。在采用分箱技术时,需要确定的两个主要问题就是:如何分箱以及如何对每个箱子中的数据进行平滑处理。& |) F9 j& I% o* T1 E1 u0 R3 Q
# o- Z! L+ g7 i: E8 A+ |8 v
分箱的方法:有4种:等深分箱法、等宽分箱法、最小熵法和用户自定义区间法。
_/ {7 L( B2 y6 q8 j4 {. _! A3 b% U9 e0 D: o
统一权重,也成等深分箱法,将数据集按记录行数分箱,每箱具有相同的记录数,每箱记录数称为箱子的深度。这是最简单的一种分箱方法。
4 Z4 ?+ z! G/ L6 j( c" Z. ^. S: X
统一区间,也称等宽分箱法,使数据集在整个属性值的区间上平均分布,即每个箱的区间范围是一个常量,称为箱子宽度。
$ N* _3 f$ S7 [4 N# G
4 u9 S3 p }. v Q- n- h& D8 f用户自定义区间,用户可以根据需要自定义区间,当用户明确希望观察某些区间范围内的数据分布时,使用这种方法可以方便地帮助用户达到目的。
1 @" g; g. p$ \% ?3 e6 H; P6 r' P: M: Y7 l/ r# \
例:客户收入属性income排序后的值(人民币元):800 1000 1200 1500 1500 1800 2000 2300 2500 2800 3000 3500 4000 4500 4800 5000,分箱的结果如下。- ]. Q _8 j J
B$ o- F2 O& G+ N4 l) e/ w0 z9 J
统一权重:设定权重(箱子深度)为4,分箱后- b* s) O; h( N
( o9 t9 z5 A r, f5 B: z% D
箱1:800 1000 1200 15001 B7 H; Q+ ^) t
5 m% R# T% Y- M箱2:1500 1800 2000 2300 8 {7 t9 }/ p& D; ] H; z3 T
6 H2 C) w7 t4 X5 l. W: u
箱3:2500 2800 3000 35001 {0 ~ q" Z; Q
* O* N' z, d0 H# r
箱4:4000 4500 4800 5000 - h) _8 m0 l3 V
1 j" H) A- v/ v7 i4 z
统一区间:设定区间范围(箱子宽度)为1000元人民币,分箱后
5 t: o; @. x- ]0 e% y1 p
- V9 V8 r( j: V, m箱1:800 1000 1200 1500 1500 1800
$ {7 r& D. p, R: t$ L r: A: I9 i
箱2:2000 2300 2500 2800 3000
6 L9 m& F# S/ D. q" l8 l5 V! R2 o8 q( Z2 [# N0 R$ \5 M
箱3:3500 4000 4500
2 x# z4 }% @) A3 t Z" o3 q5 n: A2 p( L/ E% K' a
箱4:4800 5000 1 Q. O+ u: N& \$ O' Q/ F" o# {9 O
8 M& |' ]4 T! _* G用户自定义:如将客户收入划分为1000元以下、1000~2000、2000~3000、3000~4000和4000元以上几组,分箱后
7 l8 H0 U3 e8 s4 C$ E: t7 ?! n- u6 l0 h c) F
箱1:800 3 R9 L, F }) J5 a1 Z" l) P
2 f3 P6 x/ G+ P% l- w0 N箱2:1000 1200 1500 1500 1800 2000
# i. ?3 X5 }8 R4 K& \% v, u6 b/ ], M
箱3:2300 2500 2800 3000 & a" h, O" n# G- o
2 o* ^3 F2 B7 v h; R箱4:3500 4000
/ H$ @% A: J$ G; T) _
7 t) l* |3 e+ f# r6 R( H5 z箱5:4500 4800 5000 0 U9 C# z% L5 F3 ]4 R8 D
5 c" }) H" [9 U" B: U* w6 t
7.数据平滑方法:按平均值平滑、按边界值平滑和按中值平滑。
( @$ X' E2 a- f4 K" a% k: ?( M1 ?4 ^: s q0 H+ f+ {/ D1 ~$ r& `
⑴按平均值平滑
2 z+ z/ j& T' }- ?- l/ ?
, o$ H4 P* Z2 W6 S9 G对同一箱值中的数据求平均值,用平均值替代该箱子中的所有数据。 0 Q+ Z9 F) ^# d; w
4 [3 m; ^7 S# x: ~$ H5 Y1 p⑵按边界值平滑
3 P* `* ~1 B$ f% |# ]4 ?7 g- M; N
3 Q: y3 A6 o8 h3 \" \用距离较小的边界值替代箱中每一数据。
/ l: a( l6 V0 _6 i" w9 ~+ Q }$ c; P# ?; Y5 O4 }9 y3 ]! L
⑶按中值平滑
. i- w$ y- Q+ N* _& N
- S( K% }/ N$ \1 X7 C* n7 F取箱子的中值,用来替代箱子中的所有数据。 ' z* l3 [+ p& O& F6 `! A
1 k; p8 y3 O4 s" r; s
8.聚类:将物理的或抽象对象的集合分组为由类似的对象组成的多个类。
; Q& S/ w4 E! u
" D5 v7 p0 w, B! i% k' ?& N找出并清除那些落在簇之外的值(孤立点),这些孤立点被视为噪声。
" `# C, B, k& U' |" b6 K! r
1 n: s* C* R+ W& [5 I9.回归;试图发现两个相关的变量之间的变化模式,通过使数据适合一个函数来平滑数据,即通过建立数学模型来预测下一个数值,包括线性回归和非线性回归。
# v* u0 L: ^# e% J; ^* V* a. v1 a! l7 I9 S+ W
10.数据集成:将多文件或者多数据库中的异构数据进行合并,然后存放在一个一致的数据存储中。考虑以下几个问题: 1.模式匹配2.数据冗余3.数据值冲突 . p+ R& x; {5 g3 d+ m+ |
8 D# U/ g9 s. n% w6 }1 [5 x11. 数据变换:1.平滑2.聚集3.数据概化4.规范化(1)最小-最大规范化(2)零-均值规范化(3)小数定标规范化5.属性构造: f- G$ R7 I, \( E8 T5 N' F
( {9 G1 R; t6 X; g W. `
12.数据集成:将多文件或者多数据库中的异构数据进行合并,然后存放在一个一致的数据存储中。考虑以下几个问题: 1.模式匹配2.数据冗余3.数据值冲突
# v2 v5 z$ T9 C% d. X% P: r0 \
# y2 K% R! |: G. Z13.数据归约:目的是为了获得比原始数据小的多的,但不破坏数据完整性的挖掘数据集,该数据集可以得到与原始数据相同的挖掘结果。
, e; {/ H/ a6 y# b) s6 x0 h4 [3 a" `6 R
数据归约的方法: 1.数据立方体聚集:把聚集的方法用于数据立方体。2.维归约:检测并删除不相关、弱相关或冗余属性。3.数据压缩:选择正确的编码压缩数据集。4.数值压缩:用较小的数据表示数据,或采用较短的数据单位,或者用数据模型代表数据。5.离散化和概念分层生成:使连续的数据离散化,用确定的有限个区段值代替原始值;概念分层是指用较高层次的概念替换低层次的概念,以此来减少取值个数。 N0 C, j9 p3 E; M' J
" b, ]' f3 `* C2 t4 r7 Q# O4 q
14.数据立方体聚集 :是数据的多维建模和表示,由维和事实组成。
' ?0 S$ r w& B# B. H- d* Q, }* _: _- S P) C
维归约:去掉不相关的属性,减少数据挖掘处理的数据量。 8 i6 \0 J/ q" g9 H
/ w' d' P5 T, ]% |属性子集选择的基本方法包括以下几种: 1.逐步向前选择2.逐步向后删除3.向前选择和向后删除结合4.判定树归纳5.基于统计分析的归约
4 g o/ f! m" ^, S
) Y6 B4 m. V3 G2 @4 s) R% I/ ~8 o数据压缩:方法分为两类:无损压缩和有损压缩" \3 u1 g$ h# }
: a% P4 M7 {0 D* ~数值归约常用的方法: 1.直方图2.聚类3.抽样:不放回简单随机抽样、放回简单随机抽样、聚类抽样和分层抽样4.线性回归5.非线性回归
. ^, V- }' T' k& e# P
3 d2 x1 t3 p* k1 R! B: W15.数据变换涉及以下几个方面:1.平滑2.聚集3.数据概化4.规范化(1)最小-最大规范化(2)零-均值规范化(3)小数定标规范化5.属性构造% o8 x( Q' d8 H
9 T- |: m/ [! H2 l+ }
*规范化:(1)最小—最大规范化。原取值区间 [old_min,old_max],规范化后的新的取值区间[new_min,new_max]。
. v J* C7 ?) x0 w! H9 ?. z0 Y; x
x’= 其中:x是属性的真实值,x’是规范化后的值。- L' Q* c1 n z x. B4 c+ a7 ~
3 [! o$ H0 k4 I) e% O: n0 x
例如:“客户背景数据”表中的客户月收入income属性的实际值范围为[12000,98000],要把这个属性值规范到[0,1],对属性值73600应用上述公式:, ^; [- i4 G) g' X$ K* t
- E3 Z8 k$ A6 Q0 t; _0 G: wx’=(1.0-0)+0=0.716/ T6 ^9 l- s" n
2 w { y5 J s* r, a# \3 d
根据精度要求保留小数(假设精度要求0.01),最终取值0.72就是属性值73600规范化后的值。+ q9 S8 W' c8 M* Y1 i, J6 H
2 Z3 t6 q V3 s4 N5 t) i; O! h
(2)零—均值规范化(z—score规范化),是根据属性值的平均值和标准差进行规范化,即:4 L+ [0 N8 s3 J
. i7 A, g; ~: n
x’= = = 为所有样本属性值的平均值,为样本的标准差。当属性值范围未知的时候,可以使用此方法进行规范化。1 s& I# U7 {& A" L
' u" k2 o- [& j/ i( m+ O+ G; `
例:假设某属性的平均值和标准差分别为80、25,采用零-均值规范化66为:x’==-0.56; _9 a& \+ i! l# e- P0 o
. G8 z. a3 O& g/ u1 S
(3)小数定标规范化:通过移动属性A的小数点位置进行规范化 。0 ^. m) d' B0 S* M& m
3 B0 f) ~' a: f. gx’= 为满足式<1的最小整数。- U! c$ c( y. H* v9 x" E+ g; v# s3 H
" Z9 Z9 F% x6 H& K. `例:假设某属性规范化前的取值范围为[-120,110],采用小数定标规范化66。由于该属性的最大绝对值为120,则由<1可得出=3,因此,66规范化后为:x’==0.066* ]: b9 D( e6 N6 ]
————————————————
! a7 e' W/ x8 Z; i版权声明:本文为CSDN博主「搬砖老头」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。% l2 @5 }6 U& X: p" p4 t
原文链接:https://blog.csdn.net/wang1127248268/article/details/53571956
- ~2 k6 R8 Q9 w4 k
7 ~; A$ t7 g0 o& u. i" X" [
: [* Q7 J( r8 z+ t6 ^3 C7 r X& V, u1 s |
zan
|