- 在线时间
- 791 小时
- 最后登录
- 2022-11-28
- 注册时间
- 2017-6-12
- 听众数
- 15
- 收听数
- 0
- 能力
- 120 分
- 体力
- 36312 点
- 威望
- 11 点
- 阅读权限
- 255
- 积分
- 13854
- 相册
- 0
- 日志
- 0
- 记录
- 1
- 帖子
- 616
- 主题
- 542
- 精华
- 12
- 分享
- 0
- 好友
- 225
TA的每日心情 | 开心 2020-11-14 17:15 |
|---|
签到天数: 74 天 [LV.6]常住居民II
 群组: 2019美赛冲刺课程 群组: 站长地区赛培训 群组: 2019考研数学 桃子老师 群组: 2018教师培训(呼伦贝 群组: 2019考研数学 站长系列 |
1.原始数据存在的几个问题:不一致;重复;含噪声;维度高。; J. D0 w) A K( H0 ^; r
, X- }7 s4 k3 l2.数据预处理包含数据清洗、数据集成、数据变换和数据归约几种方法。' p% U( k1 K9 s; H/ F
H8 J2 H( R, L4 }3.数据挖掘中使用的数据的原则1 j, J2 |( n% I' x4 b
3 ^* ^8 _6 y6 F ^5 Z
应该是从原始数据中选取合适的属性作为数据挖掘属性,这个选取过程应参考的原则是:尽可能赋予属性名和属性值明确的含义;统一多数据源的属性值编码;去除惟一属性;去除重复性;去除可忽略字段;合理选择关联字段。# {9 N1 I+ k5 E* J
; r' q& K( H3 @4 J! ~9 |' G
4.处理空缺值的方法:忽略该记录;去掉属性;手工填写空缺值;使用默认值;使用属性平均值;使用同类样本平均值;预测最可能的值。3 J" [! [' p: l8 N
2 ~' G3 @) n( b( d2 d- n) t
5.噪声数据的处理方法:分箱;聚类;计算机和人工检查结合;回归
/ C6 L v1 I9 w! b
) D7 O7 X% E6 c. ?. Q6.分箱:分箱方法是一种简单常用的预处理方法,通过考察相邻数据来确定最终值。所谓“分箱”,实际上就是按照属性值划分的子区间,如果一个属性值处于某个子区间范围内,就称把该属性值放进这个子区间所代表的“箱子”内。把待处理的数据(某列属性值)按照一定的规则放进一些箱子中,考察每一个箱子中的数据,采用某种方法分别对各个箱子中的数据进行处理。在采用分箱技术时,需要确定的两个主要问题就是:如何分箱以及如何对每个箱子中的数据进行平滑处理。
]- c4 I; {: Q- W5 v0 i! k! c/ o% e' i3 Q' C
分箱的方法:有4种:等深分箱法、等宽分箱法、最小熵法和用户自定义区间法。
$ |: u" j4 v" D- F8 B. v/ q5 I, J: A
统一权重,也成等深分箱法,将数据集按记录行数分箱,每箱具有相同的记录数,每箱记录数称为箱子的深度。这是最简单的一种分箱方法。
0 z( G, h; v1 _# h, b+ |2 k! d" [5 |& r, X& P3 M3 D5 b
统一区间,也称等宽分箱法,使数据集在整个属性值的区间上平均分布,即每个箱的区间范围是一个常量,称为箱子宽度。+ E5 R8 ]. H5 e: l) N0 ]
5 }; A; ?& L! V: q& V用户自定义区间,用户可以根据需要自定义区间,当用户明确希望观察某些区间范围内的数据分布时,使用这种方法可以方便地帮助用户达到目的。
/ e$ `- r) C; E& \- t, ?9 }' P, n0 v& k2 p, }
例:客户收入属性income排序后的值(人民币元):800 1000 1200 1500 1500 1800 2000 2300 2500 2800 3000 3500 4000 4500 4800 5000,分箱的结果如下。
T6 {: v4 {4 o% Z( n
6 p- I& I$ a8 f9 y G. n# S& b! k7 U+ j统一权重:设定权重(箱子深度)为4,分箱后
x5 B" J" T# j U4 r9 m0 t, `$ K3 E1 N
箱1:800 1000 1200 1500
9 `* M$ D1 Q2 V+ U& o& W4 j1 E/ v, ~2 |
箱2:1500 1800 2000 2300 0 i, d: }; G! g( ^) U5 V* P
4 P( j/ V8 n3 Y1 R$ {- V; R/ i
箱3:2500 2800 3000 35000 o+ n& }: a4 J9 W& o: d8 j
" u! M% U3 x1 W, @8 Y; P4 l" ~! v箱4:4000 4500 4800 5000
) Y) K; z; z* B8 w7 Z! K/ P- C
5 N0 J7 q# c* q$ N( U3 J' q4 q统一区间:设定区间范围(箱子宽度)为1000元人民币,分箱后; ~$ C1 j; Z4 s* D1 |8 I
6 y1 E7 S, [! j, B) A3 h箱1:800 1000 1200 1500 1500 1800$ I1 _& d& b" H; y+ K0 L
8 |; a7 }2 ~% g: |9 [0 U箱2:2000 2300 2500 2800 3000( E4 [4 a7 q$ b8 @2 {& Y7 T$ k1 q! K
0 P, d* M/ G6 S# @" m" j* ? s
箱3:3500 4000 4500# i8 h( X2 o/ _$ {
7 L/ d4 F. e, z- n6 C箱4:4800 5000
4 E& ?: B$ Q s1 l8 k0 q9 A8 j" T' z2 ]5 Z
用户自定义:如将客户收入划分为1000元以下、1000~2000、2000~3000、3000~4000和4000元以上几组,分箱后
3 l& o E; r4 k. ]* s' p- `4 p
6 Z* L8 E2 j# |0 l+ T* C箱1:800
! \+ G k( y, \* X- a. t# H, E" G
箱2:1000 1200 1500 1500 1800 2000
. j$ ~3 }( w: L! J0 E$ I
+ S, B2 M8 [- l+ H箱3:2300 2500 2800 3000 7 j+ {+ x0 P- h% g, Y4 S
% ~# D @& G' b* N: Q% n- C2 o
箱4:3500 4000
4 H4 S9 X7 l, Q; n, m, }: L+ g- y1 l: F4 ]
箱5:4500 4800 5000
! u5 J' \4 o% k* a' c0 K4 ]. Z$ I. {! B' s+ c
7.数据平滑方法:按平均值平滑、按边界值平滑和按中值平滑。- d7 M2 }- ?# g! i: c4 ^: S1 B( z
. a$ n1 J/ R+ w+ P: {
⑴按平均值平滑
7 d' v2 I* z0 [8 s, J9 { K/ m+ H6 Z8 Y0 W- h
对同一箱值中的数据求平均值,用平均值替代该箱子中的所有数据。 7 n7 l- G; m1 M/ E2 w
+ ?" g+ v8 O. ], P& s, c! B
⑵按边界值平滑 , S, D3 _: j, D+ j' `; t
4 T3 P3 G8 V* [* {* X用距离较小的边界值替代箱中每一数据。
; \1 C# C5 s% o: I$ D0 r2 q2 {
5 P% m& X' C, D2 W$ d% R; k⑶按中值平滑
. F5 ]* @2 S( A' n7 k7 v2 n7 |+ n0 A% }( Y: h
取箱子的中值,用来替代箱子中的所有数据。 $ ~6 ]+ S, q" `- c3 m; g. S+ H# M
' o( ^! R5 c2 e7 \/ ], m1 z
8.聚类:将物理的或抽象对象的集合分组为由类似的对象组成的多个类。 q* k4 R$ e6 f4 N: ?6 P7 G3 T# T
6 b2 w; ]# `2 n; X7 Q找出并清除那些落在簇之外的值(孤立点),这些孤立点被视为噪声。, E8 H h8 b4 Z2 V" B
% u4 ~6 K F7 e0 g9.回归;试图发现两个相关的变量之间的变化模式,通过使数据适合一个函数来平滑数据,即通过建立数学模型来预测下一个数值,包括线性回归和非线性回归。 ! R9 X5 H5 `& E+ [" X5 u
( r, z! }4 B$ e7 y9 }/ J
10.数据集成:将多文件或者多数据库中的异构数据进行合并,然后存放在一个一致的数据存储中。考虑以下几个问题: 1.模式匹配2.数据冗余3.数据值冲突
+ \' m* n' x' P
9 s5 l; J' D: `11. 数据变换:1.平滑2.聚集3.数据概化4.规范化(1)最小-最大规范化(2)零-均值规范化(3)小数定标规范化5.属性构造
& H2 _4 N5 M! q
B, K$ B4 B4 V% o. N) ^+ N ?12.数据集成:将多文件或者多数据库中的异构数据进行合并,然后存放在一个一致的数据存储中。考虑以下几个问题: 1.模式匹配2.数据冗余3.数据值冲突 ( K" s9 j8 O& ~$ E
1 n' L& j1 l1 D, n
13.数据归约:目的是为了获得比原始数据小的多的,但不破坏数据完整性的挖掘数据集,该数据集可以得到与原始数据相同的挖掘结果。 4 e$ y! m( |& u" [
8 T9 c, [1 a7 I- g. Y1 k+ n数据归约的方法: 1.数据立方体聚集:把聚集的方法用于数据立方体。2.维归约:检测并删除不相关、弱相关或冗余属性。3.数据压缩:选择正确的编码压缩数据集。4.数值压缩:用较小的数据表示数据,或采用较短的数据单位,或者用数据模型代表数据。5.离散化和概念分层生成:使连续的数据离散化,用确定的有限个区段值代替原始值;概念分层是指用较高层次的概念替换低层次的概念,以此来减少取值个数。% @1 X5 a0 j" j2 D* O
# m; F/ r$ ? c' B( K) h, j0 U
14.数据立方体聚集 :是数据的多维建模和表示,由维和事实组成。
* q& P) }, |; O5 z: ~$ U7 S) j- x8 `* i' ]
维归约:去掉不相关的属性,减少数据挖掘处理的数据量。 ) f6 C+ m" `, R' } z, O
' c/ M$ R, E5 d8 V% F属性子集选择的基本方法包括以下几种: 1.逐步向前选择2.逐步向后删除3.向前选择和向后删除结合4.判定树归纳5.基于统计分析的归约
" F5 o8 p: }/ u1 Z/ f
/ c5 {8 N' ]. G# n数据压缩:方法分为两类:无损压缩和有损压缩5 I- G% U( X" C! l+ W" w# f) f
4 E+ ~4 j) N6 C. N4 G* E
数值归约常用的方法: 1.直方图2.聚类3.抽样:不放回简单随机抽样、放回简单随机抽样、聚类抽样和分层抽样4.线性回归5.非线性回归 + }* @! N- d+ H, v y! g& C
3 g4 i" Z( e, r$ p; z( a
15.数据变换涉及以下几个方面:1.平滑2.聚集3.数据概化4.规范化(1)最小-最大规范化(2)零-均值规范化(3)小数定标规范化5.属性构造 d9 L" s O J/ Z8 _" {
/ Z+ `# G9 H" l6 Z2 j*规范化:(1)最小—最大规范化。原取值区间 [old_min,old_max],规范化后的新的取值区间[new_min,new_max]。- ~7 V3 l' u1 e, d: O; E& B
0 {: r7 p! N |* b/ H) F F
x’= 其中:x是属性的真实值,x’是规范化后的值。
: o6 W) _% i9 A8 A- M* f
( f4 ~: D9 z1 J- R3 H例如:“客户背景数据”表中的客户月收入income属性的实际值范围为[12000,98000],要把这个属性值规范到[0,1],对属性值73600应用上述公式:
" K5 U9 ~: G- u# S1 D+ g% G" h% V( Y* \0 m) S( r+ e; [& V. W
x’=(1.0-0)+0=0.7166 A, I2 i; p% d0 J, J
$ \: [& N6 ~" }# ]; @9 K根据精度要求保留小数(假设精度要求0.01),最终取值0.72就是属性值73600规范化后的值。
# `" W/ x$ J- t* B: P) Y# d
6 } e A. ^. u( _0 V (2)零—均值规范化(z—score规范化),是根据属性值的平均值和标准差进行规范化,即:+ G5 ~& |' ?( |
$ j5 g5 [0 j' u
x’= = = 为所有样本属性值的平均值,为样本的标准差。当属性值范围未知的时候,可以使用此方法进行规范化。) |. N: ^# c* A- k+ B! k
2 n5 T% g: E) ?5 k
例:假设某属性的平均值和标准差分别为80、25,采用零-均值规范化66为:x’==-0.568 |9 z+ ~) T3 c& G
5 s; N. Y# M z! P; ](3)小数定标规范化:通过移动属性A的小数点位置进行规范化 。6 n' V: B. |4 A( Q: g. _
; m% W, s5 t! X1 n1 g7 [8 nx’= 为满足式<1的最小整数。
$ E$ C" @3 a' f. {( u& j
& H J; \% C% b* }, s, u1 L例:假设某属性规范化前的取值范围为[-120,110],采用小数定标规范化66。由于该属性的最大绝对值为120,则由<1可得出=3,因此,66规范化后为:x’==0.066& e! C! H0 J3 `. q% t
————————————————
' R% {0 Z) g$ z y版权声明:本文为CSDN博主「搬砖老头」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。9 M0 `6 R- L8 v3 A
原文链接:https://blog.csdn.net/wang1127248268/article/details/53571956
- K J8 q5 X: G- Y
& G* c* c* Z; I: l6 M5 s6 |: }! L- o5 G" P7 @/ M9 ], t2 e5 ?: u
|
zan
|