- 在线时间
- 791 小时
- 最后登录
- 2022-11-28
- 注册时间
- 2017-6-12
- 听众数
- 15
- 收听数
- 0
- 能力
- 120 分
- 体力
- 36352 点
- 威望
- 11 点
- 阅读权限
- 255
- 积分
- 13866
- 相册
- 0
- 日志
- 0
- 记录
- 1
- 帖子
- 616
- 主题
- 542
- 精华
- 12
- 分享
- 0
- 好友
- 225
TA的每日心情 | 开心 2020-11-14 17:15 |
|---|
签到天数: 74 天 [LV.6]常住居民II
 群组: 2019美赛冲刺课程 群组: 站长地区赛培训 群组: 2019考研数学 桃子老师 群组: 2018教师培训(呼伦贝 群组: 2019考研数学 站长系列 |
1.原始数据存在的几个问题:不一致;重复;含噪声;维度高。
3 G: ]: s4 C: D: v, i- Y6 ]! P: i0 j& k8 d, y
2.数据预处理包含数据清洗、数据集成、数据变换和数据归约几种方法。! _) }7 s" E7 B" y8 J% E6 |- A
: @% [. \( N) m5 a2 X* S( t
3.数据挖掘中使用的数据的原则
0 M& }' R2 U1 f9 C1 J% e$ u2 C( f7 Q: X: A$ l- @& v" [1 @$ U1 q
应该是从原始数据中选取合适的属性作为数据挖掘属性,这个选取过程应参考的原则是:尽可能赋予属性名和属性值明确的含义;统一多数据源的属性值编码;去除惟一属性;去除重复性;去除可忽略字段;合理选择关联字段。% }- p# ^. ^8 z% v" D# ]: l7 }4 h
" q3 ?- r3 T1 M; _: H, b4.处理空缺值的方法:忽略该记录;去掉属性;手工填写空缺值;使用默认值;使用属性平均值;使用同类样本平均值;预测最可能的值。8 v) _2 C1 {) ~! I
. {0 C. u0 p, }" g$ v6 b
5.噪声数据的处理方法:分箱;聚类;计算机和人工检查结合;回归
( E" g+ g4 C: P( `; o
/ ^2 |3 b; ?$ i r$ J% e6.分箱:分箱方法是一种简单常用的预处理方法,通过考察相邻数据来确定最终值。所谓“分箱”,实际上就是按照属性值划分的子区间,如果一个属性值处于某个子区间范围内,就称把该属性值放进这个子区间所代表的“箱子”内。把待处理的数据(某列属性值)按照一定的规则放进一些箱子中,考察每一个箱子中的数据,采用某种方法分别对各个箱子中的数据进行处理。在采用分箱技术时,需要确定的两个主要问题就是:如何分箱以及如何对每个箱子中的数据进行平滑处理。
+ e' i$ K' K) {2 u
/ V8 R' h7 S; {分箱的方法:有4种:等深分箱法、等宽分箱法、最小熵法和用户自定义区间法。7 I# F" j9 l& i& \
0 r) g5 ~+ {+ }' L统一权重,也成等深分箱法,将数据集按记录行数分箱,每箱具有相同的记录数,每箱记录数称为箱子的深度。这是最简单的一种分箱方法。
) L& p6 W; Z/ a! Z0 ]6 F m
4 V' y3 b' }% U0 a统一区间,也称等宽分箱法,使数据集在整个属性值的区间上平均分布,即每个箱的区间范围是一个常量,称为箱子宽度。4 `& w! U0 k$ l5 }( j0 o
- y4 z. u6 _! t' w# m( I用户自定义区间,用户可以根据需要自定义区间,当用户明确希望观察某些区间范围内的数据分布时,使用这种方法可以方便地帮助用户达到目的。
2 b% E# X. X" a6 ?, @& C9 o
+ V6 {# B3 N8 r3 c% Z2 h( j; }例:客户收入属性income排序后的值(人民币元):800 1000 1200 1500 1500 1800 2000 2300 2500 2800 3000 3500 4000 4500 4800 5000,分箱的结果如下。# ^% X4 `# k6 j+ H5 D$ E$ U9 M
( ^% _) R+ {6 V6 l统一权重:设定权重(箱子深度)为4,分箱后
) I% m u. C7 X! C, Y6 @" i
. H' \9 U7 D5 [箱1:800 1000 1200 1500( h7 U6 N0 l/ t7 ]) W J
% s7 ~ W6 m) R; m1 w5 Y箱2:1500 1800 2000 2300
- H j v, }9 S7 t. }. ~
" N8 T+ B: T, ?+ Q1 E箱3:2500 2800 3000 3500
X! A/ N4 E' A
" f$ r! F F; \- P& `+ j箱4:4000 4500 4800 5000 9 ]4 w! @- k( y$ J
- g- `' B/ l5 `+ S' e统一区间:设定区间范围(箱子宽度)为1000元人民币,分箱后) }1 {' X* K6 K% a
5 P4 I% ?* q. ]" X: t ^, j2 c; p箱1:800 1000 1200 1500 1500 1800
* _ f1 u$ r7 M! v4 b8 w. e
* K, Z+ O' R2 j$ \6 ^5 D0 Q箱2:2000 2300 2500 2800 3000
8 u& I8 t& m1 e. B ^/ z1 r' S- |% n, z5 O$ r4 }" |
箱3:3500 4000 45000 S7 o# r* P2 l/ P
) u- v: q/ y8 p" N箱4:4800 5000
: E+ Z! s- V. f* a3 N( P$ A# A& A/ K1 p* K; }. C' W' d
用户自定义:如将客户收入划分为1000元以下、1000~2000、2000~3000、3000~4000和4000元以上几组,分箱后4 ^( _7 E' a1 M; E6 Y
4 @% { b0 E( ]% F) }8 S
箱1:800
1 c0 B, L5 ?6 O% U/ i: z1 X V0 V& F7 g) `4 i6 M4 y! k$ K
箱2:1000 1200 1500 1500 1800 2000 8 b. |! `" L4 F0 Z3 U A
9 B( e! }1 K. e3 _
箱3:2300 2500 2800 3000 9 [: _% G8 e- M C& B, U, P
* P4 z8 d) j! C: J2 Q箱4:3500 4000
4 f7 `7 |' b" T! H7 ]' N4 L# ~9 F# S* H/ ?
箱5:4500 4800 5000
# {6 d0 x/ j+ p6 r9 a
2 B4 p5 j3 Z3 e# B- h& i9 I* {! c7.数据平滑方法:按平均值平滑、按边界值平滑和按中值平滑。, z3 ]7 m k1 p2 {2 ?: ~
: d4 e; P# u5 A& r⑴按平均值平滑 6 a1 y" ]/ Q. X" U
|# K6 F: d/ p2 O& Z& d- p6 J3 g对同一箱值中的数据求平均值,用平均值替代该箱子中的所有数据。 2 M; @& C; \( P- z1 Z$ @( @" w
7 f: G: p% F1 ]+ n2 L⑵按边界值平滑 2 e; J# N$ l" ^+ I
$ {9 Q0 ~) H/ u% s# y. c, \, K
用距离较小的边界值替代箱中每一数据。
2 W9 Y: O) x4 u3 _' Z
/ w. @* t0 C: i7 F! m⑶按中值平滑
+ S6 B) d9 ]' w& O7 D$ k5 Z: y) Q' s
9 f+ w7 v/ D8 z! m% ?4 A取箱子的中值,用来替代箱子中的所有数据。
0 o: w: ]% k; w' y) |# | Z
- t/ g7 Q- n" r( g$ f8.聚类:将物理的或抽象对象的集合分组为由类似的对象组成的多个类。4 ~* P/ R& n8 N2 y
! }+ [7 d- z; v7 k1 V* `
找出并清除那些落在簇之外的值(孤立点),这些孤立点被视为噪声。
; m3 t8 ~6 m/ Y' X0 c
/ Y8 D2 @3 r* I2 g, i0 h1 [* b0 s9.回归;试图发现两个相关的变量之间的变化模式,通过使数据适合一个函数来平滑数据,即通过建立数学模型来预测下一个数值,包括线性回归和非线性回归。
; G4 Q C' _; |& t2 `/ S/ h
! s) w( r6 ?$ A" {: Q* S8 N10.数据集成:将多文件或者多数据库中的异构数据进行合并,然后存放在一个一致的数据存储中。考虑以下几个问题: 1.模式匹配2.数据冗余3.数据值冲突 % P2 N1 E* R4 y: S4 v' t
W* r! [0 L/ |; }* P0 O. ?3 H11. 数据变换:1.平滑2.聚集3.数据概化4.规范化(1)最小-最大规范化(2)零-均值规范化(3)小数定标规范化5.属性构造 r5 q+ N# Z! ? h+ ]
. s1 `3 v0 f3 N! ~; |! i7 n6 ^12.数据集成:将多文件或者多数据库中的异构数据进行合并,然后存放在一个一致的数据存储中。考虑以下几个问题: 1.模式匹配2.数据冗余3.数据值冲突 ' t$ T& s! D( c+ f. r, @. E
; _; h6 B6 ]- U2 R* R13.数据归约:目的是为了获得比原始数据小的多的,但不破坏数据完整性的挖掘数据集,该数据集可以得到与原始数据相同的挖掘结果。 ( I$ O( C8 i' K
. p" `2 A& M. }3 N; x6 w数据归约的方法: 1.数据立方体聚集:把聚集的方法用于数据立方体。2.维归约:检测并删除不相关、弱相关或冗余属性。3.数据压缩:选择正确的编码压缩数据集。4.数值压缩:用较小的数据表示数据,或采用较短的数据单位,或者用数据模型代表数据。5.离散化和概念分层生成:使连续的数据离散化,用确定的有限个区段值代替原始值;概念分层是指用较高层次的概念替换低层次的概念,以此来减少取值个数。
+ p' L7 d8 \& p" k
; z0 p: }- @ k, w6 ^" O14.数据立方体聚集 :是数据的多维建模和表示,由维和事实组成。
$ J [( Y' ~4 C& B/ A$ K% S( v# k) e* a9 ]6 I3 Z
维归约:去掉不相关的属性,减少数据挖掘处理的数据量。
! n d9 D# \1 y- z- {1 Q5 l' o* z2 I
属性子集选择的基本方法包括以下几种: 1.逐步向前选择2.逐步向后删除3.向前选择和向后删除结合4.判定树归纳5.基于统计分析的归约 : `6 \" |' l7 m4 \3 [: u; d0 k
; z- I" Y0 H, x: I l) `5 K- }数据压缩:方法分为两类:无损压缩和有损压缩
1 O9 j U4 @; y1 G! F% D
8 \; W! }7 R9 I% _数值归约常用的方法: 1.直方图2.聚类3.抽样:不放回简单随机抽样、放回简单随机抽样、聚类抽样和分层抽样4.线性回归5.非线性回归
+ O# V* u( t6 d" v3 k8 X3 [
6 y/ m, A9 a% U- U3 x7 Y15.数据变换涉及以下几个方面:1.平滑2.聚集3.数据概化4.规范化(1)最小-最大规范化(2)零-均值规范化(3)小数定标规范化5.属性构造
t: ~& n7 J# b, u" i: j% H1 B/ j3 }) W: X S: k2 ~# j0 e+ X8 R2 c
*规范化:(1)最小—最大规范化。原取值区间 [old_min,old_max],规范化后的新的取值区间[new_min,new_max]。
5 y# G+ R+ R" M3 y. a9 }! l
# M3 a1 o' O o- o* @/ _x’= 其中:x是属性的真实值,x’是规范化后的值。
- S1 }% B, z/ n: J b7 d d" y, s/ v; r; F4 R
例如:“客户背景数据”表中的客户月收入income属性的实际值范围为[12000,98000],要把这个属性值规范到[0,1],对属性值73600应用上述公式:
0 |6 \- h* F, t$ E% f9 D
9 i: }" Z2 ]# U/ A3 Nx’=(1.0-0)+0=0.716" |& H+ Z8 {9 f
, G/ ?/ a- ~3 w. X6 C
根据精度要求保留小数(假设精度要求0.01),最终取值0.72就是属性值73600规范化后的值。 I9 r5 e: X, {& T
& M6 M% \2 P9 t2 m6 P
(2)零—均值规范化(z—score规范化),是根据属性值的平均值和标准差进行规范化,即:' `( B. P2 ?0 _3 {3 u; {1 z
4 f) c: T5 Y9 Y) sx’= = = 为所有样本属性值的平均值,为样本的标准差。当属性值范围未知的时候,可以使用此方法进行规范化。# S5 w/ J4 k/ f1 c. j
! r' M! Z3 t0 }7 Q, g4 M
例:假设某属性的平均值和标准差分别为80、25,采用零-均值规范化66为:x’==-0.56
; T6 e4 K B' n: _! h9 f% C/ z7 D& e
(3)小数定标规范化:通过移动属性A的小数点位置进行规范化 。* N& `9 \; b( s
. c* ?1 M/ i: ]9 d2 Ux’= 为满足式<1的最小整数。
p( T/ v5 S* j2 ~$ G @: B# @
; P* X' t+ _) L( c: d例:假设某属性规范化前的取值范围为[-120,110],采用小数定标规范化66。由于该属性的最大绝对值为120,则由<1可得出=3,因此,66规范化后为:x’==0.066
8 C9 G! u: s, t————————————————
) c3 i: p' y) E1 C/ g: F7 S# I& S) x版权声明:本文为CSDN博主「搬砖老头」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
, f x* l" t: g/ P8 E原文链接:https://blog.csdn.net/wang1127248268/article/details/53571956
7 L: S4 a1 [( w% n' X& V
/ f; ]! Z8 [/ Q/ ]( D. `* O* n6 y. \
|
zan
|