- 在线时间
- 791 小时
- 最后登录
- 2022-11-28
- 注册时间
- 2017-6-12
- 听众数
- 15
- 收听数
- 0
- 能力
- 120 分
- 体力
- 36312 点
- 威望
- 11 点
- 阅读权限
- 255
- 积分
- 13854
- 相册
- 0
- 日志
- 0
- 记录
- 1
- 帖子
- 616
- 主题
- 542
- 精华
- 12
- 分享
- 0
- 好友
- 225
TA的每日心情 | 开心 2020-11-14 17:15 |
|---|
签到天数: 74 天 [LV.6]常住居民II
 群组: 2019美赛冲刺课程 群组: 站长地区赛培训 群组: 2019考研数学 桃子老师 群组: 2018教师培训(呼伦贝 群组: 2019考研数学 站长系列 |
1.原始数据存在的几个问题:不一致;重复;含噪声;维度高。, O5 k7 `4 u8 l4 G! Y" D- G) X
2 S& V A2 v" r4 i0 T% K% {( ~% O- _* @2.数据预处理包含数据清洗、数据集成、数据变换和数据归约几种方法。
3 O7 I1 E0 k- ^' i* J& H+ N/ x# D2 }# D
3.数据挖掘中使用的数据的原则
* U* W8 [/ E# R, R: `1 H: R' Z' j0 J" s) P8 b
应该是从原始数据中选取合适的属性作为数据挖掘属性,这个选取过程应参考的原则是:尽可能赋予属性名和属性值明确的含义;统一多数据源的属性值编码;去除惟一属性;去除重复性;去除可忽略字段;合理选择关联字段。
# j- s9 N% z( ?3 G5 P* f3 ? B7 o% a3 l$ c7 A2 w% ]
4.处理空缺值的方法:忽略该记录;去掉属性;手工填写空缺值;使用默认值;使用属性平均值;使用同类样本平均值;预测最可能的值。3 l# u t4 e, J+ s R8 [
, s% B* O- L5 x% y [) q* u
5.噪声数据的处理方法:分箱;聚类;计算机和人工检查结合;回归: H+ {7 n4 ?0 o
+ v8 \/ Q3 X1 V6.分箱:分箱方法是一种简单常用的预处理方法,通过考察相邻数据来确定最终值。所谓“分箱”,实际上就是按照属性值划分的子区间,如果一个属性值处于某个子区间范围内,就称把该属性值放进这个子区间所代表的“箱子”内。把待处理的数据(某列属性值)按照一定的规则放进一些箱子中,考察每一个箱子中的数据,采用某种方法分别对各个箱子中的数据进行处理。在采用分箱技术时,需要确定的两个主要问题就是:如何分箱以及如何对每个箱子中的数据进行平滑处理。& A0 D6 O7 k$ Q7 ?( ^) r: v
& w) b# e* H O
分箱的方法:有4种:等深分箱法、等宽分箱法、最小熵法和用户自定义区间法。$ G, t! D% }7 R) l% ^1 O& B8 Q
. W- H2 @- n8 \ z% O8 u# V
统一权重,也成等深分箱法,将数据集按记录行数分箱,每箱具有相同的记录数,每箱记录数称为箱子的深度。这是最简单的一种分箱方法。
p+ R0 o# M* T4 K3 z( z8 [; f w0 J! y) h) I
统一区间,也称等宽分箱法,使数据集在整个属性值的区间上平均分布,即每个箱的区间范围是一个常量,称为箱子宽度。4 d6 L/ b! k# z2 L+ m& s; ?; P: l
" I- k, m/ K/ @1 p0 Y1 \) w
用户自定义区间,用户可以根据需要自定义区间,当用户明确希望观察某些区间范围内的数据分布时,使用这种方法可以方便地帮助用户达到目的。0 G/ y! f9 u6 R z. v
& l6 d2 `% w6 B# q% [ t
例:客户收入属性income排序后的值(人民币元):800 1000 1200 1500 1500 1800 2000 2300 2500 2800 3000 3500 4000 4500 4800 5000,分箱的结果如下。
7 u/ U; [3 v. ]. ~; h# C5 F5 R
* T* G" J7 ~ e4 ?. _* f统一权重:设定权重(箱子深度)为4,分箱后
! h0 P7 `- M: j1 _2 U* a& q7 \- [8 \* X6 Z
箱1:800 1000 1200 1500% n! H9 Z5 O7 }. Q- K7 C5 b
' G4 ~* e% F0 R3 _ i) @1 V
箱2:1500 1800 2000 2300 & E3 p0 I: x) R5 l% O7 L
L9 I( }2 H% a6 A# N8 j {
箱3:2500 2800 3000 3500
9 v' v; f* H8 C: q+ R8 o7 t/ V% F$ J6 E. c" z! C' \
箱4:4000 4500 4800 5000 " m1 C* `: `( P% Y
. c* ]/ C5 P4 S& c3 z
统一区间:设定区间范围(箱子宽度)为1000元人民币,分箱后5 B/ A$ K+ c! T; R# H
3 C3 w9 [0 X" w7 X$ T箱1:800 1000 1200 1500 1500 18006 v4 U" R5 z1 B1 O
& ?2 B: E6 K4 L) c" w& N/ v箱2:2000 2300 2500 2800 30007 j5 A3 Z' q) b' u1 Y
$ P4 ?6 e& k g
箱3:3500 4000 4500% }$ X- g4 @2 W) u6 _# @7 {8 u
9 R3 R6 z2 Y; D! K1 S" X* i
箱4:4800 5000
* E) A8 L. @2 c& b( |. V+ T0 ^- X: a' A2 V& F: J& _
用户自定义:如将客户收入划分为1000元以下、1000~2000、2000~3000、3000~4000和4000元以上几组,分箱后
. l/ u* \3 ]; |( d
% |$ N; f3 T* j, W8 U/ c箱1:800
& a$ |4 r S0 }- h& {+ P4 ^; F- W5 U$ A6 ?: c2 _% v- z# e
箱2:1000 1200 1500 1500 1800 2000
- N; u- h9 s/ v3 Z1 J6 V8 m. g
1 q8 ^6 E3 @* O: \$ P箱3:2300 2500 2800 3000
5 W$ v. n! n! X' C: e9 u% z# x( N) D M
箱4:3500 4000
) X2 A5 d* ]+ o/ l$ [" w; t( B! K6 M9 D5 Y! Y/ i1 I+ n- {/ |
箱5:4500 4800 5000 ! ], a) i" t6 m0 e
' ^2 ~0 j1 Q1 Y
7.数据平滑方法:按平均值平滑、按边界值平滑和按中值平滑。2 k$ T Q4 g6 q$ h3 r. s9 a, c
- l. {" i4 U1 t# ~2 R
⑴按平均值平滑 3 `: s L E, T. e
) r, a- L, m7 F0 p8 z3 b
对同一箱值中的数据求平均值,用平均值替代该箱子中的所有数据。
* H7 u5 X7 { e) ] L1 w$ O
5 P& e) u4 j# m1 m8 n7 s& c⑵按边界值平滑 ; V) O, q- E9 C- {$ l
5 N3 D4 s0 ~' B
用距离较小的边界值替代箱中每一数据。
1 W/ s: m5 h1 D5 \5 Q8 o
) o; l( Z& R7 f; t0 U" ~⑶按中值平滑 0 _) U1 f! z* r C3 j! o- H
" C H" A { d" D取箱子的中值,用来替代箱子中的所有数据。
$ i$ [% F7 y# o; S; k8 ~7 J% r2 H7 A4 {& u8 |* w
8.聚类:将物理的或抽象对象的集合分组为由类似的对象组成的多个类。- z; f) K4 R' X4 W8 a7 Y7 b8 D3 ?
& s$ t9 x- z' n* a找出并清除那些落在簇之外的值(孤立点),这些孤立点被视为噪声。
! g2 Y9 D7 d9 M e- i3 Q% o% h4 c& S8 h2 M8 s. j" I: T
9.回归;试图发现两个相关的变量之间的变化模式,通过使数据适合一个函数来平滑数据,即通过建立数学模型来预测下一个数值,包括线性回归和非线性回归。 ! I2 B& l! \5 e+ f* `; x
( S# u3 u r0 _1 m$ M3 N
10.数据集成:将多文件或者多数据库中的异构数据进行合并,然后存放在一个一致的数据存储中。考虑以下几个问题: 1.模式匹配2.数据冗余3.数据值冲突
: n/ Q/ Y7 i* {4 \7 R3 c0 H: d; g8 B; I$ ]* I7 e
11. 数据变换:1.平滑2.聚集3.数据概化4.规范化(1)最小-最大规范化(2)零-均值规范化(3)小数定标规范化5.属性构造/ x& E- ]6 A# v+ c) L/ o
6 ~% N5 ~+ L1 H S+ D5 G3 Z: Y2 Z12.数据集成:将多文件或者多数据库中的异构数据进行合并,然后存放在一个一致的数据存储中。考虑以下几个问题: 1.模式匹配2.数据冗余3.数据值冲突 ; m8 ~ V# p6 W9 S( O% w3 G! k+ D' W! b
/ R4 x/ L l- n. t) z13.数据归约:目的是为了获得比原始数据小的多的,但不破坏数据完整性的挖掘数据集,该数据集可以得到与原始数据相同的挖掘结果。
3 @# }0 G* @4 J3 r
- J `- I: Y8 L) I, H9 m! {, C数据归约的方法: 1.数据立方体聚集:把聚集的方法用于数据立方体。2.维归约:检测并删除不相关、弱相关或冗余属性。3.数据压缩:选择正确的编码压缩数据集。4.数值压缩:用较小的数据表示数据,或采用较短的数据单位,或者用数据模型代表数据。5.离散化和概念分层生成:使连续的数据离散化,用确定的有限个区段值代替原始值;概念分层是指用较高层次的概念替换低层次的概念,以此来减少取值个数。" o6 c1 O, H! H1 D+ K4 m- S4 n
$ S( Q& I' x- e. X2 ?6 J14.数据立方体聚集 :是数据的多维建模和表示,由维和事实组成。 I/ |6 g. t5 K! ~7 a' T4 r
9 H( ]7 @' b9 H" i
维归约:去掉不相关的属性,减少数据挖掘处理的数据量。
0 ~. ~: V% O) l" c+ C. G7 [
! w8 q' K \* ^ H) @+ g/ z6 p属性子集选择的基本方法包括以下几种: 1.逐步向前选择2.逐步向后删除3.向前选择和向后删除结合4.判定树归纳5.基于统计分析的归约
* M" J1 o) O' m0 v/ v! W
0 C' p8 G7 v0 ?4 g& K数据压缩:方法分为两类:无损压缩和有损压缩8 m5 I9 h1 y+ h" W I- o
3 M5 i* P# ~- Y3 Y: \: ?2 y3 i
数值归约常用的方法: 1.直方图2.聚类3.抽样:不放回简单随机抽样、放回简单随机抽样、聚类抽样和分层抽样4.线性回归5.非线性回归 Y/ `: e- y5 l$ v. N
2 @/ P; `: k A* J! R8 w4 b
15.数据变换涉及以下几个方面:1.平滑2.聚集3.数据概化4.规范化(1)最小-最大规范化(2)零-均值规范化(3)小数定标规范化5.属性构造8 ?7 Y: R, F$ Z: M, D
/ ~+ W% ]1 E) X2 N*规范化:(1)最小—最大规范化。原取值区间 [old_min,old_max],规范化后的新的取值区间[new_min,new_max]。- O" I. Q" u& w7 I
* \; v% P) c- Y) rx’= 其中:x是属性的真实值,x’是规范化后的值。
C. i& A" p; G9 q
3 d" { U$ M9 A+ x0 ~* ]例如:“客户背景数据”表中的客户月收入income属性的实际值范围为[12000,98000],要把这个属性值规范到[0,1],对属性值73600应用上述公式: U- r4 _& M6 k) { f& ?
0 Q- y2 y4 M5 |" i1 n( p9 \3 Vx’=(1.0-0)+0=0.716
* V- Y, M& }8 t1 D
/ ^0 m$ C! X9 @# Q' x根据精度要求保留小数(假设精度要求0.01),最终取值0.72就是属性值73600规范化后的值。
8 k E& r0 v2 E# B& h9 R
$ B w8 ^4 n- r# g( f (2)零—均值规范化(z—score规范化),是根据属性值的平均值和标准差进行规范化,即:1 J& d# E7 x2 a4 Y9 F9 c
9 n& f; _5 y- y5 K3 ~1 [x’= = = 为所有样本属性值的平均值,为样本的标准差。当属性值范围未知的时候,可以使用此方法进行规范化。! ~3 B3 S0 r# C- B! ]1 t
8 S3 D& o7 e. E$ E; t3 y
例:假设某属性的平均值和标准差分别为80、25,采用零-均值规范化66为:x’==-0.56
0 x0 `# v# ~0 B" i/ q
9 J" u7 _4 o3 E8 O( |6 N; s/ @& h(3)小数定标规范化:通过移动属性A的小数点位置进行规范化 。1 E" ]# t$ d; X
7 o& v6 S' T; X4 E% Vx’= 为满足式<1的最小整数。# `, q1 K! r. a, t6 J
+ u( A& c, t: b, M& h8 f例:假设某属性规范化前的取值范围为[-120,110],采用小数定标规范化66。由于该属性的最大绝对值为120,则由<1可得出=3,因此,66规范化后为:x’==0.066% a! {, S, J; p) E
————————————————6 ~5 U! B. x7 d4 D- }; ]
版权声明:本文为CSDN博主「搬砖老头」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
5 j3 M* Z v7 i/ Z原文链接:https://blog.csdn.net/wang1127248268/article/details/53571956
& w, r1 l2 Y% p& Y: R( _7 M* N, x
6 {9 D& X9 D5 s1 t0 ]0 N3 ?5 \* P+ w6 L1 d1 D3 a
|
zan
|