请选择 进入手机版 | 继续访问电脑版

QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 1717|回复: 4

数据挖掘中的数据预处理方法总结

[复制链接]
字体大小: 正常 放大
浅夏110 实名认证       

542

主题

15

听众

1万

积分

  • TA的每日心情
    开心
    2020-11-14 17:15
  • 签到天数: 74 天

    [LV.6]常住居民II

    邮箱绑定达人

    群组2019美赛冲刺课程

    群组站长地区赛培训

    群组2019考研数学 桃子老师

    群组2018教师培训(呼伦贝

    群组2019考研数学 站长系列

    发表于 2020-5-19 09:40 |显示全部楼层
    |招呼Ta 关注Ta |邮箱已经成功绑定
    1.原始数据存在的几个问题:不一致;重复;含噪声;维度高。( j3 @+ O, u( w. p7 U8 K; }7 G4 a

    ! |: o( j+ q  P( Y: X7 e* A" V- R2.数据预处理包含数据清洗、数据集成、数据变换和数据归约几种方法。
    8 b, Y1 h/ x  {# U8 w+ i7 N# J$ C" f# |
    3.数据挖掘中使用的数据的原则
    5 q% F' r& V0 D1 N% q+ d' Z7 s0 A
    ' x. P% C' ~0 |- x* P应该是从原始数据中选取合适的属性作为数据挖掘属性,这个选取过程应参考的原则是:尽可能赋予属性名和属性值明确的含义;统一多数据源的属性值编码;去除惟一属性;去除重复性;去除可忽略字段;合理选择关联字段。
    * ?7 m9 e) t6 ^8 ^" t& ?4 \* C1 D) Q/ @2 O7 o  p* ~7 r
    4.处理空缺值的方法:忽略该记录;去掉属性;手工填写空缺值;使用默认值;使用属性平均值;使用同类样本平均值;预测最可能的值。
    ; Z! }& ~% _, n, D
    : t3 O. Y6 j+ s# a' O) m2 |$ ^+ f- w5.噪声数据的处理方法:分箱;聚类;计算机和人工检查结合;回归1 E; d/ \+ s; g8 z* [7 A
    2 Z3 L0 p+ k- G) b* l# S
    6.分箱:分箱方法是一种简单常用的预处理方法,通过考察相邻数据来确定最终值。所谓“分箱”,实际上就是按照属性值划分的子区间,如果一个属性值处于某个子区间范围内,就称把该属性值放进这个子区间所代表的“箱子”内。把待处理的数据(某列属性值)按照一定的规则放进一些箱子中,考察每一个箱子中的数据,采用某种方法分别对各个箱子中的数据进行处理。在采用分箱技术时,需要确定的两个主要问题就是:如何分箱以及如何对每个箱子中的数据进行平滑处理。! p) R0 ]( b1 L# b( b3 U. F# m. [
    9 L4 v! F- V' n: i2 h9 V
    分箱的方法:有4种:等深分箱法、等宽分箱法、最小熵法和用户自定义区间法。# b, y/ L1 a) a  L
    . ]) S+ ?/ X" \" L
    统一权重,也成等深分箱法,将数据集按记录行数分箱,每箱具有相同的记录数,每箱记录数称为箱子的深度。这是最简单的一种分箱方法。
    0 j: @5 L/ v9 v% k- _: W& m; Q
    - B+ W& R0 S  g, t4 @" g统一区间,也称等宽分箱法,使数据集在整个属性值的区间上平均分布,即每个箱的区间范围是一个常量,称为箱子宽度。
      Q! B7 I& s. k9 }! _; M8 \6 a7 C7 h5 [% _  h
    用户自定义区间,用户可以根据需要自定义区间,当用户明确希望观察某些区间范围内的数据分布时,使用这种方法可以方便地帮助用户达到目的。" Y+ o, U6 R7 s0 e) _

    $ F/ X7 r8 r0 @" g* L9 M6 x例:客户收入属性income排序后的值(人民币元):800 1000 1200 1500  1500 1800 2000 2300 2500 2800 3000 3500 4000 4500 4800 5000,分箱的结果如下。. Q6 x4 F4 E( A& o

    ; X9 B* a" C' z统一权重:设定权重(箱子深度)为4,分箱后
    : j- |  {0 S9 D- j$ \; h( d8 Z: S1 n; \7 ?8 V* _+ n& R/ M
    箱1:800 1000 1200 1500; }  Z5 ]) C8 l
    2 Q$ M) j6 t  a1 o
    箱2:1500 1800 2000 2300 5 w. S+ C& R/ h% H% x$ m
    7 e% c: i" m3 l
    箱3:2500 2800 3000 3500
    % X& f) G5 s+ s2 Q9 t2 X+ @1 p# B
    + q& c/ }+ m: D! a箱4:4000 4500 4800 5000   
    3 |" j. ]8 t  G" M* ^& Q; C- o+ d& G3 H2 A" t& ?" o
    统一区间:设定区间范围(箱子宽度)为1000元人民币,分箱后
    ! K5 j6 W( E6 t% j" m$ k
    ; {) {5 a/ {" Y# i) v! F( g# C箱1:800 1000 1200 1500 1500 1800
    % `# N" ]6 \( a# N8 U  V- ^
    4 m) u" x9 y3 H箱2:2000 2300 2500 2800 3000
    5 Q/ y0 v) k5 y% h( E
    1 ~/ D, e9 j7 p+ v. N% j9 W+ R, D箱3:3500 4000 4500
    7 ]( K+ D2 Z8 L! d, v, T! A& b+ R. R8 S0 G
    箱4:4800 5000
    & G( c" c- J9 o0 m8 i! r- J
    ; i5 s7 n. g' T; z5 x; D用户自定义:如将客户收入划分为1000元以下、1000~2000、2000~3000、3000~4000和4000元以上几组,分箱后" \2 T5 f4 o) |+ Y! [- K# l: {

    % m9 N; w7 B- e, o6 N箱1:800
    : b7 Y) E+ Y1 Y$ M9 i  v. `
    : D- I+ C$ K1 G9 x0 J+ j" H8 D箱2:1000 1200 1500 1500 1800 2000
    ; S3 t/ u0 n0 @) ?; x. O& N4 G4 |, @' H5 z  m6 N8 T
    箱3:2300 2500 2800 3000  : a$ C; X  R  s5 r- @) W+ E5 V

    * \% x; O, a6 ~1 Q: a2 p, A& c箱4:3500 4000
    " a  Y9 w0 b- G0 b
    3 u7 N! D* u& C* Z& P5 \# h箱5:4500 4800 5000 & y; _. \2 z. b8 [

    3 P8 \, H7 M; G: R# z- K7.数据平滑方法:按平均值平滑、按边界值平滑和按中值平滑。
    4 L! L. P; n# y9 J2 t. h9 D) o% b7 \
    ⑴按平均值平滑
    ! b% N/ ?9 c) N' }! f* P) m# {) X5 v1 @& r8 F. u4 ~( q
    对同一箱值中的数据求平均值,用平均值替代该箱子中的所有数据。 # w' r$ Z, O8 N! L3 a
    * N8 g) r: a; A- u5 Q6 f. X; A
    ⑵按边界值平滑
    8 c( i' L) H8 n" _6 C8 y  G' Q
    8 ^+ ^, o3 ]! F6 Q用距离较小的边界值替代箱中每一数据。
    $ E! A6 w, H( Q0 I) V: f5 Q: N1 N+ h! P; [7 P
    ⑶按中值平滑 6 S- i" p* `' m# U. e6 l) d

    % ?8 ^. l! Q+ G( a+ s  f取箱子的中值,用来替代箱子中的所有数据。
    6 r) e" v! a3 \( L
    9 m. v* N) @, |) {# Z3 Q  O8.聚类:将物理的或抽象对象的集合分组为由类似的对象组成的多个类。
    " m/ k9 R0 [: }: d3 b! f
    % V  y7 w( Q% Z# X找出并清除那些落在簇之外的值(孤立点),这些孤立点被视为噪声。
    , ^' b, _3 X; T2 h( }& f3 [- J: L5 y) \+ ~# h! c" W% {
    9.回归;试图发现两个相关的变量之间的变化模式,通过使数据适合一个函数来平滑数据,即通过建立数学模型来预测下一个数值,包括线性回归和非线性回归。   
    0 m# L2 [; S: U% h8 J5 p7 {' m- e
    10.数据集成:将多文件或者多数据库中的异构数据进行合并,然后存放在一个一致的数据存储中。考虑以下几个问题: 1.模式匹配2.数据冗余3.数据值冲突
    $ h6 ?  }0 A4 ^. M) C8 X5 c
    ' {# @& O  l. B11. 数据变换:1.平滑2.聚集3.数据概化4.规范化(1)最小-最大规范化(2)零-均值规范化(3)小数定标规范化5.属性构造8 y, c5 j/ n2 H; I( S

    " R% R7 K8 h+ @0 a( u9 O12.数据集成:将多文件或者多数据库中的异构数据进行合并,然后存放在一个一致的数据存储中。考虑以下几个问题: 1.模式匹配2.数据冗余3.数据值冲突 2 ]" @7 s( k- t

    4 N" j2 \: L6 @0 y1 x13.数据归约:目的是为了获得比原始数据小的多的,但不破坏数据完整性的挖掘数据集,该数据集可以得到与原始数据相同的挖掘结果。 & l3 f# r" Z( |( w

    + j9 _( {& s! |- ~& _' l4 \数据归约的方法: 1.数据立方体聚集:把聚集的方法用于数据立方体。2.维归约:检测并删除不相关、弱相关或冗余属性。3.数据压缩:选择正确的编码压缩数据集。4.数值压缩:用较小的数据表示数据,或采用较短的数据单位,或者用数据模型代表数据。5.离散化和概念分层生成:使连续的数据离散化,用确定的有限个区段值代替原始值;概念分层是指用较高层次的概念替换低层次的概念,以此来减少取值个数。! Y, Q6 J" V8 b6 ]4 P8 r% [

    * }+ Q! U, x$ o) {3 Q  E* p. i14.数据立方体聚集 :是数据的多维建模和表示,由维和事实组成。 9 ~  p4 Y8 D( Z

    7 E7 _6 }7 c+ K! d7 L5 O% H5 R维归约:去掉不相关的属性,减少数据挖掘处理的数据量。 # _( f( ~, D# G6 O9 Y2 @- \" n

    : c8 i: @# ?$ E7 M7 ?* L, v属性子集选择的基本方法包括以下几种: 1.逐步向前选择2.逐步向后删除3.向前选择和向后删除结合4.判定树归纳5.基于统计分析的归约   / f1 ^. s( ~% ?, H9 a5 X0 z
    . |+ k$ C7 y$ a9 m* Y3 a4 j8 F" j
    数据压缩:方法分为两类:无损压缩和有损压缩
    4 A. z5 L( Q( U5 ]" ~  b6 S8 }' `7 k2 K
    数值归约常用的方法: 1.直方图2.聚类3.抽样:不放回简单随机抽样、放回简单随机抽样、聚类抽样和分层抽样4.线性回归5.非线性回归     
    ; s6 g: S% Z0 @- n+ i* l  g- Z1 A) P/ }. G  W; t
    15.数据变换涉及以下几个方面:1.平滑2.聚集3.数据概化4.规范化(1)最小-最大规范化(2)零-均值规范化(3)小数定标规范化5.属性构造
    7 f3 K# ]2 b- w& Z  F. m9 W9 s! r( I2 R6 s, g8 ~1 Q6 ^5 D
    *规范化:(1)最小—最大规范化。原取值区间 [old_min,old_max],规范化后的新的取值区间[new_min,new_max]。
    % E) K, e) y. p+ o5 ~! l' l! v( D. U* I7 E8 Q% W2 \) i
    x’=  其中:x是属性的真实值,x’是规范化后的值。+ T; Y6 a" f0 Y5 e7 j. z4 R6 n! L

    5 R* `" b! k. ^. d! ^6 q例如:“客户背景数据”表中的客户月收入income属性的实际值范围为[12000,98000],要把这个属性值规范到[0,1],对属性值73600应用上述公式:
    , L% W7 H$ E2 x* k+ Z
    . j) y  d% L3 D2 s/ Cx’=(1.0-0)+0=0.7163 `2 R- r. f8 b3 X! k
    + z* u& Y% ^! \$ z/ w6 A$ T5 o7 ~
    根据精度要求保留小数(假设精度要求0.01),最终取值0.72就是属性值73600规范化后的值。* D( a7 @1 |& U

    # x. e' S6 J# ?9 Q, E (2)零—均值规范化(z—score规范化),是根据属性值的平均值和标准差进行规范化,即:
    ; f7 i3 m  J1 ^5 X. F1 r( y$ d9 q$ [
    x’=   =  =    为所有样本属性值的平均值,为样本的标准差。当属性值范围未知的时候,可以使用此方法进行规范化。
    9 |1 ~+ {* x) b" @2 b' O
    * _) L) w4 j" Y1 N; z+ y" x, l( K    例:假设某属性的平均值和标准差分别为80、25,采用零-均值规范化66为:x’==-0.56' ?; s! Q& {2 j+ q) s
    ! i( x$ }) t3 s4 p& K
    (3)小数定标规范化:通过移动属性A的小数点位置进行规范化 。1 y2 C  `# u0 c% a

    . N9 g. m' q8 u# Q. K9 _/ ux’= 为满足式<1的最小整数。
    + a$ `5 {; K( |8 O" `6 c$ C$ X
    : N& @3 M+ b/ f* `- {( C  e例:假设某属性规范化前的取值范围为[-120,110],采用小数定标规范化66。由于该属性的最大绝对值为120,则由<1可得出=3,因此,66规范化后为:x’==0.066
    6 }8 A; E- H) D% H————————————————
    + j' E" O: |  b4 X4 @$ n( l  O版权声明:本文为CSDN博主「搬砖老头」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
    # F# \+ I3 u. B6 ?  z4 e原文链接:https://blog.csdn.net/wang1127248268/article/details/53571956$ }" m* Q3 Z% P, C. k" ?1 m

    ' B% `% r+ i+ Y" \- j* c7 w0 q! R8 k; [6 h
    zan

    1

    主题

    3

    听众

    169

    积分

    升级  34.5%

  • TA的每日心情
    擦汗
    2023-9-25 13:50
  • 签到天数: 67 天

    [LV.6]常住居民II

    国际赛参赛者

    网络挑战赛参赛者

    自我介绍
    热爱数学建模
    回复

    使用道具 举报

    德古拉        

    2

    主题

    4

    听众

    140

    积分

    升级  20%

  • TA的每日心情
    奋斗
    2024-3-23 20:56
  • 签到天数: 114 天

    [LV.6]常住居民II

    国际赛参赛者

    自我介绍
    嘶嘶。。。
    回复

    使用道具 举报

    浅夏110 实名认证       

    542

    主题

    15

    听众

    1万

    积分

  • TA的每日心情
    开心
    2020-11-14 17:15
  • 签到天数: 74 天

    [LV.6]常住居民II

    邮箱绑定达人

    群组2019美赛冲刺课程

    群组站长地区赛培训

    群组2019考研数学 桃子老师

    群组2018教师培训(呼伦贝

    群组2019考研数学 站长系列

    huangyanzuo 发表于 2020-5-19 12:06
    * Z) l3 x- n7 D1 |: W6 S4 z- ~棒!棒!棒!棒!棒!棒!棒!棒!
    # S% l# B6 M8 b; G$ S
    - q% x  P+ W) Y3 ^- `$ J  y0 ~; s
    回复

    使用道具 举报

    浅夏110 实名认证       

    542

    主题

    15

    听众

    1万

    积分

  • TA的每日心情
    开心
    2020-11-14 17:15
  • 签到天数: 74 天

    [LV.6]常住居民II

    邮箱绑定达人

    群组2019美赛冲刺课程

    群组站长地区赛培训

    群组2019考研数学 桃子老师

    群组2018教师培训(呼伦贝

    群组2019考研数学 站长系列

    回复

    使用道具 举报

    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2024-3-29 10:16 , Processed in 0.603118 second(s), 73 queries .

    回顶部