请选择 进入手机版 | 继续访问电脑版

QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 844|回复: 4

数据挖掘中的数据预处理方法总结

[复制链接]
字体大小: 正常 放大
浅夏110 实名认证       

542

主题

15

听众

1万

积分

  • TA的每日心情
    开心
    2020-11-14 17:15
  • 签到天数: 74 天

    [LV.6]常住居民II

    邮箱绑定达人

    群组2019美赛冲刺课程

    群组站长地区赛培训

    群组2019考研数学 桃子老师

    群组2018教师培训(呼伦贝

    群组2019考研数学 站长系列

    发表于 2020-5-19 09:40 |显示全部楼层
    |招呼Ta 关注Ta |邮箱已经成功绑定
    1.原始数据存在的几个问题:不一致;重复;含噪声;维度高。
    ( C* [$ ~) L0 j8 K) I
    / {! h+ r, Y* ]4 F* {% B2.数据预处理包含数据清洗、数据集成、数据变换和数据归约几种方法。
      P. v3 x5 \) C8 X+ `/ O) U* U/ J: K7 v+ S5 f3 Q5 t
    3.数据挖掘中使用的数据的原则; m) x) c8 q% H
    # W  A* r0 B9 C
    应该是从原始数据中选取合适的属性作为数据挖掘属性,这个选取过程应参考的原则是:尽可能赋予属性名和属性值明确的含义;统一多数据源的属性值编码;去除惟一属性;去除重复性;去除可忽略字段;合理选择关联字段。
    & D7 i. Y/ p* P- i  n" O! m" z9 L% C. k) O! }- `1 P% x. I
    4.处理空缺值的方法:忽略该记录;去掉属性;手工填写空缺值;使用默认值;使用属性平均值;使用同类样本平均值;预测最可能的值。
    9 }  B- F& F5 S$ z' R+ o, R) ^. P  Q
      T- K" W3 a, o3 f( F& h% G3 \' h5.噪声数据的处理方法:分箱;聚类;计算机和人工检查结合;回归% n% m( o5 A6 X. L. g# B

    " [+ p, g* C; e; q6.分箱:分箱方法是一种简单常用的预处理方法,通过考察相邻数据来确定最终值。所谓“分箱”,实际上就是按照属性值划分的子区间,如果一个属性值处于某个子区间范围内,就称把该属性值放进这个子区间所代表的“箱子”内。把待处理的数据(某列属性值)按照一定的规则放进一些箱子中,考察每一个箱子中的数据,采用某种方法分别对各个箱子中的数据进行处理。在采用分箱技术时,需要确定的两个主要问题就是:如何分箱以及如何对每个箱子中的数据进行平滑处理。" n' N9 S- Q' m7 L! ?9 |8 U9 V

    8 d0 I& o6 t0 x7 S  A& G分箱的方法:有4种:等深分箱法、等宽分箱法、最小熵法和用户自定义区间法。
    " A1 o+ n. u1 }( o
    ; X! E3 o; g/ F3 H/ }统一权重,也成等深分箱法,将数据集按记录行数分箱,每箱具有相同的记录数,每箱记录数称为箱子的深度。这是最简单的一种分箱方法。1 z4 I. u  k7 B; e. i; M
    : g2 W0 ]/ L4 ~( |3 U* v1 o5 w
    统一区间,也称等宽分箱法,使数据集在整个属性值的区间上平均分布,即每个箱的区间范围是一个常量,称为箱子宽度。- @' l4 ^/ O4 _% D! B

    " o* ?) `) K) j4 _# r- a' z用户自定义区间,用户可以根据需要自定义区间,当用户明确希望观察某些区间范围内的数据分布时,使用这种方法可以方便地帮助用户达到目的。6 f* g6 p& F: `

    0 U5 A: D4 j0 P# s8 U% z/ f8 ?例:客户收入属性income排序后的值(人民币元):800 1000 1200 1500  1500 1800 2000 2300 2500 2800 3000 3500 4000 4500 4800 5000,分箱的结果如下。
    4 N2 x( q3 ~# B6 H1 ?) g0 M4 O+ M# e+ A# Q
    统一权重:设定权重(箱子深度)为4,分箱后0 O3 U2 O6 `5 e% B

    4 F1 ~. o3 z8 Z  }8 R, e* @" ^箱1:800 1000 1200 1500
    " |: ?( m' c4 z7 q7 w
    ( s' [9 g; J7 e' e6 g0 I箱2:1500 1800 2000 2300 * F# y( n. H% f# i$ T3 p1 ~- k1 l

    & c6 s0 B* o" T箱3:2500 2800 3000 35007 H/ ~; S1 s/ i4 I( l

    ! U/ H! p; }+ W/ q. i% T& M  K箱4:4000 4500 4800 5000   * p3 g7 O% [3 v. _3 M$ V

    ( C6 ^* C6 u% \$ F; S+ m统一区间:设定区间范围(箱子宽度)为1000元人民币,分箱后8 \/ L9 ?0 @' `2 i' a

    % f9 d! W# a4 n8 I6 E! U* C" m! t' ^箱1:800 1000 1200 1500 1500 1800
      q& W$ C, X. c( C' ?8 Z! O- N, m( [& J
    箱2:2000 2300 2500 2800 3000
    , {0 I% r$ y' \6 N8 N0 ^
    5 ?8 }/ P6 R  a$ t- v箱3:3500 4000 4500
    0 x$ U6 P7 a1 e# B# J6 a( m' T; U  O! t) S$ X# Z
    箱4:4800 5000 " H( \( Y1 W4 T: f6 Q( ]: n

    * }2 q9 b, t" F0 i6 o6 K5 K) c6 T- ~用户自定义:如将客户收入划分为1000元以下、1000~2000、2000~3000、3000~4000和4000元以上几组,分箱后
    $ n  W6 S( {- Z8 D/ R' p! j: ^5 J" o, c8 U1 P
    箱1:800
    , ?+ N3 t6 H. k& `5 H8 R9 F/ e0 o. ~1 a
    箱2:1000 1200 1500 1500 1800 2000 7 y+ b' X0 A3 N6 h7 |. n5 S! c

    & j% v9 W4 r1 \箱3:2300 2500 2800 3000  ' O5 Q( m" j; ?: b) {  F2 N  i" E

    7 g  S) S0 n4 D' p* k; f8 n+ y箱4:3500 4000
    ' z. G# K2 V+ c3 W$ I2 q3 b0 x
    ! T  |- |# ?+ q- |1 V$ K- c9 w& t箱5:4500 4800 5000 ) Y/ a% ^5 \" F# C; j+ \1 W
    : R' w5 D* ^6 N, e7 E5 F) U
    7.数据平滑方法:按平均值平滑、按边界值平滑和按中值平滑。
    * m- _6 S5 P; h3 W$ `
    ; b* L4 T& G3 f5 a# M  {" w⑴按平均值平滑
      j: s# I' J. Z1 y  ?7 S4 k3 M5 S# i! P3 O
    对同一箱值中的数据求平均值,用平均值替代该箱子中的所有数据。 / I+ K2 W9 |( ^- i/ v0 z" u! M

    + k: J, ^+ K1 V: Z⑵按边界值平滑
    ( H$ I  Q& |  t8 K( D3 g$ x) A- K2 Y5 }, W8 }; q
    用距离较小的边界值替代箱中每一数据。   [4 f1 H# |7 D* ]; T! ^

      p4 Q& {( {* s* n- x, c⑶按中值平滑 ( z+ \$ l* M5 [( _" n' Y8 ?- p1 |

    # f5 x) x2 f* G) |" o( p取箱子的中值,用来替代箱子中的所有数据。
    3 `9 L) |+ h2 N# {' P) R
    - ]3 U" h$ u  g0 i1 e" o8.聚类:将物理的或抽象对象的集合分组为由类似的对象组成的多个类。1 c( ?7 P9 B& `7 Y% F6 C3 V8 {; \$ N

    6 ?; V7 x+ X/ K, M! P1 q7 P+ K8 w找出并清除那些落在簇之外的值(孤立点),这些孤立点被视为噪声。
    # r6 m8 z0 q7 r/ h
    / u9 ]6 A: g& `; H0 p9.回归;试图发现两个相关的变量之间的变化模式,通过使数据适合一个函数来平滑数据,即通过建立数学模型来预测下一个数值,包括线性回归和非线性回归。   ) S7 X  R2 {$ [

    + W" _5 @8 q0 t/ [9 c10.数据集成:将多文件或者多数据库中的异构数据进行合并,然后存放在一个一致的数据存储中。考虑以下几个问题: 1.模式匹配2.数据冗余3.数据值冲突
    . z) t7 |% _6 e0 A) [0 @( f( b1 {6 n9 A$ E0 v
    11. 数据变换:1.平滑2.聚集3.数据概化4.规范化(1)最小-最大规范化(2)零-均值规范化(3)小数定标规范化5.属性构造
    : o* ~  G( S2 }7 z/ L# o$ P9 k0 n- M  x, Z8 O# S
    12.数据集成:将多文件或者多数据库中的异构数据进行合并,然后存放在一个一致的数据存储中。考虑以下几个问题: 1.模式匹配2.数据冗余3.数据值冲突
    0 Z1 K0 Y, w! N' w; p6 V& B- d, Q" S9 o( z5 Q
    13.数据归约:目的是为了获得比原始数据小的多的,但不破坏数据完整性的挖掘数据集,该数据集可以得到与原始数据相同的挖掘结果。
    % F4 Z- O3 w5 i+ o4 N$ ~% m
    0 j; f' ~* C1 B( O( c数据归约的方法: 1.数据立方体聚集:把聚集的方法用于数据立方体。2.维归约:检测并删除不相关、弱相关或冗余属性。3.数据压缩:选择正确的编码压缩数据集。4.数值压缩:用较小的数据表示数据,或采用较短的数据单位,或者用数据模型代表数据。5.离散化和概念分层生成:使连续的数据离散化,用确定的有限个区段值代替原始值;概念分层是指用较高层次的概念替换低层次的概念,以此来减少取值个数。
    # s, B4 R. T1 W0 h( g  G/ D, r& U  p- Q* P
    14.数据立方体聚集 :是数据的多维建模和表示,由维和事实组成。
    5 Q/ S+ t& d0 l$ w0 u4 d1 i7 x, h% c+ \
    维归约:去掉不相关的属性,减少数据挖掘处理的数据量。
    9 B7 \. {- f8 Z6 \& j/ P
    " X- J( L$ w8 R- f* I属性子集选择的基本方法包括以下几种: 1.逐步向前选择2.逐步向后删除3.向前选择和向后删除结合4.判定树归纳5.基于统计分析的归约   
    * e7 `" x6 T) P, j2 R6 z) G2 N
    , _" A9 ^0 M' D# Z- f4 X- r数据压缩:方法分为两类:无损压缩和有损压缩0 a+ o6 Z! `( F5 w* E8 Q
    8 w4 a5 E, M6 o1 d4 [7 h. ~
    数值归约常用的方法: 1.直方图2.聚类3.抽样:不放回简单随机抽样、放回简单随机抽样、聚类抽样和分层抽样4.线性回归5.非线性回归     
    ; y9 G: g' `, C7 t' [7 ?  u- d6 I
      u: K8 }6 {- ^! m! U. x15.数据变换涉及以下几个方面:1.平滑2.聚集3.数据概化4.规范化(1)最小-最大规范化(2)零-均值规范化(3)小数定标规范化5.属性构造
    0 @$ T: p& W( ^& E+ g
    + l; H# l* w8 I* K5 O*规范化:(1)最小—最大规范化。原取值区间 [old_min,old_max],规范化后的新的取值区间[new_min,new_max]。
    9 f; ]3 k) Z; \* M" r2 D* ]
    1 e$ M' _9 j8 B* ux’=  其中:x是属性的真实值,x’是规范化后的值。
    # m7 c' F* _. T" t* N, v3 G/ \! T, c
    例如:“客户背景数据”表中的客户月收入income属性的实际值范围为[12000,98000],要把这个属性值规范到[0,1],对属性值73600应用上述公式:8 K7 c7 Y6 L& M$ |+ I" R% \! c2 x. n

    9 E4 g, d( M8 i8 V" xx’=(1.0-0)+0=0.716( d- h" P! u( m; }2 A' b/ H4 h

    # R( q+ W$ J8 o根据精度要求保留小数(假设精度要求0.01),最终取值0.72就是属性值73600规范化后的值。
    % g6 z6 n4 I: H
    2 J( ?/ w3 v8 A% ^% o& a0 A (2)零—均值规范化(z—score规范化),是根据属性值的平均值和标准差进行规范化,即:
    6 u; z1 }# l* B/ Y& d: Y. ~
    : H2 d$ V/ u0 h) v, y1 xx’=   =  =    为所有样本属性值的平均值,为样本的标准差。当属性值范围未知的时候,可以使用此方法进行规范化。
    8 R, i, K: ?$ N
    0 g6 n" C% j8 ]8 {# M" u    例:假设某属性的平均值和标准差分别为80、25,采用零-均值规范化66为:x’==-0.56
    6 w( D, v: P( H0 e; a* z6 D6 w9 k$ n/ X: t# d" j1 |
    (3)小数定标规范化:通过移动属性A的小数点位置进行规范化 。
    ( K$ i( B' K# ^9 z1 V$ s
    0 x$ ^) i: i1 p$ I7 Sx’= 为满足式<1的最小整数。
    $ w8 h2 e- e. \4 _+ n
    " k  a/ `; ~$ X3 w例:假设某属性规范化前的取值范围为[-120,110],采用小数定标规范化66。由于该属性的最大绝对值为120,则由<1可得出=3,因此,66规范化后为:x’==0.066% S3 Z* v4 j- d- W7 t3 Q9 b
    ————————————————* a7 c7 Z! v. m5 N
    版权声明:本文为CSDN博主「搬砖老头」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。& M/ i* T) D4 [4 b6 T" s/ n
    原文链接:https://blog.csdn.net/wang1127248268/article/details/53571956
    . T9 w* n& W) [' L% Z2 n. b$ I, S; M6 g, }  ^, {6 x& v

    7 w- X7 W- l" W" l) ~
    zan

    0

    主题

    1

    听众

    258

    积分

    升级  79%

  • TA的每日心情
    擦汗
    2020-8-28 09:33
  • 签到天数: 62 天

    [LV.6]常住居民II

    国际赛参赛者

    网络挑战赛参赛者

    自我介绍
    热爱数学建模
    回复

    使用道具 举报

    德古拉        

    0

    主题

    3

    听众

    137

    积分

    升级  18.5%

  • TA的每日心情
    奋斗
    2021-11-10 11:46
  • 签到天数: 51 天

    [LV.5]常住居民I

    自我介绍
    嘶嘶。。。
    回复

    使用道具 举报

    浅夏110 实名认证       

    542

    主题

    15

    听众

    1万

    积分

  • TA的每日心情
    开心
    2020-11-14 17:15
  • 签到天数: 74 天

    [LV.6]常住居民II

    邮箱绑定达人

    群组2019美赛冲刺课程

    群组站长地区赛培训

    群组2019考研数学 桃子老师

    群组2018教师培训(呼伦贝

    群组2019考研数学 站长系列

    huangyanzuo 发表于 2020-5-19 12:06 7 p5 V+ W: N) q0 Q/ {
    棒!棒!棒!棒!棒!棒!棒!棒!

    : z7 I. z+ [* `' K0 C' {. G2 [; R( s6 \7 |
    回复

    使用道具 举报

    浅夏110 实名认证       

    542

    主题

    15

    听众

    1万

    积分

  • TA的每日心情
    开心
    2020-11-14 17:15
  • 签到天数: 74 天

    [LV.6]常住居民II

    邮箱绑定达人

    群组2019美赛冲刺课程

    群组站长地区赛培训

    群组2019考研数学 桃子老师

    群组2018教师培训(呼伦贝

    群组2019考研数学 站长系列

    回复

    使用道具 举报

    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2021-11-28 16:53 , Processed in 0.636169 second(s), 73 queries .

    回顶部