QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 2569|回复: 4
打印 上一主题 下一主题

数据挖掘中的数据预处理方法总结

[复制链接]
字体大小: 正常 放大
浅夏110 实名认证       

542

主题

15

听众

1万

积分

  • TA的每日心情
    开心
    2020-11-14 17:15
  • 签到天数: 74 天

    [LV.6]常住居民II

    邮箱绑定达人

    群组2019美赛冲刺课程

    群组站长地区赛培训

    群组2019考研数学 桃子老师

    群组2018教师培训(呼伦贝

    群组2019考研数学 站长系列

    跳转到指定楼层
    1#
    发表于 2020-5-19 09:40 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta |邮箱已经成功绑定
    1.原始数据存在的几个问题:不一致;重复;含噪声;维度高。
    3 n7 V0 y( [- V4 K9 a+ I! I0 v- n2 u+ r6 O: c7 J5 T
    2.数据预处理包含数据清洗、数据集成、数据变换和数据归约几种方法。
    8 Q5 p! A) b/ }: Y% R. _
    8 K( R& Z- `. e) _3.数据挖掘中使用的数据的原则
    1 L( u2 I/ X8 H6 l1 E4 ^. s- V5 u2 k# s  ^8 z9 ~8 }/ C
    应该是从原始数据中选取合适的属性作为数据挖掘属性,这个选取过程应参考的原则是:尽可能赋予属性名和属性值明确的含义;统一多数据源的属性值编码;去除惟一属性;去除重复性;去除可忽略字段;合理选择关联字段。
    $ g3 N& }( y, K' p. Q" s: }5 @% I6 w/ v- ]
    4.处理空缺值的方法:忽略该记录;去掉属性;手工填写空缺值;使用默认值;使用属性平均值;使用同类样本平均值;预测最可能的值。8 C3 y/ T! b, ]8 n  E

    ) ~! U' Q0 |0 \# h5.噪声数据的处理方法:分箱;聚类;计算机和人工检查结合;回归2 _, S' Y9 q$ [; }; w3 S4 h
    ! W- Q4 n) o: i
    6.分箱:分箱方法是一种简单常用的预处理方法,通过考察相邻数据来确定最终值。所谓“分箱”,实际上就是按照属性值划分的子区间,如果一个属性值处于某个子区间范围内,就称把该属性值放进这个子区间所代表的“箱子”内。把待处理的数据(某列属性值)按照一定的规则放进一些箱子中,考察每一个箱子中的数据,采用某种方法分别对各个箱子中的数据进行处理。在采用分箱技术时,需要确定的两个主要问题就是:如何分箱以及如何对每个箱子中的数据进行平滑处理。
    ; Z% [" p# ~9 n/ u* H% Z) i
    & |' B6 |* J. n+ E: r4 z7 h  l分箱的方法:有4种:等深分箱法、等宽分箱法、最小熵法和用户自定义区间法。
    3 |$ O" \1 y& v( q- A3 O9 a; i) T" c8 J  h
    统一权重,也成等深分箱法,将数据集按记录行数分箱,每箱具有相同的记录数,每箱记录数称为箱子的深度。这是最简单的一种分箱方法。% ?, L+ g- T" F( Q+ w4 h9 y

    $ g3 s; K) f9 R! |统一区间,也称等宽分箱法,使数据集在整个属性值的区间上平均分布,即每个箱的区间范围是一个常量,称为箱子宽度。. I! e! }- _) C+ U; \
    " }5 W- \4 q& l/ A* _6 n
    用户自定义区间,用户可以根据需要自定义区间,当用户明确希望观察某些区间范围内的数据分布时,使用这种方法可以方便地帮助用户达到目的。! u, S8 t  u- O( C6 u
    & F: ~% H  m1 T* N+ D+ K- A
    例:客户收入属性income排序后的值(人民币元):800 1000 1200 1500  1500 1800 2000 2300 2500 2800 3000 3500 4000 4500 4800 5000,分箱的结果如下。4 p' Y8 S1 e" Q1 Y' G$ O

    $ }! V0 G' F3 o统一权重:设定权重(箱子深度)为4,分箱后
    ! O: S) a, |# T3 y- _. Q) {
    0 Q$ X2 H: V5 r. B7 m, M& c7 b箱1:800 1000 1200 1500
    ! m9 T- Q. k: G9 W: o2 i  e- d9 B$ Z! ~) b0 z, p/ t- _; ~& f+ J
    箱2:1500 1800 2000 2300
    & f/ N& Q$ l/ L  O
    % V; y$ w7 e9 z, n箱3:2500 2800 3000 3500
    + X- @4 c1 t9 v* Q# j/ t% z1 D; V9 i. }6 b* h3 d
    箱4:4000 4500 4800 5000   
    ( ]  _- ~% ?8 k1 K3 [7 H: B1 X9 C$ [. M9 n% C9 d8 y# E, ~: o
    统一区间:设定区间范围(箱子宽度)为1000元人民币,分箱后) n6 A  G& ?" s- G5 B

    # i0 g# V0 e6 ]( ]8 M# K箱1:800 1000 1200 1500 1500 1800" M: g# x& N' y5 a# g$ L

    ' C/ X# E' ^+ C  g% `箱2:2000 2300 2500 2800 3000
    : v& [. J4 f& R$ {+ `5 x( B- ^6 }% O# m8 L- n1 T
    箱3:3500 4000 4500
    8 U2 E" U% h( S7 q( L
      Z1 f) v( D# j/ M箱4:4800 5000
    4 L6 h( k% m. `3 ^: l5 J% G2 H1 s
    3 G; b) a* [8 H6 W( [/ t- n用户自定义:如将客户收入划分为1000元以下、1000~2000、2000~3000、3000~4000和4000元以上几组,分箱后
    ; u" a- ?. Q& Q4 d& y- B6 f. h0 j& E6 q" e
    箱1:800 / ~& B& d; L" _* A

      Q, k* j8 W5 d8 M: {. E2 W箱2:1000 1200 1500 1500 1800 2000
    : [' Z+ f" K5 s+ J0 A$ t  O8 U" X; S! `: w$ L( j
    箱3:2300 2500 2800 3000  1 Z& L, Q" ]. [

    4 c2 d, U, ^; ^+ x! c! W1 A3 n箱4:3500 4000
    9 Z! R! h" `1 o7 ~( r. K
    4 u$ U" V& {' t, j箱5:4500 4800 5000
    $ l( S$ \9 [+ j% ?4 O% s
    5 x# Z/ Q' m0 z/ X+ C/ z6 \7.数据平滑方法:按平均值平滑、按边界值平滑和按中值平滑。6 C1 Q# e! F$ f3 j( _1 ?8 K

    - }/ _: M" `! Y2 i4 P3 i$ }* s# `⑴按平均值平滑 & J4 n$ z. c: K' U" h! C3 j

    3 a1 A$ o5 g+ g0 t对同一箱值中的数据求平均值,用平均值替代该箱子中的所有数据。 6 M1 `3 b' u% _, W! z1 `1 w

    0 d! o2 @+ o" v" d% D1 e& I/ p⑵按边界值平滑 ' R6 b7 I- Z' q: C. w5 i

    . b2 s' w# g. ?5 C! H" C- r用距离较小的边界值替代箱中每一数据。 " [3 W: G; _. z7 W# X# k3 |1 G
    , y  @' o) z" n9 [( G; a0 s
    ⑶按中值平滑 ) v! c( H; e5 q. D2 t/ ?0 L0 g+ a
    4 O: i" _( g) R+ C) c+ C3 {( d
    取箱子的中值,用来替代箱子中的所有数据。
    - ^. |( F0 M5 k; i+ h+ `1 _' n- `. p3 s
    8.聚类:将物理的或抽象对象的集合分组为由类似的对象组成的多个类。  K; _8 v0 u5 a9 k. c& h7 A, }7 h
      N- Q& o! b% o# ^; |* w
    找出并清除那些落在簇之外的值(孤立点),这些孤立点被视为噪声。
    ) b( v" D% X  }/ ^4 [+ M) S0 e8 o: ?% x0 F
    9.回归;试图发现两个相关的变量之间的变化模式,通过使数据适合一个函数来平滑数据,即通过建立数学模型来预测下一个数值,包括线性回归和非线性回归。   
    , F8 X- M0 L3 R( v4 l- R( E8 z6 c0 M) f6 u
    10.数据集成:将多文件或者多数据库中的异构数据进行合并,然后存放在一个一致的数据存储中。考虑以下几个问题: 1.模式匹配2.数据冗余3.数据值冲突 8 {/ Z4 p* g+ ~0 ~% `( g& l
    / s% }% c% j; f8 B8 }* v, z  s, y
    11. 数据变换:1.平滑2.聚集3.数据概化4.规范化(1)最小-最大规范化(2)零-均值规范化(3)小数定标规范化5.属性构造
      y8 S6 \0 G" d3 h' z+ S5 l1 t) B4 x5 a& H. {2 R
    12.数据集成:将多文件或者多数据库中的异构数据进行合并,然后存放在一个一致的数据存储中。考虑以下几个问题: 1.模式匹配2.数据冗余3.数据值冲突
    - r7 ~! p9 n; f& F& L9 n
    & }: n- M' B7 g) {) y  M13.数据归约:目的是为了获得比原始数据小的多的,但不破坏数据完整性的挖掘数据集,该数据集可以得到与原始数据相同的挖掘结果。
    % p' L! ?: K6 n/ V, _# ]/ f
    2 O/ c2 p+ C! @. z" k+ ~1 O数据归约的方法: 1.数据立方体聚集:把聚集的方法用于数据立方体。2.维归约:检测并删除不相关、弱相关或冗余属性。3.数据压缩:选择正确的编码压缩数据集。4.数值压缩:用较小的数据表示数据,或采用较短的数据单位,或者用数据模型代表数据。5.离散化和概念分层生成:使连续的数据离散化,用确定的有限个区段值代替原始值;概念分层是指用较高层次的概念替换低层次的概念,以此来减少取值个数。% l4 M  M+ {7 n
    # l- R2 }7 A2 t' v$ p2 ?
    14.数据立方体聚集 :是数据的多维建模和表示,由维和事实组成。
    5 {6 I" m2 n+ `# Y& O/ i3 r0 ^: S& o% U/ h
    维归约:去掉不相关的属性,减少数据挖掘处理的数据量。 ' A% P# H4 u: ^/ M+ I
    3 p( u7 ?8 B4 R) B0 S- e1 N. O0 R
    属性子集选择的基本方法包括以下几种: 1.逐步向前选择2.逐步向后删除3.向前选择和向后删除结合4.判定树归纳5.基于统计分析的归约   
    / J7 A9 {; a+ n" M, _. |
    / ]5 [( M- a$ |' k+ I. c数据压缩:方法分为两类:无损压缩和有损压缩
    5 y0 Y# t1 G7 S5 @
    ! D  `& k. J, R. i! D, r9 M3 A& t0 T数值归约常用的方法: 1.直方图2.聚类3.抽样:不放回简单随机抽样、放回简单随机抽样、聚类抽样和分层抽样4.线性回归5.非线性回归     ' v$ O2 W: z2 \  ]/ g# Y5 I* U

    6 Y; i1 L) M, L; t5 F4 O15.数据变换涉及以下几个方面:1.平滑2.聚集3.数据概化4.规范化(1)最小-最大规范化(2)零-均值规范化(3)小数定标规范化5.属性构造) O' o- M* J+ j
    6 Q, c& e1 a9 O5 l% U* h
    *规范化:(1)最小—最大规范化。原取值区间 [old_min,old_max],规范化后的新的取值区间[new_min,new_max]。7 v) B9 _8 i' m2 f2 ?1 t7 u" {2 x9 i& G5 X

    : w1 l( ~: d1 v$ ~2 T% Cx’=  其中:x是属性的真实值,x’是规范化后的值。
    " g8 i" V0 V  q# c8 j
    3 q% ?/ n" K* r例如:“客户背景数据”表中的客户月收入income属性的实际值范围为[12000,98000],要把这个属性值规范到[0,1],对属性值73600应用上述公式:
      l# b0 i" a0 q! p$ f' j" D5 r6 d0 ]! e$ P) E1 T9 J
    x’=(1.0-0)+0=0.716
    4 I) N/ R! u% E; L3 @
    8 P9 ?7 s' p( ^) ~, P! Q根据精度要求保留小数(假设精度要求0.01),最终取值0.72就是属性值73600规范化后的值。1 f. l/ R- w3 Z3 U

    : ?3 Z* B* l- B  _# D7 L1 Q7 M (2)零—均值规范化(z—score规范化),是根据属性值的平均值和标准差进行规范化,即:& V0 X, S9 Q5 B9 J( }
    * F* P/ z. q/ ~- |! I  y! f0 P+ ~
    x’=   =  =    为所有样本属性值的平均值,为样本的标准差。当属性值范围未知的时候,可以使用此方法进行规范化。; w& P  h% M( R" S! [8 i  B# U* f! A
    0 ]9 J* J  ?' N0 `" i8 t0 e9 P: d8 d
        例:假设某属性的平均值和标准差分别为80、25,采用零-均值规范化66为:x’==-0.56- R+ b* ]* }* C$ a  ]$ _" Z

      u) E6 N' E9 {+ `! p! q/ ^(3)小数定标规范化:通过移动属性A的小数点位置进行规范化 。
    : F4 X9 ?. Y3 R3 o  d$ V+ g& e+ z7 R. F
    x’= 为满足式<1的最小整数。
    2 T# p) X. K2 o1 B# x5 {' j' _6 R- S
    例:假设某属性规范化前的取值范围为[-120,110],采用小数定标规范化66。由于该属性的最大绝对值为120,则由<1可得出=3,因此,66规范化后为:x’==0.066
    4 }, ~6 r2 l* ~! ~$ B————————————————
    # R( r' S1 a% N: C版权声明:本文为CSDN博主「搬砖老头」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
    ( ~3 C2 F/ u2 [+ M原文链接:https://blog.csdn.net/wang1127248268/article/details/53571956% F; ]# V! R3 Y: @. ]
    ! M5 U0 v$ I' }
    - I. ~5 {; S; W5 s0 m5 M3 Y
    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏2 支持支持0 反对反对0 微信微信

    1

    主题

    3

    听众

    169

    积分

    升级  34.5%

  • TA的每日心情
    擦汗
    2023-9-25 13:50
  • 签到天数: 67 天

    [LV.6]常住居民II

    国际赛参赛者

    网络挑战赛参赛者

    自我介绍
    热爱数学建模
    回复

    使用道具 举报

    德古拉        

    2

    主题

    4

    听众

    165

    积分

    升级  32.5%

  • TA的每日心情
    奋斗
    2025-12-3 23:13
  • 签到天数: 127 天

    [LV.7]常住居民III

    国际赛参赛者

    自我介绍
    嘶嘶。。。
    回复

    使用道具 举报

    浅夏110 实名认证       

    542

    主题

    15

    听众

    1万

    积分

  • TA的每日心情
    开心
    2020-11-14 17:15
  • 签到天数: 74 天

    [LV.6]常住居民II

    邮箱绑定达人

    群组2019美赛冲刺课程

    群组站长地区赛培训

    群组2019考研数学 桃子老师

    群组2018教师培训(呼伦贝

    群组2019考研数学 站长系列

    huangyanzuo 发表于 2020-5-19 12:06
    " M3 |8 `& [: K& @! `( d- k  d棒!棒!棒!棒!棒!棒!棒!棒!

    ! a/ y: p0 N* B. F. M  F( S6 h
    " b+ B6 N! C* ^  K% z) E
    回复

    使用道具 举报

    浅夏110 实名认证       

    542

    主题

    15

    听众

    1万

    积分

  • TA的每日心情
    开心
    2020-11-14 17:15
  • 签到天数: 74 天

    [LV.6]常住居民II

    邮箱绑定达人

    群组2019美赛冲刺课程

    群组站长地区赛培训

    群组2019考研数学 桃子老师

    群组2018教师培训(呼伦贝

    群组2019考研数学 站长系列

    回复

    使用道具 举报

    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2026-4-20 19:59 , Processed in 0.476843 second(s), 73 queries .

    回顶部