QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 2606|回复: 4
打印 上一主题 下一主题

数据挖掘中的数据预处理方法总结

[复制链接]
字体大小: 正常 放大
浅夏110 实名认证       

542

主题

15

听众

1万

积分

  • TA的每日心情
    开心
    2020-11-14 17:15
  • 签到天数: 74 天

    [LV.6]常住居民II

    邮箱绑定达人

    群组2019美赛冲刺课程

    群组站长地区赛培训

    群组2019考研数学 桃子老师

    群组2018教师培训(呼伦贝

    群组2019考研数学 站长系列

    跳转到指定楼层
    1#
    发表于 2020-5-19 09:40 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta |邮箱已经成功绑定
    1.原始数据存在的几个问题:不一致;重复;含噪声;维度高。
    & ^1 b/ D6 r' v* O. ?
    3 S, n/ w' b* K& F6 J2.数据预处理包含数据清洗、数据集成、数据变换和数据归约几种方法。0 i* o7 T2 a+ \* s: S- X
    $ z3 P: f* n* t* e) T( o# }
    3.数据挖掘中使用的数据的原则
    7 T, D* l; _( l" ^# e
    ( {# D' A  \& ?1 y; |8 \应该是从原始数据中选取合适的属性作为数据挖掘属性,这个选取过程应参考的原则是:尽可能赋予属性名和属性值明确的含义;统一多数据源的属性值编码;去除惟一属性;去除重复性;去除可忽略字段;合理选择关联字段。- u1 ~# N* V) ?% O/ @/ V2 e) F+ E. ~

    # O4 d6 }; \. H. [) ^4.处理空缺值的方法:忽略该记录;去掉属性;手工填写空缺值;使用默认值;使用属性平均值;使用同类样本平均值;预测最可能的值。3 {: D" v. E! _

    / x% k, F8 L2 f2 G/ @5.噪声数据的处理方法:分箱;聚类;计算机和人工检查结合;回归3 j: {) ~7 [: `& [+ M3 u) C

    / L6 s( @6 J. O  v: Y2 O6.分箱:分箱方法是一种简单常用的预处理方法,通过考察相邻数据来确定最终值。所谓“分箱”,实际上就是按照属性值划分的子区间,如果一个属性值处于某个子区间范围内,就称把该属性值放进这个子区间所代表的“箱子”内。把待处理的数据(某列属性值)按照一定的规则放进一些箱子中,考察每一个箱子中的数据,采用某种方法分别对各个箱子中的数据进行处理。在采用分箱技术时,需要确定的两个主要问题就是:如何分箱以及如何对每个箱子中的数据进行平滑处理。
    ' H. M" c2 @- D; G8 Y+ z: F# k8 l9 Y5 o& q/ R5 i9 V$ N# |
    分箱的方法:有4种:等深分箱法、等宽分箱法、最小熵法和用户自定义区间法。2 u, w6 |; D0 T) O
    0 a$ b$ H" ~! E1 J6 Y. e
    统一权重,也成等深分箱法,将数据集按记录行数分箱,每箱具有相同的记录数,每箱记录数称为箱子的深度。这是最简单的一种分箱方法。1 A: O! Y( ], {" b9 R+ l
    $ N# v  Z' ^% f6 d" ^. ?' K
    统一区间,也称等宽分箱法,使数据集在整个属性值的区间上平均分布,即每个箱的区间范围是一个常量,称为箱子宽度。3 q8 k$ k' I4 G  \* t

    $ B: A5 d! }3 @! y' u& L5 v7 O. k用户自定义区间,用户可以根据需要自定义区间,当用户明确希望观察某些区间范围内的数据分布时,使用这种方法可以方便地帮助用户达到目的。- a6 d0 y. w: n9 _) g* c' q
    9 v6 b- m6 T) b/ g) J# E
    例:客户收入属性income排序后的值(人民币元):800 1000 1200 1500  1500 1800 2000 2300 2500 2800 3000 3500 4000 4500 4800 5000,分箱的结果如下。
    - u5 E* S6 S) u8 r# Y8 Z  [7 O: ~9 j; e$ H( F+ d# z$ x, D+ c
    统一权重:设定权重(箱子深度)为4,分箱后
    8 c0 T. Z* u- K; Q  A/ n5 Z$ i3 O/ t3 F2 N# e" r" c
    箱1:800 1000 1200 1500; Y" w$ L9 e  h5 H; C0 m
    0 {/ f& }; K! D% A
    箱2:1500 1800 2000 2300
    ' Z: g/ \$ ^. o' v- |8 g9 v! T* f0 w- K; q
    箱3:2500 2800 3000 3500, i+ `) C  }8 _' J+ r. s

    & N+ V7 x/ x0 h$ X箱4:4000 4500 4800 5000   : \4 a/ K- W3 C8 I# e8 [
    $ g2 ?- |3 W/ O2 n1 E) R
    统一区间:设定区间范围(箱子宽度)为1000元人民币,分箱后
    ! C* P- J$ O0 }: W& X
    * e: ?8 S( e( x; M7 W箱1:800 1000 1200 1500 1500 1800
    - S3 w4 @) h) `8 w4 Q6 w% K; \. y; ^$ k$ e9 D8 W) `+ N& g
    箱2:2000 2300 2500 2800 30002 N# P6 |' {$ z  n+ f

      V; s% J8 P) L1 f箱3:3500 4000 4500
    $ q% h' a; j; `5 u1 u7 m9 A( C5 {: K; U! L+ W* z  |
    箱4:4800 5000
    9 T/ {/ t8 y# e* U/ z% Q+ Q" E2 b
    用户自定义:如将客户收入划分为1000元以下、1000~2000、2000~3000、3000~4000和4000元以上几组,分箱后
    " u; R/ T4 x& g) h& }
    3 [4 K( u$ W) s7 }箱1:800 3 u; b( H: A+ }5 G3 F

    4 R. ?" \4 m- n1 N箱2:1000 1200 1500 1500 1800 2000
    / a. a1 K$ [( C2 i- H+ i
    ! x- B7 ?, b! f" h9 p& `. a箱3:2300 2500 2800 3000  ) z1 h8 k9 Y- I, a9 t% K

    ! F  B6 x0 F' k. @7 T箱4:3500 4000 - p+ w* _9 b/ o

    , h/ Q1 m4 G+ j: J7 x% k箱5:4500 4800 5000 & k! _1 x/ {/ i$ [7 _
    2 P3 j% Z% f, f% m% N3 w
    7.数据平滑方法:按平均值平滑、按边界值平滑和按中值平滑。1 N4 {% p' |& H, Q& f: S

    4 K- m1 ?# |6 q( q) O! ~2 @2 a9 q⑴按平均值平滑
    . x; g' J% b. c$ \: j8 x3 N  x. K+ ^$ p; q5 ]* ~. V9 D, T6 L
    对同一箱值中的数据求平均值,用平均值替代该箱子中的所有数据。
    * X0 R# E: D0 G& b6 N
    , D" X$ F: M- b3 |- s5 v) ^- a⑵按边界值平滑
    0 Q. m; t: j! X  B- t2 |, |
      T' k$ \3 p0 F) f2 Y. m用距离较小的边界值替代箱中每一数据。
    $ l/ ]( f& s6 I7 v
    9 ]6 i; j) F% e, g, w⑶按中值平滑   _& ^. o- `2 C& q; s. `7 x5 M/ v( L

    " o! e4 s. U8 P, W6 t取箱子的中值,用来替代箱子中的所有数据。
    ' q$ ^+ z! F4 o$ l3 T
    2 @+ t$ Y# o8 G4 d8.聚类:将物理的或抽象对象的集合分组为由类似的对象组成的多个类。
    , A7 k6 L. ?' p* ?5 n
    6 p( r2 T7 G9 N' x6 W# }找出并清除那些落在簇之外的值(孤立点),这些孤立点被视为噪声。0 A( F5 H& @% i
    1 Y! [; }6 s9 {# ^" {/ b. o
    9.回归;试图发现两个相关的变量之间的变化模式,通过使数据适合一个函数来平滑数据,即通过建立数学模型来预测下一个数值,包括线性回归和非线性回归。   
    8 z. @; n7 d* R% K- i
    , p* F0 h/ H1 _( Y10.数据集成:将多文件或者多数据库中的异构数据进行合并,然后存放在一个一致的数据存储中。考虑以下几个问题: 1.模式匹配2.数据冗余3.数据值冲突
    % @6 K1 K" C3 M' {, U2 |3 O* [0 T) N5 w# P+ j2 g9 w
    11. 数据变换:1.平滑2.聚集3.数据概化4.规范化(1)最小-最大规范化(2)零-均值规范化(3)小数定标规范化5.属性构造
    + `% g" {- f* ?6 S; o9 [
    + Y; B* K+ d! x# `/ D" w0 N; L12.数据集成:将多文件或者多数据库中的异构数据进行合并,然后存放在一个一致的数据存储中。考虑以下几个问题: 1.模式匹配2.数据冗余3.数据值冲突
    ( @4 I3 B" U( `" E
    ' }6 n" G2 U7 E6 ]" k13.数据归约:目的是为了获得比原始数据小的多的,但不破坏数据完整性的挖掘数据集,该数据集可以得到与原始数据相同的挖掘结果。 # K$ Y( s7 I1 E! [1 Y
    + o% `; J9 V" |+ z) C7 j( J4 ?4 y
    数据归约的方法: 1.数据立方体聚集:把聚集的方法用于数据立方体。2.维归约:检测并删除不相关、弱相关或冗余属性。3.数据压缩:选择正确的编码压缩数据集。4.数值压缩:用较小的数据表示数据,或采用较短的数据单位,或者用数据模型代表数据。5.离散化和概念分层生成:使连续的数据离散化,用确定的有限个区段值代替原始值;概念分层是指用较高层次的概念替换低层次的概念,以此来减少取值个数。
    2 [1 ^3 x( Z  n7 u) ?! h- @  J- U8 n* y* a. z+ C! ^$ G2 p
    14.数据立方体聚集 :是数据的多维建模和表示,由维和事实组成。
    : w& H; [0 @& O9 Y/ {! C0 l( [2 o5 E% l7 q2 c& \' ^
    维归约:去掉不相关的属性,减少数据挖掘处理的数据量。
    6 ~/ r( R- x3 [1 g% [2 W0 ?; W. ~0 o9 g9 P
    属性子集选择的基本方法包括以下几种: 1.逐步向前选择2.逐步向后删除3.向前选择和向后删除结合4.判定树归纳5.基于统计分析的归约   
    ; E( L1 N! y+ L% D( B2 z! b. o/ c% `- ]! ]
    数据压缩:方法分为两类:无损压缩和有损压缩: w+ y" ?- T( O
      K1 Z2 X; M# x
    数值归约常用的方法: 1.直方图2.聚类3.抽样:不放回简单随机抽样、放回简单随机抽样、聚类抽样和分层抽样4.线性回归5.非线性回归     
    1 C1 g' R2 E  m. ^' v; [7 }- }; y$ }) c! O# B2 p( D. M# U, |
    15.数据变换涉及以下几个方面:1.平滑2.聚集3.数据概化4.规范化(1)最小-最大规范化(2)零-均值规范化(3)小数定标规范化5.属性构造% o6 ]0 j1 O4 W

    8 A  o: O# [, @/ Y" k*规范化:(1)最小—最大规范化。原取值区间 [old_min,old_max],规范化后的新的取值区间[new_min,new_max]。
    ( {8 U- @3 ^6 U/ {6 r6 Y, f  `$ J" A
    x’=  其中:x是属性的真实值,x’是规范化后的值。, n* j; b2 M5 C

    4 }/ t+ I' t. b, O% M- t例如:“客户背景数据”表中的客户月收入income属性的实际值范围为[12000,98000],要把这个属性值规范到[0,1],对属性值73600应用上述公式:
    ; B! d; y# H/ a) A( V+ ^. l+ Q' _3 y  N/ D
    x’=(1.0-0)+0=0.7167 d3 \" T9 t* [8 u

    8 w1 U: u7 Y2 ~7 e" r6 B根据精度要求保留小数(假设精度要求0.01),最终取值0.72就是属性值73600规范化后的值。
    . b. y5 I6 Q0 Q% n! ~3 p1 b( h6 H8 a( n: A" {7 j! g
    (2)零—均值规范化(z—score规范化),是根据属性值的平均值和标准差进行规范化,即:
    ) g9 q3 E7 Z. B* m) O9 N9 r# u- h; B) y4 p/ X% z0 @$ o
    x’=   =  =    为所有样本属性值的平均值,为样本的标准差。当属性值范围未知的时候,可以使用此方法进行规范化。( Z/ t! g5 Q. c$ Y3 P+ E
    : p0 {9 g' C4 W+ `% y# w1 O
        例:假设某属性的平均值和标准差分别为80、25,采用零-均值规范化66为:x’==-0.56
    . i' v" g+ F3 j! {8 B, B0 |. ]% `$ J+ @
    (3)小数定标规范化:通过移动属性A的小数点位置进行规范化 。& ^9 e( I( p( m. z) s7 E% u( @) a

    $ h& |* g9 j- B+ c' Ox’= 为满足式<1的最小整数。
    & ~& R  q/ [. V: k- p! p6 t4 V; ~& v" C
    例:假设某属性规范化前的取值范围为[-120,110],采用小数定标规范化66。由于该属性的最大绝对值为120,则由<1可得出=3,因此,66规范化后为:x’==0.066
    - t3 Z! Q- k/ ]( G% V* Q3 I) s————————————————
    5 o0 S1 A3 a6 U版权声明:本文为CSDN博主「搬砖老头」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。3 A6 @3 V4 A7 n
    原文链接:https://blog.csdn.net/wang1127248268/article/details/53571956
    / L' R( D. G9 ?7 V' @! R; j, j9 m- b4 H9 s
    / h  m# \* C- d6 w5 l/ i6 I+ m4 k
    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏2 支持支持0 反对反对0 微信微信

    1

    主题

    3

    听众

    169

    积分

    升级  34.5%

  • TA的每日心情
    擦汗
    2023-9-25 13:50
  • 签到天数: 67 天

    [LV.6]常住居民II

    国际赛参赛者

    网络挑战赛参赛者

    自我介绍
    热爱数学建模
    回复

    使用道具 举报

    德古拉        

    2

    主题

    4

    听众

    165

    积分

    升级  32.5%

  • TA的每日心情
    奋斗
    2025-12-3 23:13
  • 签到天数: 127 天

    [LV.7]常住居民III

    国际赛参赛者

    自我介绍
    嘶嘶。。。
    回复

    使用道具 举报

    浅夏110 实名认证       

    542

    主题

    15

    听众

    1万

    积分

  • TA的每日心情
    开心
    2020-11-14 17:15
  • 签到天数: 74 天

    [LV.6]常住居民II

    邮箱绑定达人

    群组2019美赛冲刺课程

    群组站长地区赛培训

    群组2019考研数学 桃子老师

    群组2018教师培训(呼伦贝

    群组2019考研数学 站长系列

    huangyanzuo 发表于 2020-5-19 12:06 $ V0 u% ^0 U( i+ |5 I
    棒!棒!棒!棒!棒!棒!棒!棒!

    $ P  Q; k: }/ x0 H, |- W
    2 h% f3 \/ n" D7 o; B  {
    回复

    使用道具 举报

    浅夏110 实名认证       

    542

    主题

    15

    听众

    1万

    积分

  • TA的每日心情
    开心
    2020-11-14 17:15
  • 签到天数: 74 天

    [LV.6]常住居民II

    邮箱绑定达人

    群组2019美赛冲刺课程

    群组站长地区赛培训

    群组2019考研数学 桃子老师

    群组2018教师培训(呼伦贝

    群组2019考研数学 站长系列

    回复

    使用道具 举报

    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2026-6-9 20:26 , Processed in 0.471059 second(s), 73 queries .

    回顶部