请选择 进入手机版 | 继续访问电脑版

QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 1716|回复: 4

数据挖掘中的数据预处理方法总结

[复制链接]
字体大小: 正常 放大
浅夏110 实名认证       

542

主题

15

听众

1万

积分

  • TA的每日心情
    开心
    2020-11-14 17:15
  • 签到天数: 74 天

    [LV.6]常住居民II

    邮箱绑定达人

    群组2019美赛冲刺课程

    群组站长地区赛培训

    群组2019考研数学 桃子老师

    群组2018教师培训(呼伦贝

    群组2019考研数学 站长系列

    发表于 2020-5-19 09:40 |显示全部楼层
    |招呼Ta 关注Ta |邮箱已经成功绑定
    1.原始数据存在的几个问题:不一致;重复;含噪声;维度高。
    3 R: {0 x# c0 s0 g( V; B1 u' M% d8 J0 ]2 X" D
    2.数据预处理包含数据清洗、数据集成、数据变换和数据归约几种方法。
    . W  R$ w5 J! v
    , R# e1 |+ k" y* L3.数据挖掘中使用的数据的原则( x# `1 U: z1 X$ _2 i" b  x
    2 |- o, F" X) g8 g3 z" q" a
    应该是从原始数据中选取合适的属性作为数据挖掘属性,这个选取过程应参考的原则是:尽可能赋予属性名和属性值明确的含义;统一多数据源的属性值编码;去除惟一属性;去除重复性;去除可忽略字段;合理选择关联字段。* Z* ]' s; ?, r4 c2 Y' O2 B/ g+ o
    ' I2 k3 A7 L3 Q0 @8 S$ ^$ G  K+ l
    4.处理空缺值的方法:忽略该记录;去掉属性;手工填写空缺值;使用默认值;使用属性平均值;使用同类样本平均值;预测最可能的值。8 {; j& j' z( c" S% I$ T& u
      G, E! T) R9 I
    5.噪声数据的处理方法:分箱;聚类;计算机和人工检查结合;回归1 z* q8 j# Y  z6 E& |" Z% c* _' c

    4 p; e4 c$ u) J, ?9 F7 u6.分箱:分箱方法是一种简单常用的预处理方法,通过考察相邻数据来确定最终值。所谓“分箱”,实际上就是按照属性值划分的子区间,如果一个属性值处于某个子区间范围内,就称把该属性值放进这个子区间所代表的“箱子”内。把待处理的数据(某列属性值)按照一定的规则放进一些箱子中,考察每一个箱子中的数据,采用某种方法分别对各个箱子中的数据进行处理。在采用分箱技术时,需要确定的两个主要问题就是:如何分箱以及如何对每个箱子中的数据进行平滑处理。* a" B8 K" r8 A7 l3 C
    # J# E) d6 J. J# P* c& t
    分箱的方法:有4种:等深分箱法、等宽分箱法、最小熵法和用户自定义区间法。4 W/ l% I* B  q! U9 Q8 p

    / i# y7 n0 _0 b9 O- Y" a统一权重,也成等深分箱法,将数据集按记录行数分箱,每箱具有相同的记录数,每箱记录数称为箱子的深度。这是最简单的一种分箱方法。
      W2 K4 j2 u' n" v' [4 b% P4 n6 O! k, X9 q
    统一区间,也称等宽分箱法,使数据集在整个属性值的区间上平均分布,即每个箱的区间范围是一个常量,称为箱子宽度。6 R3 Z- B5 h) T8 s

    # ^% ?) O- X9 k8 G. y4 d用户自定义区间,用户可以根据需要自定义区间,当用户明确希望观察某些区间范围内的数据分布时,使用这种方法可以方便地帮助用户达到目的。3 v9 o% c% C" \/ J! E" U+ T* M

    ( j( ]3 h6 Y6 ~: d; G1 }1 g例:客户收入属性income排序后的值(人民币元):800 1000 1200 1500  1500 1800 2000 2300 2500 2800 3000 3500 4000 4500 4800 5000,分箱的结果如下。
    6 z! W% I3 @  \( w  k* P/ _' M4 L* T& ^. R* \
    统一权重:设定权重(箱子深度)为4,分箱后
    9 Y2 U7 W/ U) k3 I; ]1 H. {
    " B" H2 W& l' h3 A! ?/ e% o% {箱1:800 1000 1200 1500
    4 A2 V; t8 ?8 o* H
    ; I* W: t" F" Z& A; }箱2:1500 1800 2000 2300
    ! i5 ?2 s% k# M3 n
    & R* a* ~* F: \/ L5 M箱3:2500 2800 3000 3500
    3 Q& v, F5 l: n; Q. O: e% v4 h  M. n" b2 |; d
    箱4:4000 4500 4800 5000   
    & E- t+ b: |# I1 D
    - i! n2 y2 {1 @5 V! v8 M' {统一区间:设定区间范围(箱子宽度)为1000元人民币,分箱后6 r6 X% S; [; N4 P9 M" S

    ( S$ W/ F: p$ }% Q  u2 U箱1:800 1000 1200 1500 1500 1800
    $ S; ]: m. f+ k+ l. H) U( p$ f6 {) ]8 t% A" @
    箱2:2000 2300 2500 2800 3000
    " D/ F/ M* ?2 C3 D/ c( x9 e# O1 m+ b3 F4 m" U( [+ _
    箱3:3500 4000 4500
    4 g; E' y2 F# b- ~) D  Y* I( O; u- P+ L+ L4 T
    箱4:4800 5000
    % W7 B+ e! n% L! ]8 ~( ?- t  }) U' E1 y* P6 B; E8 g5 [2 Y
    用户自定义:如将客户收入划分为1000元以下、1000~2000、2000~3000、3000~4000和4000元以上几组,分箱后( Z) w$ U: S' I4 t
    6 i# n* Q$ w" ^
    箱1:800
    1 t& ]2 {- U8 L+ Z/ x& z! P; i0 y! ?' x0 }$ ?/ k
    箱2:1000 1200 1500 1500 1800 2000
    & X7 E$ X9 L- ?, x
    1 Y+ E/ K5 v2 e7 k; o箱3:2300 2500 2800 3000  8 E; P  t' A: _" }

    $ S9 {: X5 ?! w- u' f. t# U箱4:3500 4000
    ! S- n, c5 e) Q- D+ ^! N3 _8 J% u6 D  D% @: P% N& _# q
    箱5:4500 4800 5000
    : D0 I/ A+ E& L5 s8 P
    2 y( r& |' m5 H7 Q9 d. D$ c6 Y7.数据平滑方法:按平均值平滑、按边界值平滑和按中值平滑。
    $ [1 j$ v2 _$ L; t+ a5 }
    ) S9 M1 Q4 E+ E" ^, P; Y8 Y⑴按平均值平滑
    7 {3 n3 t% n% ~8 J1 @- E! f% U$ I' z3 x" [  o+ Z
    对同一箱值中的数据求平均值,用平均值替代该箱子中的所有数据。
    + w, B5 e- w# L; R" C4 B; j* ]7 I* ]% O$ A7 w3 d6 [1 o
    ⑵按边界值平滑 ( T* ]# ~: _. M$ q/ p: s' k

    $ p9 {+ r7 o- j$ w用距离较小的边界值替代箱中每一数据。
    1 v2 {5 D6 b- S2 n0 E9 m
    3 P' W! p- b, _8 S⑶按中值平滑
    , o2 `: Y8 D$ f/ c
    * s/ [8 R4 a7 P; ?取箱子的中值,用来替代箱子中的所有数据。
    3 l; B  M/ ]% \4 U! y+ B3 N( x
    : h+ l* I2 E1 g8 y# |8.聚类:将物理的或抽象对象的集合分组为由类似的对象组成的多个类。
    9 V6 X# U' N+ S
    " H* j" G  E$ R8 V/ K$ ]找出并清除那些落在簇之外的值(孤立点),这些孤立点被视为噪声。
    ' ?) c* L$ L; d7 J+ k
    * _5 o: \1 n- Y' i9.回归;试图发现两个相关的变量之间的变化模式,通过使数据适合一个函数来平滑数据,即通过建立数学模型来预测下一个数值,包括线性回归和非线性回归。   
    $ |' b, Q% l- B/ @6 d* u( c% e3 G; w' q& x- e
    10.数据集成:将多文件或者多数据库中的异构数据进行合并,然后存放在一个一致的数据存储中。考虑以下几个问题: 1.模式匹配2.数据冗余3.数据值冲突
    3 b3 }  J- g/ y; n
    7 l  O8 k- Z. N' O3 \* g( s11. 数据变换:1.平滑2.聚集3.数据概化4.规范化(1)最小-最大规范化(2)零-均值规范化(3)小数定标规范化5.属性构造/ D9 z- Y! x2 Z, \& V
    9 s' D! L7 |+ F* d
    12.数据集成:将多文件或者多数据库中的异构数据进行合并,然后存放在一个一致的数据存储中。考虑以下几个问题: 1.模式匹配2.数据冗余3.数据值冲突 5 {9 @( P6 ?5 [1 P7 `. x
    ' n8 Y  E8 a+ O) F/ ?
    13.数据归约:目的是为了获得比原始数据小的多的,但不破坏数据完整性的挖掘数据集,该数据集可以得到与原始数据相同的挖掘结果。 . O3 c+ k3 K5 B8 ?6 J0 x& \* ~4 n# T
    . d; J0 b0 \5 \) E' N) Z$ [
    数据归约的方法: 1.数据立方体聚集:把聚集的方法用于数据立方体。2.维归约:检测并删除不相关、弱相关或冗余属性。3.数据压缩:选择正确的编码压缩数据集。4.数值压缩:用较小的数据表示数据,或采用较短的数据单位,或者用数据模型代表数据。5.离散化和概念分层生成:使连续的数据离散化,用确定的有限个区段值代替原始值;概念分层是指用较高层次的概念替换低层次的概念,以此来减少取值个数。0 c( O' j+ @) F- D. _: w" e

      n5 J& M2 H- ?& @14.数据立方体聚集 :是数据的多维建模和表示,由维和事实组成。
    ( A/ h" m0 t  p- x8 i* L. _
    ! I8 E) ^0 ~4 }维归约:去掉不相关的属性,减少数据挖掘处理的数据量。
    , w6 M( U5 k; |2 l& y) }
    4 c4 V3 W6 j$ f. Q' ?2 M属性子集选择的基本方法包括以下几种: 1.逐步向前选择2.逐步向后删除3.向前选择和向后删除结合4.判定树归纳5.基于统计分析的归约   8 S* e' G. _" C/ @4 ^
    3 Q: e# F) L4 v9 s' v* u
    数据压缩:方法分为两类:无损压缩和有损压缩
    , G9 A. `. V2 m7 [* @0 B
    " S0 ]& V2 v; p% c5 ^1 I数值归约常用的方法: 1.直方图2.聚类3.抽样:不放回简单随机抽样、放回简单随机抽样、聚类抽样和分层抽样4.线性回归5.非线性回归     & R; u/ i8 Q5 M( s8 c7 g

    # l+ Y- l4 n, j15.数据变换涉及以下几个方面:1.平滑2.聚集3.数据概化4.规范化(1)最小-最大规范化(2)零-均值规范化(3)小数定标规范化5.属性构造
    " j* s  Y0 G+ z8 l6 e9 {1 m+ k# {) O1 o7 _- p
    *规范化:(1)最小—最大规范化。原取值区间 [old_min,old_max],规范化后的新的取值区间[new_min,new_max]。
    * ~  V$ w2 G* R2 l
    7 q% g. o5 F% M  }& K9 V) [x’=  其中:x是属性的真实值,x’是规范化后的值。* i5 F% S9 F/ u+ {
    2 w8 O3 W. D2 B6 z! Y
    例如:“客户背景数据”表中的客户月收入income属性的实际值范围为[12000,98000],要把这个属性值规范到[0,1],对属性值73600应用上述公式:
      _4 \; o  R8 }7 _6 h# s, _; i+ e- u2 D  D4 T4 [8 y7 K: N! S. E+ I
    x’=(1.0-0)+0=0.716
    6 A% @" z) d( ?: O$ _2 W* ~
      x' ]0 E& I; O& E根据精度要求保留小数(假设精度要求0.01),最终取值0.72就是属性值73600规范化后的值。
    ) a7 N3 E0 L9 \5 O2 X' M9 l/ p. g) \" K" L/ {' b/ W+ }
    (2)零—均值规范化(z—score规范化),是根据属性值的平均值和标准差进行规范化,即:; s0 _  O% t, c( i2 M6 p: Y
    1 N+ y# L! N& v2 c  \6 n
    x’=   =  =    为所有样本属性值的平均值,为样本的标准差。当属性值范围未知的时候,可以使用此方法进行规范化。
    * E: `, y/ i' X9 R( e) L6 T) ?* Q# c! {3 U5 ~$ l+ x
        例:假设某属性的平均值和标准差分别为80、25,采用零-均值规范化66为:x’==-0.56
    5 W6 }+ h0 Z) o; a$ ~$ Q
    7 ?: z  ^9 A) q! x5 J8 V/ t  c(3)小数定标规范化:通过移动属性A的小数点位置进行规范化 。
    . S# X4 D$ T& _9 ]% ^) y9 W$ o& Q6 v; Y. ^! \
    x’= 为满足式<1的最小整数。/ G2 s& q3 g: Z' F; x! ~6 ]7 }

    6 I# Y9 O& T; G5 S; p* S% c) Y例:假设某属性规范化前的取值范围为[-120,110],采用小数定标规范化66。由于该属性的最大绝对值为120,则由<1可得出=3,因此,66规范化后为:x’==0.066# g9 d3 w  E& a( T0 T
    ————————————————6 p2 G/ C, X' u; `* |
    版权声明:本文为CSDN博主「搬砖老头」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
    % v' b2 \/ h4 n- }* q: \3 L5 X$ _原文链接:https://blog.csdn.net/wang1127248268/article/details/53571956
    - E8 p( j5 E0 g5 G7 b$ r
    $ H& t4 K* k, ^  v6 ?" x) ^0 J1 Y# s5 n* A
    zan

    1

    主题

    3

    听众

    169

    积分

    升级  34.5%

  • TA的每日心情
    擦汗
    2023-9-25 13:50
  • 签到天数: 67 天

    [LV.6]常住居民II

    国际赛参赛者

    网络挑战赛参赛者

    自我介绍
    热爱数学建模
    回复

    使用道具 举报

    德古拉        

    2

    主题

    4

    听众

    140

    积分

    升级  20%

  • TA的每日心情
    奋斗
    2024-3-23 20:56
  • 签到天数: 114 天

    [LV.6]常住居民II

    国际赛参赛者

    自我介绍
    嘶嘶。。。
    回复

    使用道具 举报

    浅夏110 实名认证       

    542

    主题

    15

    听众

    1万

    积分

  • TA的每日心情
    开心
    2020-11-14 17:15
  • 签到天数: 74 天

    [LV.6]常住居民II

    邮箱绑定达人

    群组2019美赛冲刺课程

    群组站长地区赛培训

    群组2019考研数学 桃子老师

    群组2018教师培训(呼伦贝

    群组2019考研数学 站长系列

    huangyanzuo 发表于 2020-5-19 12:06
    ) U, E# x, w9 b( N) X- r棒!棒!棒!棒!棒!棒!棒!棒!
    - }5 f0 Q; D4 ~8 Q) l

    ( g" t$ u7 H& S; a- w8 R4 J+ I
    回复

    使用道具 举报

    浅夏110 实名认证       

    542

    主题

    15

    听众

    1万

    积分

  • TA的每日心情
    开心
    2020-11-14 17:15
  • 签到天数: 74 天

    [LV.6]常住居民II

    邮箱绑定达人

    群组2019美赛冲刺课程

    群组站长地区赛培训

    群组2019考研数学 桃子老师

    群组2018教师培训(呼伦贝

    群组2019考研数学 站长系列

    回复

    使用道具 举报

    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2024-3-29 04:55 , Processed in 0.611902 second(s), 73 queries .

    回顶部