QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 2610|回复: 4
打印 上一主题 下一主题

数据挖掘中的数据预处理方法总结

[复制链接]
字体大小: 正常 放大
浅夏110 实名认证       

542

主题

15

听众

1万

积分

  • TA的每日心情
    开心
    2020-11-14 17:15
  • 签到天数: 74 天

    [LV.6]常住居民II

    邮箱绑定达人

    群组2019美赛冲刺课程

    群组站长地区赛培训

    群组2019考研数学 桃子老师

    群组2018教师培训(呼伦贝

    群组2019考研数学 站长系列

    跳转到指定楼层
    1#
    发表于 2020-5-19 09:40 |只看该作者 |正序浏览
    |招呼Ta 关注Ta |邮箱已经成功绑定
    1.原始数据存在的几个问题:不一致;重复;含噪声;维度高。
    ' b4 f3 [: b( `2 e
    * l$ \9 H, X$ Y: b2.数据预处理包含数据清洗、数据集成、数据变换和数据归约几种方法。+ P0 K# h4 @2 e7 e
    5 N/ g9 G6 `  T/ _6 e8 V4 G
    3.数据挖掘中使用的数据的原则
    : q+ h5 l+ H0 ]- |( N) e
    * J5 B+ K9 N6 U1 x. A应该是从原始数据中选取合适的属性作为数据挖掘属性,这个选取过程应参考的原则是:尽可能赋予属性名和属性值明确的含义;统一多数据源的属性值编码;去除惟一属性;去除重复性;去除可忽略字段;合理选择关联字段。
    7 ^$ i6 d! S& Q) I  Y5 g. x1 M/ M+ U/ P9 P3 ]
    4.处理空缺值的方法:忽略该记录;去掉属性;手工填写空缺值;使用默认值;使用属性平均值;使用同类样本平均值;预测最可能的值。
    , V' ?/ p; M6 N! w$ K( R& j5 i# Z3 p8 \9 d7 x- A9 W; P
    5.噪声数据的处理方法:分箱;聚类;计算机和人工检查结合;回归- G, Y4 T( y; a1 ^$ d8 ?
    . m  Z: O( |! U- h9 k. S: |
    6.分箱:分箱方法是一种简单常用的预处理方法,通过考察相邻数据来确定最终值。所谓“分箱”,实际上就是按照属性值划分的子区间,如果一个属性值处于某个子区间范围内,就称把该属性值放进这个子区间所代表的“箱子”内。把待处理的数据(某列属性值)按照一定的规则放进一些箱子中,考察每一个箱子中的数据,采用某种方法分别对各个箱子中的数据进行处理。在采用分箱技术时,需要确定的两个主要问题就是:如何分箱以及如何对每个箱子中的数据进行平滑处理。2 |* l, n% i# n/ x

    1 [) n5 ]) I+ i# c* ^& n( ^+ f分箱的方法:有4种:等深分箱法、等宽分箱法、最小熵法和用户自定义区间法。5 e, x! a( E' \# ]% n
    $ v  t( X5 ?* U
    统一权重,也成等深分箱法,将数据集按记录行数分箱,每箱具有相同的记录数,每箱记录数称为箱子的深度。这是最简单的一种分箱方法。" y. d" }0 f. C) {

    1 o! ?+ l/ X8 N( T" C& g! P) F2 p统一区间,也称等宽分箱法,使数据集在整个属性值的区间上平均分布,即每个箱的区间范围是一个常量,称为箱子宽度。+ k: ~  F! ?8 a

    ' b5 T6 J4 r+ ~$ d- W) @, P用户自定义区间,用户可以根据需要自定义区间,当用户明确希望观察某些区间范围内的数据分布时,使用这种方法可以方便地帮助用户达到目的。! P7 J2 E: r% h7 B+ L9 z  C& t

    - g4 t& W0 U1 M, Z' L例:客户收入属性income排序后的值(人民币元):800 1000 1200 1500  1500 1800 2000 2300 2500 2800 3000 3500 4000 4500 4800 5000,分箱的结果如下。$ ~# w' `; T7 r- K) q5 j" g
    ) m6 O- a/ M3 X7 {+ F3 N
    统一权重:设定权重(箱子深度)为4,分箱后3 x- ^* q& ^1 P2 f
    9 _3 W+ o7 x* p$ b
    箱1:800 1000 1200 1500
    $ d& R7 g) b, I: d/ s# e
      P. h& w. Z0 u2 z/ Y4 n; ]8 O箱2:1500 1800 2000 2300
    ; L% w+ h5 v. ?
    4 S8 A  ?( i$ e箱3:2500 2800 3000 3500
    ; W/ T9 M2 O1 Q3 Q  t
    ( Y8 [& P, @: {0 g' Y# j: G箱4:4000 4500 4800 5000   2 h* R& Z& p, _2 \" S7 B, j0 w

    ; e& J/ f. @" x% S+ H' {0 Q. G统一区间:设定区间范围(箱子宽度)为1000元人民币,分箱后$ N1 e: j. r/ t  }- U
      D& a+ l8 m- z2 }' U; {  X
    箱1:800 1000 1200 1500 1500 1800: U& \* x' Y0 P, [3 B* l

    ( V" T. D% ^+ j5 @箱2:2000 2300 2500 2800 3000# u  B: l7 N+ o* f' K6 D. K0 S5 m! n

    1 w) ]3 V/ y9 j( Y箱3:3500 4000 4500' a9 T* g5 {( j7 \. a' i' B
    9 {  T" A$ k) ]' Y/ ~# X
    箱4:4800 5000 8 H# v5 ]+ w. e) I( d" N
    5 S9 U; V4 B  j; n4 R4 l) l
    用户自定义:如将客户收入划分为1000元以下、1000~2000、2000~3000、3000~4000和4000元以上几组,分箱后0 b8 ~8 P( n  f5 x
    % {: ]8 l9 i$ i( x2 x* e
    箱1:800 2 m5 H1 M7 N" I. c4 w

    . {. E9 |/ ?1 a, z1 e. r) I! T) w& K箱2:1000 1200 1500 1500 1800 2000
    1 S8 Y) z  u$ J  ^/ X7 u6 L4 y; n. [! n+ R: V& U$ V) a
    箱3:2300 2500 2800 3000  ( Q) n8 M# I  b- E1 _5 h
    1 m$ Z) V+ e# r# x7 Q. i9 ^2 j) }6 k
    箱4:3500 4000 / T; R; t$ b) a
    8 }, ^) D4 W0 m9 L5 [% z' J* ~
    箱5:4500 4800 5000 9 b& Y3 f5 x+ h9 x. j
    ( S* Q: `8 B( J. M& s7 `( F( I. `
    7.数据平滑方法:按平均值平滑、按边界值平滑和按中值平滑。0 U( L9 S7 w5 Q! Z0 a+ k) \
    4 F6 J1 ]: l; X( d3 y
    ⑴按平均值平滑
    7 m! @; q9 W9 O. \% e' l' D, c- F$ |& ~) ^$ ]5 E$ e# T/ E3 f
    对同一箱值中的数据求平均值,用平均值替代该箱子中的所有数据。 9 s/ a; g- z. o' d
    ( H7 p( ?  M9 a2 R
    ⑵按边界值平滑
    ' y  o9 y* Z1 h& C5 R" X7 d7 m" P5 s( _
    用距离较小的边界值替代箱中每一数据。 / a- [! M: T* [! e  x  E) N

    1 A+ H2 @% ~! {⑶按中值平滑
      R5 r3 g; ]. s
    4 i+ @) b7 g6 m* _取箱子的中值,用来替代箱子中的所有数据。
    % L. S. R5 G1 \- t
    ! w' v& m1 Z: f$ Z8.聚类:将物理的或抽象对象的集合分组为由类似的对象组成的多个类。3 x; R/ o' r$ A2 e1 F: q
    . ~/ S$ ^6 F9 [$ R$ Q9 U
    找出并清除那些落在簇之外的值(孤立点),这些孤立点被视为噪声。
    0 G( p6 l7 f5 v6 F( \3 a
    . m$ b. r3 q9 o( B3 d6 q$ ~9.回归;试图发现两个相关的变量之间的变化模式,通过使数据适合一个函数来平滑数据,即通过建立数学模型来预测下一个数值,包括线性回归和非线性回归。   
    $ Z* {$ V  p0 U
    # r+ \+ X; a' A( o7 R6 T2 O10.数据集成:将多文件或者多数据库中的异构数据进行合并,然后存放在一个一致的数据存储中。考虑以下几个问题: 1.模式匹配2.数据冗余3.数据值冲突 " h' g/ e+ N) O

    7 {) a& O. J# T9 s11. 数据变换:1.平滑2.聚集3.数据概化4.规范化(1)最小-最大规范化(2)零-均值规范化(3)小数定标规范化5.属性构造
    + E7 p5 P, Y1 J3 N* C' c
    . h" y- Z2 K* {# s3 E$ _12.数据集成:将多文件或者多数据库中的异构数据进行合并,然后存放在一个一致的数据存储中。考虑以下几个问题: 1.模式匹配2.数据冗余3.数据值冲突 , _" x& G' q* r) U

    1 L4 o6 v! `: V13.数据归约:目的是为了获得比原始数据小的多的,但不破坏数据完整性的挖掘数据集,该数据集可以得到与原始数据相同的挖掘结果。 $ v* ^4 q6 O/ J+ H0 I" G

    - S0 B# P6 U0 }- X; D数据归约的方法: 1.数据立方体聚集:把聚集的方法用于数据立方体。2.维归约:检测并删除不相关、弱相关或冗余属性。3.数据压缩:选择正确的编码压缩数据集。4.数值压缩:用较小的数据表示数据,或采用较短的数据单位,或者用数据模型代表数据。5.离散化和概念分层生成:使连续的数据离散化,用确定的有限个区段值代替原始值;概念分层是指用较高层次的概念替换低层次的概念,以此来减少取值个数。& m* s5 M) N7 s

    + g$ V7 _  A) k% i+ n% v14.数据立方体聚集 :是数据的多维建模和表示,由维和事实组成。
    & O% G! }2 ~, I: c* o9 J) q
    ) i6 l" c5 B6 Z4 y维归约:去掉不相关的属性,减少数据挖掘处理的数据量。
    , c: C( i* A1 M7 y$ g  _! A* c- S: e7 g( Q# {' @& c
    属性子集选择的基本方法包括以下几种: 1.逐步向前选择2.逐步向后删除3.向前选择和向后删除结合4.判定树归纳5.基于统计分析的归约   
    * O- W3 Y) U; w4 W- M
    - H4 C2 t" R. [/ z( _数据压缩:方法分为两类:无损压缩和有损压缩6 s/ @& a. J" A
    1 ?: P0 K+ n2 Q, Y/ ^3 s
    数值归约常用的方法: 1.直方图2.聚类3.抽样:不放回简单随机抽样、放回简单随机抽样、聚类抽样和分层抽样4.线性回归5.非线性回归     # s+ z( {# u( A+ u4 _4 q
    + L4 R9 F7 x! h3 R
    15.数据变换涉及以下几个方面:1.平滑2.聚集3.数据概化4.规范化(1)最小-最大规范化(2)零-均值规范化(3)小数定标规范化5.属性构造
    * V3 ~, Q3 q* t, Q: _5 A7 ~3 h- b5 _% ~8 i' O6 i8 b* h- }; \8 C2 c( B
    *规范化:(1)最小—最大规范化。原取值区间 [old_min,old_max],规范化后的新的取值区间[new_min,new_max]。
    % i! \, j; R0 z8 w; T/ J; J$ h/ F4 \; q) b! Q
    x’=  其中:x是属性的真实值,x’是规范化后的值。
    ) E" ^0 V  ]: N$ x$ k
    % U; Y( H0 Y! j# L2 w) h" E1 T例如:“客户背景数据”表中的客户月收入income属性的实际值范围为[12000,98000],要把这个属性值规范到[0,1],对属性值73600应用上述公式:  z$ z' v# J" M. P; T( V
    . n6 y8 u$ r  m: ~. }
    x’=(1.0-0)+0=0.716. ~& L  Q8 N; z) g" G

    ) O7 ]0 ~, S( h8 I7 R7 g根据精度要求保留小数(假设精度要求0.01),最终取值0.72就是属性值73600规范化后的值。
    . v+ m/ ?; X( Z8 G; Z$ w( h+ X* r6 w0 _
    (2)零—均值规范化(z—score规范化),是根据属性值的平均值和标准差进行规范化,即:+ ~* B" J# v) [

    ( O) v4 y3 ?1 X5 }6 U8 i1 q5 K! lx’=   =  =    为所有样本属性值的平均值,为样本的标准差。当属性值范围未知的时候,可以使用此方法进行规范化。; v. ~5 v* p2 @& X+ e3 L" A

    / U( C* ~$ L% }& Z& w% S7 x% `/ t  G  `    例:假设某属性的平均值和标准差分别为80、25,采用零-均值规范化66为:x’==-0.56
    ( J3 S5 J% H- _$ E1 e- ~
    + S2 Z; z$ W" i; I' F7 L(3)小数定标规范化:通过移动属性A的小数点位置进行规范化 。
    8 n% V  X: `: q  I8 S# ~. H
    3 u# F2 v6 V5 [5 zx’= 为满足式<1的最小整数。
    $ s( c- n8 b6 g) {
    * l+ T4 _: q0 }( ?' I' y& q例:假设某属性规范化前的取值范围为[-120,110],采用小数定标规范化66。由于该属性的最大绝对值为120,则由<1可得出=3,因此,66规范化后为:x’==0.0667 Z( v% Z# z% f1 R" S3 t8 O
    ————————————————7 `9 u/ W. `& ?* A# `6 ?% _
    版权声明:本文为CSDN博主「搬砖老头」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
    , e% m4 [1 a' S原文链接:https://blog.csdn.net/wang1127248268/article/details/53571956
    : }4 I  l% W: ~* M# X1 @* F1 H
    7 x/ j1 @; ~8 j, x& [2 Z6 u) y" t, [& w, d  i
    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏2 支持支持0 反对反对0 微信微信
    浅夏110 实名认证       

    542

    主题

    15

    听众

    1万

    积分

  • TA的每日心情
    开心
    2020-11-14 17:15
  • 签到天数: 74 天

    [LV.6]常住居民II

    邮箱绑定达人

    群组2019美赛冲刺课程

    群组站长地区赛培训

    群组2019考研数学 桃子老师

    群组2018教师培训(呼伦贝

    群组2019考研数学 站长系列

    回复

    使用道具 举报

    浅夏110 实名认证       

    542

    主题

    15

    听众

    1万

    积分

  • TA的每日心情
    开心
    2020-11-14 17:15
  • 签到天数: 74 天

    [LV.6]常住居民II

    邮箱绑定达人

    群组2019美赛冲刺课程

    群组站长地区赛培训

    群组2019考研数学 桃子老师

    群组2018教师培训(呼伦贝

    群组2019考研数学 站长系列

    huangyanzuo 发表于 2020-5-19 12:06 3 W5 m" [( V' a1 F9 G7 a7 b" t# g
    棒!棒!棒!棒!棒!棒!棒!棒!
    & e% c; \8 `0 M1 Y+ j4 |

    4 x0 v# e: `: z" K3 W
    回复

    使用道具 举报

    德古拉        

    2

    主题

    4

    听众

    165

    积分

    升级  32.5%

  • TA的每日心情
    奋斗
    2025-12-3 23:13
  • 签到天数: 127 天

    [LV.7]常住居民III

    国际赛参赛者

    自我介绍
    嘶嘶。。。
    回复

    使用道具 举报

    1

    主题

    3

    听众

    169

    积分

    升级  34.5%

  • TA的每日心情
    擦汗
    2023-9-25 13:50
  • 签到天数: 67 天

    [LV.6]常住居民II

    国际赛参赛者

    网络挑战赛参赛者

    自我介绍
    热爱数学建模
    回复

    使用道具 举报

    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2026-6-10 05:39 , Processed in 0.407607 second(s), 73 queries .

    回顶部