QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 2571|回复: 4
打印 上一主题 下一主题

数据挖掘中的数据预处理方法总结

[复制链接]
字体大小: 正常 放大
浅夏110 实名认证       

542

主题

15

听众

1万

积分

  • TA的每日心情
    开心
    2020-11-14 17:15
  • 签到天数: 74 天

    [LV.6]常住居民II

    邮箱绑定达人

    群组2019美赛冲刺课程

    群组站长地区赛培训

    群组2019考研数学 桃子老师

    群组2018教师培训(呼伦贝

    群组2019考研数学 站长系列

    跳转到指定楼层
    1#
    发表于 2020-5-19 09:40 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta |邮箱已经成功绑定
    1.原始数据存在的几个问题:不一致;重复;含噪声;维度高。
    + A, @2 [# G# v! S1 ^+ l/ W
    0 i$ O) ~" s2 v; C; B2.数据预处理包含数据清洗、数据集成、数据变换和数据归约几种方法。
    ; _  T9 o7 a& @7 V9 Y( N
    $ p+ ^  a2 N( d0 X7 U5 v3.数据挖掘中使用的数据的原则' u0 J  Q, Q$ |9 ~' u6 q/ J! F

    5 i2 @$ [/ a! h应该是从原始数据中选取合适的属性作为数据挖掘属性,这个选取过程应参考的原则是:尽可能赋予属性名和属性值明确的含义;统一多数据源的属性值编码;去除惟一属性;去除重复性;去除可忽略字段;合理选择关联字段。
    # O: e0 J  L6 C7 q6 C8 T9 P0 A$ A+ f" C3 y" {
    4.处理空缺值的方法:忽略该记录;去掉属性;手工填写空缺值;使用默认值;使用属性平均值;使用同类样本平均值;预测最可能的值。; r2 K/ m$ F: _$ l6 b. h! E3 M

    9 a* Q  [8 q2 R. t0 f5.噪声数据的处理方法:分箱;聚类;计算机和人工检查结合;回归
    $ g, @& b2 T: ~2 m- \
    - D1 y; G7 V3 {" B/ n' \1 _( _6.分箱:分箱方法是一种简单常用的预处理方法,通过考察相邻数据来确定最终值。所谓“分箱”,实际上就是按照属性值划分的子区间,如果一个属性值处于某个子区间范围内,就称把该属性值放进这个子区间所代表的“箱子”内。把待处理的数据(某列属性值)按照一定的规则放进一些箱子中,考察每一个箱子中的数据,采用某种方法分别对各个箱子中的数据进行处理。在采用分箱技术时,需要确定的两个主要问题就是:如何分箱以及如何对每个箱子中的数据进行平滑处理。
    7 Z: }; X1 K0 g8 c
    : G$ ?1 d7 m3 R- n/ n- @1 z8 s: r分箱的方法:有4种:等深分箱法、等宽分箱法、最小熵法和用户自定义区间法。" ]- y  R2 k1 C: a/ D' @- E& G) V
    9 ~- A+ C' i% u, s1 L# x
    统一权重,也成等深分箱法,将数据集按记录行数分箱,每箱具有相同的记录数,每箱记录数称为箱子的深度。这是最简单的一种分箱方法。
    , g9 H; R* x2 E
    0 \0 K# I5 Z, I6 _统一区间,也称等宽分箱法,使数据集在整个属性值的区间上平均分布,即每个箱的区间范围是一个常量,称为箱子宽度。
    - k# s) i  d% U: g6 K5 l: ~3 [
    : o, k: P9 H& W% V/ q" D7 r用户自定义区间,用户可以根据需要自定义区间,当用户明确希望观察某些区间范围内的数据分布时,使用这种方法可以方便地帮助用户达到目的。+ ~2 b  W) W+ @+ Y

    ! O* n1 D4 v3 M; ^' I4 m( e! l+ o例:客户收入属性income排序后的值(人民币元):800 1000 1200 1500  1500 1800 2000 2300 2500 2800 3000 3500 4000 4500 4800 5000,分箱的结果如下。
    % M  h$ h; ^* v/ ]% \0 @  S3 o' D, N" \8 {
    统一权重:设定权重(箱子深度)为4,分箱后% r& T$ ]) ~+ f
    - f: T% t/ J/ |/ o+ ^. x
    箱1:800 1000 1200 15007 A  Z0 n% u4 j8 _% b: N1 J% }

    + d1 }& f6 z3 t  u# q5 B箱2:1500 1800 2000 2300 + x* t  T7 j  |6 f" G- P

    4 V9 v. ?- O1 Y) g# v/ B  h箱3:2500 2800 3000 3500
    : {) I: N6 K6 ^5 h
    , p7 O& |' C: a2 R- _9 L, m! E箱4:4000 4500 4800 5000   
    5 {: h: g- L+ L: O
    . L: k+ J3 J$ C, O4 H& h统一区间:设定区间范围(箱子宽度)为1000元人民币,分箱后$ ~4 G! K2 m6 F6 D  z
      U. j: n- C) T4 g$ q- ]  _* |( R
    箱1:800 1000 1200 1500 1500 1800
    4 F9 ^  y; C5 S! q. a& [4 z0 A. k9 A) r  c7 U
    箱2:2000 2300 2500 2800 3000- Z3 d* Q) t7 ?) _+ B
    * Z: c& ~2 M: W$ b% @/ M8 J
    箱3:3500 4000 4500
    ! S: c+ d5 S: c
    7 `9 j0 ^) m5 s& d+ {& v" s箱4:4800 5000 ; P- V) q5 ^0 a) O, m& ~
    & I+ _, S/ e/ g: z' U
    用户自定义:如将客户收入划分为1000元以下、1000~2000、2000~3000、3000~4000和4000元以上几组,分箱后" d' n9 F8 F& }

    . S3 A. K  m3 v$ ]; f箱1:800
    7 G" y# X* h5 D) ?
    # e  B/ u% K" g/ ]+ Y8 t箱2:1000 1200 1500 1500 1800 2000 # a$ G+ x# p7 @2 ?4 \

    : `3 V- p! ^. ~% O% D1 @箱3:2300 2500 2800 3000  4 c! d. D0 X+ V& w3 J# D
    , ?8 z6 O3 B5 w3 q# E/ t
    箱4:3500 4000
    # J7 V9 V) j0 ]: f% G+ K
    : K* Q) Z3 e8 ]( ?/ U箱5:4500 4800 5000
    - O: B2 x! Z3 V1 _
    : s; y- I0 g: ?+ V* [, R+ J7.数据平滑方法:按平均值平滑、按边界值平滑和按中值平滑。  y' b4 ^/ d5 J" u. `

    6 @% I/ ^/ N1 s( M: b: u⑴按平均值平滑 & W6 e/ U5 j* d

    ! r/ f1 m) [9 a3 ~2 V对同一箱值中的数据求平均值,用平均值替代该箱子中的所有数据。
    9 c1 b. J4 x: `' i, @& a7 d7 s0 n) n& a* |+ n+ O
    ⑵按边界值平滑
    ! f8 E2 t1 Q. S* Z% e+ c9 x: c3 v. A# e
    # ~# ~7 A. o3 W- q/ e用距离较小的边界值替代箱中每一数据。 8 \9 x# ~% b6 o) |3 Q5 M0 q' ^
    $ p+ e$ L% C, s! m+ \* [
    ⑶按中值平滑
    ) @% Q5 d- P# `; Q$ D1 z; v8 I) N" q" v: B; l
    取箱子的中值,用来替代箱子中的所有数据。 9 a: `2 ?4 _1 y  c

    & V% I7 I7 e& X; m8.聚类:将物理的或抽象对象的集合分组为由类似的对象组成的多个类。, |; q2 W5 X( j/ [) Y& e2 ]6 S8 L
    & u! U  n) d* ?8 G4 e8 o3 ?# y3 g
    找出并清除那些落在簇之外的值(孤立点),这些孤立点被视为噪声。
    ' N( U( H: f! B$ w) R
    1 }, |* ^& A2 Q9.回归;试图发现两个相关的变量之间的变化模式,通过使数据适合一个函数来平滑数据,即通过建立数学模型来预测下一个数值,包括线性回归和非线性回归。   
    6 t+ V* L. c; U( ]) r* H6 J! H; L5 Q8 @: ]
    10.数据集成:将多文件或者多数据库中的异构数据进行合并,然后存放在一个一致的数据存储中。考虑以下几个问题: 1.模式匹配2.数据冗余3.数据值冲突 1 X9 o9 d* e6 Y& \
    ! s9 S' i, e3 R% Z! m
    11. 数据变换:1.平滑2.聚集3.数据概化4.规范化(1)最小-最大规范化(2)零-均值规范化(3)小数定标规范化5.属性构造9 m, E8 B" y8 E

    ) j4 f5 a* A; }" D8 `# R: s12.数据集成:将多文件或者多数据库中的异构数据进行合并,然后存放在一个一致的数据存储中。考虑以下几个问题: 1.模式匹配2.数据冗余3.数据值冲突 ) _9 e& z) J, ]6 o! ^5 M5 G

    0 [6 H; C# {. U13.数据归约:目的是为了获得比原始数据小的多的,但不破坏数据完整性的挖掘数据集,该数据集可以得到与原始数据相同的挖掘结果。
    1 w& X  \- [0 f6 u1 O( q
    # Y( |7 O& P, e8 G8 \3 M' _数据归约的方法: 1.数据立方体聚集:把聚集的方法用于数据立方体。2.维归约:检测并删除不相关、弱相关或冗余属性。3.数据压缩:选择正确的编码压缩数据集。4.数值压缩:用较小的数据表示数据,或采用较短的数据单位,或者用数据模型代表数据。5.离散化和概念分层生成:使连续的数据离散化,用确定的有限个区段值代替原始值;概念分层是指用较高层次的概念替换低层次的概念,以此来减少取值个数。
    . S$ Z3 R* W/ I5 C/ T4 p, z4 K! k# \2 K( g
    14.数据立方体聚集 :是数据的多维建模和表示,由维和事实组成。
    1 G( V# A, a% R, S) w3 E/ ~% J  b6 I$ E: L6 Q1 w. m9 t
    维归约:去掉不相关的属性,减少数据挖掘处理的数据量。 . E$ z7 ~0 a( |6 \% u6 Y" p2 }

    / x1 W' m: q8 ^1 c1 ~. i$ b. |' ~属性子集选择的基本方法包括以下几种: 1.逐步向前选择2.逐步向后删除3.向前选择和向后删除结合4.判定树归纳5.基于统计分析的归约   / W, P* \* X# H: E# [

    3 Y/ T" T% q, B( t, N# N% p数据压缩:方法分为两类:无损压缩和有损压缩8 v2 d1 P0 ?! T5 i

    ! N/ v/ r: L9 \6 ]  D- w数值归约常用的方法: 1.直方图2.聚类3.抽样:不放回简单随机抽样、放回简单随机抽样、聚类抽样和分层抽样4.线性回归5.非线性回归     + h- r" e3 ], Q' R5 R
    ( B; {0 p8 H; f
    15.数据变换涉及以下几个方面:1.平滑2.聚集3.数据概化4.规范化(1)最小-最大规范化(2)零-均值规范化(3)小数定标规范化5.属性构造1 m- T+ I! Z8 N% g
    3 O, O0 ^: X& |& }4 P& `, {: k
    *规范化:(1)最小—最大规范化。原取值区间 [old_min,old_max],规范化后的新的取值区间[new_min,new_max]。
    7 k' Y: n3 P( V& _" u1 L" P. d, _3 Y6 x
    x’=  其中:x是属性的真实值,x’是规范化后的值。
    & g) p" M+ b* M1 g" ?3 D9 U& Y  F* D7 h. y" x) Z1 J
    例如:“客户背景数据”表中的客户月收入income属性的实际值范围为[12000,98000],要把这个属性值规范到[0,1],对属性值73600应用上述公式:
    3 n+ I' S- K: e6 N$ x( \
    ; t) r8 h5 R0 L( ~9 O3 L0 ?x’=(1.0-0)+0=0.7162 C4 _( I5 |; d/ n" v' J5 K: S- i

    1 [& `3 s4 c- w8 i" w! @根据精度要求保留小数(假设精度要求0.01),最终取值0.72就是属性值73600规范化后的值。3 {1 ]9 y& U1 t( B% M. s5 j

    % @- d# D9 S# X$ [ (2)零—均值规范化(z—score规范化),是根据属性值的平均值和标准差进行规范化,即:
    , A5 g/ l9 @: c& F, G- }" I/ \' {* J3 E8 D  B0 i% ]+ N8 e
    x’=   =  =    为所有样本属性值的平均值,为样本的标准差。当属性值范围未知的时候,可以使用此方法进行规范化。3 k5 E( u6 n% s- R+ t

    ' v- M% i/ h8 K" W  d/ g. b; g4 n    例:假设某属性的平均值和标准差分别为80、25,采用零-均值规范化66为:x’==-0.567 ~  t: w  K& [$ b" Z" U- k( B
    2 m5 n3 V9 t1 G4 N
    (3)小数定标规范化:通过移动属性A的小数点位置进行规范化 。0 {9 _. _2 l% p: m- f" Z& k+ q0 J

    $ e- Q% D+ U' A5 o+ y( ]% q  ~0 I9 ~x’= 为满足式<1的最小整数。( S* @; [1 g" d( ]/ \
    ( A* r0 h9 Y  I$ m. R: V5 ]
    例:假设某属性规范化前的取值范围为[-120,110],采用小数定标规范化66。由于该属性的最大绝对值为120,则由<1可得出=3,因此,66规范化后为:x’==0.066$ }+ k( |* j0 Y& o/ c3 l
    ————————————————
    . c1 @1 J: {( i/ x版权声明:本文为CSDN博主「搬砖老头」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。8 n/ R7 g  r) A  k
    原文链接:https://blog.csdn.net/wang1127248268/article/details/53571956( c& Q6 k& I! L7 Q) U5 s
    5 R8 p6 O% f1 a- f/ U4 A6 }

    1 M" ?. u* d2 {& D
    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏2 支持支持0 反对反对0 微信微信

    1

    主题

    3

    听众

    169

    积分

    升级  34.5%

  • TA的每日心情
    擦汗
    2023-9-25 13:50
  • 签到天数: 67 天

    [LV.6]常住居民II

    国际赛参赛者

    网络挑战赛参赛者

    自我介绍
    热爱数学建模
    回复

    使用道具 举报

    德古拉        

    2

    主题

    4

    听众

    165

    积分

    升级  32.5%

  • TA的每日心情
    奋斗
    2025-12-3 23:13
  • 签到天数: 127 天

    [LV.7]常住居民III

    国际赛参赛者

    自我介绍
    嘶嘶。。。
    回复

    使用道具 举报

    浅夏110 实名认证       

    542

    主题

    15

    听众

    1万

    积分

  • TA的每日心情
    开心
    2020-11-14 17:15
  • 签到天数: 74 天

    [LV.6]常住居民II

    邮箱绑定达人

    群组2019美赛冲刺课程

    群组站长地区赛培训

    群组2019考研数学 桃子老师

    群组2018教师培训(呼伦贝

    群组2019考研数学 站长系列

    huangyanzuo 发表于 2020-5-19 12:06 : m! W5 v7 A- F) A6 d! @" j3 m
    棒!棒!棒!棒!棒!棒!棒!棒!

    3 k( S* v4 ]  s- |2 i# B
    5 O+ L/ |; }8 l6 c. n2 K
    回复

    使用道具 举报

    浅夏110 实名认证       

    542

    主题

    15

    听众

    1万

    积分

  • TA的每日心情
    开心
    2020-11-14 17:15
  • 签到天数: 74 天

    [LV.6]常住居民II

    邮箱绑定达人

    群组2019美赛冲刺课程

    群组站长地区赛培训

    群组2019考研数学 桃子老师

    群组2018教师培训(呼伦贝

    群组2019考研数学 站长系列

    回复

    使用道具 举报

    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2026-4-21 00:30 , Processed in 0.447074 second(s), 73 queries .

    回顶部