QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 2604|回复: 4
打印 上一主题 下一主题

数据挖掘中的数据预处理方法总结

[复制链接]
字体大小: 正常 放大
浅夏110 实名认证       

542

主题

15

听众

1万

积分

  • TA的每日心情
    开心
    2020-11-14 17:15
  • 签到天数: 74 天

    [LV.6]常住居民II

    邮箱绑定达人

    群组2019美赛冲刺课程

    群组站长地区赛培训

    群组2019考研数学 桃子老师

    群组2018教师培训(呼伦贝

    群组2019考研数学 站长系列

    跳转到指定楼层
    1#
    发表于 2020-5-19 09:40 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta |邮箱已经成功绑定
    1.原始数据存在的几个问题:不一致;重复;含噪声;维度高。# }4 v) Z  Q6 Z: G3 q( C

    $ i* C1 f! y7 i2 ~; `0 B2 f# G' H2.数据预处理包含数据清洗、数据集成、数据变换和数据归约几种方法。
      m% A) I2 t) l/ R7 E! s. d. t
    # J. E* S8 F5 F( ~! I3.数据挖掘中使用的数据的原则2 u0 X, S8 e7 j" k- w  x: ^
    8 n( T. I" `3 E2 f1 Q. c1 \( Z
    应该是从原始数据中选取合适的属性作为数据挖掘属性,这个选取过程应参考的原则是:尽可能赋予属性名和属性值明确的含义;统一多数据源的属性值编码;去除惟一属性;去除重复性;去除可忽略字段;合理选择关联字段。
    # j4 n4 y1 V& V3 h5 v# Q1 A' a9 G# @  l) }/ G" w' I
    4.处理空缺值的方法:忽略该记录;去掉属性;手工填写空缺值;使用默认值;使用属性平均值;使用同类样本平均值;预测最可能的值。3 ^7 h' @* g. |1 D

    6 F7 Y" q2 S3 @8 H. P4 F5.噪声数据的处理方法:分箱;聚类;计算机和人工检查结合;回归
    8 V7 C& K: M& n3 S1 D' [# A9 U; }) a9 a4 D9 l! A6 w6 D7 \
    6.分箱:分箱方法是一种简单常用的预处理方法,通过考察相邻数据来确定最终值。所谓“分箱”,实际上就是按照属性值划分的子区间,如果一个属性值处于某个子区间范围内,就称把该属性值放进这个子区间所代表的“箱子”内。把待处理的数据(某列属性值)按照一定的规则放进一些箱子中,考察每一个箱子中的数据,采用某种方法分别对各个箱子中的数据进行处理。在采用分箱技术时,需要确定的两个主要问题就是:如何分箱以及如何对每个箱子中的数据进行平滑处理。
    : B& K4 M/ N; S' w/ @  y
    3 h5 @5 ]1 B  G( O1 |+ [' W分箱的方法:有4种:等深分箱法、等宽分箱法、最小熵法和用户自定义区间法。
    * n3 C1 r; r) L/ f; u" e, K7 ?% x- f
      H7 t% _4 e, N; R统一权重,也成等深分箱法,将数据集按记录行数分箱,每箱具有相同的记录数,每箱记录数称为箱子的深度。这是最简单的一种分箱方法。
    2 ^" B5 ~/ ?0 n" P0 r" A2 }% k% y$ A( V
    统一区间,也称等宽分箱法,使数据集在整个属性值的区间上平均分布,即每个箱的区间范围是一个常量,称为箱子宽度。
    - U) s* Z# |- D4 r4 ~1 k2 |# k. k! _5 `- _
    用户自定义区间,用户可以根据需要自定义区间,当用户明确希望观察某些区间范围内的数据分布时,使用这种方法可以方便地帮助用户达到目的。. S( i2 {  T4 N8 X/ f4 f

      S5 b' F! l% ]例:客户收入属性income排序后的值(人民币元):800 1000 1200 1500  1500 1800 2000 2300 2500 2800 3000 3500 4000 4500 4800 5000,分箱的结果如下。
    $ [( c7 D" Z; e3 n: r0 C' j* j+ N( ~) Q4 U" s0 x6 ]
    统一权重:设定权重(箱子深度)为4,分箱后
    5 ?; n2 P8 F# Y" o8 Z: J0 O2 t8 B) l& O
    箱1:800 1000 1200 1500  j; E, N  \" W& O7 o# ^' x& U8 K
    % e# L* E( h; J3 e& x
    箱2:1500 1800 2000 2300
    % S, P& i- ?/ N! }( `9 k+ Z' @5 g. e1 ~* S
    箱3:2500 2800 3000 3500$ i; ~- L& }  s) N& E$ n5 U- D

    7 n% S5 w; S1 [& {3 p0 Q5 X箱4:4000 4500 4800 5000   2 H  n1 F! V, Z. |. M- ?

      o" C* j" s5 r  A统一区间:设定区间范围(箱子宽度)为1000元人民币,分箱后& ]0 N" @$ W* L; ~  Z$ P
    - V" {" a6 v6 t% c
    箱1:800 1000 1200 1500 1500 18001 }- q+ P  G4 V& G, p' D3 l' g  N

    . c# L5 v3 X1 c) x9 Q箱2:2000 2300 2500 2800 3000
    + `7 r3 r! O: g9 a
    . n( T' S4 w5 J$ g! h箱3:3500 4000 4500  O; z8 ?  I3 N2 O  k7 J
    8 _' H8 C8 J3 L7 B  `0 h- Y* y
    箱4:4800 5000
    1 u* @8 l2 z* Q
    % e: e6 y. J5 g4 p1 \; f用户自定义:如将客户收入划分为1000元以下、1000~2000、2000~3000、3000~4000和4000元以上几组,分箱后* R. \+ ~% p9 {" s$ U& L; i* D
    9 x( W, B5 I0 W! o! c$ D
    箱1:800 ) T4 A9 {7 B# P* l+ N/ x. r" z% P4 \

    $ ?* H, Z* v- e0 l" }% w; k- l/ V, p箱2:1000 1200 1500 1500 1800 2000   w. L7 T% m- I  W8 h/ `; S

    4 D9 }; b' a6 z' P' I箱3:2300 2500 2800 3000  
    " ?" S$ v. e" K. d$ k( P( l" e5 @
    # i; ^0 e5 k- Y* P6 S8 E) M" ~箱4:3500 4000
    ) Y0 X4 f5 ?/ A& g& R' C( J+ i* W, ~* q$ l$ u: {
    箱5:4500 4800 5000
    9 W1 ~* o* f2 b/ \, m- G4 H" H7 B
      @# v5 l  D! N3 g0 ?7.数据平滑方法:按平均值平滑、按边界值平滑和按中值平滑。/ j- A- b0 Q: x! h% k

    " Y& c8 J( W$ b& F& x' V⑴按平均值平滑
    - i( x2 W' E. x0 H5 f; T; _9 Y, J3 L, T5 ~& n
    对同一箱值中的数据求平均值,用平均值替代该箱子中的所有数据。
    2 P5 D( W3 \- i
    - L0 h  K( a, P8 F/ O- Y9 L⑵按边界值平滑 6 r; Q' `/ N6 w$ `, H& ?
    2 A$ A" I7 A4 k5 ~3 }
    用距离较小的边界值替代箱中每一数据。 , s" q/ [+ ~4 Z9 R

    $ I. D. v  I4 ]- n4 N5 @⑶按中值平滑
    ' y% z& }' ?8 l- g0 t. o8 p- M! `4 }% t4 y% n
    取箱子的中值,用来替代箱子中的所有数据。
    4 e3 W+ I# E, E7 M: w; H3 x' e0 d( v( V* `; s  d
    8.聚类:将物理的或抽象对象的集合分组为由类似的对象组成的多个类。7 d0 A& z  q% R3 Z( A, S
    - v3 T0 P- g5 i$ P
    找出并清除那些落在簇之外的值(孤立点),这些孤立点被视为噪声。
    # T/ T8 N/ }- b, E+ h2 c, g+ ~; X& r) e; H
    9.回归;试图发现两个相关的变量之间的变化模式,通过使数据适合一个函数来平滑数据,即通过建立数学模型来预测下一个数值,包括线性回归和非线性回归。   2 \: K. P8 n3 @, ~+ i
    + |$ u& X2 T+ w$ U; ]
    10.数据集成:将多文件或者多数据库中的异构数据进行合并,然后存放在一个一致的数据存储中。考虑以下几个问题: 1.模式匹配2.数据冗余3.数据值冲突   Z0 o6 r9 E. h/ Q

    4 i7 x: I- i$ {9 p& B5 Q  e11. 数据变换:1.平滑2.聚集3.数据概化4.规范化(1)最小-最大规范化(2)零-均值规范化(3)小数定标规范化5.属性构造. G& V2 C$ v  c3 o- m- g8 |
    3 X9 U! M( Q2 H8 w
    12.数据集成:将多文件或者多数据库中的异构数据进行合并,然后存放在一个一致的数据存储中。考虑以下几个问题: 1.模式匹配2.数据冗余3.数据值冲突
    * a9 n- o' B& e- T+ D; ]# u. p4 E& r- v
    13.数据归约:目的是为了获得比原始数据小的多的,但不破坏数据完整性的挖掘数据集,该数据集可以得到与原始数据相同的挖掘结果。
    3 r4 X0 n. Q; B+ R; ]* u8 T) E' x$ h" B6 H
    数据归约的方法: 1.数据立方体聚集:把聚集的方法用于数据立方体。2.维归约:检测并删除不相关、弱相关或冗余属性。3.数据压缩:选择正确的编码压缩数据集。4.数值压缩:用较小的数据表示数据,或采用较短的数据单位,或者用数据模型代表数据。5.离散化和概念分层生成:使连续的数据离散化,用确定的有限个区段值代替原始值;概念分层是指用较高层次的概念替换低层次的概念,以此来减少取值个数。' T! P0 n4 u, c3 o% x- ?, n

    * ~" D/ ]0 x% r( ~+ K2 x, W3 C14.数据立方体聚集 :是数据的多维建模和表示,由维和事实组成。   T3 O* G8 `9 R4 Q  A% z! ~) q3 {

    3 |% r5 g4 V1 M4 ^, j" r维归约:去掉不相关的属性,减少数据挖掘处理的数据量。   V6 \  ^/ o+ ^; Q: H2 N

    8 ^0 H2 Q/ u5 r属性子集选择的基本方法包括以下几种: 1.逐步向前选择2.逐步向后删除3.向前选择和向后删除结合4.判定树归纳5.基于统计分析的归约   1 N- R+ t3 H4 Z/ C/ d

      {# p/ P0 h- O数据压缩:方法分为两类:无损压缩和有损压缩
    . g* U) D: x) j8 G  ]4 v3 c! q& e9 V9 X. t" g
    数值归约常用的方法: 1.直方图2.聚类3.抽样:不放回简单随机抽样、放回简单随机抽样、聚类抽样和分层抽样4.线性回归5.非线性回归     
    ' ]8 F) {( q! k* s) s
    % E# b9 ]; ]/ |1 _  c4 B3 X15.数据变换涉及以下几个方面:1.平滑2.聚集3.数据概化4.规范化(1)最小-最大规范化(2)零-均值规范化(3)小数定标规范化5.属性构造( n; p3 e7 n1 P* H

    5 P/ r1 x9 k( k& B- t8 ^*规范化:(1)最小—最大规范化。原取值区间 [old_min,old_max],规范化后的新的取值区间[new_min,new_max]。
    7 e4 L$ M- Q4 R9 L: U( j
    3 ?# _( }+ W) l8 {: [9 n0 ?x’=  其中:x是属性的真实值,x’是规范化后的值。/ f' Q; ^( Z, ~; }; Y* F

    3 Y% }6 |0 ~' _# E" Z3 X' ?. v例如:“客户背景数据”表中的客户月收入income属性的实际值范围为[12000,98000],要把这个属性值规范到[0,1],对属性值73600应用上述公式:
    $ V( W3 Z; U! l$ ]( b9 S; t" l0 j  {
    x’=(1.0-0)+0=0.716) h  \8 e# \0 ~8 k: n2 a( P

    & r( M( M* {0 x; O: x根据精度要求保留小数(假设精度要求0.01),最终取值0.72就是属性值73600规范化后的值。! B4 g- Z& t, ^2 W4 d0 s, E

    / @5 f7 B# j% Z: ~/ k, z (2)零—均值规范化(z—score规范化),是根据属性值的平均值和标准差进行规范化,即:
    . v5 q9 |: d) [
    # |6 d5 H, Y6 J% Z1 W- N+ px’=   =  =    为所有样本属性值的平均值,为样本的标准差。当属性值范围未知的时候,可以使用此方法进行规范化。7 J4 H2 l7 }( W. v
    4 ^  v1 Y9 Q2 e9 _9 S$ H* {  ^. g: M
        例:假设某属性的平均值和标准差分别为80、25,采用零-均值规范化66为:x’==-0.56
    # O) @$ E* j; M% F/ q" I! Q/ \4 _5 h+ @* J4 Z, _/ X
    (3)小数定标规范化:通过移动属性A的小数点位置进行规范化 。( K: `; `9 ]2 H- L8 W2 t

    + Q/ f7 P( P) M+ Cx’= 为满足式<1的最小整数。
    / a% R" e, I; ?+ g' K& n
    ) r' r. a) t6 o* ~. \例:假设某属性规范化前的取值范围为[-120,110],采用小数定标规范化66。由于该属性的最大绝对值为120,则由<1可得出=3,因此,66规范化后为:x’==0.066# z  ^& y4 o* E
    ————————————————: P, u" v5 [8 b7 z9 ]
    版权声明:本文为CSDN博主「搬砖老头」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。1 J5 M1 I8 G  F- k% [
    原文链接:https://blog.csdn.net/wang1127248268/article/details/53571956  b2 F. F$ {9 j( U
    * R! ~+ J. \7 e4 y1 V

    : l2 _/ b: E; h3 r
    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏2 支持支持0 反对反对0 微信微信

    1

    主题

    3

    听众

    169

    积分

    升级  34.5%

  • TA的每日心情
    擦汗
    2023-9-25 13:50
  • 签到天数: 67 天

    [LV.6]常住居民II

    国际赛参赛者

    网络挑战赛参赛者

    自我介绍
    热爱数学建模
    回复

    使用道具 举报

    德古拉        

    2

    主题

    4

    听众

    165

    积分

    升级  32.5%

  • TA的每日心情
    奋斗
    2025-12-3 23:13
  • 签到天数: 127 天

    [LV.7]常住居民III

    国际赛参赛者

    自我介绍
    嘶嘶。。。
    回复

    使用道具 举报

    浅夏110 实名认证       

    542

    主题

    15

    听众

    1万

    积分

  • TA的每日心情
    开心
    2020-11-14 17:15
  • 签到天数: 74 天

    [LV.6]常住居民II

    邮箱绑定达人

    群组2019美赛冲刺课程

    群组站长地区赛培训

    群组2019考研数学 桃子老师

    群组2018教师培训(呼伦贝

    群组2019考研数学 站长系列

    huangyanzuo 发表于 2020-5-19 12:06
    7 J8 D4 L7 q7 d' b, t- J- u# ~0 Y棒!棒!棒!棒!棒!棒!棒!棒!
    # V2 U9 o* x  Q7 B* T

    , e; ^1 y6 i5 I; {" r6 S5 S/ a
    回复

    使用道具 举报

    浅夏110 实名认证       

    542

    主题

    15

    听众

    1万

    积分

  • TA的每日心情
    开心
    2020-11-14 17:15
  • 签到天数: 74 天

    [LV.6]常住居民II

    邮箱绑定达人

    群组2019美赛冲刺课程

    群组站长地区赛培训

    群组2019考研数学 桃子老师

    群组2018教师培训(呼伦贝

    群组2019考研数学 站长系列

    回复

    使用道具 举报

    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2026-6-9 18:34 , Processed in 0.348014 second(s), 73 queries .

    回顶部