QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 2439|回复: 4
打印 上一主题 下一主题

数据挖掘中的数据预处理方法总结

[复制链接]
字体大小: 正常 放大
浅夏110 实名认证       

542

主题

15

听众

1万

积分

  • TA的每日心情
    开心
    2020-11-14 17:15
  • 签到天数: 74 天

    [LV.6]常住居民II

    邮箱绑定达人

    群组2019美赛冲刺课程

    群组站长地区赛培训

    群组2019考研数学 桃子老师

    群组2018教师培训(呼伦贝

    群组2019考研数学 站长系列

    跳转到指定楼层
    1#
    发表于 2020-5-19 09:40 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta |邮箱已经成功绑定
    1.原始数据存在的几个问题:不一致;重复;含噪声;维度高。5 Y. R& _8 e) Y( q

    5 n$ T& b/ a0 J: g6 p1 @! h8 M2.数据预处理包含数据清洗、数据集成、数据变换和数据归约几种方法。! i( r5 f% P! c4 ~
    * a/ L) r: I3 k5 S% n/ n/ g
    3.数据挖掘中使用的数据的原则; E; \& R2 e; h5 r3 k) H7 G1 r
    8 \3 k% u- l9 |1 {
    应该是从原始数据中选取合适的属性作为数据挖掘属性,这个选取过程应参考的原则是:尽可能赋予属性名和属性值明确的含义;统一多数据源的属性值编码;去除惟一属性;去除重复性;去除可忽略字段;合理选择关联字段。' R& ?8 d/ B/ _. h, A: _  ^

    9 C. k5 L  r& \# W$ m' Z/ g4 y4.处理空缺值的方法:忽略该记录;去掉属性;手工填写空缺值;使用默认值;使用属性平均值;使用同类样本平均值;预测最可能的值。; w+ x& K& ]% S1 z. Z
    2 E8 v% U) ]3 G1 O& S) G
    5.噪声数据的处理方法:分箱;聚类;计算机和人工检查结合;回归
    5 {8 i4 g- u, M1 b/ U- o* H
    ! K! k3 s$ O. n6.分箱:分箱方法是一种简单常用的预处理方法,通过考察相邻数据来确定最终值。所谓“分箱”,实际上就是按照属性值划分的子区间,如果一个属性值处于某个子区间范围内,就称把该属性值放进这个子区间所代表的“箱子”内。把待处理的数据(某列属性值)按照一定的规则放进一些箱子中,考察每一个箱子中的数据,采用某种方法分别对各个箱子中的数据进行处理。在采用分箱技术时,需要确定的两个主要问题就是:如何分箱以及如何对每个箱子中的数据进行平滑处理。( O6 ^" K6 ]% J+ U. z# X' d8 N- y

    / D! t& z# \; S- ]7 h5 ]! O分箱的方法:有4种:等深分箱法、等宽分箱法、最小熵法和用户自定义区间法。
    / e# x. s+ f% c) U$ S: b
    $ l9 r' S- b" m% k7 h( M统一权重,也成等深分箱法,将数据集按记录行数分箱,每箱具有相同的记录数,每箱记录数称为箱子的深度。这是最简单的一种分箱方法。
    1 R# k5 {6 u% L2 R( b) z1 A4 m7 u3 V* N& a& M% C
    统一区间,也称等宽分箱法,使数据集在整个属性值的区间上平均分布,即每个箱的区间范围是一个常量,称为箱子宽度。- \. {, m1 m3 x
    . e9 C( c) A  |4 M
    用户自定义区间,用户可以根据需要自定义区间,当用户明确希望观察某些区间范围内的数据分布时,使用这种方法可以方便地帮助用户达到目的。$ G" q  y4 N+ l( f" L

    ! K7 l' n! V4 b# C* ~1 D6 M  [* i例:客户收入属性income排序后的值(人民币元):800 1000 1200 1500  1500 1800 2000 2300 2500 2800 3000 3500 4000 4500 4800 5000,分箱的结果如下。
    % [. s( y1 J3 J) B) j
    7 D) L$ a" h/ a  W/ W统一权重:设定权重(箱子深度)为4,分箱后
    + f6 W; g3 ?  A7 V0 Y2 @0 d" r( h% P. O; b  {* j, X5 F* _
    箱1:800 1000 1200 1500; A5 g1 h9 i; y$ A' @

    0 b7 [7 E& F5 ]6 v9 i" o箱2:1500 1800 2000 2300
    / y6 ?- M5 O" @2 E3 ?
    ; [# P$ J3 ~7 o+ q1 Z/ v5 [/ ?2 T  A箱3:2500 2800 3000 35003 [$ {* F' k! j: A  H) y

    6 v, X! F5 G1 O( M) f箱4:4000 4500 4800 5000   & s3 v. i4 o, m2 ^

    % E( y4 v) w- A  r- |. u统一区间:设定区间范围(箱子宽度)为1000元人民币,分箱后0 s( b1 r$ \, m% B4 F
      ^) v! Z1 U3 D
    箱1:800 1000 1200 1500 1500 1800* ^6 z) b8 R& o' k3 t: G9 A
    4 M: a- U. f7 W" g+ X
    箱2:2000 2300 2500 2800 3000
    8 O( Z+ G* H% N( q/ k7 F" c4 V: H* y; r& g- a" ]  N
    箱3:3500 4000 4500
    % f6 f8 r: T* I9 f. l8 J. E' H2 @5 H0 S  g+ e8 P2 |
    箱4:4800 5000 * s5 z2 G4 n4 r: S4 Q) D' i- H

    ) }# ^6 M9 k& V+ E用户自定义:如将客户收入划分为1000元以下、1000~2000、2000~3000、3000~4000和4000元以上几组,分箱后- r8 Q, g+ d6 U6 B4 c
    . v8 X! b& v8 U3 e, r
    箱1:800 $ E( s9 C( X6 t$ i- U
    7 c) Y$ C. R. w4 C2 e$ k9 q/ O
    箱2:1000 1200 1500 1500 1800 2000
    1 ^% I. q/ m& T0 R0 S" k* L+ c4 c: x5 q+ r
    箱3:2300 2500 2800 3000  
    ; F+ a9 I; D# m2 g7 ~
    8 [5 Y5 o! l% d; x3 ~箱4:3500 4000
    + c3 c$ a, a8 X* }1 p
    6 O% V; ]8 j/ i5 t箱5:4500 4800 5000 # F9 p; F9 G% U& A0 ~' B3 r9 r# p. \9 ~
    " ~) z0 w: H+ L* E5 E8 [% b
    7.数据平滑方法:按平均值平滑、按边界值平滑和按中值平滑。/ S) K$ m; y) F! k* \

    $ r; n) j4 |9 }  B) }( o⑴按平均值平滑 0 I9 j, ^8 h" _; o% d) }5 _

    7 Y7 N$ V8 z2 x3 g5 l# y# H0 _对同一箱值中的数据求平均值,用平均值替代该箱子中的所有数据。 + _" G% c) q* R
    ( C) [$ w: \  Z* f5 ]
    ⑵按边界值平滑 / @1 D2 O2 N8 m$ j* r1 f4 P
    5 V# I6 w& M9 s- \$ C* d
    用距离较小的边界值替代箱中每一数据。
    7 w% G/ I0 l% k3 D3 l$ N
    4 }  _2 m; ]5 V( D/ N" `⑶按中值平滑 7 k6 e8 _$ d# F# }- G/ Y
      [! c  w% h  ~' K+ |" B/ I
    取箱子的中值,用来替代箱子中的所有数据。 : I6 x- {2 a5 W* B$ J+ f" s- R

    ) G1 Z7 h, r* h2 C8.聚类:将物理的或抽象对象的集合分组为由类似的对象组成的多个类。
    5 E9 m& {( B" R# z2 }
    / U- F( e1 n+ R- h$ g% p找出并清除那些落在簇之外的值(孤立点),这些孤立点被视为噪声。
    % p# e" k: p7 V7 b! M5 F/ w$ X* c, Y
    : i8 _. f1 P; h; Q9.回归;试图发现两个相关的变量之间的变化模式,通过使数据适合一个函数来平滑数据,即通过建立数学模型来预测下一个数值,包括线性回归和非线性回归。   6 K( Z' w; N" z, i* L) t2 O

    1 x/ L* A( @% }9 l. A% z- Y% t4 E10.数据集成:将多文件或者多数据库中的异构数据进行合并,然后存放在一个一致的数据存储中。考虑以下几个问题: 1.模式匹配2.数据冗余3.数据值冲突 9 Y1 F) A- w  l* l6 y: o6 s

    ! f" F: H  R( P1 X, [11. 数据变换:1.平滑2.聚集3.数据概化4.规范化(1)最小-最大规范化(2)零-均值规范化(3)小数定标规范化5.属性构造
    ' ^1 u- b2 e; q7 S2 _: q4 q2 h% p* A5 B9 Q1 B# V1 I
    12.数据集成:将多文件或者多数据库中的异构数据进行合并,然后存放在一个一致的数据存储中。考虑以下几个问题: 1.模式匹配2.数据冗余3.数据值冲突 ( f9 H9 s: p; Y

    + P4 j" s% o" E* ^5 u7 j13.数据归约:目的是为了获得比原始数据小的多的,但不破坏数据完整性的挖掘数据集,该数据集可以得到与原始数据相同的挖掘结果。 " T: D6 {6 o' Z$ R5 m0 b3 l
    # c' t+ I  f) C
    数据归约的方法: 1.数据立方体聚集:把聚集的方法用于数据立方体。2.维归约:检测并删除不相关、弱相关或冗余属性。3.数据压缩:选择正确的编码压缩数据集。4.数值压缩:用较小的数据表示数据,或采用较短的数据单位,或者用数据模型代表数据。5.离散化和概念分层生成:使连续的数据离散化,用确定的有限个区段值代替原始值;概念分层是指用较高层次的概念替换低层次的概念,以此来减少取值个数。+ M3 Z7 Q6 ]* j3 f9 s8 B9 d2 P

    - L. s1 J# f0 x. p* z14.数据立方体聚集 :是数据的多维建模和表示,由维和事实组成。
    , ^* g$ N3 r+ R  H( e% S! b- A/ U2 T4 i, r( h1 u( x  L) C4 a
    维归约:去掉不相关的属性,减少数据挖掘处理的数据量。 ) ?! \3 \. h- E
    : ~+ Y& R/ b% s( Y. x  {
    属性子集选择的基本方法包括以下几种: 1.逐步向前选择2.逐步向后删除3.向前选择和向后删除结合4.判定树归纳5.基于统计分析的归约   
    6 I+ g3 S0 m" U& X, ~' z; s/ W3 |
    5 s0 m3 V1 i1 `数据压缩:方法分为两类:无损压缩和有损压缩1 Y  D) x4 a! L% f# w0 k

    4 ?8 t$ `- V$ a9 Z$ j! ?8 R5 f数值归约常用的方法: 1.直方图2.聚类3.抽样:不放回简单随机抽样、放回简单随机抽样、聚类抽样和分层抽样4.线性回归5.非线性回归     
    . E+ V, K) b/ x/ Z# e! f* E$ ]$ g' `* {
    15.数据变换涉及以下几个方面:1.平滑2.聚集3.数据概化4.规范化(1)最小-最大规范化(2)零-均值规范化(3)小数定标规范化5.属性构造4 a* q# X3 T; m' C
    ) {" y% E# `& i1 P
    *规范化:(1)最小—最大规范化。原取值区间 [old_min,old_max],规范化后的新的取值区间[new_min,new_max]。
    $ a' K: R$ S% s9 E, w6 F) A3 e6 I! [( m8 [8 m5 f# Q, L" l& X- \
    x’=  其中:x是属性的真实值,x’是规范化后的值。
    , C, u# b; O' q+ i  N% @# P: |# E  J- L0 K& I" N) t" a- V6 b
    例如:“客户背景数据”表中的客户月收入income属性的实际值范围为[12000,98000],要把这个属性值规范到[0,1],对属性值73600应用上述公式:+ j( ?* b5 O% a% [; p8 [  {
    ; `* C" O8 z) v
    x’=(1.0-0)+0=0.716
    8 }  B) y6 D7 D5 u# I3 Y. l( @. @1 ?# F2 w# F
    根据精度要求保留小数(假设精度要求0.01),最终取值0.72就是属性值73600规范化后的值。
    % G" V- c' R: M% A" G& \7 F, U* e3 o9 s# Q8 d
    (2)零—均值规范化(z—score规范化),是根据属性值的平均值和标准差进行规范化,即:
    ! F; |5 V( W" W9 m% [" E; r, X* b& q+ p
    x’=   =  =    为所有样本属性值的平均值,为样本的标准差。当属性值范围未知的时候,可以使用此方法进行规范化。
    " r4 V0 C% i: D( ^2 D  _' `1 j% @4 c' H) Q" O1 {/ G% r
        例:假设某属性的平均值和标准差分别为80、25,采用零-均值规范化66为:x’==-0.569 ^! @% Q4 w. J2 ~7 r8 S% X. h4 x
    " l8 a  t6 E2 c8 T
    (3)小数定标规范化:通过移动属性A的小数点位置进行规范化 。
    4 K) y5 ~$ S+ u6 d4 G3 E! u6 R
    7 ]6 y! o! r) K" `# m1 ex’= 为满足式<1的最小整数。
    , p+ z/ j/ x+ I- k' g" m7 H2 n) }) v; O4 c
    例:假设某属性规范化前的取值范围为[-120,110],采用小数定标规范化66。由于该属性的最大绝对值为120,则由<1可得出=3,因此,66规范化后为:x’==0.066
    ( }7 u9 y' k  w6 s. l# A  q& C————————————————$ B8 S$ h) C9 M( |' E
    版权声明:本文为CSDN博主「搬砖老头」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
    + p; q7 y+ v( ]; X. p原文链接:https://blog.csdn.net/wang1127248268/article/details/53571956  J; K$ N9 J. F4 R

    4 q9 D- u& D; D0 |7 p3 E! `" C
    2 ?  i* P  i6 y2 U& P
    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏2 支持支持0 反对反对0 微信微信

    1

    主题

    3

    听众

    169

    积分

    升级  34.5%

  • TA的每日心情
    擦汗
    2023-9-25 13:50
  • 签到天数: 67 天

    [LV.6]常住居民II

    国际赛参赛者

    网络挑战赛参赛者

    自我介绍
    热爱数学建模
    回复

    使用道具 举报

    德古拉        

    2

    主题

    4

    听众

    163

    积分

    升级  31.5%

  • TA的每日心情
    奋斗
    2025-8-14 23:39
  • 签到天数: 126 天

    [LV.7]常住居民III

    国际赛参赛者

    自我介绍
    嘶嘶。。。
    回复

    使用道具 举报

    浅夏110 实名认证       

    542

    主题

    15

    听众

    1万

    积分

  • TA的每日心情
    开心
    2020-11-14 17:15
  • 签到天数: 74 天

    [LV.6]常住居民II

    邮箱绑定达人

    群组2019美赛冲刺课程

    群组站长地区赛培训

    群组2019考研数学 桃子老师

    群组2018教师培训(呼伦贝

    群组2019考研数学 站长系列

    huangyanzuo 发表于 2020-5-19 12:06
    1 A0 m1 s1 g! c& H) T. V1 h; s棒!棒!棒!棒!棒!棒!棒!棒!
    7 d5 Y3 L! a8 r9 @* Z3 o% C( \

    3 G. l( l. M- I: ?  g6 M
    回复

    使用道具 举报

    浅夏110 实名认证       

    542

    主题

    15

    听众

    1万

    积分

  • TA的每日心情
    开心
    2020-11-14 17:15
  • 签到天数: 74 天

    [LV.6]常住居民II

    邮箱绑定达人

    群组2019美赛冲刺课程

    群组站长地区赛培训

    群组2019考研数学 桃子老师

    群组2018教师培训(呼伦贝

    群组2019考研数学 站长系列

    回复

    使用道具 举报

    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2025-9-7 11:02 , Processed in 1.419471 second(s), 72 queries .

    回顶部