QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 2568|回复: 4
打印 上一主题 下一主题

数据挖掘中的数据预处理方法总结

[复制链接]
字体大小: 正常 放大
浅夏110 实名认证       

542

主题

15

听众

1万

积分

  • TA的每日心情
    开心
    2020-11-14 17:15
  • 签到天数: 74 天

    [LV.6]常住居民II

    邮箱绑定达人

    群组2019美赛冲刺课程

    群组站长地区赛培训

    群组2019考研数学 桃子老师

    群组2018教师培训(呼伦贝

    群组2019考研数学 站长系列

    跳转到指定楼层
    1#
    发表于 2020-5-19 09:40 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta |邮箱已经成功绑定
    1.原始数据存在的几个问题:不一致;重复;含噪声;维度高。
    / Q( U- \3 M3 C# z+ `7 H( \
    ( r  h- A* W% R) {  X; M' H2.数据预处理包含数据清洗、数据集成、数据变换和数据归约几种方法。
    7 F6 b: M2 u7 c9 x% w8 z$ P/ t. L7 m( J+ W( i  s
    3.数据挖掘中使用的数据的原则: I6 w! ]- H3 F& Z

    ; s; R4 b/ w. s# R应该是从原始数据中选取合适的属性作为数据挖掘属性,这个选取过程应参考的原则是:尽可能赋予属性名和属性值明确的含义;统一多数据源的属性值编码;去除惟一属性;去除重复性;去除可忽略字段;合理选择关联字段。7 `% p. a2 n! E6 L  V! @

    + Q" x$ t! v" l. P4.处理空缺值的方法:忽略该记录;去掉属性;手工填写空缺值;使用默认值;使用属性平均值;使用同类样本平均值;预测最可能的值。/ y8 i: R4 e2 }; }, A
    / ~- h5 R' _" R3 Y
    5.噪声数据的处理方法:分箱;聚类;计算机和人工检查结合;回归
      V3 L+ N* U) `4 h0 v
    2 P7 y5 @9 G( `$ C. F: u/ L6.分箱:分箱方法是一种简单常用的预处理方法,通过考察相邻数据来确定最终值。所谓“分箱”,实际上就是按照属性值划分的子区间,如果一个属性值处于某个子区间范围内,就称把该属性值放进这个子区间所代表的“箱子”内。把待处理的数据(某列属性值)按照一定的规则放进一些箱子中,考察每一个箱子中的数据,采用某种方法分别对各个箱子中的数据进行处理。在采用分箱技术时,需要确定的两个主要问题就是:如何分箱以及如何对每个箱子中的数据进行平滑处理。
    " @) m* `6 _* @" D! I  v3 B& l6 o! |/ \9 N
    分箱的方法:有4种:等深分箱法、等宽分箱法、最小熵法和用户自定义区间法。) ]8 x& o0 K9 G0 d( U

    # z; K9 B" H  W! W: l  ~8 v! o( u统一权重,也成等深分箱法,将数据集按记录行数分箱,每箱具有相同的记录数,每箱记录数称为箱子的深度。这是最简单的一种分箱方法。# J* q, e6 N: H+ P5 ^+ f& U
    8 o+ ^1 R3 ^/ ^! E( |& m% d
    统一区间,也称等宽分箱法,使数据集在整个属性值的区间上平均分布,即每个箱的区间范围是一个常量,称为箱子宽度。
    / G" _4 p' N1 d$ E5 U7 d) j' @$ i+ K3 Z7 O
    用户自定义区间,用户可以根据需要自定义区间,当用户明确希望观察某些区间范围内的数据分布时,使用这种方法可以方便地帮助用户达到目的。- f! M& X/ B% e5 y5 ~; l
    # \$ u, i& M& Q( B& a! l4 W7 W
    例:客户收入属性income排序后的值(人民币元):800 1000 1200 1500  1500 1800 2000 2300 2500 2800 3000 3500 4000 4500 4800 5000,分箱的结果如下。
    9 y7 H3 V1 ]8 h/ j7 u
    3 j7 f5 E& H# m6 W; [统一权重:设定权重(箱子深度)为4,分箱后3 E1 p! h2 _4 w9 z: ?- V/ i9 g* l, @% f

    , J# x5 J9 X& x箱1:800 1000 1200 1500
      L: c3 A7 a8 Q9 x, Q* J) P' J- H9 Q+ e( f4 ~' w4 G
    箱2:1500 1800 2000 2300
    6 w# ?% B6 s/ m6 A& ?- @
    6 [4 [6 i: Y' m" t* {' J+ ~+ O1 ^5 Y箱3:2500 2800 3000 3500, n& i0 Q. C  {
    7 ^0 A$ A5 m) d7 L# Z* d
    箱4:4000 4500 4800 5000   " J  q) w) O2 ]
      i$ X, D6 a0 d$ ^3 y5 @
    统一区间:设定区间范围(箱子宽度)为1000元人民币,分箱后, F' u* z1 G+ p2 N* A2 ~( r( ?( m3 @

    5 U  m( o! n! w箱1:800 1000 1200 1500 1500 1800
    % Q$ z8 b  g' _- ^1 z/ o+ B) W# l8 n; y# q4 c
    箱2:2000 2300 2500 2800 30008 g+ H$ F. y* N
    * c/ E; y  a0 j
    箱3:3500 4000 4500# @- P- F! _  `+ _7 [

    , B! S# ~0 x  |$ I9 {箱4:4800 5000
    - p! S# R5 |. V! [2 R" \, k% G4 y8 J& n0 D7 |% T! }
    用户自定义:如将客户收入划分为1000元以下、1000~2000、2000~3000、3000~4000和4000元以上几组,分箱后
    6 y# x( Z3 S6 R
    4 D. j7 c' O2 w; d( t$ U4 T8 E箱1:800 , g3 j/ U% R( A& [- `- X
    $ a9 O2 `9 |/ F
    箱2:1000 1200 1500 1500 1800 2000
    + Q: A* ?2 g: q) ~3 ?! p3 z
    1 D0 r$ B7 ~  \# t. Z8 v9 U7 \% q5 M; ?! w箱3:2300 2500 2800 3000  
    2 v5 U/ N+ h6 _: C2 T8 j5 W4 y- Z" Z8 l9 X: O
    箱4:3500 4000
    - r2 _) M2 C' f( t* _) J; K" x* Q6 e% J/ }% I5 j
    箱5:4500 4800 5000 + B( M8 k% r" u- Q( Q$ G

    6 K- K& y3 ^4 H: E1 v7.数据平滑方法:按平均值平滑、按边界值平滑和按中值平滑。& p& k7 q7 ~4 i9 G8 l0 S( D

    ; _  {% p! R1 K⑴按平均值平滑
    0 I' @9 s5 z8 d4 w4 s
    + O! ]1 \( X6 R* r+ p' U& g9 J6 Z对同一箱值中的数据求平均值,用平均值替代该箱子中的所有数据。
    3 i" W$ q/ `: _# M, D% U4 s
    - U# ?- W* \! j⑵按边界值平滑
    # l7 [' M3 I! G" |
    + P9 g# }; J/ C& V/ W用距离较小的边界值替代箱中每一数据。   u/ K) o3 @! s* P  p, X3 I, I
    9 l( B4 H8 c' x5 c
    ⑶按中值平滑 - p7 N! v% l& J& L% [

    ! O4 M# [) e5 ], O6 E2 \  d取箱子的中值,用来替代箱子中的所有数据。
    6 L/ F. [' `& m7 [+ o1 H( A
    , R6 `' L; l1 b; y( e8.聚类:将物理的或抽象对象的集合分组为由类似的对象组成的多个类。# y- O! A; H6 S: K
    - Q7 |' I5 V' N" ^" F* V
    找出并清除那些落在簇之外的值(孤立点),这些孤立点被视为噪声。& N9 m% @( k% ?/ ?# z7 d0 r% g
    - W1 @) Q) @" k6 N0 H& y- t# Z- @
    9.回归;试图发现两个相关的变量之间的变化模式,通过使数据适合一个函数来平滑数据,即通过建立数学模型来预测下一个数值,包括线性回归和非线性回归。   * x3 `2 p8 |3 C4 b/ Z0 ?) m
    4 n% R" p, q7 V
    10.数据集成:将多文件或者多数据库中的异构数据进行合并,然后存放在一个一致的数据存储中。考虑以下几个问题: 1.模式匹配2.数据冗余3.数据值冲突
    # g& u! K' J: t5 f# [' S6 ~- D; }( F+ h) U$ }) r
    11. 数据变换:1.平滑2.聚集3.数据概化4.规范化(1)最小-最大规范化(2)零-均值规范化(3)小数定标规范化5.属性构造3 c" B! j3 {8 p2 g3 }# P1 }
    # B' H: s' j3 F* c- {6 M
    12.数据集成:将多文件或者多数据库中的异构数据进行合并,然后存放在一个一致的数据存储中。考虑以下几个问题: 1.模式匹配2.数据冗余3.数据值冲突 & f1 x1 ^, c# u# B

    7 E! V/ `7 u8 R# U13.数据归约:目的是为了获得比原始数据小的多的,但不破坏数据完整性的挖掘数据集,该数据集可以得到与原始数据相同的挖掘结果。
    # m$ ^8 u0 z+ A' U8 P
    3 c6 |% G/ Q7 L1 X: Z5 X数据归约的方法: 1.数据立方体聚集:把聚集的方法用于数据立方体。2.维归约:检测并删除不相关、弱相关或冗余属性。3.数据压缩:选择正确的编码压缩数据集。4.数值压缩:用较小的数据表示数据,或采用较短的数据单位,或者用数据模型代表数据。5.离散化和概念分层生成:使连续的数据离散化,用确定的有限个区段值代替原始值;概念分层是指用较高层次的概念替换低层次的概念,以此来减少取值个数。
    4 k6 u( P; X! }" b1 A4 Z$ Y. J& M) X: u8 v% n7 t4 N* o1 L
    14.数据立方体聚集 :是数据的多维建模和表示,由维和事实组成。 # S2 V! I/ y7 s: M
    ( R- {+ i3 R; ^4 F4 a9 V3 ~& v. z
    维归约:去掉不相关的属性,减少数据挖掘处理的数据量。 * {* i8 v. t+ ]8 y9 M

    & V  M7 p% U) U1 W2 S; H( Y属性子集选择的基本方法包括以下几种: 1.逐步向前选择2.逐步向后删除3.向前选择和向后删除结合4.判定树归纳5.基于统计分析的归约   
    ( Q0 l6 z( d+ ]+ \4 |
    , i1 i# ~5 n; y/ D- N4 L5 T% t! W6 P! n数据压缩:方法分为两类:无损压缩和有损压缩2 J5 S- S- U( x$ G2 ?# b1 w
    ' e; R; g6 {( ~; o( M# [
    数值归约常用的方法: 1.直方图2.聚类3.抽样:不放回简单随机抽样、放回简单随机抽样、聚类抽样和分层抽样4.线性回归5.非线性回归     ' _% S. n" q7 Q6 X, ^" O( z( @; S( {6 u

    $ a* \& T/ {5 G3 }- S. \15.数据变换涉及以下几个方面:1.平滑2.聚集3.数据概化4.规范化(1)最小-最大规范化(2)零-均值规范化(3)小数定标规范化5.属性构造) W2 Z3 Z2 u0 i( a
    ! R! Q9 {6 V! S' k& Y
    *规范化:(1)最小—最大规范化。原取值区间 [old_min,old_max],规范化后的新的取值区间[new_min,new_max]。0 @: J; k: u" M6 j+ c

    7 ^4 y  ^/ L0 S/ nx’=  其中:x是属性的真实值,x’是规范化后的值。
    7 u9 g5 S( n/ \% p
    5 R. H, G4 Q$ o1 u# z例如:“客户背景数据”表中的客户月收入income属性的实际值范围为[12000,98000],要把这个属性值规范到[0,1],对属性值73600应用上述公式:
    $ C3 D+ y3 k7 q& X/ E
    # B; g/ h' s9 z6 H. i+ ?x’=(1.0-0)+0=0.716
    7 m" G% E4 y8 N5 G0 ]) H9 I% ]) G4 Z) R# Z
    根据精度要求保留小数(假设精度要求0.01),最终取值0.72就是属性值73600规范化后的值。7 ]6 e, x& Z. S$ _  P9 ?
    $ L$ U5 m8 k# J! G6 L
    (2)零—均值规范化(z—score规范化),是根据属性值的平均值和标准差进行规范化,即:
    + \. P$ I/ R" j7 P' v  T8 m, l& m# c" N* q$ r7 O
    x’=   =  =    为所有样本属性值的平均值,为样本的标准差。当属性值范围未知的时候,可以使用此方法进行规范化。
    ; w4 t9 G% y+ _) }
    1 w. e. F! Q  g; A0 t+ B$ A8 D    例:假设某属性的平均值和标准差分别为80、25,采用零-均值规范化66为:x’==-0.56
    $ ^6 h+ B( Q9 a& ^) d5 R6 ^' k( L" s/ \; M9 o% v% l( ]- W
    (3)小数定标规范化:通过移动属性A的小数点位置进行规范化 。. i! B) i  o( A  ~" h

    ' u* g% S+ B9 q( ?/ x& L7 y# Qx’= 为满足式<1的最小整数。
    6 G" |5 s$ M+ X( v3 X: V
    4 ]/ [4 a8 _' M5 C3 q例:假设某属性规范化前的取值范围为[-120,110],采用小数定标规范化66。由于该属性的最大绝对值为120,则由<1可得出=3,因此,66规范化后为:x’==0.0662 l0 o+ b* T" e# e  \
    ————————————————
    / G' d/ k2 B- q5 i版权声明:本文为CSDN博主「搬砖老头」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。# I0 t3 _# N3 R3 u' b3 F- h5 S& Q
    原文链接:https://blog.csdn.net/wang1127248268/article/details/535719568 k- k# g7 t+ e$ ?: A; g

    , S& \9 d# [, ?' o6 o0 s8 \& y' O6 p+ |- V; A2 X" h
    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏2 支持支持0 反对反对0 微信微信

    1

    主题

    3

    听众

    169

    积分

    升级  34.5%

  • TA的每日心情
    擦汗
    2023-9-25 13:50
  • 签到天数: 67 天

    [LV.6]常住居民II

    国际赛参赛者

    网络挑战赛参赛者

    自我介绍
    热爱数学建模
    回复

    使用道具 举报

    德古拉        

    2

    主题

    4

    听众

    165

    积分

    升级  32.5%

  • TA的每日心情
    奋斗
    2025-12-3 23:13
  • 签到天数: 127 天

    [LV.7]常住居民III

    国际赛参赛者

    自我介绍
    嘶嘶。。。
    回复

    使用道具 举报

    浅夏110 实名认证       

    542

    主题

    15

    听众

    1万

    积分

  • TA的每日心情
    开心
    2020-11-14 17:15
  • 签到天数: 74 天

    [LV.6]常住居民II

    邮箱绑定达人

    群组2019美赛冲刺课程

    群组站长地区赛培训

    群组2019考研数学 桃子老师

    群组2018教师培训(呼伦贝

    群组2019考研数学 站长系列

    huangyanzuo 发表于 2020-5-19 12:06
    $ v! u# v' y- J" c* P5 E0 h3 H棒!棒!棒!棒!棒!棒!棒!棒!

    9 E, W1 J3 Y9 g; W1 Z
    9 L/ g! K$ ]3 M
    回复

    使用道具 举报

    浅夏110 实名认证       

    542

    主题

    15

    听众

    1万

    积分

  • TA的每日心情
    开心
    2020-11-14 17:15
  • 签到天数: 74 天

    [LV.6]常住居民II

    邮箱绑定达人

    群组2019美赛冲刺课程

    群组站长地区赛培训

    群组2019考研数学 桃子老师

    群组2018教师培训(呼伦贝

    群组2019考研数学 站长系列

    回复

    使用道具 举报

    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2026-4-20 19:31 , Processed in 0.683407 second(s), 73 queries .

    回顶部