QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 2608|回复: 4
打印 上一主题 下一主题

数据挖掘中的数据预处理方法总结

[复制链接]
字体大小: 正常 放大
浅夏110 实名认证       

542

主题

15

听众

1万

积分

  • TA的每日心情
    开心
    2020-11-14 17:15
  • 签到天数: 74 天

    [LV.6]常住居民II

    邮箱绑定达人

    群组2019美赛冲刺课程

    群组站长地区赛培训

    群组2019考研数学 桃子老师

    群组2018教师培训(呼伦贝

    群组2019考研数学 站长系列

    跳转到指定楼层
    1#
    发表于 2020-5-19 09:40 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta |邮箱已经成功绑定
    1.原始数据存在的几个问题:不一致;重复;含噪声;维度高。
    5 k$ i4 M0 f) c# G# i6 F+ z" E) }& J! }. U  j% v
    2.数据预处理包含数据清洗、数据集成、数据变换和数据归约几种方法。" e4 r8 @& O* x# w0 t; o# m* n
    $ C+ y4 u  z% c8 X. V  d; f
    3.数据挖掘中使用的数据的原则
    5 x+ N' g: ~; z- N8 y, R9 U; k8 b2 v3 U3 F& w+ t, \" T3 g
    应该是从原始数据中选取合适的属性作为数据挖掘属性,这个选取过程应参考的原则是:尽可能赋予属性名和属性值明确的含义;统一多数据源的属性值编码;去除惟一属性;去除重复性;去除可忽略字段;合理选择关联字段。
    ! f: j1 U# x# m. M) {, O! w, U% p7 K. z0 _( [8 p. r/ W
    4.处理空缺值的方法:忽略该记录;去掉属性;手工填写空缺值;使用默认值;使用属性平均值;使用同类样本平均值;预测最可能的值。2 f' P3 f! @. D6 s3 w7 C7 `
    ( `. Y5 V5 v" b% q
    5.噪声数据的处理方法:分箱;聚类;计算机和人工检查结合;回归( h' `7 Z  Y7 M. r0 x" p+ A" }% h
    5 L4 E- A& p* ~" M
    6.分箱:分箱方法是一种简单常用的预处理方法,通过考察相邻数据来确定最终值。所谓“分箱”,实际上就是按照属性值划分的子区间,如果一个属性值处于某个子区间范围内,就称把该属性值放进这个子区间所代表的“箱子”内。把待处理的数据(某列属性值)按照一定的规则放进一些箱子中,考察每一个箱子中的数据,采用某种方法分别对各个箱子中的数据进行处理。在采用分箱技术时,需要确定的两个主要问题就是:如何分箱以及如何对每个箱子中的数据进行平滑处理。0 `; |/ e" z0 U
    ' j! e7 a% P" w
    分箱的方法:有4种:等深分箱法、等宽分箱法、最小熵法和用户自定义区间法。* Z- O. d9 r  L/ a% i& \

    : C2 Z, P# P+ n& z/ G统一权重,也成等深分箱法,将数据集按记录行数分箱,每箱具有相同的记录数,每箱记录数称为箱子的深度。这是最简单的一种分箱方法。
      Y+ F5 V) n3 A$ |
    $ L% O2 d1 N2 ?4 U- }2 N统一区间,也称等宽分箱法,使数据集在整个属性值的区间上平均分布,即每个箱的区间范围是一个常量,称为箱子宽度。
    0 E2 T5 E" N$ v5 f1 n' A& b! f
    ) h7 M3 ]" S7 @1 M0 `5 x/ d用户自定义区间,用户可以根据需要自定义区间,当用户明确希望观察某些区间范围内的数据分布时,使用这种方法可以方便地帮助用户达到目的。" ]! b, U( S. E! |
    9 J! z1 c" S$ u
    例:客户收入属性income排序后的值(人民币元):800 1000 1200 1500  1500 1800 2000 2300 2500 2800 3000 3500 4000 4500 4800 5000,分箱的结果如下。
    ! J' x. o/ x) P8 m- a( a4 a/ L" y3 `# L
    统一权重:设定权重(箱子深度)为4,分箱后
    : P/ I7 X7 J1 @2 N( I: {& _9 o; _/ F
    箱1:800 1000 1200 1500& l& K8 ?/ H! a7 ?& m- p
    - s4 K( W5 I4 v5 E9 Y" r
    箱2:1500 1800 2000 2300
    ) ], S8 ^, R5 ]% l+ `. N8 F. ], e& Q! @
    箱3:2500 2800 3000 3500
    * r- u( g, ~* f$ x( n1 j7 C6 {% @+ {2 w" M
    箱4:4000 4500 4800 5000   
    $ C$ u0 I5 c7 v& z2 j/ B  ~+ w! S; m. R# r3 Q
    统一区间:设定区间范围(箱子宽度)为1000元人民币,分箱后
    3 V8 Y- d# [+ Q+ Z5 b% u
    ! I6 ?; Z- U' t% a* E箱1:800 1000 1200 1500 1500 18006 R' k+ x& U2 k0 ^- n7 ~. A
    0 q, \) A) G% [& A, F: f
    箱2:2000 2300 2500 2800 30006 Z' m+ Q+ t1 O; s1 h9 }5 i
    % G% X! a) c& S5 ^8 Z; X" q
    箱3:3500 4000 45002 x: m% e9 N: ]1 O1 W

    3 v( {! ]1 Z* O1 \4 k  |4 Z3 r; v& x箱4:4800 5000 * i" o0 e. C, M3 i4 R9 z. r
    6 u+ I" t. R; W3 P
    用户自定义:如将客户收入划分为1000元以下、1000~2000、2000~3000、3000~4000和4000元以上几组,分箱后; G/ w/ [  o- r% W; y& c) B

    + }2 c. u+ L  N1 ]# A; c箱1:800 ' |" K% k0 N2 q9 X( r
    6 |1 s5 z: ^+ _3 Q1 S
    箱2:1000 1200 1500 1500 1800 2000
    , P. ^) {5 g8 k2 H" c3 w* Y- `
    2 E% Q, ^& C, K* X8 L; V( [箱3:2300 2500 2800 3000  
    # l1 y5 m8 R! |8 H- Q$ U5 [! V( K& N, n5 T# K2 f
    箱4:3500 4000 ' s' O- f4 ?8 w9 w7 v* x) N, d9 b

    ; V5 v% F; C. _( Q  \箱5:4500 4800 5000 6 M5 L  d+ `! l$ U/ W
    ; x' C5 |' |# B
    7.数据平滑方法:按平均值平滑、按边界值平滑和按中值平滑。2 s, ~5 F# t  a, s

    / ]9 i) @4 p8 W) U* U+ E⑴按平均值平滑 $ L" V. n9 R) G( i
    & p7 S  W$ _1 q4 t* n2 Y
    对同一箱值中的数据求平均值,用平均值替代该箱子中的所有数据。 3 `" @/ }5 V& \; L1 s6 v* C

    5 K( [1 S9 H' `6 h. Z7 v. |0 V⑵按边界值平滑
    $ i, m: M+ s& ^5 j+ n
    , \% n& u% k& V8 Q! }用距离较小的边界值替代箱中每一数据。
    3 @, `5 n3 e3 l: E# u
    " P2 e, n- r( C, t* D9 ?% z⑶按中值平滑
    4 Z$ P4 N5 F4 \  V
    6 {# X. Y" @- c+ \取箱子的中值,用来替代箱子中的所有数据。
    ; ^2 |! R' o, s& F/ g6 P0 O+ y. _' y8 J4 o; U
    8.聚类:将物理的或抽象对象的集合分组为由类似的对象组成的多个类。
    + J* A- }( o/ o/ o' w  p2 {. p/ G' p2 b+ I* L
    找出并清除那些落在簇之外的值(孤立点),这些孤立点被视为噪声。
    9 M* @+ U- E1 Y! d1 [
    ) }% B  L) T4 m5 y9.回归;试图发现两个相关的变量之间的变化模式,通过使数据适合一个函数来平滑数据,即通过建立数学模型来预测下一个数值,包括线性回归和非线性回归。   
    + n5 m8 r0 p5 A# }
    2 _% l7 ?1 a% w5 h10.数据集成:将多文件或者多数据库中的异构数据进行合并,然后存放在一个一致的数据存储中。考虑以下几个问题: 1.模式匹配2.数据冗余3.数据值冲突
    0 l' Y* j# U& P- k% F0 W, g
    0 h/ y5 }) K3 X+ l2 s" x$ r11. 数据变换:1.平滑2.聚集3.数据概化4.规范化(1)最小-最大规范化(2)零-均值规范化(3)小数定标规范化5.属性构造
    ' y0 e; n. W! R% a& e  t. s- J* y2 P$ j$ h* {: T8 I
    12.数据集成:将多文件或者多数据库中的异构数据进行合并,然后存放在一个一致的数据存储中。考虑以下几个问题: 1.模式匹配2.数据冗余3.数据值冲突
    0 L4 h3 M% L4 }& d  u/ S' f: m
    3 _6 K. [: i( Y$ a13.数据归约:目的是为了获得比原始数据小的多的,但不破坏数据完整性的挖掘数据集,该数据集可以得到与原始数据相同的挖掘结果。 7 [% e: O6 a3 P( x$ F- J
    8 w4 w* Q6 J+ x) f" B9 E" c! a
    数据归约的方法: 1.数据立方体聚集:把聚集的方法用于数据立方体。2.维归约:检测并删除不相关、弱相关或冗余属性。3.数据压缩:选择正确的编码压缩数据集。4.数值压缩:用较小的数据表示数据,或采用较短的数据单位,或者用数据模型代表数据。5.离散化和概念分层生成:使连续的数据离散化,用确定的有限个区段值代替原始值;概念分层是指用较高层次的概念替换低层次的概念,以此来减少取值个数。
    ! _& T8 c$ @. s( N$ u* S
    6 ?3 ?) w" _  A* K14.数据立方体聚集 :是数据的多维建模和表示,由维和事实组成。 0 q1 d% }0 l; m2 p- Y
    ! s& R( _+ S" E$ }% K- a
    维归约:去掉不相关的属性,减少数据挖掘处理的数据量。
    ! C6 J! s4 T9 E% v* Z9 B; l. a! n# [3 V, _& {1 A
    属性子集选择的基本方法包括以下几种: 1.逐步向前选择2.逐步向后删除3.向前选择和向后删除结合4.判定树归纳5.基于统计分析的归约   0 ]+ @( m) ~! _# z: X# v
    7 e$ M4 ]1 C7 c, {2 b- Z
    数据压缩:方法分为两类:无损压缩和有损压缩
    7 m7 R- z  i  w$ ~% h  c
    3 f/ b7 T, n1 O* i9 n4 m数值归约常用的方法: 1.直方图2.聚类3.抽样:不放回简单随机抽样、放回简单随机抽样、聚类抽样和分层抽样4.线性回归5.非线性回归     
    8 Q9 f6 b$ K- W; O
    / z# F8 v8 \( o5 W! M15.数据变换涉及以下几个方面:1.平滑2.聚集3.数据概化4.规范化(1)最小-最大规范化(2)零-均值规范化(3)小数定标规范化5.属性构造
    ; |' I( V' p4 r+ x% r
    * e2 `& g6 n5 R! A# y  |) k- x*规范化:(1)最小—最大规范化。原取值区间 [old_min,old_max],规范化后的新的取值区间[new_min,new_max]。" c' s* X+ L, @( E

    ; k2 y, @# p& K: b4 b" B+ Fx’=  其中:x是属性的真实值,x’是规范化后的值。: n3 o. W1 ?0 H' z& {& Z' \
    & t& Z4 W+ z$ t/ J8 _
    例如:“客户背景数据”表中的客户月收入income属性的实际值范围为[12000,98000],要把这个属性值规范到[0,1],对属性值73600应用上述公式:" c0 N4 [  Z/ h$ H: m7 P, C6 S

    ; }' v9 [4 `- j5 s+ K$ ?# g$ Mx’=(1.0-0)+0=0.7160 Y, f, G7 V2 J8 ^

    $ Y3 f5 y1 g: I7 Y根据精度要求保留小数(假设精度要求0.01),最终取值0.72就是属性值73600规范化后的值。
    3 c, ?! @4 ?3 Y. g! @& Z1 i# D5 o5 \" N/ J" G8 I
    (2)零—均值规范化(z—score规范化),是根据属性值的平均值和标准差进行规范化,即:
    $ c" v2 ]" W6 _& F. k0 m6 f+ J2 g* D
    x’=   =  =    为所有样本属性值的平均值,为样本的标准差。当属性值范围未知的时候,可以使用此方法进行规范化。( z) b/ y3 c6 W% P9 ]. A5 M

    ! m2 w7 s6 W. g    例:假设某属性的平均值和标准差分别为80、25,采用零-均值规范化66为:x’==-0.56+ G* [3 a5 O- A7 `% B$ _5 O
    5 x/ w8 @, W" D0 ^
    (3)小数定标规范化:通过移动属性A的小数点位置进行规范化 。
    ; e8 p' N5 M/ Q. b( \+ H: x; N( X2 [. M% O5 _% N
    x’= 为满足式<1的最小整数。3 k$ }3 M9 O/ Z* p' `% H* S

    6 k* _  R# {" ]3 X例:假设某属性规范化前的取值范围为[-120,110],采用小数定标规范化66。由于该属性的最大绝对值为120,则由<1可得出=3,因此,66规范化后为:x’==0.066
    0 u1 a* W9 R0 Z+ X————————————————+ X' m4 N" ^0 N
    版权声明:本文为CSDN博主「搬砖老头」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。3 `8 a1 R- u" q* m- `/ k& M2 Y
    原文链接:https://blog.csdn.net/wang1127248268/article/details/535719567 q+ D0 D% D: C' y  q

    8 o8 L9 h$ {" a" }( f$ P# @
    + o0 {: |, T! |; S. I6 e; K5 b( }
    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏2 支持支持0 反对反对0 微信微信

    1

    主题

    3

    听众

    169

    积分

    升级  34.5%

  • TA的每日心情
    擦汗
    2023-9-25 13:50
  • 签到天数: 67 天

    [LV.6]常住居民II

    国际赛参赛者

    网络挑战赛参赛者

    自我介绍
    热爱数学建模
    回复

    使用道具 举报

    德古拉        

    2

    主题

    4

    听众

    165

    积分

    升级  32.5%

  • TA的每日心情
    奋斗
    2025-12-3 23:13
  • 签到天数: 127 天

    [LV.7]常住居民III

    国际赛参赛者

    自我介绍
    嘶嘶。。。
    回复

    使用道具 举报

    浅夏110 实名认证       

    542

    主题

    15

    听众

    1万

    积分

  • TA的每日心情
    开心
    2020-11-14 17:15
  • 签到天数: 74 天

    [LV.6]常住居民II

    邮箱绑定达人

    群组2019美赛冲刺课程

    群组站长地区赛培训

    群组2019考研数学 桃子老师

    群组2018教师培训(呼伦贝

    群组2019考研数学 站长系列

    huangyanzuo 发表于 2020-5-19 12:06
    7 Y* q3 w8 h' J2 Z/ ^% S6 ~) ~- `棒!棒!棒!棒!棒!棒!棒!棒!
    / S  ?0 o3 }* |
    0 c2 s) z' e% u# Q
    回复

    使用道具 举报

    浅夏110 实名认证       

    542

    主题

    15

    听众

    1万

    积分

  • TA的每日心情
    开心
    2020-11-14 17:15
  • 签到天数: 74 天

    [LV.6]常住居民II

    邮箱绑定达人

    群组2019美赛冲刺课程

    群组站长地区赛培训

    群组2019考研数学 桃子老师

    群组2018教师培训(呼伦贝

    群组2019考研数学 站长系列

    回复

    使用道具 举报

    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2026-6-10 02:02 , Processed in 0.400235 second(s), 72 queries .

    回顶部