QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 2586|回复: 4
打印 上一主题 下一主题

数据挖掘中的数据预处理方法总结

[复制链接]
字体大小: 正常 放大
浅夏110 实名认证       

542

主题

15

听众

1万

积分

  • TA的每日心情
    开心
    2020-11-14 17:15
  • 签到天数: 74 天

    [LV.6]常住居民II

    邮箱绑定达人

    群组2019美赛冲刺课程

    群组站长地区赛培训

    群组2019考研数学 桃子老师

    群组2018教师培训(呼伦贝

    群组2019考研数学 站长系列

    跳转到指定楼层
    1#
    发表于 2020-5-19 09:40 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta |邮箱已经成功绑定
    1.原始数据存在的几个问题:不一致;重复;含噪声;维度高。; {* N2 Y+ B4 \8 [

    1 R: T% D% t4 v) M  ~6 G2.数据预处理包含数据清洗、数据集成、数据变换和数据归约几种方法。
    ( @4 R, d3 D9 ?/ i) ^4 \6 z: `) h% G* x9 T  v& X
    3.数据挖掘中使用的数据的原则
    ) r$ G1 o' o$ K4 `3 \
    : c7 _. m- |; z& C+ \应该是从原始数据中选取合适的属性作为数据挖掘属性,这个选取过程应参考的原则是:尽可能赋予属性名和属性值明确的含义;统一多数据源的属性值编码;去除惟一属性;去除重复性;去除可忽略字段;合理选择关联字段。  R6 _+ P) N" R5 N* f1 Y4 o1 ]3 d3 F

    & x+ _8 j5 ]% v/ L2 V4.处理空缺值的方法:忽略该记录;去掉属性;手工填写空缺值;使用默认值;使用属性平均值;使用同类样本平均值;预测最可能的值。
      P2 }: r3 G) G: o; i2 \9 e! o; b/ q8 B; m5 M
    5.噪声数据的处理方法:分箱;聚类;计算机和人工检查结合;回归
    . J* n: }; j; {4 }  t( ~7 W3 \' ~1 ?3 [  g
    6.分箱:分箱方法是一种简单常用的预处理方法,通过考察相邻数据来确定最终值。所谓“分箱”,实际上就是按照属性值划分的子区间,如果一个属性值处于某个子区间范围内,就称把该属性值放进这个子区间所代表的“箱子”内。把待处理的数据(某列属性值)按照一定的规则放进一些箱子中,考察每一个箱子中的数据,采用某种方法分别对各个箱子中的数据进行处理。在采用分箱技术时,需要确定的两个主要问题就是:如何分箱以及如何对每个箱子中的数据进行平滑处理。
    % F7 d3 J2 S, H; r9 t* Q0 v0 Y6 R/ [; R% }. h6 P- ~9 \6 l
    分箱的方法:有4种:等深分箱法、等宽分箱法、最小熵法和用户自定义区间法。& }# O2 ?7 B5 R7 L! Q. G( k5 A1 W0 x

    ; T& x. l  z! o; H7 e, d& ?0 l统一权重,也成等深分箱法,将数据集按记录行数分箱,每箱具有相同的记录数,每箱记录数称为箱子的深度。这是最简单的一种分箱方法。
    ' d2 F" c+ d% S) _7 a: y4 T
    ! q5 u! B* H/ l8 n2 ]统一区间,也称等宽分箱法,使数据集在整个属性值的区间上平均分布,即每个箱的区间范围是一个常量,称为箱子宽度。
    2 w1 m* N4 R3 t6 M' y1 V  X% M. d& A+ T8 m
    用户自定义区间,用户可以根据需要自定义区间,当用户明确希望观察某些区间范围内的数据分布时,使用这种方法可以方便地帮助用户达到目的。' w9 G$ ?5 n! P6 B2 v) m
    " T- c2 L% u* S% j& n) i& L
    例:客户收入属性income排序后的值(人民币元):800 1000 1200 1500  1500 1800 2000 2300 2500 2800 3000 3500 4000 4500 4800 5000,分箱的结果如下。+ ?# n! W+ B6 [8 W
    ' X! o" C& y  R0 N2 C: A# N
    统一权重:设定权重(箱子深度)为4,分箱后
      Q% i4 _0 G: T: Y: ~2 V9 `$ x8 E
    9 X/ B$ D; E* q, m" \箱1:800 1000 1200 1500& w: [; H# Y% X& L, S$ s$ A& |

    , t3 h+ m0 K4 v0 Q$ ]( b! W箱2:1500 1800 2000 2300 " r8 H! k+ t7 L, ]1 h- W  J
    ! b: ^8 \  D, K$ z
    箱3:2500 2800 3000 35004 z# Q5 w5 g$ k$ b1 ~+ Y# d1 l
    & y6 j! z3 Y9 \4 i  W
    箱4:4000 4500 4800 5000   , R$ n0 J+ V3 u3 R6 j

    2 B0 ^6 s  W" S$ [/ P5 J5 Y统一区间:设定区间范围(箱子宽度)为1000元人民币,分箱后3 o+ h( x4 l, q, m4 R# [0 h
    / T7 C+ ?; b% l% |
    箱1:800 1000 1200 1500 1500 1800& L* C  |5 ~! p
    5 V! j) {9 g& B+ k
    箱2:2000 2300 2500 2800 3000# O6 d( P# J+ b& n6 P) l
    1 e) C5 `8 A# C$ v" U+ p$ a. Q
    箱3:3500 4000 4500
    * A1 s2 N6 z% i" M* C4 V6 {/ U2 N; Z
    箱4:4800 5000
    6 N3 V4 I5 Q2 m) D1 Z4 u: ^! w4 i; ~1 c/ v% m+ v+ T6 q
    用户自定义:如将客户收入划分为1000元以下、1000~2000、2000~3000、3000~4000和4000元以上几组,分箱后
    : `! c$ W5 Z$ Z1 G* B
    * ~0 O/ W5 q( P5 N4 ?! k箱1:800
    $ c5 p% F2 D4 _$ x* X# i4 [+ o
    0 h; ^% u# j6 Q! a. b箱2:1000 1200 1500 1500 1800 2000
    / ]: L& N# r' \7 e  ^. \! N# S: w$ c0 K! z
    箱3:2300 2500 2800 3000  
    2 j% @3 Q5 w& F! Y6 P1 I
    & |( v: |6 M1 a, K" |* _; D" y' _+ q& L箱4:3500 4000
    . s9 x5 M; M! I" w; l4 G' \. x; h3 i$ \: V' _8 o
    箱5:4500 4800 5000
    ( ^9 B6 o4 j# x8 k* M' X& w$ U( [7 ?. V
    7.数据平滑方法:按平均值平滑、按边界值平滑和按中值平滑。
    9 p7 n- ^! X! R; B" i; u& i' m
    2 J0 D$ e7 v) ?8 \⑴按平均值平滑
    # E! n3 Q" U  i' O* s# n; w4 \( D3 E& h% y7 O: Y/ E& ?
    对同一箱值中的数据求平均值,用平均值替代该箱子中的所有数据。
    2 O3 N0 `# C1 c0 u* O2 K
    $ ~4 H/ g' `2 T1 w* V⑵按边界值平滑
    ) L3 z9 `4 I9 p3 P, g- K1 `
    # `: e: p& l: f# y; G7 ?1 n9 r用距离较小的边界值替代箱中每一数据。 ) e* @: j, q0 x- n" ], h
    * m1 r  D  d- B0 z: W; b
    ⑶按中值平滑 ; |9 V4 v: ~3 r9 w( U4 R) g4 c5 E
    6 A2 E" C& X% Y1 d1 c
    取箱子的中值,用来替代箱子中的所有数据。
    , `% V- l6 c; u& I$ f' y3 e, |
    7 q8 Y( _8 ^& O8.聚类:将物理的或抽象对象的集合分组为由类似的对象组成的多个类。
    / J% U6 V7 c- a# j9 M0 Q
    4 M" a) @1 q, a0 g& m& @9 M8 ?3 v6 z找出并清除那些落在簇之外的值(孤立点),这些孤立点被视为噪声。- g; u1 d! A1 v3 e" P, \  y

    3 ?% ^1 F  f  L# G! L9.回归;试图发现两个相关的变量之间的变化模式,通过使数据适合一个函数来平滑数据,即通过建立数学模型来预测下一个数值,包括线性回归和非线性回归。   / d  `- |: s; c

    ( X2 ^" u& c5 k10.数据集成:将多文件或者多数据库中的异构数据进行合并,然后存放在一个一致的数据存储中。考虑以下几个问题: 1.模式匹配2.数据冗余3.数据值冲突 & i  _8 H2 }- v' o3 e
    - J# v/ T4 y, K" L
    11. 数据变换:1.平滑2.聚集3.数据概化4.规范化(1)最小-最大规范化(2)零-均值规范化(3)小数定标规范化5.属性构造
    1 t4 W2 Z( a' \, d* _  ?; n. I' w' C; F) F; y5 W) Q( p9 ~
    12.数据集成:将多文件或者多数据库中的异构数据进行合并,然后存放在一个一致的数据存储中。考虑以下几个问题: 1.模式匹配2.数据冗余3.数据值冲突 ! F9 X2 K( M& L8 [! J6 G) z

    . w3 W' v: ?% @3 N2 a9 D13.数据归约:目的是为了获得比原始数据小的多的,但不破坏数据完整性的挖掘数据集,该数据集可以得到与原始数据相同的挖掘结果。
    ' s9 m& _* S( x( G2 \6 \) g1 m* x% ?0 ?' j, l3 N) S
    数据归约的方法: 1.数据立方体聚集:把聚集的方法用于数据立方体。2.维归约:检测并删除不相关、弱相关或冗余属性。3.数据压缩:选择正确的编码压缩数据集。4.数值压缩:用较小的数据表示数据,或采用较短的数据单位,或者用数据模型代表数据。5.离散化和概念分层生成:使连续的数据离散化,用确定的有限个区段值代替原始值;概念分层是指用较高层次的概念替换低层次的概念,以此来减少取值个数。2 u- ^- H5 W9 ]9 `8 G9 Z
    0 |3 D! r0 S4 U- q( h
    14.数据立方体聚集 :是数据的多维建模和表示,由维和事实组成。 , |5 s' V( w) c5 k7 b

    ( a! \* a1 Q6 A0 T1 h( \维归约:去掉不相关的属性,减少数据挖掘处理的数据量。
    " e. H) f, K; b0 z0 y! _" q: a" K+ V/ O
    属性子集选择的基本方法包括以下几种: 1.逐步向前选择2.逐步向后删除3.向前选择和向后删除结合4.判定树归纳5.基于统计分析的归约   
    $ B9 _" B+ ^$ T2 K) A* R1 g% }
      C. D9 [6 v2 T7 |, S9 l数据压缩:方法分为两类:无损压缩和有损压缩
    * h# f- ~# B2 i, x, h# ^5 p3 a, p' }0 U/ [- `7 t4 S8 b
    数值归约常用的方法: 1.直方图2.聚类3.抽样:不放回简单随机抽样、放回简单随机抽样、聚类抽样和分层抽样4.线性回归5.非线性回归     
    % x: Z  u! c/ I- l" K
    ' T# o) p# F. l) j& Q4 u15.数据变换涉及以下几个方面:1.平滑2.聚集3.数据概化4.规范化(1)最小-最大规范化(2)零-均值规范化(3)小数定标规范化5.属性构造2 N2 _. N- T$ B0 }  E: V
    7 T. ?2 K0 X( w; e+ S
    *规范化:(1)最小—最大规范化。原取值区间 [old_min,old_max],规范化后的新的取值区间[new_min,new_max]。  v8 |  ~, b9 c9 ]2 S5 e+ p

    ( R1 A# O8 z, V1 ?$ wx’=  其中:x是属性的真实值,x’是规范化后的值。
    , j& W- M. z5 a, e; K: [4 J, j5 b! \* y" m+ b5 r0 e! a7 C  C6 n% A) q
    例如:“客户背景数据”表中的客户月收入income属性的实际值范围为[12000,98000],要把这个属性值规范到[0,1],对属性值73600应用上述公式:
    0 {, ^5 A. `4 x( f; D& E2 v1 h( N. d$ S8 c' \
    x’=(1.0-0)+0=0.716
    0 o3 Z) E- U3 n+ b: Y( j. y$ G0 f
    . Z3 m9 `, S( `  p. T, Y; D- O根据精度要求保留小数(假设精度要求0.01),最终取值0.72就是属性值73600规范化后的值。
    - N% X+ J; g5 a- u0 a4 M. |  y2 E+ o1 ~$ e
    (2)零—均值规范化(z—score规范化),是根据属性值的平均值和标准差进行规范化,即:
    ; `( p9 p% T- N2 ?( O& K8 z8 u% |- I; ]' p4 k
    x’=   =  =    为所有样本属性值的平均值,为样本的标准差。当属性值范围未知的时候,可以使用此方法进行规范化。
    1 K+ M! k( F0 u  B
    8 r+ q# W( ?5 H+ s* S3 O& N    例:假设某属性的平均值和标准差分别为80、25,采用零-均值规范化66为:x’==-0.56
    * A3 }  a8 U; e6 |. h2 v. i4 q; H6 I' {# q
    (3)小数定标规范化:通过移动属性A的小数点位置进行规范化 。
    8 P+ j) z5 p4 R9 H0 T; S
    ; M2 {' X- \8 w2 A2 l1 E3 fx’= 为满足式<1的最小整数。  N) A9 H0 G/ f9 `4 a  P

    ' d' R( \8 y& u& U7 K' y; ]例:假设某属性规范化前的取值范围为[-120,110],采用小数定标规范化66。由于该属性的最大绝对值为120,则由<1可得出=3,因此,66规范化后为:x’==0.066
    1 U( `" z, ?) A' a' p! \————————————————
    7 c8 H8 `  d# x& Y) I; o2 w版权声明:本文为CSDN博主「搬砖老头」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
    9 }' n( B/ i  u4 n原文链接:https://blog.csdn.net/wang1127248268/article/details/53571956: g. b; a6 y/ R$ r( V* ~# l# W
    8 l; y5 d- o5 S: o8 s, X) H

    * `2 m$ O: \3 f; U* W
    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏2 支持支持0 反对反对0 微信微信

    1

    主题

    3

    听众

    169

    积分

    升级  34.5%

  • TA的每日心情
    擦汗
    2023-9-25 13:50
  • 签到天数: 67 天

    [LV.6]常住居民II

    国际赛参赛者

    网络挑战赛参赛者

    自我介绍
    热爱数学建模
    回复

    使用道具 举报

    德古拉        

    2

    主题

    4

    听众

    165

    积分

    升级  32.5%

  • TA的每日心情
    奋斗
    2025-12-3 23:13
  • 签到天数: 127 天

    [LV.7]常住居民III

    国际赛参赛者

    自我介绍
    嘶嘶。。。
    回复

    使用道具 举报

    浅夏110 实名认证       

    542

    主题

    15

    听众

    1万

    积分

  • TA的每日心情
    开心
    2020-11-14 17:15
  • 签到天数: 74 天

    [LV.6]常住居民II

    邮箱绑定达人

    群组2019美赛冲刺课程

    群组站长地区赛培训

    群组2019考研数学 桃子老师

    群组2018教师培训(呼伦贝

    群组2019考研数学 站长系列

    huangyanzuo 发表于 2020-5-19 12:06 . c, L6 o; T* o8 U
    棒!棒!棒!棒!棒!棒!棒!棒!
    : C# |* k7 X) `4 ~6 r
    ' g0 V! s) w$ g0 L, z
    回复

    使用道具 举报

    浅夏110 实名认证       

    542

    主题

    15

    听众

    1万

    积分

  • TA的每日心情
    开心
    2020-11-14 17:15
  • 签到天数: 74 天

    [LV.6]常住居民II

    邮箱绑定达人

    群组2019美赛冲刺课程

    群组站长地区赛培训

    群组2019考研数学 桃子老师

    群组2018教师培训(呼伦贝

    群组2019考研数学 站长系列

    回复

    使用道具 举报

    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2026-5-2 17:22 , Processed in 0.695020 second(s), 72 queries .

    回顶部