QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 2607|回复: 4
打印 上一主题 下一主题

数据挖掘中的数据预处理方法总结

[复制链接]
字体大小: 正常 放大
浅夏110 实名认证       

542

主题

15

听众

1万

积分

  • TA的每日心情
    开心
    2020-11-14 17:15
  • 签到天数: 74 天

    [LV.6]常住居民II

    邮箱绑定达人

    群组2019美赛冲刺课程

    群组站长地区赛培训

    群组2019考研数学 桃子老师

    群组2018教师培训(呼伦贝

    群组2019考研数学 站长系列

    跳转到指定楼层
    1#
    发表于 2020-5-19 09:40 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta |邮箱已经成功绑定
    1.原始数据存在的几个问题:不一致;重复;含噪声;维度高。
    ( l: J: X% v5 V. x( i- E+ n2 X5 v9 ?) C; L$ `* ]0 g. M
    2.数据预处理包含数据清洗、数据集成、数据变换和数据归约几种方法。
    ! M" ?& q0 O6 c- T1 O( J" g- a, l% u, X
    3.数据挖掘中使用的数据的原则8 z7 g2 _5 O4 r) q9 U' r5 d3 V
    ( o. m+ w% o) w
    应该是从原始数据中选取合适的属性作为数据挖掘属性,这个选取过程应参考的原则是:尽可能赋予属性名和属性值明确的含义;统一多数据源的属性值编码;去除惟一属性;去除重复性;去除可忽略字段;合理选择关联字段。) \. p9 m* J; f& q/ q# F. W
    3 l" i  g! Z0 C7 I+ C
    4.处理空缺值的方法:忽略该记录;去掉属性;手工填写空缺值;使用默认值;使用属性平均值;使用同类样本平均值;预测最可能的值。
    / m& {: T& R4 f- W- K4 Q9 |+ b
      r. j, ?' r# c: f6 C5.噪声数据的处理方法:分箱;聚类;计算机和人工检查结合;回归/ y5 y8 b! z& r( c2 L6 d

    , ?- B1 ?$ z2 O; c6.分箱:分箱方法是一种简单常用的预处理方法,通过考察相邻数据来确定最终值。所谓“分箱”,实际上就是按照属性值划分的子区间,如果一个属性值处于某个子区间范围内,就称把该属性值放进这个子区间所代表的“箱子”内。把待处理的数据(某列属性值)按照一定的规则放进一些箱子中,考察每一个箱子中的数据,采用某种方法分别对各个箱子中的数据进行处理。在采用分箱技术时,需要确定的两个主要问题就是:如何分箱以及如何对每个箱子中的数据进行平滑处理。
    : E- Y8 t8 }! l, i+ g$ ~. h
    & r$ V7 s: v: h7 k+ L+ G. x, L分箱的方法:有4种:等深分箱法、等宽分箱法、最小熵法和用户自定义区间法。9 `6 i1 w2 [7 u9 ?* ^1 B
    1 \4 ~2 \! n) ?: W% j
    统一权重,也成等深分箱法,将数据集按记录行数分箱,每箱具有相同的记录数,每箱记录数称为箱子的深度。这是最简单的一种分箱方法。
      j5 e( c/ R6 |+ y2 Z& z5 @, u6 B9 F8 X7 F9 w  ]- j
    统一区间,也称等宽分箱法,使数据集在整个属性值的区间上平均分布,即每个箱的区间范围是一个常量,称为箱子宽度。
    / [+ P( h3 n2 t9 ^+ f* j, J$ f& s* u) X! N# K7 l- _) m
    用户自定义区间,用户可以根据需要自定义区间,当用户明确希望观察某些区间范围内的数据分布时,使用这种方法可以方便地帮助用户达到目的。
    4 n% T, `% C) x, l0 n  @; k" j7 K' j4 n1 g0 P
    例:客户收入属性income排序后的值(人民币元):800 1000 1200 1500  1500 1800 2000 2300 2500 2800 3000 3500 4000 4500 4800 5000,分箱的结果如下。
    3 p9 D4 M' ]! o) |6 Y9 n! J. K
    * k5 F% `1 A9 Y4 q  a2 x# k$ c; T统一权重:设定权重(箱子深度)为4,分箱后
    : n( O" ?7 B: w8 s' Z4 x
    ' Q- l( \- w% r- d4 k, _1 k箱1:800 1000 1200 1500" N6 h9 D+ K' O2 f; y: J* w, _
      J& b% e% F6 b' j, ^7 l- Z: K$ x! y
    箱2:1500 1800 2000 2300
    1 P$ x! X! Q3 H( |' K" \: h: o& k* p
    箱3:2500 2800 3000 3500, [/ M: N7 ^$ E

    + {" S; D/ p5 G* `, G* N箱4:4000 4500 4800 5000   
    ; {' G$ a" }% X
      K* T- Q( \) n, x! |统一区间:设定区间范围(箱子宽度)为1000元人民币,分箱后# {% Z) O# u; m! _
    - N" \- B9 @3 b( X
    箱1:800 1000 1200 1500 1500 1800
    6 w9 L* i6 ^8 F( F8 O; I. Z1 P# Q. m5 K  V0 F3 y
    箱2:2000 2300 2500 2800 3000* O6 t, w( Y5 D

    / l3 M6 s% d+ X) I) N  o0 S箱3:3500 4000 4500
    " V9 b/ H. [8 r6 }9 V# P7 N& ?5 m5 a" V- Y7 O
    箱4:4800 5000 3 G. ]  G; @* G, E" t) q0 Y; `
    6 p, Q  z/ w* Z# D
    用户自定义:如将客户收入划分为1000元以下、1000~2000、2000~3000、3000~4000和4000元以上几组,分箱后, W9 @( e$ b# Q# `7 Z( Y. C

    ; d: }2 f" h& d( Y箱1:800 / B( |  Y$ Y* k1 g: O

    " I- a5 |# V( ]* C- h箱2:1000 1200 1500 1500 1800 2000
    ( u! m0 c! j1 k" Y( W- ?- g' a2 \1 W
    箱3:2300 2500 2800 3000  8 P$ E7 {7 t9 [
    5 n8 ?! V3 H  {/ j
    箱4:3500 4000 ; y5 g% z& I4 [9 T; [
    : x8 V0 g0 j3 J# S
    箱5:4500 4800 5000
    ) w' x' @+ N+ a: d- t7 I7 n
    $ ?9 c* E" o9 n- K7.数据平滑方法:按平均值平滑、按边界值平滑和按中值平滑。
    0 W$ u+ \5 l; p
    : w6 m! ~6 o- {  c7 Z+ @. V⑴按平均值平滑 ; U8 p8 E8 z& G8 w6 |5 _* g
    ( r+ _# M5 ^7 {- @' X
    对同一箱值中的数据求平均值,用平均值替代该箱子中的所有数据。 " E# }1 V* r' M; h
    4 G' X. Y6 {: V7 j( i' r
    ⑵按边界值平滑 3 Z! y2 N  _9 z

    - `1 `  x" B- w0 D; h1 D2 n用距离较小的边界值替代箱中每一数据。 2 B/ X7 c5 |5 W. A, t

      b8 p: |2 z2 g1 o+ [⑶按中值平滑
    , [& K5 i  e6 G: r7 l4 d4 J+ ]6 o, g! A0 i+ K
    取箱子的中值,用来替代箱子中的所有数据。
    ! h5 n& W& t( {
    * U% Z+ e" L. y$ I! c8.聚类:将物理的或抽象对象的集合分组为由类似的对象组成的多个类。5 g" P# O( _% P5 `. @
    3 |- P% I4 M% r1 h, G& {& e
    找出并清除那些落在簇之外的值(孤立点),这些孤立点被视为噪声。
    5 \: D- Z! Y! U1 K
    & E9 x5 D# C+ Z  ?$ @- Z9.回归;试图发现两个相关的变量之间的变化模式,通过使数据适合一个函数来平滑数据,即通过建立数学模型来预测下一个数值,包括线性回归和非线性回归。   7 k. g; |5 r: M) ^- G0 p
    " L9 d" r" Z) m3 P7 `
    10.数据集成:将多文件或者多数据库中的异构数据进行合并,然后存放在一个一致的数据存储中。考虑以下几个问题: 1.模式匹配2.数据冗余3.数据值冲突 , ~* n6 T2 A& `
    * z! x! b: o- o  I* X' J8 A
    11. 数据变换:1.平滑2.聚集3.数据概化4.规范化(1)最小-最大规范化(2)零-均值规范化(3)小数定标规范化5.属性构造
    ' B& U+ \$ J4 q/ ^: ?
    6 C' B( e$ V+ A' s12.数据集成:将多文件或者多数据库中的异构数据进行合并,然后存放在一个一致的数据存储中。考虑以下几个问题: 1.模式匹配2.数据冗余3.数据值冲突
    $ O3 q. `9 `0 o4 U3 D
    5 B1 u% T! t. f  J13.数据归约:目的是为了获得比原始数据小的多的,但不破坏数据完整性的挖掘数据集,该数据集可以得到与原始数据相同的挖掘结果。 1 s! }- Z+ U7 [) ^2 G$ t+ j
    : T, A9 |' W, K" X
    数据归约的方法: 1.数据立方体聚集:把聚集的方法用于数据立方体。2.维归约:检测并删除不相关、弱相关或冗余属性。3.数据压缩:选择正确的编码压缩数据集。4.数值压缩:用较小的数据表示数据,或采用较短的数据单位,或者用数据模型代表数据。5.离散化和概念分层生成:使连续的数据离散化,用确定的有限个区段值代替原始值;概念分层是指用较高层次的概念替换低层次的概念,以此来减少取值个数。
    $ n* y8 M; a' R* k; ]  X
    5 H, H0 ^$ u3 ^14.数据立方体聚集 :是数据的多维建模和表示,由维和事实组成。
    4 H0 h5 _" }9 i8 f+ Z% R7 _! H9 o2 D
    维归约:去掉不相关的属性,减少数据挖掘处理的数据量。
    % p" ?" O, c2 a$ V5 W, i: _9 \: f0 n$ w: l7 K: ~
    属性子集选择的基本方法包括以下几种: 1.逐步向前选择2.逐步向后删除3.向前选择和向后删除结合4.判定树归纳5.基于统计分析的归约   
    " b; v0 v0 A! {: u* r
    ) m% [& |7 n/ i4 P数据压缩:方法分为两类:无损压缩和有损压缩0 g3 Z5 \. \; c3 \" A6 @9 P$ A- v
    $ o4 K) b) W, {5 }1 y+ T. E
    数值归约常用的方法: 1.直方图2.聚类3.抽样:不放回简单随机抽样、放回简单随机抽样、聚类抽样和分层抽样4.线性回归5.非线性回归     ) h, h: k4 l8 g( V: T# L

    9 M9 Z1 p  e8 p* F2 k9 t15.数据变换涉及以下几个方面:1.平滑2.聚集3.数据概化4.规范化(1)最小-最大规范化(2)零-均值规范化(3)小数定标规范化5.属性构造
    * C# C* f; s# L: j  {0 H& Y3 Z5 k! C
    : c5 u! A4 L4 E" M% ^*规范化:(1)最小—最大规范化。原取值区间 [old_min,old_max],规范化后的新的取值区间[new_min,new_max]。
    0 K& {' L- |% ]1 @: @$ o. q  o. A6 n; Y6 q- m
    x’=  其中:x是属性的真实值,x’是规范化后的值。
    ) q) F+ |  M9 x1 Z, F) `
    9 E, ^5 v1 _7 A; v例如:“客户背景数据”表中的客户月收入income属性的实际值范围为[12000,98000],要把这个属性值规范到[0,1],对属性值73600应用上述公式:* L' e7 C% Z" U  D, S2 Z

    2 f4 B, W. |4 \" s% M0 V% Q7 R3 yx’=(1.0-0)+0=0.716
    : q4 O* R! G* R  ~
    * Y4 D6 ]' T+ U3 s$ R" Q: B根据精度要求保留小数(假设精度要求0.01),最终取值0.72就是属性值73600规范化后的值。
    2 M6 }) s' F2 A; v' w, @9 b  C3 X, t% z
    (2)零—均值规范化(z—score规范化),是根据属性值的平均值和标准差进行规范化,即:# P9 a6 T, t) X: s

      b" R1 S( b6 I% R, u+ U" M7 Vx’=   =  =    为所有样本属性值的平均值,为样本的标准差。当属性值范围未知的时候,可以使用此方法进行规范化。
    # x6 G3 z. D& b& l1 x% r0 J( A
    $ j( `+ X1 w4 |2 f* j( Z    例:假设某属性的平均值和标准差分别为80、25,采用零-均值规范化66为:x’==-0.56
    8 E$ l" n* u# U% O6 v% n5 L1 F+ a3 k2 _2 s( U3 U( s# @& b3 g
    (3)小数定标规范化:通过移动属性A的小数点位置进行规范化 。
    ; K1 a. d7 R" \
    2 J* H  d' Y+ h7 Xx’= 为满足式<1的最小整数。& }0 |( S9 b6 Y2 h' w& i

    6 j) _( K0 i2 h例:假设某属性规范化前的取值范围为[-120,110],采用小数定标规范化66。由于该属性的最大绝对值为120,则由<1可得出=3,因此,66规范化后为:x’==0.066
    & \; S6 l: M6 D9 q5 P% y- f+ z————————————————
    , Z7 q, n8 W1 t* m) m8 N版权声明:本文为CSDN博主「搬砖老头」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
    1 r0 w' c" N; H5 H2 {+ n原文链接:https://blog.csdn.net/wang1127248268/article/details/53571956; K" w  i1 P) O" H% ?

    - L6 D4 s6 o0 V- }! A
    ; ^* ^  Q4 P- m) Q. N
    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏2 支持支持0 反对反对0 微信微信

    1

    主题

    3

    听众

    169

    积分

    升级  34.5%

  • TA的每日心情
    擦汗
    2023-9-25 13:50
  • 签到天数: 67 天

    [LV.6]常住居民II

    国际赛参赛者

    网络挑战赛参赛者

    自我介绍
    热爱数学建模
    回复

    使用道具 举报

    德古拉        

    2

    主题

    4

    听众

    165

    积分

    升级  32.5%

  • TA的每日心情
    奋斗
    2025-12-3 23:13
  • 签到天数: 127 天

    [LV.7]常住居民III

    国际赛参赛者

    自我介绍
    嘶嘶。。。
    回复

    使用道具 举报

    浅夏110 实名认证       

    542

    主题

    15

    听众

    1万

    积分

  • TA的每日心情
    开心
    2020-11-14 17:15
  • 签到天数: 74 天

    [LV.6]常住居民II

    邮箱绑定达人

    群组2019美赛冲刺课程

    群组站长地区赛培训

    群组2019考研数学 桃子老师

    群组2018教师培训(呼伦贝

    群组2019考研数学 站长系列

    huangyanzuo 发表于 2020-5-19 12:06
    5 {+ p/ _( W& k, W6 k, m- t& m( K棒!棒!棒!棒!棒!棒!棒!棒!

    ! Y. D* _) N4 V' h
    4 F" [0 A! \5 p6 J! C* U9 t7 g
    回复

    使用道具 举报

    浅夏110 实名认证       

    542

    主题

    15

    听众

    1万

    积分

  • TA的每日心情
    开心
    2020-11-14 17:15
  • 签到天数: 74 天

    [LV.6]常住居民II

    邮箱绑定达人

    群组2019美赛冲刺课程

    群组站长地区赛培训

    群组2019考研数学 桃子老师

    群组2018教师培训(呼伦贝

    群组2019考研数学 站长系列

    浅夏110 发表于 2020-5-21 11:36

    / R* t5 n  d. j' O- B# z2 I6 Q8 ]. S! A
    # i, V$ z# S! n; G0 T, y' F
    回复

    使用道具 举报

    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2026-6-10 00:10 , Processed in 0.480000 second(s), 73 queries .

    回顶部