QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 2574|回复: 4
打印 上一主题 下一主题

数据挖掘中的数据预处理方法总结

[复制链接]
字体大小: 正常 放大
浅夏110 实名认证       

542

主题

15

听众

1万

积分

  • TA的每日心情
    开心
    2020-11-14 17:15
  • 签到天数: 74 天

    [LV.6]常住居民II

    邮箱绑定达人

    群组2019美赛冲刺课程

    群组站长地区赛培训

    群组2019考研数学 桃子老师

    群组2018教师培训(呼伦贝

    群组2019考研数学 站长系列

    跳转到指定楼层
    1#
    发表于 2020-5-19 09:40 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta |邮箱已经成功绑定
    1.原始数据存在的几个问题:不一致;重复;含噪声;维度高。0 T+ K, h2 P2 Y8 m: U
    ( @1 S7 M1 s! V. X
    2.数据预处理包含数据清洗、数据集成、数据变换和数据归约几种方法。
    3 Y8 I% \  }( w9 g7 ?+ A
    4 l4 g8 S" y3 ?( v8 m! f3.数据挖掘中使用的数据的原则& t: i4 v0 l( U) d+ v  @

    / G% R) W8 f# B6 z* T! ~% |, M应该是从原始数据中选取合适的属性作为数据挖掘属性,这个选取过程应参考的原则是:尽可能赋予属性名和属性值明确的含义;统一多数据源的属性值编码;去除惟一属性;去除重复性;去除可忽略字段;合理选择关联字段。
    , v3 l; V3 n. h) E, c3 A0 e3 z2 E' f- |- B, n4 u* l! D: {6 a
    4.处理空缺值的方法:忽略该记录;去掉属性;手工填写空缺值;使用默认值;使用属性平均值;使用同类样本平均值;预测最可能的值。. `% [6 [8 ?7 K$ L# ]7 R
    2 v5 M; E' z: c1 O& @$ G: m" o
    5.噪声数据的处理方法:分箱;聚类;计算机和人工检查结合;回归
    + ^8 H' v+ o; P/ `1 U* j7 ]2 r7 U' |9 _3 k8 R$ H! ?
    6.分箱:分箱方法是一种简单常用的预处理方法,通过考察相邻数据来确定最终值。所谓“分箱”,实际上就是按照属性值划分的子区间,如果一个属性值处于某个子区间范围内,就称把该属性值放进这个子区间所代表的“箱子”内。把待处理的数据(某列属性值)按照一定的规则放进一些箱子中,考察每一个箱子中的数据,采用某种方法分别对各个箱子中的数据进行处理。在采用分箱技术时,需要确定的两个主要问题就是:如何分箱以及如何对每个箱子中的数据进行平滑处理。3 K, ]2 k" x1 X4 q

    ; t0 S1 ~/ [6 X2 d1 Q. e2 n( Z分箱的方法:有4种:等深分箱法、等宽分箱法、最小熵法和用户自定义区间法。
    $ s* a5 K! r9 Z* i5 `+ k( x( M; I6 V# o
    统一权重,也成等深分箱法,将数据集按记录行数分箱,每箱具有相同的记录数,每箱记录数称为箱子的深度。这是最简单的一种分箱方法。
    ' Q5 r7 r6 {/ J6 q
    : ~! `6 s# N) l7 W5 n0 f统一区间,也称等宽分箱法,使数据集在整个属性值的区间上平均分布,即每个箱的区间范围是一个常量,称为箱子宽度。$ h" l$ k& X2 C4 K& I$ F

    - h9 F0 D% j0 [; y4 t6 W用户自定义区间,用户可以根据需要自定义区间,当用户明确希望观察某些区间范围内的数据分布时,使用这种方法可以方便地帮助用户达到目的。) J" v  Q  U1 s2 I5 h) f
    4 [: I9 |, i* {1 `  b) p
    例:客户收入属性income排序后的值(人民币元):800 1000 1200 1500  1500 1800 2000 2300 2500 2800 3000 3500 4000 4500 4800 5000,分箱的结果如下。* D1 [4 c7 u2 D7 ~
    + \2 B: d% M% e7 B: J* J; U% n# a4 D
    统一权重:设定权重(箱子深度)为4,分箱后
    8 ]* Z  O* W" z4 L) B6 ^5 m% ]3 A0 M1 o
    箱1:800 1000 1200 1500
    , w0 I) E6 b( a7 Y, m, s0 O% x' M- a8 Q  j# U; p
    箱2:1500 1800 2000 2300
    5 D% Q' Y) \" [/ ?) T
    ; L' G% |' t, e; b2 j箱3:2500 2800 3000 3500' w) b: T$ P& C' l

    , @' z4 l# M1 d& e, `- P; C* [: n箱4:4000 4500 4800 5000   $ `- c6 T. I) ^( C

    ; @1 r: S( ?2 r- o统一区间:设定区间范围(箱子宽度)为1000元人民币,分箱后* _3 C: Y6 b8 E4 c! ?  B
    2 s0 Q& `6 \$ k
    箱1:800 1000 1200 1500 1500 1800. A# s4 @; I# O( Q1 A
    8 f; x" b$ h! H( d8 f# H8 y( Y
    箱2:2000 2300 2500 2800 3000
    $ Z: Z- f- d. [& `& C; y$ {" A/ A# [/ l: D2 P( s
    箱3:3500 4000 4500+ T. o7 A5 r4 w' E; \
    , x' ^7 g& K3 P; p
    箱4:4800 5000 - I# {4 i. y7 ~8 U4 R  z. }5 E* S

    , j. z% k/ {  i6 F用户自定义:如将客户收入划分为1000元以下、1000~2000、2000~3000、3000~4000和4000元以上几组,分箱后
    ; U' w7 Y* a0 O" a6 y5 _/ ~5 S3 W2 Z& w2 X2 x! Q/ \5 z: N
    箱1:800
    ; V4 A% i, ]# h* C% f; o8 ~. n. q5 x+ f# R- k# f
    箱2:1000 1200 1500 1500 1800 2000
    & d6 ?8 ?# @+ G6 C4 [  {1 U3 ^6 e* a/ ~  y! V" k
    箱3:2300 2500 2800 3000  
      P$ `' v) @0 M. T
    4 t0 m8 V# k, z; R箱4:3500 4000
    2 I" l/ p0 ^9 @2 w! ?- d: S1 R/ H; R/ E  Z' P
    箱5:4500 4800 5000
    8 t1 v0 X9 V; g% K
    # z0 Q- }4 y; \' I% Z8 ~7 r7.数据平滑方法:按平均值平滑、按边界值平滑和按中值平滑。
    $ [0 ~* z0 q5 Q! S1 e
    & P+ O' O9 Q" ]/ b" k! a⑴按平均值平滑 6 ?* Y4 s" {& `% X  ^6 A0 d; d

    ! J! A. s; O( O; K" g对同一箱值中的数据求平均值,用平均值替代该箱子中的所有数据。
      k3 |; |- Q7 \3 Z
    & r6 K" }. u& \⑵按边界值平滑
    ! Y6 u1 i; z9 p
    % s$ \" ]; N  |; j用距离较小的边界值替代箱中每一数据。
    + h' C3 H7 m; h. Y3 T
    : R( ]: b5 A7 g, C& ^+ |⑶按中值平滑 * o4 G9 K+ G$ E* |8 y: b
    " }% P0 N' A. C9 ^! v
    取箱子的中值,用来替代箱子中的所有数据。
      ^4 m( D* a% M( v' _3 _
    & B" X5 ?  P7 L' Q& v7 S% i8.聚类:将物理的或抽象对象的集合分组为由类似的对象组成的多个类。
    / H% h& p" y9 n  o4 ^2 \3 Z8 O- E$ c: P
    找出并清除那些落在簇之外的值(孤立点),这些孤立点被视为噪声。8 w$ j2 ]$ j5 G. S- e3 H8 L

    , @# T" x0 N+ P* g+ p9.回归;试图发现两个相关的变量之间的变化模式,通过使数据适合一个函数来平滑数据,即通过建立数学模型来预测下一个数值,包括线性回归和非线性回归。   
    # P  u# x% ]/ i! U# k( t$ D2 ~3 i7 B5 W) e0 q: @* U; f1 u
    10.数据集成:将多文件或者多数据库中的异构数据进行合并,然后存放在一个一致的数据存储中。考虑以下几个问题: 1.模式匹配2.数据冗余3.数据值冲突 6 A, |7 m& _- S* P* E. g5 H! s
    ( l9 `* {* o# H( F
    11. 数据变换:1.平滑2.聚集3.数据概化4.规范化(1)最小-最大规范化(2)零-均值规范化(3)小数定标规范化5.属性构造: f) o$ q2 F+ c6 _) }0 f
    ; M+ Y; {# P& C6 A
    12.数据集成:将多文件或者多数据库中的异构数据进行合并,然后存放在一个一致的数据存储中。考虑以下几个问题: 1.模式匹配2.数据冗余3.数据值冲突
    8 m( ^( r% L+ S" j2 U
    : H; _2 a" o! }. F2 V* y: Q13.数据归约:目的是为了获得比原始数据小的多的,但不破坏数据完整性的挖掘数据集,该数据集可以得到与原始数据相同的挖掘结果。
    4 ^! V' N8 F8 n  P* P. q
    : T. P; c+ g$ ?  P数据归约的方法: 1.数据立方体聚集:把聚集的方法用于数据立方体。2.维归约:检测并删除不相关、弱相关或冗余属性。3.数据压缩:选择正确的编码压缩数据集。4.数值压缩:用较小的数据表示数据,或采用较短的数据单位,或者用数据模型代表数据。5.离散化和概念分层生成:使连续的数据离散化,用确定的有限个区段值代替原始值;概念分层是指用较高层次的概念替换低层次的概念,以此来减少取值个数。1 Q  J5 R! S" b* c& n2 P& l

    4 k7 i: t6 p. O+ Y14.数据立方体聚集 :是数据的多维建模和表示,由维和事实组成。 ( T! A8 B1 [4 N7 A4 O
    + F! K/ }) E. W; D. c& f4 a
    维归约:去掉不相关的属性,减少数据挖掘处理的数据量。 * }4 K0 v( u* n/ s, S

    , ?+ m7 b7 E$ @; i属性子集选择的基本方法包括以下几种: 1.逐步向前选择2.逐步向后删除3.向前选择和向后删除结合4.判定树归纳5.基于统计分析的归约   
    / ~& t* _* N' l3 o6 v
    + A- L& p: x$ b6 l数据压缩:方法分为两类:无损压缩和有损压缩
    1 z! C8 I! r: n
    ! B6 c- |! u5 h- X" y+ Y  M: R数值归约常用的方法: 1.直方图2.聚类3.抽样:不放回简单随机抽样、放回简单随机抽样、聚类抽样和分层抽样4.线性回归5.非线性回归       t) \/ \  k* n$ P8 k; l
    4 ?+ _8 [, ]: o# W
    15.数据变换涉及以下几个方面:1.平滑2.聚集3.数据概化4.规范化(1)最小-最大规范化(2)零-均值规范化(3)小数定标规范化5.属性构造
    + o5 ~8 V5 A3 f! N- x9 h8 t
    5 u4 \( v  ^- q+ G, A. V*规范化:(1)最小—最大规范化。原取值区间 [old_min,old_max],规范化后的新的取值区间[new_min,new_max]。( W9 a" {. |% Y) U7 K6 Q& ~$ j

    ( w1 x5 u3 {- i' |0 g. l) ^x’=  其中:x是属性的真实值,x’是规范化后的值。
    2 L% L% `6 w9 A$ G
    : F( t1 b  D/ ~+ k3 h例如:“客户背景数据”表中的客户月收入income属性的实际值范围为[12000,98000],要把这个属性值规范到[0,1],对属性值73600应用上述公式:
    " ?) ~8 |5 n4 L1 M6 B
    / r) W* i9 o' Q( ]4 Ox’=(1.0-0)+0=0.716
    8 U% N% L0 @) k
    , K  J$ ]! M. s" N. m根据精度要求保留小数(假设精度要求0.01),最终取值0.72就是属性值73600规范化后的值。
    % h: h! \  E0 t  t
    5 e9 c' O, h$ N; j  r, K6 [) o6 ^ (2)零—均值规范化(z—score规范化),是根据属性值的平均值和标准差进行规范化,即:
    $ A. [% e8 P0 v8 S% E, ?% A2 w) N+ w2 s' R8 w- N. e. X! C
    x’=   =  =    为所有样本属性值的平均值,为样本的标准差。当属性值范围未知的时候,可以使用此方法进行规范化。
    " t8 T5 X" a- ?$ }7 e! r
    6 D! r9 ~. L& `' V2 C0 j    例:假设某属性的平均值和标准差分别为80、25,采用零-均值规范化66为:x’==-0.56' S. Y/ d7 {' b3 M! q

    / n6 j2 p( ^/ p: V+ \(3)小数定标规范化:通过移动属性A的小数点位置进行规范化 。* d2 j7 p& o- s* g$ c

    ! l/ G3 t- B/ e$ q. ^7 I3 V% Zx’= 为满足式<1的最小整数。2 j; U; z; d8 Q- ~" _

    / `3 ], h/ x) u7 [例:假设某属性规范化前的取值范围为[-120,110],采用小数定标规范化66。由于该属性的最大绝对值为120,则由<1可得出=3,因此,66规范化后为:x’==0.066& `( p- ]( N" u( ^7 E
    ————————————————! F0 H2 T8 t+ B: T0 S9 S
    版权声明:本文为CSDN博主「搬砖老头」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。% B: y8 d0 ]5 M$ l  y! v8 Y
    原文链接:https://blog.csdn.net/wang1127248268/article/details/53571956
    $ {8 u! l% Q; d4 W
    1 X/ }% |0 a" ^" k+ j$ n0 ~1 ?4 A: ?9 j
    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏2 支持支持0 反对反对0 微信微信

    1

    主题

    3

    听众

    169

    积分

    升级  34.5%

  • TA的每日心情
    擦汗
    2023-9-25 13:50
  • 签到天数: 67 天

    [LV.6]常住居民II

    国际赛参赛者

    网络挑战赛参赛者

    自我介绍
    热爱数学建模
    回复

    使用道具 举报

    德古拉        

    2

    主题

    4

    听众

    165

    积分

    升级  32.5%

  • TA的每日心情
    奋斗
    2025-12-3 23:13
  • 签到天数: 127 天

    [LV.7]常住居民III

    国际赛参赛者

    自我介绍
    嘶嘶。。。
    回复

    使用道具 举报

    浅夏110 实名认证       

    542

    主题

    15

    听众

    1万

    积分

  • TA的每日心情
    开心
    2020-11-14 17:15
  • 签到天数: 74 天

    [LV.6]常住居民II

    邮箱绑定达人

    群组2019美赛冲刺课程

    群组站长地区赛培训

    群组2019考研数学 桃子老师

    群组2018教师培训(呼伦贝

    群组2019考研数学 站长系列

    huangyanzuo 发表于 2020-5-19 12:06
    ) D' _3 C8 n7 @& v  H& ?棒!棒!棒!棒!棒!棒!棒!棒!
    ; O+ Q9 v% s  o" b( g# T

      P1 H6 |, A4 @
    回复

    使用道具 举报

    浅夏110 实名认证       

    542

    主题

    15

    听众

    1万

    积分

  • TA的每日心情
    开心
    2020-11-14 17:15
  • 签到天数: 74 天

    [LV.6]常住居民II

    邮箱绑定达人

    群组2019美赛冲刺课程

    群组站长地区赛培训

    群组2019考研数学 桃子老师

    群组2018教师培训(呼伦贝

    群组2019考研数学 站长系列

    回复

    使用道具 举报

    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2026-4-21 18:54 , Processed in 0.454072 second(s), 73 queries .

    回顶部