QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 2611|回复: 4
打印 上一主题 下一主题

数据挖掘中的数据预处理方法总结

[复制链接]
字体大小: 正常 放大
浅夏110 实名认证       

542

主题

15

听众

1万

积分

  • TA的每日心情
    开心
    2020-11-14 17:15
  • 签到天数: 74 天

    [LV.6]常住居民II

    邮箱绑定达人

    群组2019美赛冲刺课程

    群组站长地区赛培训

    群组2019考研数学 桃子老师

    群组2018教师培训(呼伦贝

    群组2019考研数学 站长系列

    跳转到指定楼层
    1#
    发表于 2020-5-19 09:40 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta |邮箱已经成功绑定
    1.原始数据存在的几个问题:不一致;重复;含噪声;维度高。
    # ^0 o" i, K# K( \7 @) C" w
    , N* p* C/ Y7 V/ @/ ?- v2.数据预处理包含数据清洗、数据集成、数据变换和数据归约几种方法。
    % q7 j1 m1 _$ k7 w! h4 x/ }. A# p% A6 K
    3.数据挖掘中使用的数据的原则/ c" F/ y, q. @6 S8 l8 _! o

      z- r% O4 {2 b0 j* ^. {0 K# h0 O应该是从原始数据中选取合适的属性作为数据挖掘属性,这个选取过程应参考的原则是:尽可能赋予属性名和属性值明确的含义;统一多数据源的属性值编码;去除惟一属性;去除重复性;去除可忽略字段;合理选择关联字段。
    5 K* v+ S/ b7 v5 j( `7 J5 L) e6 C3 [) d$ {3 w+ R7 U
    4.处理空缺值的方法:忽略该记录;去掉属性;手工填写空缺值;使用默认值;使用属性平均值;使用同类样本平均值;预测最可能的值。
    7 b1 \; |' A8 T, I5 q
    8 \  m/ c& E& N$ ^, p8 s5.噪声数据的处理方法:分箱;聚类;计算机和人工检查结合;回归
    , L4 a8 T2 Z2 v, ~" l$ X; g; c& ~3 H' z# j5 I0 s3 i9 d
    6.分箱:分箱方法是一种简单常用的预处理方法,通过考察相邻数据来确定最终值。所谓“分箱”,实际上就是按照属性值划分的子区间,如果一个属性值处于某个子区间范围内,就称把该属性值放进这个子区间所代表的“箱子”内。把待处理的数据(某列属性值)按照一定的规则放进一些箱子中,考察每一个箱子中的数据,采用某种方法分别对各个箱子中的数据进行处理。在采用分箱技术时,需要确定的两个主要问题就是:如何分箱以及如何对每个箱子中的数据进行平滑处理。; P; J% `# u# A7 R, q/ s. @. W" d
    2 r: s, l  m2 x/ ~# S
    分箱的方法:有4种:等深分箱法、等宽分箱法、最小熵法和用户自定义区间法。
    : {3 T, B2 y  U
    ' i! l* k) |) E/ x4 _统一权重,也成等深分箱法,将数据集按记录行数分箱,每箱具有相同的记录数,每箱记录数称为箱子的深度。这是最简单的一种分箱方法。
    ( n, V! z6 p/ e) n  h2 s4 @. s
    . `) k- i" c9 b1 R! |, `. d统一区间,也称等宽分箱法,使数据集在整个属性值的区间上平均分布,即每个箱的区间范围是一个常量,称为箱子宽度。3 ^7 {4 a1 O# Q; y' b
    9 P* f6 t2 I  X4 |
    用户自定义区间,用户可以根据需要自定义区间,当用户明确希望观察某些区间范围内的数据分布时,使用这种方法可以方便地帮助用户达到目的。
    5 ~# C) q9 L5 B6 F: |, c! J& F% x- r% g
    例:客户收入属性income排序后的值(人民币元):800 1000 1200 1500  1500 1800 2000 2300 2500 2800 3000 3500 4000 4500 4800 5000,分箱的结果如下。
    : C8 U( B8 q( _- m) h% R0 j& G+ w1 p) [. m! e) C' {8 s* |; Z
    统一权重:设定权重(箱子深度)为4,分箱后
    4 E# b' W5 d0 O3 h7 n4 N7 |
    9 w% x$ W0 v4 S' G, m5 O箱1:800 1000 1200 1500) `& o/ s" z8 P5 M; i6 u3 P7 |

    5 A5 U& l% X/ }1 H7 A箱2:1500 1800 2000 2300
    ' b5 m  g- ]3 s, \- j$ L) k: U: x4 c
    * Q( r; g( T% J; ?: z0 p  A3 G箱3:2500 2800 3000 35004 x2 {5 u, ^7 ?' e' S& [5 k6 j
    3 C- w! Y( G# I% h
    箱4:4000 4500 4800 5000   - g  N; m  n7 }5 v' F1 `" `& b' G
    , K2 s& v0 ^: F9 K
    统一区间:设定区间范围(箱子宽度)为1000元人民币,分箱后
    . L" Z, p% w2 y) {8 C: W3 L; D4 h7 E! _# q1 C; A4 C
    箱1:800 1000 1200 1500 1500 1800. @, X; i6 L& f4 f; _# O

    1 F  M! ~% W  p  l: ~: X箱2:2000 2300 2500 2800 3000
    $ C$ h  Q: L, h5 X# V' r8 X3 s4 P0 \3 ^: n, `
    箱3:3500 4000 4500
    ' ~! l1 F9 J# p$ @( @) B
    . S( P0 }+ @% N- U箱4:4800 5000 ) t0 @  v3 Q5 O0 j
    ; P. Z2 y. J- I* V4 C
    用户自定义:如将客户收入划分为1000元以下、1000~2000、2000~3000、3000~4000和4000元以上几组,分箱后
    # b! h. y0 P: R- _% {$ z! q
    " e+ R2 ]& G; B, ?+ o! o箱1:800 7 q. c4 Q7 v4 T* C/ W5 x% T2 ^
    6 W9 d5 D( ^$ {  ]+ J
    箱2:1000 1200 1500 1500 1800 2000 ( N3 E* V) g) G4 j

    * `- \+ j. t# F+ L& O/ B箱3:2300 2500 2800 3000  
    $ x3 n. w( T3 _  t- Y$ s
    : a3 \& a: q# ^3 r7 w9 V4 q! G箱4:3500 4000 ; O7 q) B# n, C
    8 W; w7 q& O! b
    箱5:4500 4800 5000
    5 J9 m* A4 Q9 w- O
    : P& N4 o9 e7 l. Q. O7.数据平滑方法:按平均值平滑、按边界值平滑和按中值平滑。" \$ |0 x% g- I) ^3 o* `7 d' v

    - b1 i/ d* K( ]⑴按平均值平滑 6 L8 E3 [1 b: p7 W
    + x3 q; `3 g6 Y' ^9 d6 t
    对同一箱值中的数据求平均值,用平均值替代该箱子中的所有数据。
    1 l7 s: M/ n8 \2 j5 v5 {
    / u; i! U6 [# ^⑵按边界值平滑 . n) M7 h% x4 y9 \5 P* i6 H

    ) g( C! u- D% U0 S2 @. R. D用距离较小的边界值替代箱中每一数据。 0 `$ X. J3 i: C% x+ A

    ! V# w  i4 f0 K, ^9 Y; }0 u6 }⑶按中值平滑 ! J8 U- l2 v7 M$ x8 m: M
      e3 ]8 I& C6 h
    取箱子的中值,用来替代箱子中的所有数据。 7 s! P7 T" q' t# _" G# Q% L8 E% @
    $ M  f' b0 N, Y7 R
    8.聚类:将物理的或抽象对象的集合分组为由类似的对象组成的多个类。
    $ ^. A) R  j& E3 V6 K( o4 h$ f& L3 A/ }0 ^( ^
    找出并清除那些落在簇之外的值(孤立点),这些孤立点被视为噪声。
    3 z. s, R/ G5 T1 m0 p" z+ X) H" S, o* l5 q# s) }1 e
    9.回归;试图发现两个相关的变量之间的变化模式,通过使数据适合一个函数来平滑数据,即通过建立数学模型来预测下一个数值,包括线性回归和非线性回归。   
    , |; U2 s9 E9 U/ H+ J* m! L4 n! T" `+ y1 f' N  S2 W# J* M+ G
    10.数据集成:将多文件或者多数据库中的异构数据进行合并,然后存放在一个一致的数据存储中。考虑以下几个问题: 1.模式匹配2.数据冗余3.数据值冲突 6 @2 p. p! o& J$ V. s  s0 b

    & P: ], ^  f1 B3 I11. 数据变换:1.平滑2.聚集3.数据概化4.规范化(1)最小-最大规范化(2)零-均值规范化(3)小数定标规范化5.属性构造
    # D% [: {4 T8 U# H' E! y; j( L7 C) ^* Z4 b8 x" z
    12.数据集成:将多文件或者多数据库中的异构数据进行合并,然后存放在一个一致的数据存储中。考虑以下几个问题: 1.模式匹配2.数据冗余3.数据值冲突 % y3 S7 Y) z# f

    9 Q1 M/ K# A  o7 Q' V13.数据归约:目的是为了获得比原始数据小的多的,但不破坏数据完整性的挖掘数据集,该数据集可以得到与原始数据相同的挖掘结果。 7 l/ v: S( H) p7 X

    ' i" x$ ^2 l* R8 y数据归约的方法: 1.数据立方体聚集:把聚集的方法用于数据立方体。2.维归约:检测并删除不相关、弱相关或冗余属性。3.数据压缩:选择正确的编码压缩数据集。4.数值压缩:用较小的数据表示数据,或采用较短的数据单位,或者用数据模型代表数据。5.离散化和概念分层生成:使连续的数据离散化,用确定的有限个区段值代替原始值;概念分层是指用较高层次的概念替换低层次的概念,以此来减少取值个数。
    8 u& P  O6 T, i2 A
    - [8 G! o5 o6 Q14.数据立方体聚集 :是数据的多维建模和表示,由维和事实组成。
    3 C9 L( O. U& {( d- ~6 h# ?' i
    6 ?3 s: S3 l5 ^" B维归约:去掉不相关的属性,减少数据挖掘处理的数据量。
    " _: i$ z' F& o- o. c& [3 ~* d" j& v, ^8 ~
    属性子集选择的基本方法包括以下几种: 1.逐步向前选择2.逐步向后删除3.向前选择和向后删除结合4.判定树归纳5.基于统计分析的归约   
      c+ w% U# l' q( ~5 `% f
    # C: X/ L0 [. V: X3 w; a9 g/ u数据压缩:方法分为两类:无损压缩和有损压缩
    ! [, R  X5 Q5 I3 K; E
    4 V* O" h6 s& B8 i: \* L3 B数值归约常用的方法: 1.直方图2.聚类3.抽样:不放回简单随机抽样、放回简单随机抽样、聚类抽样和分层抽样4.线性回归5.非线性回归       \" F. e9 O4 g5 m9 p
      k3 ~  \, s  S1 h, U0 m( k/ ?+ p
    15.数据变换涉及以下几个方面:1.平滑2.聚集3.数据概化4.规范化(1)最小-最大规范化(2)零-均值规范化(3)小数定标规范化5.属性构造/ b7 y% R+ @" B) t4 \

    - V2 c+ T5 j! @7 X  O- V# o*规范化:(1)最小—最大规范化。原取值区间 [old_min,old_max],规范化后的新的取值区间[new_min,new_max]。* w/ N; e5 L. a7 O

    . V5 o) l- d7 J7 D2 s7 Fx’=  其中:x是属性的真实值,x’是规范化后的值。
    ) _. H- i8 ?5 v3 @+ V* R9 Z1 @7 K- V/ B' |) V
    例如:“客户背景数据”表中的客户月收入income属性的实际值范围为[12000,98000],要把这个属性值规范到[0,1],对属性值73600应用上述公式:' h+ ?( l$ \4 o, s' X9 R. t

    & x( B; i3 P3 W: ~4 ~7 \x’=(1.0-0)+0=0.7165 c/ e* P" k3 E+ d6 A4 D" z
    6 f% B! K- y1 J* K. y- t$ `
    根据精度要求保留小数(假设精度要求0.01),最终取值0.72就是属性值73600规范化后的值。
    , Q% W) F0 b! h- U9 V* k
    $ `7 |  m) p, n. n; ~  } (2)零—均值规范化(z—score规范化),是根据属性值的平均值和标准差进行规范化,即:
    - |7 |# `% M+ m. I9 f1 I" S) V% m
    & r# N3 [1 w2 m) V* O. ^x’=   =  =    为所有样本属性值的平均值,为样本的标准差。当属性值范围未知的时候,可以使用此方法进行规范化。
    " d8 I$ y& J8 c4 b  w8 v- y2 o: P1 b1 x4 P3 y! q7 a
        例:假设某属性的平均值和标准差分别为80、25,采用零-均值规范化66为:x’==-0.564 g1 L- b/ Y& ^
    4 a+ X; J1 s6 E, Y' E
    (3)小数定标规范化:通过移动属性A的小数点位置进行规范化 。6 m; A3 e1 @1 Z6 E& [! `/ j

    3 d8 J9 C) F7 u. }7 [x’= 为满足式<1的最小整数。
    " d) \2 r7 d. G) T- O3 C" z* [
    * V3 g% p! w$ g0 d6 p例:假设某属性规范化前的取值范围为[-120,110],采用小数定标规范化66。由于该属性的最大绝对值为120,则由<1可得出=3,因此,66规范化后为:x’==0.066$ R$ X5 a7 u1 f/ ~1 r3 M+ X. v
    ————————————————
    ! q$ P3 u% l5 b0 D2 g4 u& a版权声明:本文为CSDN博主「搬砖老头」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
    0 E, p: ]  [. q, J原文链接:https://blog.csdn.net/wang1127248268/article/details/53571956
    # e. V2 ]& p3 Y3 T9 D5 H. X' O1 A: n+ K9 f5 D
    6 Y6 y2 `0 G& @$ H- j0 E2 f
    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏2 支持支持0 反对反对0 微信微信

    1

    主题

    3

    听众

    169

    积分

    升级  34.5%

  • TA的每日心情
    擦汗
    2023-9-25 13:50
  • 签到天数: 67 天

    [LV.6]常住居民II

    国际赛参赛者

    网络挑战赛参赛者

    自我介绍
    热爱数学建模
    回复

    使用道具 举报

    德古拉        

    2

    主题

    4

    听众

    165

    积分

    升级  32.5%

  • TA的每日心情
    奋斗
    2025-12-3 23:13
  • 签到天数: 127 天

    [LV.7]常住居民III

    国际赛参赛者

    自我介绍
    嘶嘶。。。
    回复

    使用道具 举报

    浅夏110 实名认证       

    542

    主题

    15

    听众

    1万

    积分

  • TA的每日心情
    开心
    2020-11-14 17:15
  • 签到天数: 74 天

    [LV.6]常住居民II

    邮箱绑定达人

    群组2019美赛冲刺课程

    群组站长地区赛培训

    群组2019考研数学 桃子老师

    群组2018教师培训(呼伦贝

    群组2019考研数学 站长系列

    huangyanzuo 发表于 2020-5-19 12:06 - @. ^* ?+ P2 E* S. m
    棒!棒!棒!棒!棒!棒!棒!棒!

    4 f; L# |+ h" @# S6 F* {4 G0 e( i& }+ v* f, B7 j6 ?& S0 m: N
    回复

    使用道具 举报

    浅夏110 实名认证       

    542

    主题

    15

    听众

    1万

    积分

  • TA的每日心情
    开心
    2020-11-14 17:15
  • 签到天数: 74 天

    [LV.6]常住居民II

    邮箱绑定达人

    群组2019美赛冲刺课程

    群组站长地区赛培训

    群组2019考研数学 桃子老师

    群组2018教师培训(呼伦贝

    群组2019考研数学 站长系列

    回复

    使用道具 举报

    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2026-6-10 09:38 , Processed in 0.454499 second(s), 72 queries .

    回顶部