QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 2605|回复: 4
打印 上一主题 下一主题

数据挖掘中的数据预处理方法总结

[复制链接]
字体大小: 正常 放大
浅夏110 实名认证       

542

主题

15

听众

1万

积分

  • TA的每日心情
    开心
    2020-11-14 17:15
  • 签到天数: 74 天

    [LV.6]常住居民II

    邮箱绑定达人

    群组2019美赛冲刺课程

    群组站长地区赛培训

    群组2019考研数学 桃子老师

    群组2018教师培训(呼伦贝

    群组2019考研数学 站长系列

    跳转到指定楼层
    1#
    发表于 2020-5-19 09:40 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta |邮箱已经成功绑定
    1.原始数据存在的几个问题:不一致;重复;含噪声;维度高。3 [) H$ J* B& J$ z- i
    . f+ i- @% @! D  _1 _6 j6 [) H
    2.数据预处理包含数据清洗、数据集成、数据变换和数据归约几种方法。$ F. k* X/ A8 O1 w
    8 Q+ ]9 l2 L, j: d. Z6 [* H9 i
    3.数据挖掘中使用的数据的原则
    2 I; I& O5 d; `# R2 q6 z, l6 [8 E2 G0 C; x! u' \
    应该是从原始数据中选取合适的属性作为数据挖掘属性,这个选取过程应参考的原则是:尽可能赋予属性名和属性值明确的含义;统一多数据源的属性值编码;去除惟一属性;去除重复性;去除可忽略字段;合理选择关联字段。
    ; @3 C8 w) B3 M& {: Z' D, ^6 s5 V0 {6 L0 [9 F% q- _
    4.处理空缺值的方法:忽略该记录;去掉属性;手工填写空缺值;使用默认值;使用属性平均值;使用同类样本平均值;预测最可能的值。0 N. O9 _% [# p$ Q3 A. M
    6 v( D& S3 O8 T( p4 F- |& Z
    5.噪声数据的处理方法:分箱;聚类;计算机和人工检查结合;回归' o9 W/ d' O6 \0 p) L* H, [
    ' A8 o2 U# M; [
    6.分箱:分箱方法是一种简单常用的预处理方法,通过考察相邻数据来确定最终值。所谓“分箱”,实际上就是按照属性值划分的子区间,如果一个属性值处于某个子区间范围内,就称把该属性值放进这个子区间所代表的“箱子”内。把待处理的数据(某列属性值)按照一定的规则放进一些箱子中,考察每一个箱子中的数据,采用某种方法分别对各个箱子中的数据进行处理。在采用分箱技术时,需要确定的两个主要问题就是:如何分箱以及如何对每个箱子中的数据进行平滑处理。" C* O* G* ]% F
    4 k* M1 l5 I) o6 f5 L
    分箱的方法:有4种:等深分箱法、等宽分箱法、最小熵法和用户自定义区间法。. J$ }; M' Q+ b; v( e2 M

    9 K$ ^9 K! L1 c, N+ |- ^统一权重,也成等深分箱法,将数据集按记录行数分箱,每箱具有相同的记录数,每箱记录数称为箱子的深度。这是最简单的一种分箱方法。
    $ d) S/ V: S7 {5 C
    $ r; K6 V2 k6 X) x+ y$ y4 Q统一区间,也称等宽分箱法,使数据集在整个属性值的区间上平均分布,即每个箱的区间范围是一个常量,称为箱子宽度。
    ' s0 [. N% {- C8 g/ V
    0 e( H$ W2 b3 ?+ ?1 b用户自定义区间,用户可以根据需要自定义区间,当用户明确希望观察某些区间范围内的数据分布时,使用这种方法可以方便地帮助用户达到目的。6 g$ I2 D& q; h0 a2 `2 v
    % {" J5 f5 p+ m1 n; M% c' v
    例:客户收入属性income排序后的值(人民币元):800 1000 1200 1500  1500 1800 2000 2300 2500 2800 3000 3500 4000 4500 4800 5000,分箱的结果如下。
    8 N" {7 r, j% h6 ]/ A0 z5 @  r
    2 {0 g3 @. J/ c! ^0 h4 e5 z统一权重:设定权重(箱子深度)为4,分箱后9 p6 Q7 T/ X  k7 g# e
    , N, ~* M" H- Y' K
    箱1:800 1000 1200 1500# i6 _( v& q( {* ^$ U" K6 i0 R

    7 T4 }. @' ^) v箱2:1500 1800 2000 2300 ( h& ^5 l. N! n1 Q( s7 T; c

    ! t2 K" w. a2 Z4 ?- _6 ?箱3:2500 2800 3000 3500
    5 \. L: p0 W# \9 z2 ]9 X9 I8 a- ^% F, {7 q2 t- o% P6 X
    箱4:4000 4500 4800 5000   : @5 A( Q3 o; b' p# S% Q( a+ U

    0 k* J, @& ]6 {% b/ W  j统一区间:设定区间范围(箱子宽度)为1000元人民币,分箱后
    5 i4 n+ ~* |" L% v) r) N8 H& ?2 v' v8 `! c: z" L: }/ C: U
    箱1:800 1000 1200 1500 1500 1800- ^  S. _: d9 o: t

    ' I. F3 A" `( w/ O3 R' V% @箱2:2000 2300 2500 2800 3000' \* f! [3 W5 J1 W6 ~. \; O% P0 k
    ! O* `7 U' o" {8 W4 q9 b) e
    箱3:3500 4000 4500* r' A% \8 g( g9 h
    2 a' V1 b0 Z5 c5 y# Y. ~- ^
    箱4:4800 5000
    0 `, `+ @/ y5 C$ O, j; ?1 A. T& j6 D1 z- h
    用户自定义:如将客户收入划分为1000元以下、1000~2000、2000~3000、3000~4000和4000元以上几组,分箱后+ S! P; `  R; f1 X1 p- ]8 z8 Y

    " I$ y( Z2 ^5 V% _8 [箱1:800 , i! W; N2 ]  N) y

    1 |+ x5 E  o  |" j& w/ l箱2:1000 1200 1500 1500 1800 2000 2 X& s) `, v' W' Y" l  _, `7 c3 m

    / N# Y) Y, }  M. J' n  B& _箱3:2300 2500 2800 3000  
    % f( h# l; T. r3 V: m- P
    ' G) a1 p: P  q箱4:3500 4000
    # n4 d- Z7 [9 P- a, H, c
    0 r; C9 S" g& }0 J) l箱5:4500 4800 5000
    9 `' q& P0 `; d6 Y# @5 J, I& w2 b3 k9 k+ O$ L
    7.数据平滑方法:按平均值平滑、按边界值平滑和按中值平滑。
    9 C. p4 C6 k" K: }$ Y' ~* T- p$ W. V! i0 R. J) y9 A3 o) i  \
    ⑴按平均值平滑
    / K1 g1 n, Z4 @$ a  J
    $ [6 o9 N* F7 ?& @, d/ \对同一箱值中的数据求平均值,用平均值替代该箱子中的所有数据。
    9 v+ t- M+ s3 U; u$ U7 f! X* d8 K- r+ b" J( Q- @2 o, g. N) i
    ⑵按边界值平滑
    5 ^0 V1 P: l* u$ A/ ]/ v. \5 g' h% ^1 C0 b$ g& q3 o. P
    用距离较小的边界值替代箱中每一数据。
    ! d3 F$ Y7 ]1 l* c$ X' Y2 z# r# g
    ' ^5 L" `, c$ M, A⑶按中值平滑
    5 @  I: P: a( q* M) `% l* C. U5 H
    0 C6 B4 _2 |. i  I$ U! G取箱子的中值,用来替代箱子中的所有数据。 & d3 y6 x& O' F; ~2 ^. ^+ k

    / e  o) R9 N5 u3 y& G4 H8.聚类:将物理的或抽象对象的集合分组为由类似的对象组成的多个类。
    , a- h( q% g% l! N% J( o
    ! A6 k3 W% D: c% I找出并清除那些落在簇之外的值(孤立点),这些孤立点被视为噪声。
    $ \# p- t" p. E" H8 N6 r
    + r8 U, @: y7 C4 R9.回归;试图发现两个相关的变量之间的变化模式,通过使数据适合一个函数来平滑数据,即通过建立数学模型来预测下一个数值,包括线性回归和非线性回归。   # d2 G- M) v0 ~" {

    . a0 _$ g* X5 Y+ ~" o; k10.数据集成:将多文件或者多数据库中的异构数据进行合并,然后存放在一个一致的数据存储中。考虑以下几个问题: 1.模式匹配2.数据冗余3.数据值冲突 ' o( I3 \3 g2 ?* Z' D5 L
    % h1 \2 n' S1 F1 l
    11. 数据变换:1.平滑2.聚集3.数据概化4.规范化(1)最小-最大规范化(2)零-均值规范化(3)小数定标规范化5.属性构造
    , P3 ?' g. B, b. o" j' w
    1 T) H" g7 B; X" F- [12.数据集成:将多文件或者多数据库中的异构数据进行合并,然后存放在一个一致的数据存储中。考虑以下几个问题: 1.模式匹配2.数据冗余3.数据值冲突
    9 ^  f* _. V, b; ^3 @" W/ n" Z& `
    ' Y" d2 \1 g% C% F: ]3 q5 O* n; ~" T+ ~13.数据归约:目的是为了获得比原始数据小的多的,但不破坏数据完整性的挖掘数据集,该数据集可以得到与原始数据相同的挖掘结果。 ; l4 G$ p5 p2 {. Z2 i$ W' D+ p
    & N# i4 k" h0 a0 r5 K
    数据归约的方法: 1.数据立方体聚集:把聚集的方法用于数据立方体。2.维归约:检测并删除不相关、弱相关或冗余属性。3.数据压缩:选择正确的编码压缩数据集。4.数值压缩:用较小的数据表示数据,或采用较短的数据单位,或者用数据模型代表数据。5.离散化和概念分层生成:使连续的数据离散化,用确定的有限个区段值代替原始值;概念分层是指用较高层次的概念替换低层次的概念,以此来减少取值个数。
    $ f; ~/ Z: D+ X+ w* g# l
    ' [& k/ v' l( j8 O4 u* c14.数据立方体聚集 :是数据的多维建模和表示,由维和事实组成。
    ' n0 O; U5 K$ L6 {1 g- e: d( ?. w5 F6 i, R4 I! S; k# W- H. h
    维归约:去掉不相关的属性,减少数据挖掘处理的数据量。
    / t# J$ i/ _/ Q4 ?$ d% l: L- x1 m( Q* y! f- o5 w% |1 M7 {
    属性子集选择的基本方法包括以下几种: 1.逐步向前选择2.逐步向后删除3.向前选择和向后删除结合4.判定树归纳5.基于统计分析的归约   ' d( L4 \6 e  W: m+ A7 V9 i
    ) _3 g3 [+ c$ L" r2 C+ p, t
    数据压缩:方法分为两类:无损压缩和有损压缩
    9 @$ e/ b& x% L( R' F% t) S& U; b5 v' l$ z" @# C
    数值归约常用的方法: 1.直方图2.聚类3.抽样:不放回简单随机抽样、放回简单随机抽样、聚类抽样和分层抽样4.线性回归5.非线性回归     
    ' B5 a; M9 J: N) o: I
    ! u9 c) `9 W" p* A15.数据变换涉及以下几个方面:1.平滑2.聚集3.数据概化4.规范化(1)最小-最大规范化(2)零-均值规范化(3)小数定标规范化5.属性构造
    / [# I8 r! x6 _. ?; R3 ^7 t
    / M# N: t3 n1 v7 c8 x/ l# h*规范化:(1)最小—最大规范化。原取值区间 [old_min,old_max],规范化后的新的取值区间[new_min,new_max]。
    ' g) X, e/ f) e* r4 T. {
    : c! m* i$ g, u9 p! v( U- px’=  其中:x是属性的真实值,x’是规范化后的值。+ ?8 u8 Z9 m* h9 w$ `  d
    8 W$ b  W" I& w1 V7 h0 P
    例如:“客户背景数据”表中的客户月收入income属性的实际值范围为[12000,98000],要把这个属性值规范到[0,1],对属性值73600应用上述公式:: t" ^+ p6 {( l! v+ [5 L

    6 W( \/ ~9 t. ]x’=(1.0-0)+0=0.716; J( s4 g. W  h" E0 `
    6 F6 W  G9 B& Z$ w
    根据精度要求保留小数(假设精度要求0.01),最终取值0.72就是属性值73600规范化后的值。
    . b- ^8 }6 G$ [2 u
    - X" m" {' \' }. F (2)零—均值规范化(z—score规范化),是根据属性值的平均值和标准差进行规范化,即:9 V7 s/ ^8 F' m0 d' @. B" x; l! B9 I3 B

    1 G& E$ P- L& K' G( kx’=   =  =    为所有样本属性值的平均值,为样本的标准差。当属性值范围未知的时候,可以使用此方法进行规范化。8 W% j* M: Q- h4 E
    2 N; m% X) }/ ~4 {# Z
        例:假设某属性的平均值和标准差分别为80、25,采用零-均值规范化66为:x’==-0.56
    9 w0 R/ D+ Q% C8 e" D6 V
    ; W; H' l4 s/ }- |(3)小数定标规范化:通过移动属性A的小数点位置进行规范化 。
    " I, D3 U& R5 Q# I' n( C3 U0 P+ j( ~8 {4 _
    x’= 为满足式<1的最小整数。$ l% `7 L7 Q' o; T5 t
    7 q9 R) y( n) f6 x/ v
    例:假设某属性规范化前的取值范围为[-120,110],采用小数定标规范化66。由于该属性的最大绝对值为120,则由<1可得出=3,因此,66规范化后为:x’==0.066! a- Y- K$ l4 t5 y% C( {
    ————————————————
    " l7 E8 u6 |2 q5 j+ K版权声明:本文为CSDN博主「搬砖老头」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
    & M: L0 }: _" s: h& k$ M- G, l6 p原文链接:https://blog.csdn.net/wang1127248268/article/details/53571956# }! o7 `- U" U. A& I9 D4 u( U
    ) u6 E3 Y" t: x
    6 S8 e, S, Z) @: ?
    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏2 支持支持0 反对反对0 微信微信

    1

    主题

    3

    听众

    169

    积分

    升级  34.5%

  • TA的每日心情
    擦汗
    2023-9-25 13:50
  • 签到天数: 67 天

    [LV.6]常住居民II

    国际赛参赛者

    网络挑战赛参赛者

    自我介绍
    热爱数学建模
    回复

    使用道具 举报

    德古拉        

    2

    主题

    4

    听众

    165

    积分

    升级  32.5%

  • TA的每日心情
    奋斗
    2025-12-3 23:13
  • 签到天数: 127 天

    [LV.7]常住居民III

    国际赛参赛者

    自我介绍
    嘶嘶。。。
    回复

    使用道具 举报

    浅夏110 实名认证       

    542

    主题

    15

    听众

    1万

    积分

  • TA的每日心情
    开心
    2020-11-14 17:15
  • 签到天数: 74 天

    [LV.6]常住居民II

    邮箱绑定达人

    群组2019美赛冲刺课程

    群组站长地区赛培训

    群组2019考研数学 桃子老师

    群组2018教师培训(呼伦贝

    群组2019考研数学 站长系列

    huangyanzuo 发表于 2020-5-19 12:06
    4 P% i5 W& h7 @9 Q7 ?棒!棒!棒!棒!棒!棒!棒!棒!
    ; {) {8 y8 Q* m0 a/ `
    / M& B8 @: E, y4 i+ ^
    回复

    使用道具 举报

    浅夏110 实名认证       

    542

    主题

    15

    听众

    1万

    积分

  • TA的每日心情
    开心
    2020-11-14 17:15
  • 签到天数: 74 天

    [LV.6]常住居民II

    邮箱绑定达人

    群组2019美赛冲刺课程

    群组站长地区赛培训

    群组2019考研数学 桃子老师

    群组2018教师培训(呼伦贝

    群组2019考研数学 站长系列

    回复

    使用道具 举报

    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2026-6-9 20:08 , Processed in 0.402937 second(s), 73 queries .

    回顶部