QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 1732|回复: 4
打印 上一主题 下一主题

数据挖掘中的数据预处理方法总结

[复制链接]
字体大小: 正常 放大
浅夏110 实名认证       

542

主题

15

听众

1万

积分

  • TA的每日心情
    开心
    2020-11-14 17:15
  • 签到天数: 74 天

    [LV.6]常住居民II

    邮箱绑定达人

    群组2019美赛冲刺课程

    群组站长地区赛培训

    群组2019考研数学 桃子老师

    群组2018教师培训(呼伦贝

    群组2019考研数学 站长系列

    跳转到指定楼层
    1#
    发表于 2020-5-19 09:40 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta |邮箱已经成功绑定
    1.原始数据存在的几个问题:不一致;重复;含噪声;维度高。
    1 ]4 `% C3 _  q; N- U
    & x8 O! c" P5 @9 x5 w2.数据预处理包含数据清洗、数据集成、数据变换和数据归约几种方法。
    " h& c3 P' F8 P
    7 Y( }3 n( n- \5 ~3.数据挖掘中使用的数据的原则
    / I  f9 |8 ]) S% G6 k! E% Z( g( h4 M: K8 e/ Q
    应该是从原始数据中选取合适的属性作为数据挖掘属性,这个选取过程应参考的原则是:尽可能赋予属性名和属性值明确的含义;统一多数据源的属性值编码;去除惟一属性;去除重复性;去除可忽略字段;合理选择关联字段。
    ' v* B8 `6 r3 T! @. O4 b' ~% J7 O. m; U
    4.处理空缺值的方法:忽略该记录;去掉属性;手工填写空缺值;使用默认值;使用属性平均值;使用同类样本平均值;预测最可能的值。
    ( o7 H' r. t: F9 a4 s+ F1 n  r* w1 y" }& L
    5.噪声数据的处理方法:分箱;聚类;计算机和人工检查结合;回归" n( Q3 L8 a9 z$ p7 H0 Z

    + A/ r4 o- H0 G- {. N6.分箱:分箱方法是一种简单常用的预处理方法,通过考察相邻数据来确定最终值。所谓“分箱”,实际上就是按照属性值划分的子区间,如果一个属性值处于某个子区间范围内,就称把该属性值放进这个子区间所代表的“箱子”内。把待处理的数据(某列属性值)按照一定的规则放进一些箱子中,考察每一个箱子中的数据,采用某种方法分别对各个箱子中的数据进行处理。在采用分箱技术时,需要确定的两个主要问题就是:如何分箱以及如何对每个箱子中的数据进行平滑处理。
    : G' }$ _' }* u! f0 G7 d
    . l$ ]$ B8 r- _, s' J分箱的方法:有4种:等深分箱法、等宽分箱法、最小熵法和用户自定义区间法。
    9 W3 C5 L8 w# [' h: d$ H! B2 [& C9 V- X
    统一权重,也成等深分箱法,将数据集按记录行数分箱,每箱具有相同的记录数,每箱记录数称为箱子的深度。这是最简单的一种分箱方法。
    : Q% K, [6 G, m7 G  c4 l/ l/ W) b7 }
    统一区间,也称等宽分箱法,使数据集在整个属性值的区间上平均分布,即每个箱的区间范围是一个常量,称为箱子宽度。" o+ v" J' y5 w6 |, K: c

    2 k2 r' N8 F7 R! P  d" j& ^" O用户自定义区间,用户可以根据需要自定义区间,当用户明确希望观察某些区间范围内的数据分布时,使用这种方法可以方便地帮助用户达到目的。
    ( @+ V5 C; b. J. L+ k( k/ M9 y( ?" h6 a2 O6 H: \9 l" Y
    例:客户收入属性income排序后的值(人民币元):800 1000 1200 1500  1500 1800 2000 2300 2500 2800 3000 3500 4000 4500 4800 5000,分箱的结果如下。: ^- _4 X3 h% e5 b4 P6 d" b$ `

    # F/ J. w3 s# x/ {8 [统一权重:设定权重(箱子深度)为4,分箱后  U: x; p* C" V1 U

    ' L" {7 X. w$ h9 z' s' d# z箱1:800 1000 1200 15006 w+ u1 r: B/ o$ w" {, Z
    1 e' v1 Q2 h8 ?% A5 t: ~- {- X! ^
    箱2:1500 1800 2000 2300 0 d( m: G& a8 g3 |4 z4 _! i& m

    : v& A2 n1 n8 Q2 {" q4 x箱3:2500 2800 3000 3500- J( Q; C9 J/ n

    6 V- l; ?( O7 |8 c! w5 V0 C箱4:4000 4500 4800 5000   5 {3 e( E3 O8 ?

    " d6 M, f) T. p" c' v8 K6 j% S统一区间:设定区间范围(箱子宽度)为1000元人民币,分箱后6 n: E! T' {$ [, x- ?3 {$ S

    ! H+ I+ {( I+ e( z箱1:800 1000 1200 1500 1500 1800+ {  V* E9 U& B

    ! q9 m7 o# o3 P9 @: _箱2:2000 2300 2500 2800 3000
    : H& p% H% o- {* S0 @; C6 s: y: O6 X" @' m/ E+ f- j, m  v& I
    箱3:3500 4000 4500
    + y2 @; t8 F8 c3 e$ D8 u, C. b- u! Y
    箱4:4800 5000
    . W0 H* G- f! e
    + n$ C! W: n# ^, V用户自定义:如将客户收入划分为1000元以下、1000~2000、2000~3000、3000~4000和4000元以上几组,分箱后
    - J) b: m/ f4 ]$ r
    " i, p, q/ O+ S, m箱1:800
    : q0 e2 R! {5 q  F( Y
    4 e5 R# U5 A" y箱2:1000 1200 1500 1500 1800 2000
    ( Q+ b& W, L7 z& B) S4 v4 p; V. h) l3 m; ]- g4 v7 W6 V! q
    箱3:2300 2500 2800 3000  
    , E0 B4 u& f9 l$ r, O+ b; s
    2 y, S5 [9 J/ d- L. h' x箱4:3500 4000
    2 ~5 z+ C' f8 J4 O; f+ ]2 v3 I1 _# y) _+ D( V7 P
    箱5:4500 4800 5000 0 B) V0 E$ X& I- A& I
    6 E9 I5 q2 i) K% H
    7.数据平滑方法:按平均值平滑、按边界值平滑和按中值平滑。' N) B8 b; h$ r- L" V! u1 n

    , [2 j) T' H, c0 r  S⑴按平均值平滑
    - p6 u" G. R% G+ C/ `: t. t- t6 c  J
    2 J! J/ C7 q) a5 U  k+ l& H4 H# D对同一箱值中的数据求平均值,用平均值替代该箱子中的所有数据。 , h* e# p* e# k8 q/ b1 F
    ( ]! f" e8 J2 c: U! F. o. B
    ⑵按边界值平滑
    * D9 R) V4 q! ], e$ h" ~3 r* w0 f; j  N: c8 Q( _( {
    用距离较小的边界值替代箱中每一数据。 . k% ?6 l% ?3 B8 A  \8 _- E" t
    0 `( M9 b2 q; ~" j
    ⑶按中值平滑
      v' W! S/ h1 `( F6 g9 A/ s) |( |/ `/ I# D1 n$ X
    取箱子的中值,用来替代箱子中的所有数据。
    & w+ T% B, B% U
    - R6 T7 z) Q  d8.聚类:将物理的或抽象对象的集合分组为由类似的对象组成的多个类。% i. d  s( C) f( U% `
    . I( v8 s0 r/ ]2 d" s* ~8 u9 a
    找出并清除那些落在簇之外的值(孤立点),这些孤立点被视为噪声。
    + i( _( ]! _  v- m" x
    / p9 [  [) w7 f2 U6 K9.回归;试图发现两个相关的变量之间的变化模式,通过使数据适合一个函数来平滑数据,即通过建立数学模型来预测下一个数值,包括线性回归和非线性回归。   4 V, m' \9 u2 `4 z( Z

    # ~" i+ C  X. V& R( C2 u10.数据集成:将多文件或者多数据库中的异构数据进行合并,然后存放在一个一致的数据存储中。考虑以下几个问题: 1.模式匹配2.数据冗余3.数据值冲突 6 J' p1 ~+ r1 ~
    , N$ `; e! [6 X3 m& B. h" }3 D
    11. 数据变换:1.平滑2.聚集3.数据概化4.规范化(1)最小-最大规范化(2)零-均值规范化(3)小数定标规范化5.属性构造
    8 ?. q4 j$ b1 h& m8 F5 E; k1 k$ @3 ]. j8 E7 k3 L
    12.数据集成:将多文件或者多数据库中的异构数据进行合并,然后存放在一个一致的数据存储中。考虑以下几个问题: 1.模式匹配2.数据冗余3.数据值冲突
    : S  T3 P5 G7 j1 W" J
    0 J1 ^( H# _. f+ Z13.数据归约:目的是为了获得比原始数据小的多的,但不破坏数据完整性的挖掘数据集,该数据集可以得到与原始数据相同的挖掘结果。
    6 X: r0 u0 j# X
    , O# r! \# ~+ g5 b- s+ F+ F5 L数据归约的方法: 1.数据立方体聚集:把聚集的方法用于数据立方体。2.维归约:检测并删除不相关、弱相关或冗余属性。3.数据压缩:选择正确的编码压缩数据集。4.数值压缩:用较小的数据表示数据,或采用较短的数据单位,或者用数据模型代表数据。5.离散化和概念分层生成:使连续的数据离散化,用确定的有限个区段值代替原始值;概念分层是指用较高层次的概念替换低层次的概念,以此来减少取值个数。
    / l& v4 T2 G& Y9 f  j" g& o, y, I  F2 j* h& S5 I. y: n
    14.数据立方体聚集 :是数据的多维建模和表示,由维和事实组成。
    $ o) a. o5 {4 o) V5 W: e
    4 b5 z, F2 |' q维归约:去掉不相关的属性,减少数据挖掘处理的数据量。 # I3 S7 F! G1 Z* ]4 G. ~
    ) i3 t# a- l9 m: E% W4 Q1 y& C
    属性子集选择的基本方法包括以下几种: 1.逐步向前选择2.逐步向后删除3.向前选择和向后删除结合4.判定树归纳5.基于统计分析的归约   
    7 I! _5 s* |! \1 p) P# j5 ~- h7 o5 n: D3 X; e2 b
    数据压缩:方法分为两类:无损压缩和有损压缩
    # a0 b, _7 V( j7 h. M
    # a$ ]+ o% m6 \1 O" i+ X/ W数值归约常用的方法: 1.直方图2.聚类3.抽样:不放回简单随机抽样、放回简单随机抽样、聚类抽样和分层抽样4.线性回归5.非线性回归       F2 z1 A* Q4 k$ D+ m

    1 \; f& V/ F& }; f$ ~15.数据变换涉及以下几个方面:1.平滑2.聚集3.数据概化4.规范化(1)最小-最大规范化(2)零-均值规范化(3)小数定标规范化5.属性构造
    5 F; Y" n1 C, }5 G9 }2 ]) @' k' `4 ?# @) D8 Y$ }+ y' L8 N
    *规范化:(1)最小—最大规范化。原取值区间 [old_min,old_max],规范化后的新的取值区间[new_min,new_max]。
    9 V. f. r# |. T2 R5 p# y
    / \5 ?% ~" f5 M. a. F& ~* W; \x’=  其中:x是属性的真实值,x’是规范化后的值。& ?1 s7 K% G% Y+ Q

    : L7 ~9 t: w% A% {1 g例如:“客户背景数据”表中的客户月收入income属性的实际值范围为[12000,98000],要把这个属性值规范到[0,1],对属性值73600应用上述公式:
    6 `( `2 x; e  {9 d4 S  ~; B* G5 Y( J, T# C% K- U' n( R( y
    x’=(1.0-0)+0=0.716
    0 |5 r- u, ]. P, S( M3 S: Q% h0 K& D! k
    根据精度要求保留小数(假设精度要求0.01),最终取值0.72就是属性值73600规范化后的值。
    + M3 E" y1 o5 q& k
    . F3 ~/ r* V: z1 e2 I- Z (2)零—均值规范化(z—score规范化),是根据属性值的平均值和标准差进行规范化,即:: C& {7 r% n5 H; K8 J9 Y! l

    . i3 R, \3 G) Qx’=   =  =    为所有样本属性值的平均值,为样本的标准差。当属性值范围未知的时候,可以使用此方法进行规范化。
    7 ]' S# R) u, R1 L. @1 X6 r6 h; [
        例:假设某属性的平均值和标准差分别为80、25,采用零-均值规范化66为:x’==-0.56  P2 r' H( f8 }7 C6 h4 S3 S
    5 V3 ^; y& ?/ A8 W) V  A) B
    (3)小数定标规范化:通过移动属性A的小数点位置进行规范化 。' [( Z0 o; R3 L  Y
    ; j3 P  n8 `. J3 b
    x’= 为满足式<1的最小整数。
    5 j0 B8 `* B' j# r* k/ @; F1 N3 G
    例:假设某属性规范化前的取值范围为[-120,110],采用小数定标规范化66。由于该属性的最大绝对值为120,则由<1可得出=3,因此,66规范化后为:x’==0.066
    * m. U5 K/ ~0 |7 S————————————————: |7 \* l' E$ w
    版权声明:本文为CSDN博主「搬砖老头」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。% K4 C* u& c: H" B& X/ o: W1 T1 p
    原文链接:https://blog.csdn.net/wang1127248268/article/details/53571956
    * }; _1 j6 ~: i7 X4 t8 A" B" _: |/ O$ Q' u. y9 r1 L
    " }4 t7 p% V; p3 _# i7 H$ }, R0 |
    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏2 支持支持0 反对反对0 微信微信

    1

    主题

    3

    听众

    169

    积分

    升级  34.5%

  • TA的每日心情
    擦汗
    2023-9-25 13:50
  • 签到天数: 67 天

    [LV.6]常住居民II

    国际赛参赛者

    网络挑战赛参赛者

    自我介绍
    热爱数学建模
    回复

    使用道具 举报

    德古拉        

    2

    主题

    4

    听众

    142

    积分

    升级  21%

  • TA的每日心情
    奋斗
    2024-4-4 13:31
  • 签到天数: 115 天

    [LV.6]常住居民II

    国际赛参赛者

    自我介绍
    嘶嘶。。。
    回复

    使用道具 举报

    浅夏110 实名认证       

    542

    主题

    15

    听众

    1万

    积分

  • TA的每日心情
    开心
    2020-11-14 17:15
  • 签到天数: 74 天

    [LV.6]常住居民II

    邮箱绑定达人

    群组2019美赛冲刺课程

    群组站长地区赛培训

    群组2019考研数学 桃子老师

    群组2018教师培训(呼伦贝

    群组2019考研数学 站长系列

    huangyanzuo 发表于 2020-5-19 12:06 + C5 C/ E7 B+ G9 \6 k
    棒!棒!棒!棒!棒!棒!棒!棒!

    5 p$ X) A. _0 p6 V* v3 i' Z1 h. U4 U. I$ o. t; Y( f3 M
    回复

    使用道具 举报

    浅夏110 实名认证       

    542

    主题

    15

    听众

    1万

    积分

  • TA的每日心情
    开心
    2020-11-14 17:15
  • 签到天数: 74 天

    [LV.6]常住居民II

    邮箱绑定达人

    群组2019美赛冲刺课程

    群组站长地区赛培训

    群组2019考研数学 桃子老师

    群组2018教师培训(呼伦贝

    群组2019考研数学 站长系列

    回复

    使用道具 举报

    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2024-4-27 07:48 , Processed in 0.477916 second(s), 72 queries .

    回顶部