QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 2609|回复: 4
打印 上一主题 下一主题

数据挖掘中的数据预处理方法总结

[复制链接]
字体大小: 正常 放大
浅夏110 实名认证       

542

主题

15

听众

1万

积分

  • TA的每日心情
    开心
    2020-11-14 17:15
  • 签到天数: 74 天

    [LV.6]常住居民II

    邮箱绑定达人

    群组2019美赛冲刺课程

    群组站长地区赛培训

    群组2019考研数学 桃子老师

    群组2018教师培训(呼伦贝

    群组2019考研数学 站长系列

    跳转到指定楼层
    1#
    发表于 2020-5-19 09:40 |只看该作者 |正序浏览
    |招呼Ta 关注Ta |邮箱已经成功绑定
    1.原始数据存在的几个问题:不一致;重复;含噪声;维度高。
    " x) T- q0 b  }, a1 l3 }
    + I7 R. L) a  D% _: t  H9 ?. K2.数据预处理包含数据清洗、数据集成、数据变换和数据归约几种方法。" l. |9 \2 t8 @# D. d
    6 x" T4 C$ j+ ?# j( D, F3 @. A( Z
    3.数据挖掘中使用的数据的原则
    0 T) D' L/ U& p
    ; K! Y# |! Z# w应该是从原始数据中选取合适的属性作为数据挖掘属性,这个选取过程应参考的原则是:尽可能赋予属性名和属性值明确的含义;统一多数据源的属性值编码;去除惟一属性;去除重复性;去除可忽略字段;合理选择关联字段。/ Y  S1 Q$ x" p, `% k6 e/ d

    2 u5 ]  e1 X/ M. y; ]4.处理空缺值的方法:忽略该记录;去掉属性;手工填写空缺值;使用默认值;使用属性平均值;使用同类样本平均值;预测最可能的值。) l  V* q8 ]# M: c: X; w1 D

      G0 V& U: Z' C1 b/ f% r7 Q+ e5.噪声数据的处理方法:分箱;聚类;计算机和人工检查结合;回归
    9 w  l2 `+ I; N$ K2 B8 D" d- l# C  S7 E2 R. K) B( ~" X8 U
    6.分箱:分箱方法是一种简单常用的预处理方法,通过考察相邻数据来确定最终值。所谓“分箱”,实际上就是按照属性值划分的子区间,如果一个属性值处于某个子区间范围内,就称把该属性值放进这个子区间所代表的“箱子”内。把待处理的数据(某列属性值)按照一定的规则放进一些箱子中,考察每一个箱子中的数据,采用某种方法分别对各个箱子中的数据进行处理。在采用分箱技术时,需要确定的两个主要问题就是:如何分箱以及如何对每个箱子中的数据进行平滑处理。0 [5 ]0 E6 r+ e& f
    ) g8 k' D1 Y3 c: |2 F/ l
    分箱的方法:有4种:等深分箱法、等宽分箱法、最小熵法和用户自定义区间法。3 r# {0 h$ Z. S7 x! p* Z
    * T$ ]% @- z8 ?# i# C& Q
    统一权重,也成等深分箱法,将数据集按记录行数分箱,每箱具有相同的记录数,每箱记录数称为箱子的深度。这是最简单的一种分箱方法。2 I+ ?+ z' ^; G9 m% W

    5 x/ S  \4 _( s: \6 S6 b统一区间,也称等宽分箱法,使数据集在整个属性值的区间上平均分布,即每个箱的区间范围是一个常量,称为箱子宽度。4 [) z$ ^8 e& j+ Q

    * t5 p- C$ o; B8 E6 J( [2 y用户自定义区间,用户可以根据需要自定义区间,当用户明确希望观察某些区间范围内的数据分布时,使用这种方法可以方便地帮助用户达到目的。
    6 f2 {+ f* M) B) l/ \
    : D1 j) u* k) n, k4 x例:客户收入属性income排序后的值(人民币元):800 1000 1200 1500  1500 1800 2000 2300 2500 2800 3000 3500 4000 4500 4800 5000,分箱的结果如下。
    - O, |) U3 e& ^7 U! D: C! c' [4 T- a, ]0 `( w5 {' ]
    统一权重:设定权重(箱子深度)为4,分箱后. @* t8 t& I/ b/ a% M

    " m. m6 c4 J9 L9 i7 B箱1:800 1000 1200 1500
    . n; w3 ^  S, U; {, O% R7 h, B- R& Z8 }( o% w
    箱2:1500 1800 2000 2300
    2 n2 O% J8 v# a3 O0 }8 c/ e
    2 ?6 D! I7 q4 ?" M: q箱3:2500 2800 3000 3500: h( v* |1 z7 Z# T' T

    & b" K1 e* \  f- p1 Q9 O箱4:4000 4500 4800 5000   
    0 L$ `4 W( M: A4 ]$ Y+ v9 A9 E' U4 z. Q8 S
    统一区间:设定区间范围(箱子宽度)为1000元人民币,分箱后& r1 L8 P8 s6 G
    ; ?4 H% G0 [0 E5 |5 v' ~% g
    箱1:800 1000 1200 1500 1500 1800
    : y2 ~! Q) Z$ ^$ ~) ]; X  `! z4 Z+ l5 `
    箱2:2000 2300 2500 2800 3000( `  c- s: Q! C8 y
    4 v2 d3 C$ N+ o
    箱3:3500 4000 4500
    9 Z; W$ ~7 {$ P7 j$ O
    $ I7 b3 c* T- f7 q* X箱4:4800 5000
    2 s1 s" `8 T% c! k7 f& K, ?
    ! l* v7 O" a8 L* a用户自定义:如将客户收入划分为1000元以下、1000~2000、2000~3000、3000~4000和4000元以上几组,分箱后0 T: m0 N" j7 l- b+ B% s, ~+ l

    6 ]- ?3 r' d# w' d" |箱1:800 1 n+ m1 B) ^( W4 i
    ' G2 F7 z# U2 w; u6 p( {9 [/ J
    箱2:1000 1200 1500 1500 1800 2000
    . o. x8 `% M, b$ T4 v8 p; M4 y% Q( @( T' p" Q5 j
    箱3:2300 2500 2800 3000  
    & w9 D7 M6 U/ S6 j( j% E4 t7 f! M- a* r1 K1 c
    箱4:3500 4000 8 g# S! G6 q+ P6 I
    5 Y7 s5 ^/ o2 ~  k* Z
    箱5:4500 4800 5000
    ; N# p7 w; p) j2 v  N' R0 e6 G  A' _" m
    7.数据平滑方法:按平均值平滑、按边界值平滑和按中值平滑。
    ; I1 A6 {+ `+ D/ ~, e* D8 E2 f" q# g; w+ J
    ⑴按平均值平滑 ; ^0 o! X2 R/ K: ~
    6 G8 Y; g+ k, q6 p, |
    对同一箱值中的数据求平均值,用平均值替代该箱子中的所有数据。
    : n: j8 E$ H6 {3 C5 q7 a
    % H+ D) f  L1 M2 k$ s⑵按边界值平滑
    2 G1 Y# |% Y# z. w5 G# T) p4 O1 `
    ! A5 H2 j7 X# t用距离较小的边界值替代箱中每一数据。 - b1 K! d, `& C) F6 L7 [) y& Y0 a/ ?

    3 L) {  d* `# H⑶按中值平滑
    , y- {6 \. g/ i5 i. l0 I
    # P: v" C2 g) |8 G取箱子的中值,用来替代箱子中的所有数据。 3 X. R( L! J2 i  o) I5 H) }. G
    ! I6 s0 E4 S( l, |
    8.聚类:将物理的或抽象对象的集合分组为由类似的对象组成的多个类。
    ! K. ?4 L8 a6 h2 d  _' I+ [$ I3 c. Q* Z' |. ?  A) H  _) G
    找出并清除那些落在簇之外的值(孤立点),这些孤立点被视为噪声。
    & ?1 m2 E3 t5 S* D7 f7 V
    ! P4 z6 J+ D% R1 \- O+ G9.回归;试图发现两个相关的变量之间的变化模式,通过使数据适合一个函数来平滑数据,即通过建立数学模型来预测下一个数值,包括线性回归和非线性回归。   5 Y) ^- O$ g/ z/ C% w
    & d  Q- l* w3 M- o0 t1 e
    10.数据集成:将多文件或者多数据库中的异构数据进行合并,然后存放在一个一致的数据存储中。考虑以下几个问题: 1.模式匹配2.数据冗余3.数据值冲突 + l4 ?% b: m9 c  J1 O$ K6 a, n
    ' Z! i* S+ H/ t# I3 d1 M8 W' r
    11. 数据变换:1.平滑2.聚集3.数据概化4.规范化(1)最小-最大规范化(2)零-均值规范化(3)小数定标规范化5.属性构造
    ; j7 p4 `- Q' ?8 t) M) b8 |1 a" c% r3 p/ W' k7 o0 V) I! A+ N% P4 z
    12.数据集成:将多文件或者多数据库中的异构数据进行合并,然后存放在一个一致的数据存储中。考虑以下几个问题: 1.模式匹配2.数据冗余3.数据值冲突
    2 ^8 W, L/ `, |$ i4 m. J3 V" s/ m4 C8 }
    13.数据归约:目的是为了获得比原始数据小的多的,但不破坏数据完整性的挖掘数据集,该数据集可以得到与原始数据相同的挖掘结果。
    0 w+ e( ?1 O% ?- g# H$ |
    & N: f1 }1 ~  Z" h数据归约的方法: 1.数据立方体聚集:把聚集的方法用于数据立方体。2.维归约:检测并删除不相关、弱相关或冗余属性。3.数据压缩:选择正确的编码压缩数据集。4.数值压缩:用较小的数据表示数据,或采用较短的数据单位,或者用数据模型代表数据。5.离散化和概念分层生成:使连续的数据离散化,用确定的有限个区段值代替原始值;概念分层是指用较高层次的概念替换低层次的概念,以此来减少取值个数。2 S4 r4 U& y! A4 F

    " Q1 w* ]8 Q6 H) u- l14.数据立方体聚集 :是数据的多维建模和表示,由维和事实组成。 2 M) Y1 _) p& G2 v

    , H1 G1 h( k/ A$ a) _; V维归约:去掉不相关的属性,减少数据挖掘处理的数据量。 - E" @7 @4 Z7 ~) n* p

    , ?9 y8 [7 d  F2 X( W属性子集选择的基本方法包括以下几种: 1.逐步向前选择2.逐步向后删除3.向前选择和向后删除结合4.判定树归纳5.基于统计分析的归约   2 [* ~4 O8 b) P# P5 H
    6 i- a; Q8 g5 @# U6 r
    数据压缩:方法分为两类:无损压缩和有损压缩6 O+ o- |6 p1 |' T) Y

    ) a, p, c  |- J% ^3 @8 n数值归约常用的方法: 1.直方图2.聚类3.抽样:不放回简单随机抽样、放回简单随机抽样、聚类抽样和分层抽样4.线性回归5.非线性回归     
    * S3 `+ ]. g$ Y& C# s' I
    8 ?3 D9 p) l( }  }5 v15.数据变换涉及以下几个方面:1.平滑2.聚集3.数据概化4.规范化(1)最小-最大规范化(2)零-均值规范化(3)小数定标规范化5.属性构造' Z- U: a+ @2 O7 n, s# F
    ' T/ O+ f' D  ^& f9 D
    *规范化:(1)最小—最大规范化。原取值区间 [old_min,old_max],规范化后的新的取值区间[new_min,new_max]。
    + X" u+ X* N; _5 @7 f' [# L5 L6 j0 |/ X
    x’=  其中:x是属性的真实值,x’是规范化后的值。
    ; U3 G& ^. z4 i2 ]( ?5 {7 e. \+ s9 E4 \2 M, A4 I! S7 r% ?
    例如:“客户背景数据”表中的客户月收入income属性的实际值范围为[12000,98000],要把这个属性值规范到[0,1],对属性值73600应用上述公式:, B- F7 d) Z# s" m7 v7 M( M

    4 Y$ D: Q) @" o8 q; F' k' U4 ex’=(1.0-0)+0=0.716! t9 d; F! j% v! b' W
    + n7 L( S9 i9 K  n0 j7 @2 m
    根据精度要求保留小数(假设精度要求0.01),最终取值0.72就是属性值73600规范化后的值。
    ! h, s5 y- G6 ], k# K1 g% a; N& S8 o: D2 n8 x6 X. {
    (2)零—均值规范化(z—score规范化),是根据属性值的平均值和标准差进行规范化,即:
    . ^, {; X* e" r: t
    , ?3 ]; ^" q" U' u. e2 ax’=   =  =    为所有样本属性值的平均值,为样本的标准差。当属性值范围未知的时候,可以使用此方法进行规范化。( U: K8 }( K$ e+ F
    / b5 N9 G. U6 {9 Z' Q: j$ p
        例:假设某属性的平均值和标准差分别为80、25,采用零-均值规范化66为:x’==-0.564 i  Z/ t! |: L& Z$ r# r

    . R" F9 P" i$ m' S% b(3)小数定标规范化:通过移动属性A的小数点位置进行规范化 。
    0 ~+ l' L" B- v! B- N0 w( S1 F' h4 Z
    x’= 为满足式<1的最小整数。
    4 w- r- `( e) \
    2 ^  X& S% ?* y8 I9 g例:假设某属性规范化前的取值范围为[-120,110],采用小数定标规范化66。由于该属性的最大绝对值为120,则由<1可得出=3,因此,66规范化后为:x’==0.066
    7 n3 U1 c- g8 }/ y1 L8 G————————————————
    + I$ m- F. ]2 |6 K版权声明:本文为CSDN博主「搬砖老头」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
    % ]- W3 R2 p  G6 b2 J3 z  q原文链接:https://blog.csdn.net/wang1127248268/article/details/53571956
    # A) @! W" O* j- g' l
    ) H2 @4 v1 `* i
    5 R7 }% S8 B2 A( ?8 V1 n4 D2 D
    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏2 支持支持0 反对反对0 微信微信
    浅夏110 实名认证       

    542

    主题

    15

    听众

    1万

    积分

  • TA的每日心情
    开心
    2020-11-14 17:15
  • 签到天数: 74 天

    [LV.6]常住居民II

    邮箱绑定达人

    群组2019美赛冲刺课程

    群组站长地区赛培训

    群组2019考研数学 桃子老师

    群组2018教师培训(呼伦贝

    群组2019考研数学 站长系列

    回复

    使用道具 举报

    浅夏110 实名认证       

    542

    主题

    15

    听众

    1万

    积分

  • TA的每日心情
    开心
    2020-11-14 17:15
  • 签到天数: 74 天

    [LV.6]常住居民II

    邮箱绑定达人

    群组2019美赛冲刺课程

    群组站长地区赛培训

    群组2019考研数学 桃子老师

    群组2018教师培训(呼伦贝

    群组2019考研数学 站长系列

    huangyanzuo 发表于 2020-5-19 12:06   ~' U' r: ?# j0 n" a  w: V
    棒!棒!棒!棒!棒!棒!棒!棒!
    # ^1 I6 o. ]9 J% L$ L
    ( \* Z8 r& a! ]: i7 T; E. Q
    回复

    使用道具 举报

    德古拉        

    2

    主题

    4

    听众

    165

    积分

    升级  32.5%

  • TA的每日心情
    奋斗
    2025-12-3 23:13
  • 签到天数: 127 天

    [LV.7]常住居民III

    国际赛参赛者

    自我介绍
    嘶嘶。。。
    回复

    使用道具 举报

    1

    主题

    3

    听众

    169

    积分

    升级  34.5%

  • TA的每日心情
    擦汗
    2023-9-25 13:50
  • 签到天数: 67 天

    [LV.6]常住居民II

    国际赛参赛者

    网络挑战赛参赛者

    自我介绍
    热爱数学建模
    回复

    使用道具 举报

    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2026-6-10 04:50 , Processed in 0.425826 second(s), 73 queries .

    回顶部