QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 2567|回复: 4
打印 上一主题 下一主题

数据挖掘中的数据预处理方法总结

[复制链接]
字体大小: 正常 放大
浅夏110 实名认证       

542

主题

15

听众

1万

积分

  • TA的每日心情
    开心
    2020-11-14 17:15
  • 签到天数: 74 天

    [LV.6]常住居民II

    邮箱绑定达人

    群组2019美赛冲刺课程

    群组站长地区赛培训

    群组2019考研数学 桃子老师

    群组2018教师培训(呼伦贝

    群组2019考研数学 站长系列

    跳转到指定楼层
    1#
    发表于 2020-5-19 09:40 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta |邮箱已经成功绑定
    1.原始数据存在的几个问题:不一致;重复;含噪声;维度高。, O5 k7 `4 u8 l4 G! Y" D- G) X

    2 S& V  A2 v" r4 i0 T% K% {( ~% O- _* @2.数据预处理包含数据清洗、数据集成、数据变换和数据归约几种方法。
    3 O7 I1 E0 k- ^' i* J& H+ N/ x# D2 }# D
    3.数据挖掘中使用的数据的原则
    * U* W8 [/ E# R, R: `1 H: R' Z' j0 J" s) P8 b
    应该是从原始数据中选取合适的属性作为数据挖掘属性,这个选取过程应参考的原则是:尽可能赋予属性名和属性值明确的含义;统一多数据源的属性值编码;去除惟一属性;去除重复性;去除可忽略字段;合理选择关联字段。
    # j- s9 N% z( ?3 G5 P* f3 ?  B7 o% a3 l$ c7 A2 w% ]
    4.处理空缺值的方法:忽略该记录;去掉属性;手工填写空缺值;使用默认值;使用属性平均值;使用同类样本平均值;预测最可能的值。3 l# u  t4 e, J+ s  R8 [
    , s% B* O- L5 x% y  [) q* u
    5.噪声数据的处理方法:分箱;聚类;计算机和人工检查结合;回归: H+ {7 n4 ?0 o

    + v8 \/ Q3 X1 V6.分箱:分箱方法是一种简单常用的预处理方法,通过考察相邻数据来确定最终值。所谓“分箱”,实际上就是按照属性值划分的子区间,如果一个属性值处于某个子区间范围内,就称把该属性值放进这个子区间所代表的“箱子”内。把待处理的数据(某列属性值)按照一定的规则放进一些箱子中,考察每一个箱子中的数据,采用某种方法分别对各个箱子中的数据进行处理。在采用分箱技术时,需要确定的两个主要问题就是:如何分箱以及如何对每个箱子中的数据进行平滑处理。& A0 D6 O7 k$ Q7 ?( ^) r: v
    & w) b# e* H  O
    分箱的方法:有4种:等深分箱法、等宽分箱法、最小熵法和用户自定义区间法。$ G, t! D% }7 R) l% ^1 O& B8 Q
    . W- H2 @- n8 \  z% O8 u# V
    统一权重,也成等深分箱法,将数据集按记录行数分箱,每箱具有相同的记录数,每箱记录数称为箱子的深度。这是最简单的一种分箱方法。
      p+ R0 o# M* T4 K3 z( z8 [; f  w0 J! y) h) I
    统一区间,也称等宽分箱法,使数据集在整个属性值的区间上平均分布,即每个箱的区间范围是一个常量,称为箱子宽度。4 d6 L/ b! k# z2 L+ m& s; ?; P: l
    " I- k, m/ K/ @1 p0 Y1 \) w
    用户自定义区间,用户可以根据需要自定义区间,当用户明确希望观察某些区间范围内的数据分布时,使用这种方法可以方便地帮助用户达到目的。0 G/ y! f9 u6 R  z. v
    & l6 d2 `% w6 B# q% [  t
    例:客户收入属性income排序后的值(人民币元):800 1000 1200 1500  1500 1800 2000 2300 2500 2800 3000 3500 4000 4500 4800 5000,分箱的结果如下。
    7 u/ U; [3 v. ]. ~; h# C5 F5 R
    * T* G" J7 ~  e4 ?. _* f统一权重:设定权重(箱子深度)为4,分箱后
    ! h0 P7 `- M: j1 _2 U* a& q7 \- [8 \* X6 Z
    箱1:800 1000 1200 1500% n! H9 Z5 O7 }. Q- K7 C5 b
    ' G4 ~* e% F0 R3 _  i) @1 V
    箱2:1500 1800 2000 2300 & E3 p0 I: x) R5 l% O7 L
      L9 I( }2 H% a6 A# N8 j  {
    箱3:2500 2800 3000 3500
    9 v' v; f* H8 C: q+ R8 o7 t/ V% F$ J6 E. c" z! C' \
    箱4:4000 4500 4800 5000   " m1 C* `: `( P% Y
    . c* ]/ C5 P4 S& c3 z
    统一区间:设定区间范围(箱子宽度)为1000元人民币,分箱后5 B/ A$ K+ c! T; R# H

    3 C3 w9 [0 X" w7 X$ T箱1:800 1000 1200 1500 1500 18006 v4 U" R5 z1 B1 O

    & ?2 B: E6 K4 L) c" w& N/ v箱2:2000 2300 2500 2800 30007 j5 A3 Z' q) b' u1 Y
    $ P4 ?6 e& k  g
    箱3:3500 4000 4500% }$ X- g4 @2 W) u6 _# @7 {8 u
    9 R3 R6 z2 Y; D! K1 S" X* i
    箱4:4800 5000
    * E) A8 L. @2 c& b( |. V+ T0 ^- X: a' A2 V& F: J& _
    用户自定义:如将客户收入划分为1000元以下、1000~2000、2000~3000、3000~4000和4000元以上几组,分箱后
    . l/ u* \3 ]; |( d
    % |$ N; f3 T* j, W8 U/ c箱1:800
    & a$ |4 r  S0 }- h& {+ P4 ^; F- W5 U$ A6 ?: c2 _% v- z# e
    箱2:1000 1200 1500 1500 1800 2000
    - N; u- h9 s/ v3 Z1 J6 V8 m. g
    1 q8 ^6 E3 @* O: \$ P箱3:2300 2500 2800 3000  
    5 W$ v. n! n! X' C: e9 u% z# x( N) D  M
    箱4:3500 4000
    ) X2 A5 d* ]+ o/ l$ [" w; t( B! K6 M9 D5 Y! Y/ i1 I+ n- {/ |
    箱5:4500 4800 5000 ! ], a) i" t6 m0 e
    ' ^2 ~0 j1 Q1 Y
    7.数据平滑方法:按平均值平滑、按边界值平滑和按中值平滑。2 k$ T  Q4 g6 q$ h3 r. s9 a, c
    - l. {" i4 U1 t# ~2 R
    ⑴按平均值平滑 3 `: s  L  E, T. e
    ) r, a- L, m7 F0 p8 z3 b
    对同一箱值中的数据求平均值,用平均值替代该箱子中的所有数据。
    * H7 u5 X7 {  e) ]  L1 w$ O
    5 P& e) u4 j# m1 m8 n7 s& c⑵按边界值平滑 ; V) O, q- E9 C- {$ l
    5 N3 D4 s0 ~' B
    用距离较小的边界值替代箱中每一数据。
    1 W/ s: m5 h1 D5 \5 Q8 o
    ) o; l( Z& R7 f; t0 U" ~⑶按中值平滑 0 _) U1 f! z* r  C3 j! o- H

    " C  H" A  {  d" D取箱子的中值,用来替代箱子中的所有数据。
    $ i$ [% F7 y# o; S; k8 ~7 J% r2 H7 A4 {& u8 |* w
    8.聚类:将物理的或抽象对象的集合分组为由类似的对象组成的多个类。- z; f) K4 R' X4 W8 a7 Y7 b8 D3 ?

    & s$ t9 x- z' n* a找出并清除那些落在簇之外的值(孤立点),这些孤立点被视为噪声。
    ! g2 Y9 D7 d9 M  e- i3 Q% o% h4 c& S8 h2 M8 s. j" I: T
    9.回归;试图发现两个相关的变量之间的变化模式,通过使数据适合一个函数来平滑数据,即通过建立数学模型来预测下一个数值,包括线性回归和非线性回归。   ! I2 B& l! \5 e+ f* `; x
    ( S# u3 u  r0 _1 m$ M3 N
    10.数据集成:将多文件或者多数据库中的异构数据进行合并,然后存放在一个一致的数据存储中。考虑以下几个问题: 1.模式匹配2.数据冗余3.数据值冲突
    : n/ Q/ Y7 i* {4 \7 R3 c0 H: d; g8 B; I$ ]* I7 e
    11. 数据变换:1.平滑2.聚集3.数据概化4.规范化(1)最小-最大规范化(2)零-均值规范化(3)小数定标规范化5.属性构造/ x& E- ]6 A# v+ c) L/ o

    6 ~% N5 ~+ L1 H  S+ D5 G3 Z: Y2 Z12.数据集成:将多文件或者多数据库中的异构数据进行合并,然后存放在一个一致的数据存储中。考虑以下几个问题: 1.模式匹配2.数据冗余3.数据值冲突 ; m8 ~  V# p6 W9 S( O% w3 G! k+ D' W! b

    / R4 x/ L  l- n. t) z13.数据归约:目的是为了获得比原始数据小的多的,但不破坏数据完整性的挖掘数据集,该数据集可以得到与原始数据相同的挖掘结果。
    3 @# }0 G* @4 J3 r
    - J  `- I: Y8 L) I, H9 m! {, C数据归约的方法: 1.数据立方体聚集:把聚集的方法用于数据立方体。2.维归约:检测并删除不相关、弱相关或冗余属性。3.数据压缩:选择正确的编码压缩数据集。4.数值压缩:用较小的数据表示数据,或采用较短的数据单位,或者用数据模型代表数据。5.离散化和概念分层生成:使连续的数据离散化,用确定的有限个区段值代替原始值;概念分层是指用较高层次的概念替换低层次的概念,以此来减少取值个数。" o6 c1 O, H! H1 D+ K4 m- S4 n

    $ S( Q& I' x- e. X2 ?6 J14.数据立方体聚集 :是数据的多维建模和表示,由维和事实组成。   I/ |6 g. t5 K! ~7 a' T4 r
    9 H( ]7 @' b9 H" i
    维归约:去掉不相关的属性,减少数据挖掘处理的数据量。
    0 ~. ~: V% O) l" c+ C. G7 [
    ! w8 q' K  \* ^  H) @+ g/ z6 p属性子集选择的基本方法包括以下几种: 1.逐步向前选择2.逐步向后删除3.向前选择和向后删除结合4.判定树归纳5.基于统计分析的归约   
    * M" J1 o) O' m0 v/ v! W
    0 C' p8 G7 v0 ?4 g& K数据压缩:方法分为两类:无损压缩和有损压缩8 m5 I9 h1 y+ h" W  I- o
    3 M5 i* P# ~- Y3 Y: \: ?2 y3 i
    数值归约常用的方法: 1.直方图2.聚类3.抽样:不放回简单随机抽样、放回简单随机抽样、聚类抽样和分层抽样4.线性回归5.非线性回归       Y/ `: e- y5 l$ v. N
    2 @/ P; `: k  A* J! R8 w4 b
    15.数据变换涉及以下几个方面:1.平滑2.聚集3.数据概化4.规范化(1)最小-最大规范化(2)零-均值规范化(3)小数定标规范化5.属性构造8 ?7 Y: R, F$ Z: M, D

    / ~+ W% ]1 E) X2 N*规范化:(1)最小—最大规范化。原取值区间 [old_min,old_max],规范化后的新的取值区间[new_min,new_max]。- O" I. Q" u& w7 I

    * \; v% P) c- Y) rx’=  其中:x是属性的真实值,x’是规范化后的值。
      C. i& A" p; G9 q
    3 d" {  U$ M9 A+ x0 ~* ]例如:“客户背景数据”表中的客户月收入income属性的实际值范围为[12000,98000],要把这个属性值规范到[0,1],对属性值73600应用上述公式:  U- r4 _& M6 k) {  f& ?

    0 Q- y2 y4 M5 |" i1 n( p9 \3 Vx’=(1.0-0)+0=0.716
    * V- Y, M& }8 t1 D
    / ^0 m$ C! X9 @# Q' x根据精度要求保留小数(假设精度要求0.01),最终取值0.72就是属性值73600规范化后的值。
    8 k  E& r0 v2 E# B& h9 R
    $ B  w8 ^4 n- r# g( f (2)零—均值规范化(z—score规范化),是根据属性值的平均值和标准差进行规范化,即:1 J& d# E7 x2 a4 Y9 F9 c

    9 n& f; _5 y- y5 K3 ~1 [x’=   =  =    为所有样本属性值的平均值,为样本的标准差。当属性值范围未知的时候,可以使用此方法进行规范化。! ~3 B3 S0 r# C- B! ]1 t
    8 S3 D& o7 e. E$ E; t3 y
        例:假设某属性的平均值和标准差分别为80、25,采用零-均值规范化66为:x’==-0.56
    0 x0 `# v# ~0 B" i/ q
    9 J" u7 _4 o3 E8 O( |6 N; s/ @& h(3)小数定标规范化:通过移动属性A的小数点位置进行规范化 。1 E" ]# t$ d; X

    7 o& v6 S' T; X4 E% Vx’= 为满足式<1的最小整数。# `, q1 K! r. a, t6 J

    + u( A& c, t: b, M& h8 f例:假设某属性规范化前的取值范围为[-120,110],采用小数定标规范化66。由于该属性的最大绝对值为120,则由<1可得出=3,因此,66规范化后为:x’==0.066% a! {, S, J; p) E
    ————————————————6 ~5 U! B. x7 d4 D- }; ]
    版权声明:本文为CSDN博主「搬砖老头」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
    5 j3 M* Z  v7 i/ Z原文链接:https://blog.csdn.net/wang1127248268/article/details/53571956
    & w, r1 l2 Y% p& Y: R( _7 M* N, x
    6 {9 D& X9 D5 s1 t0 ]0 N3 ?5 \* P+ w6 L1 d1 D3 a
    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏2 支持支持0 反对反对0 微信微信

    1

    主题

    3

    听众

    169

    积分

    升级  34.5%

  • TA的每日心情
    擦汗
    2023-9-25 13:50
  • 签到天数: 67 天

    [LV.6]常住居民II

    国际赛参赛者

    网络挑战赛参赛者

    自我介绍
    热爱数学建模
    回复

    使用道具 举报

    德古拉        

    2

    主题

    4

    听众

    165

    积分

    升级  32.5%

  • TA的每日心情
    奋斗
    2025-12-3 23:13
  • 签到天数: 127 天

    [LV.7]常住居民III

    国际赛参赛者

    自我介绍
    嘶嘶。。。
    回复

    使用道具 举报

    浅夏110 实名认证       

    542

    主题

    15

    听众

    1万

    积分

  • TA的每日心情
    开心
    2020-11-14 17:15
  • 签到天数: 74 天

    [LV.6]常住居民II

    邮箱绑定达人

    群组2019美赛冲刺课程

    群组站长地区赛培训

    群组2019考研数学 桃子老师

    群组2018教师培训(呼伦贝

    群组2019考研数学 站长系列

    huangyanzuo 发表于 2020-5-19 12:06 # t3 f( v- x6 E& b. A# Y
    棒!棒!棒!棒!棒!棒!棒!棒!

    $ m: I1 |/ H4 i9 u1 P- |
    0 b3 K2 s2 e' {- g3 p
    回复

    使用道具 举报

    浅夏110 实名认证       

    542

    主题

    15

    听众

    1万

    积分

  • TA的每日心情
    开心
    2020-11-14 17:15
  • 签到天数: 74 天

    [LV.6]常住居民II

    邮箱绑定达人

    群组2019美赛冲刺课程

    群组站长地区赛培训

    群组2019考研数学 桃子老师

    群组2018教师培训(呼伦贝

    群组2019考研数学 站长系列

    回复

    使用道具 举报

    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2026-4-20 17:27 , Processed in 0.436874 second(s), 73 queries .

    回顶部