QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 2572|回复: 4
打印 上一主题 下一主题

数据挖掘中的数据预处理方法总结

[复制链接]
字体大小: 正常 放大
浅夏110 实名认证       

542

主题

15

听众

1万

积分

  • TA的每日心情
    开心
    2020-11-14 17:15
  • 签到天数: 74 天

    [LV.6]常住居民II

    邮箱绑定达人

    群组2019美赛冲刺课程

    群组站长地区赛培训

    群组2019考研数学 桃子老师

    群组2018教师培训(呼伦贝

    群组2019考研数学 站长系列

    跳转到指定楼层
    1#
    发表于 2020-5-19 09:40 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta |邮箱已经成功绑定
    1.原始数据存在的几个问题:不一致;重复;含噪声;维度高。, T1 K3 u3 u  s' k. y, J

    # [. R" l0 W8 J$ x8 o" A9 o' y2.数据预处理包含数据清洗、数据集成、数据变换和数据归约几种方法。1 w3 s& t8 s( j! b, f) J& ?' k  q6 f
    7 p9 z* y* y2 O6 @7 [/ r$ _
    3.数据挖掘中使用的数据的原则
    1 K5 ~$ @4 k7 F6 b% r4 m# j9 n8 z& y- h5 o" R4 J* K/ H, S
    应该是从原始数据中选取合适的属性作为数据挖掘属性,这个选取过程应参考的原则是:尽可能赋予属性名和属性值明确的含义;统一多数据源的属性值编码;去除惟一属性;去除重复性;去除可忽略字段;合理选择关联字段。
    " i4 }: b" l* D3 N& j5 t* b4 T$ @- l, W" a  r
    4.处理空缺值的方法:忽略该记录;去掉属性;手工填写空缺值;使用默认值;使用属性平均值;使用同类样本平均值;预测最可能的值。
    * d( B! n+ M/ X( I  {
    4 ~( X6 R# c' R% w& r5.噪声数据的处理方法:分箱;聚类;计算机和人工检查结合;回归, h& q2 s+ V9 m8 w$ n
    ( d0 Z. N( X- t1 A
    6.分箱:分箱方法是一种简单常用的预处理方法,通过考察相邻数据来确定最终值。所谓“分箱”,实际上就是按照属性值划分的子区间,如果一个属性值处于某个子区间范围内,就称把该属性值放进这个子区间所代表的“箱子”内。把待处理的数据(某列属性值)按照一定的规则放进一些箱子中,考察每一个箱子中的数据,采用某种方法分别对各个箱子中的数据进行处理。在采用分箱技术时,需要确定的两个主要问题就是:如何分箱以及如何对每个箱子中的数据进行平滑处理。# x) ?0 B4 c* E$ ?, z  E7 I: S
    . F5 n% w" O, |. Z  \
    分箱的方法:有4种:等深分箱法、等宽分箱法、最小熵法和用户自定义区间法。
    ( Z+ `5 F4 v; s+ a% w6 m/ s1 p; k- o* E& J- Q* Y& ]- _
    统一权重,也成等深分箱法,将数据集按记录行数分箱,每箱具有相同的记录数,每箱记录数称为箱子的深度。这是最简单的一种分箱方法。
    1 [2 y5 |, H5 u5 m; d! T. `) B* ^3 p  r4 K8 X9 g6 M
    统一区间,也称等宽分箱法,使数据集在整个属性值的区间上平均分布,即每个箱的区间范围是一个常量,称为箱子宽度。9 I: N( v% `+ j$ s8 V* A3 S

    4 U" |7 X3 _6 H用户自定义区间,用户可以根据需要自定义区间,当用户明确希望观察某些区间范围内的数据分布时,使用这种方法可以方便地帮助用户达到目的。
    & }! w/ w# S% @! O& P- g3 U7 E
    / I& y& n0 K% j7 B0 S) n例:客户收入属性income排序后的值(人民币元):800 1000 1200 1500  1500 1800 2000 2300 2500 2800 3000 3500 4000 4500 4800 5000,分箱的结果如下。, L* P; h& d7 @
    1 r6 L" R8 L. c
    统一权重:设定权重(箱子深度)为4,分箱后
    % b* }5 n* {5 m+ O" y0 p' Q: j3 K- q# K/ `
    箱1:800 1000 1200 1500/ l9 _- f! X- Q9 j& _" e$ P
    & l: H7 j6 W0 {2 w* J3 ]5 j1 T
    箱2:1500 1800 2000 2300
    + x3 _7 q; A' n5 T. H  o7 m6 I( u6 i* Y: B1 P+ Y
    箱3:2500 2800 3000 3500
    5 u. v: E  p* Z" f/ W# r- ]* p3 ^0 [6 o) ?8 n9 T
    箱4:4000 4500 4800 5000   9 A1 Z3 \( Y8 i/ j; e
      M: \" f% l9 x& G( w  M( z# T* Z
    统一区间:设定区间范围(箱子宽度)为1000元人民币,分箱后
    * W  {! f  U7 p9 }
    ( F* }' e" s4 d1 y0 q9 n6 t) o箱1:800 1000 1200 1500 1500 1800
    - o* R7 E' Q2 a3 d$ a" c0 f
    ( D1 K% Y6 d  I箱2:2000 2300 2500 2800 3000
    5 \3 G3 _: V6 `3 V! u7 }9 n! i, k
    箱3:3500 4000 45000 @3 K, O! O3 ?- j3 d% _
    ) B4 Q8 {/ |6 ^0 t( b9 e* h' F% ~
    箱4:4800 5000
    & j2 Q/ D/ B6 k* c6 L2 d& X% Z4 K& B6 h
    用户自定义:如将客户收入划分为1000元以下、1000~2000、2000~3000、3000~4000和4000元以上几组,分箱后
      l: K# F+ E8 }. ]
    5 e4 X8 [1 D" {. [) }/ N4 |箱1:800 # l( b" Y. }4 \0 {" X1 u  x1 L2 f% d
    * P+ i- `8 x7 J$ d& e/ j
    箱2:1000 1200 1500 1500 1800 2000 & a6 n% _: x" ]) e  u7 @2 m

    + w& _" Z  n: `. e; y7 P8 D箱3:2300 2500 2800 3000  
    / T6 L6 p8 E% l8 w1 f& N# x3 E2 `
    箱4:3500 4000
    4 R) h7 |5 e4 I8 D; b5 i2 E' O0 m, t/ i  [% R9 ?$ z$ N" V' M, H
    箱5:4500 4800 5000
    3 [3 i2 ^" H; y. j& E( G+ R1 d. r7 B6 f5 K. v; U9 I
    7.数据平滑方法:按平均值平滑、按边界值平滑和按中值平滑。- v" ^, P. \/ ]( k3 r3 I) Q

    # U/ n  M0 ^$ r  a! q7 N( J% Z$ E1 |⑴按平均值平滑
    4 c3 {) p. ]1 q; {
    7 P# @8 H! E; i) f5 e1 w对同一箱值中的数据求平均值,用平均值替代该箱子中的所有数据。 ) r" n* A7 d3 M, N. ?/ K1 y! k. ]

    8 q1 ^" t9 T8 z0 j8 A( F% t3 n( D, t⑵按边界值平滑 * h) A* I& L% ]/ e, U# M$ `8 F
    ' ?4 j7 A/ i7 \; }1 b
    用距离较小的边界值替代箱中每一数据。
    8 G# A/ X4 U- J+ t; y( @4 R9 ^2 i' Q1 {: Q5 Q6 x' D+ e
    ⑶按中值平滑 : Y4 r* x/ }% C1 }# {2 p) D

    + I! q) E3 ~4 h5 s' v) |取箱子的中值,用来替代箱子中的所有数据。
    9 I5 y- a- k# q- x9 {: k7 L& B1 |. o! S) z8 E9 s
    8.聚类:将物理的或抽象对象的集合分组为由类似的对象组成的多个类。
    ) `( c7 D* L: w7 Y1 Z' }. `. Q. |. E
    找出并清除那些落在簇之外的值(孤立点),这些孤立点被视为噪声。( }6 j  B3 g  P1 ]! n2 ^8 o+ U" h
    : h3 Y4 g/ U/ B. u# c
    9.回归;试图发现两个相关的变量之间的变化模式,通过使数据适合一个函数来平滑数据,即通过建立数学模型来预测下一个数值,包括线性回归和非线性回归。   
    ! C8 u7 o3 C4 @, |/ k7 [+ r9 Y3 `3 y) K  t' b" W/ M( m
    10.数据集成:将多文件或者多数据库中的异构数据进行合并,然后存放在一个一致的数据存储中。考虑以下几个问题: 1.模式匹配2.数据冗余3.数据值冲突
    # Z; V- L. D: B8 _* ^. ?' z0 _: S( @0 w& u
    11. 数据变换:1.平滑2.聚集3.数据概化4.规范化(1)最小-最大规范化(2)零-均值规范化(3)小数定标规范化5.属性构造
    ) W6 Q, Y: r, |0 t  k, x9 }
    ) I2 w( }% O- V% g, ~$ `12.数据集成:将多文件或者多数据库中的异构数据进行合并,然后存放在一个一致的数据存储中。考虑以下几个问题: 1.模式匹配2.数据冗余3.数据值冲突
    8 l' k! f! B- F0 M/ T$ d) u% R: S  D$ d
    13.数据归约:目的是为了获得比原始数据小的多的,但不破坏数据完整性的挖掘数据集,该数据集可以得到与原始数据相同的挖掘结果。 - D# n3 o* j* k# ^
    / J3 @% T- r. u5 n6 ^. G- e0 e4 j
    数据归约的方法: 1.数据立方体聚集:把聚集的方法用于数据立方体。2.维归约:检测并删除不相关、弱相关或冗余属性。3.数据压缩:选择正确的编码压缩数据集。4.数值压缩:用较小的数据表示数据,或采用较短的数据单位,或者用数据模型代表数据。5.离散化和概念分层生成:使连续的数据离散化,用确定的有限个区段值代替原始值;概念分层是指用较高层次的概念替换低层次的概念,以此来减少取值个数。) y' y  C" i7 g# E* A" v" f; A9 h

    : s: I& i! z2 X0 A8 F14.数据立方体聚集 :是数据的多维建模和表示,由维和事实组成。 & f2 q; m: \! N4 e0 q

    , x, M- S( |  j9 \! s" s: g+ \维归约:去掉不相关的属性,减少数据挖掘处理的数据量。 9 ?7 E3 N2 r) h5 H. m! g* C6 k$ c
    $ h, W, Y4 w) G
    属性子集选择的基本方法包括以下几种: 1.逐步向前选择2.逐步向后删除3.向前选择和向后删除结合4.判定树归纳5.基于统计分析的归约   ; c) p! e! H+ O; u
    * A0 w9 b! Q; F
    数据压缩:方法分为两类:无损压缩和有损压缩
    ! Z0 z# `5 c6 o% H$ u
    , N3 a/ M7 X: T! l' b数值归约常用的方法: 1.直方图2.聚类3.抽样:不放回简单随机抽样、放回简单随机抽样、聚类抽样和分层抽样4.线性回归5.非线性回归     ) @5 m  M! X- G! G: [
      }" q+ A/ \% ~' C# {
    15.数据变换涉及以下几个方面:1.平滑2.聚集3.数据概化4.规范化(1)最小-最大规范化(2)零-均值规范化(3)小数定标规范化5.属性构造
    / ~( \; t, F1 b- z- f! q
    1 q4 }& u- O) `$ |$ S( P4 a. O*规范化:(1)最小—最大规范化。原取值区间 [old_min,old_max],规范化后的新的取值区间[new_min,new_max]。( h! F" q3 V& C1 q
    " k. U2 n$ o" Y5 o) L0 @- H
    x’=  其中:x是属性的真实值,x’是规范化后的值。
    3 I  V2 _3 A. }
    8 S2 b5 `+ G  A# |0 J例如:“客户背景数据”表中的客户月收入income属性的实际值范围为[12000,98000],要把这个属性值规范到[0,1],对属性值73600应用上述公式:, G7 L, y; l6 g
    . y" {9 \- S- M" i7 r# {9 O- d7 [
    x’=(1.0-0)+0=0.716
    2 d, D3 e3 _2 e* s  R' v- B  J1 h& z; O3 J/ I
    根据精度要求保留小数(假设精度要求0.01),最终取值0.72就是属性值73600规范化后的值。
    * M4 X7 }9 _) X$ Q( d& {; L" |' x
    (2)零—均值规范化(z—score规范化),是根据属性值的平均值和标准差进行规范化,即:
    6 y$ U8 o9 C4 r9 `& [2 ?; m, U0 n$ z/ r9 b7 z5 g( r
    x’=   =  =    为所有样本属性值的平均值,为样本的标准差。当属性值范围未知的时候,可以使用此方法进行规范化。
    - a  b% J, b5 u8 S( ^0 {3 k3 |9 \" Y9 A8 B( |6 c
        例:假设某属性的平均值和标准差分别为80、25,采用零-均值规范化66为:x’==-0.56
    + L! l+ y- f4 v" ~9 |. b; Z! Q% P( n8 m
    (3)小数定标规范化:通过移动属性A的小数点位置进行规范化 。/ Z& K6 `2 E5 w; z1 V3 ?: R  F' B

    2 l* i9 f* Q+ ~- i9 N' w; `( P7 lx’= 为满足式<1的最小整数。: k' X# E  e& e: d" I* H9 a7 G
    # Y* E" m% n# H3 ^! Z' B! J) d2 H& _
    例:假设某属性规范化前的取值范围为[-120,110],采用小数定标规范化66。由于该属性的最大绝对值为120,则由<1可得出=3,因此,66规范化后为:x’==0.0663 i7 u* @# g4 ]! F! g9 `
    ————————————————% }' T- U2 t" P. p# e$ t
    版权声明:本文为CSDN博主「搬砖老头」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
    - A) N! W  j5 G3 }. d原文链接:https://blog.csdn.net/wang1127248268/article/details/53571956
    ' y0 S% w, k; c3 S7 n+ W- {8 }: H7 T7 y) ~0 U: L- N
    " s  M9 m+ |# ~4 c( c, v3 ]' t% ?0 t
    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏2 支持支持0 反对反对0 微信微信

    1

    主题

    3

    听众

    169

    积分

    升级  34.5%

  • TA的每日心情
    擦汗
    2023-9-25 13:50
  • 签到天数: 67 天

    [LV.6]常住居民II

    国际赛参赛者

    网络挑战赛参赛者

    自我介绍
    热爱数学建模
    回复

    使用道具 举报

    德古拉        

    2

    主题

    4

    听众

    165

    积分

    升级  32.5%

  • TA的每日心情
    奋斗
    2025-12-3 23:13
  • 签到天数: 127 天

    [LV.7]常住居民III

    国际赛参赛者

    自我介绍
    嘶嘶。。。
    回复

    使用道具 举报

    浅夏110 实名认证       

    542

    主题

    15

    听众

    1万

    积分

  • TA的每日心情
    开心
    2020-11-14 17:15
  • 签到天数: 74 天

    [LV.6]常住居民II

    邮箱绑定达人

    群组2019美赛冲刺课程

    群组站长地区赛培训

    群组2019考研数学 桃子老师

    群组2018教师培训(呼伦贝

    群组2019考研数学 站长系列

    huangyanzuo 发表于 2020-5-19 12:06 / f+ z" L2 U4 Q2 L* O
    棒!棒!棒!棒!棒!棒!棒!棒!

    9 B, N0 B4 }5 a" h8 o5 G& }( A2 r# ]* r% E
    回复

    使用道具 举报

    浅夏110 实名认证       

    542

    主题

    15

    听众

    1万

    积分

  • TA的每日心情
    开心
    2020-11-14 17:15
  • 签到天数: 74 天

    [LV.6]常住居民II

    邮箱绑定达人

    群组2019美赛冲刺课程

    群组站长地区赛培训

    群组2019考研数学 桃子老师

    群组2018教师培训(呼伦贝

    群组2019考研数学 站长系列

    回复

    使用道具 举报

    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2026-4-21 04:01 , Processed in 0.382705 second(s), 73 queries .

    回顶部