QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 2573|回复: 4
打印 上一主题 下一主题

数据挖掘中的数据预处理方法总结

[复制链接]
字体大小: 正常 放大
浅夏110 实名认证       

542

主题

15

听众

1万

积分

  • TA的每日心情
    开心
    2020-11-14 17:15
  • 签到天数: 74 天

    [LV.6]常住居民II

    邮箱绑定达人

    群组2019美赛冲刺课程

    群组站长地区赛培训

    群组2019考研数学 桃子老师

    群组2018教师培训(呼伦贝

    群组2019考研数学 站长系列

    跳转到指定楼层
    1#
    发表于 2020-5-19 09:40 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta |邮箱已经成功绑定
    1.原始数据存在的几个问题:不一致;重复;含噪声;维度高。
    : e9 f5 j  S6 N" _+ `3 ^
    % U) r8 N( V; }$ ^2 O2.数据预处理包含数据清洗、数据集成、数据变换和数据归约几种方法。- Q# T+ a+ {( ^6 n4 I; y
    6 s0 b$ f. L2 }' O% C
    3.数据挖掘中使用的数据的原则
    ' d; W5 q; i4 C1 j" A' p& }/ j9 S& W% c: S2 ]( M" W, G
    应该是从原始数据中选取合适的属性作为数据挖掘属性,这个选取过程应参考的原则是:尽可能赋予属性名和属性值明确的含义;统一多数据源的属性值编码;去除惟一属性;去除重复性;去除可忽略字段;合理选择关联字段。; X- Z  w# N8 N" `" h! r

    6 Z3 h, c& j& k0 @  z4.处理空缺值的方法:忽略该记录;去掉属性;手工填写空缺值;使用默认值;使用属性平均值;使用同类样本平均值;预测最可能的值。
    3 r2 n4 ?, v- m- Z  F
    % S4 }2 D3 P! A5.噪声数据的处理方法:分箱;聚类;计算机和人工检查结合;回归
    0 z' p# q0 K( W* U) A$ _; r% p  ^, b& N  ?
    6.分箱:分箱方法是一种简单常用的预处理方法,通过考察相邻数据来确定最终值。所谓“分箱”,实际上就是按照属性值划分的子区间,如果一个属性值处于某个子区间范围内,就称把该属性值放进这个子区间所代表的“箱子”内。把待处理的数据(某列属性值)按照一定的规则放进一些箱子中,考察每一个箱子中的数据,采用某种方法分别对各个箱子中的数据进行处理。在采用分箱技术时,需要确定的两个主要问题就是:如何分箱以及如何对每个箱子中的数据进行平滑处理。8 p, `2 ?+ O/ |4 |0 \
    $ e+ b# W% j  [' H" _
    分箱的方法:有4种:等深分箱法、等宽分箱法、最小熵法和用户自定义区间法。
    0 x# o' W, B4 R0 }0 Q) X( M4 ^- M% S7 e( t) L
    统一权重,也成等深分箱法,将数据集按记录行数分箱,每箱具有相同的记录数,每箱记录数称为箱子的深度。这是最简单的一种分箱方法。8 c5 P3 \* q2 ?4 Y/ L+ l. G/ i
    8 u, l) a5 |8 c- F% h
    统一区间,也称等宽分箱法,使数据集在整个属性值的区间上平均分布,即每个箱的区间范围是一个常量,称为箱子宽度。! q$ ]5 C7 q* M9 M# n8 }
    ( v( a6 f7 O6 i
    用户自定义区间,用户可以根据需要自定义区间,当用户明确希望观察某些区间范围内的数据分布时,使用这种方法可以方便地帮助用户达到目的。$ i8 o5 M. O' o6 T7 G

    & X, b' A3 e1 F; X" c例:客户收入属性income排序后的值(人民币元):800 1000 1200 1500  1500 1800 2000 2300 2500 2800 3000 3500 4000 4500 4800 5000,分箱的结果如下。$ J2 f+ I7 j7 J3 S; e- B

    # D1 Z. t) L" `5 \2 g统一权重:设定权重(箱子深度)为4,分箱后
    3 b) a' V( x6 B9 P7 U: p: ^( F
    . l+ o  c6 ?9 G0 Q# e$ c& P箱1:800 1000 1200 1500* g$ |3 X3 D8 x( t7 {7 s. r

    " c9 ^$ T& y+ m1 ~  X箱2:1500 1800 2000 2300 7 K, u3 c8 o9 d+ p
    ! a' d  S2 B, G7 M  l' `  K
    箱3:2500 2800 3000 3500
    2 e9 U( Q6 ~! \9 G- y/ V3 `
    $ a+ [2 Q0 ]7 m; Z箱4:4000 4500 4800 5000   ( x/ U/ l8 z7 h" k+ |" S: y$ }

    + N2 N/ I3 B, d5 x统一区间:设定区间范围(箱子宽度)为1000元人民币,分箱后
    / m% i$ G$ I( Y0 r4 c1 b
    ' s( y& {! \/ Z: O4 l9 A+ q' w8 A1 `, m箱1:800 1000 1200 1500 1500 1800
    ( P7 c6 W* V3 c: {$ W. G
    9 }: l* B% ]  ?& y* j. m箱2:2000 2300 2500 2800 30006 F! Q+ O+ s5 H; w
    4 G& ?8 C" d9 {5 y, f3 r
    箱3:3500 4000 4500
    * v3 t/ U/ t4 P( I* E$ p1 `! O: d
    箱4:4800 5000   Z' r3 w# K) v/ y2 H  f6 o

    * d9 p0 w) [* L0 p6 a用户自定义:如将客户收入划分为1000元以下、1000~2000、2000~3000、3000~4000和4000元以上几组,分箱后  W& ~. n# Z3 i7 y) e( X  E6 e

    " d4 v6 m2 E3 Y  t" `7 [9 e) O; O箱1:800
    / s9 h3 X$ ^3 t$ @2 d7 [" n2 P: q" Q) W- z
    箱2:1000 1200 1500 1500 1800 2000
    ; [" P; N, r: g6 l
    7 e9 s  p; t, w箱3:2300 2500 2800 3000  ( Z2 T7 ~7 C( c3 S5 |& B( [  e

    % }& H, T' u7 s" ]- e箱4:3500 4000
    4 Z2 K4 G& }! i* P4 l+ Z4 c8 |( S3 d
    箱5:4500 4800 5000
    ( ^" P" N! B5 b7 @/ o2 y8 V  e4 j5 u! Q# ]
    7.数据平滑方法:按平均值平滑、按边界值平滑和按中值平滑。
    / f3 x1 L( M1 w  m
    6 j" \3 _* O8 t0 z⑴按平均值平滑 ' Q* a- F, N) j' i9 _+ h2 X
    3 n+ T( |, [- m" z5 |$ I5 g
    对同一箱值中的数据求平均值,用平均值替代该箱子中的所有数据。
    8 y; ]8 x/ S) L$ n# G
    * b" s4 E4 M3 Q, g0 \; R⑵按边界值平滑 * Y- i5 L7 `, g2 a4 K- g9 J

    * b3 @# [& C. [3 _; @用距离较小的边界值替代箱中每一数据。 1 F1 l3 M, f& |' E

    ( G* O; O* X) A. {9 q3 T  E/ \⑶按中值平滑
    + w5 {  W3 B, V7 L9 I, D9 o8 H/ L0 w7 \- a! \/ x6 K
    取箱子的中值,用来替代箱子中的所有数据。
    + e, }* B) y2 f4 H3 z9 G4 b6 x* T7 c8 ^3 ^, [# \* W
    8.聚类:将物理的或抽象对象的集合分组为由类似的对象组成的多个类。
    : u# U- H' P; \0 q" I
    7 b7 G/ T+ w; T1 z找出并清除那些落在簇之外的值(孤立点),这些孤立点被视为噪声。" |! ]5 |  g6 U; w" q

    / O0 e9 A# m6 }2 Y" w' n( I6 u9.回归;试图发现两个相关的变量之间的变化模式,通过使数据适合一个函数来平滑数据,即通过建立数学模型来预测下一个数值,包括线性回归和非线性回归。   # G. ^" `, J5 a; H# b! v& ~  D- {

    4 m+ Z* O! D: t3 F10.数据集成:将多文件或者多数据库中的异构数据进行合并,然后存放在一个一致的数据存储中。考虑以下几个问题: 1.模式匹配2.数据冗余3.数据值冲突
    , k* N: z" s8 p0 O" {, h' G8 o; d" {. q, F1 W- B1 H8 F0 }
    11. 数据变换:1.平滑2.聚集3.数据概化4.规范化(1)最小-最大规范化(2)零-均值规范化(3)小数定标规范化5.属性构造. W( \, a' i- q% {* s( A
    $ [( p$ L+ [- ^3 k) b4 G! y( y
    12.数据集成:将多文件或者多数据库中的异构数据进行合并,然后存放在一个一致的数据存储中。考虑以下几个问题: 1.模式匹配2.数据冗余3.数据值冲突 ; A# u; d- v: ]7 r0 P! y

    & J5 ?, j) _( G- S  d2 Z, r13.数据归约:目的是为了获得比原始数据小的多的,但不破坏数据完整性的挖掘数据集,该数据集可以得到与原始数据相同的挖掘结果。 # E4 y5 {: H8 W/ R( v. e
    & L4 q. W2 d& `9 R! C
    数据归约的方法: 1.数据立方体聚集:把聚集的方法用于数据立方体。2.维归约:检测并删除不相关、弱相关或冗余属性。3.数据压缩:选择正确的编码压缩数据集。4.数值压缩:用较小的数据表示数据,或采用较短的数据单位,或者用数据模型代表数据。5.离散化和概念分层生成:使连续的数据离散化,用确定的有限个区段值代替原始值;概念分层是指用较高层次的概念替换低层次的概念,以此来减少取值个数。
    / B9 Q) Y; \6 U0 J
    4 a/ O3 n# A5 F# E' {14.数据立方体聚集 :是数据的多维建模和表示,由维和事实组成。
    ) |9 G3 h2 @2 V
    2 A# G6 L3 V! N& _维归约:去掉不相关的属性,减少数据挖掘处理的数据量。 ' T9 t$ o. ?# c( N+ o0 q# R' I

    3 t1 L% \& m2 S( a0 C; V2 u. T* M属性子集选择的基本方法包括以下几种: 1.逐步向前选择2.逐步向后删除3.向前选择和向后删除结合4.判定树归纳5.基于统计分析的归约   
    . B4 [0 I" i4 j1 S: f8 t% r( b
    " s, j2 y, f7 c9 r, M4 c4 `数据压缩:方法分为两类:无损压缩和有损压缩) p( Q; H( ~4 p* `& Z! |

    ) |: A/ |# }; u* D2 n0 b数值归约常用的方法: 1.直方图2.聚类3.抽样:不放回简单随机抽样、放回简单随机抽样、聚类抽样和分层抽样4.线性回归5.非线性回归     
    7 h6 _; @: y- _( k9 q8 m6 l
    ( j" I+ g% h0 F' m+ P15.数据变换涉及以下几个方面:1.平滑2.聚集3.数据概化4.规范化(1)最小-最大规范化(2)零-均值规范化(3)小数定标规范化5.属性构造1 z* F, u& x7 }# F8 p8 U2 K
    ( x2 l& W# q  M/ K
    *规范化:(1)最小—最大规范化。原取值区间 [old_min,old_max],规范化后的新的取值区间[new_min,new_max]。
    7 R: y; }9 }- u/ w! N, N- L
    9 t) m6 y/ v/ O7 ^8 f8 cx’=  其中:x是属性的真实值,x’是规范化后的值。* u$ U  U) A8 C. Y9 J& ]
    , y8 ^+ ~& C6 u' b! ]
    例如:“客户背景数据”表中的客户月收入income属性的实际值范围为[12000,98000],要把这个属性值规范到[0,1],对属性值73600应用上述公式:1 E. e# N3 M3 n- E
    $ V/ q' z0 d, E+ J! Z# z
    x’=(1.0-0)+0=0.716' g, G- \3 Y' j7 k( q5 b

    " l, u! W$ D- v7 U& F9 F根据精度要求保留小数(假设精度要求0.01),最终取值0.72就是属性值73600规范化后的值。
      J8 m& ~' r; I
    0 A+ @% E* C" s! D+ D1 z (2)零—均值规范化(z—score规范化),是根据属性值的平均值和标准差进行规范化,即:8 ?$ h- p, Q: D3 x" k
    - Y/ w! ^+ ?7 L3 U1 J
    x’=   =  =    为所有样本属性值的平均值,为样本的标准差。当属性值范围未知的时候,可以使用此方法进行规范化。; _) r  Q0 h3 W+ p/ a+ Q
    % R* M  w  k+ T" F; A% u
        例:假设某属性的平均值和标准差分别为80、25,采用零-均值规范化66为:x’==-0.56- o& |# r3 v! S6 R
    + J4 t2 u3 ]8 d# g8 |- e6 d
    (3)小数定标规范化:通过移动属性A的小数点位置进行规范化 。  Q/ i, }# W. ]) G( O
    / `/ ]5 M. E. q$ I, R
    x’= 为满足式<1的最小整数。
    / s3 w9 ~6 `' _- M5 {/ p/ l
    2 `4 _/ ~2 H$ r4 U( s- i例:假设某属性规范化前的取值范围为[-120,110],采用小数定标规范化66。由于该属性的最大绝对值为120,则由<1可得出=3,因此,66规范化后为:x’==0.066
    3 P# \, N0 ]5 f2 v" w————————————————7 G$ Q" m2 G: {8 d
    版权声明:本文为CSDN博主「搬砖老头」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
    7 p% ^# [" O4 }' w% r  ^+ u原文链接:https://blog.csdn.net/wang1127248268/article/details/53571956
    : ^/ y" L# j) p4 m4 M) ?5 L! t4 X: d% e& M3 F# ?& y2 R
    & T: m+ ?: e8 d5 g) L! T& m
    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏2 支持支持0 反对反对0 微信微信

    1

    主题

    3

    听众

    169

    积分

    升级  34.5%

  • TA的每日心情
    擦汗
    2023-9-25 13:50
  • 签到天数: 67 天

    [LV.6]常住居民II

    国际赛参赛者

    网络挑战赛参赛者

    自我介绍
    热爱数学建模
    回复

    使用道具 举报

    德古拉        

    2

    主题

    4

    听众

    165

    积分

    升级  32.5%

  • TA的每日心情
    奋斗
    2025-12-3 23:13
  • 签到天数: 127 天

    [LV.7]常住居民III

    国际赛参赛者

    自我介绍
    嘶嘶。。。
    回复

    使用道具 举报

    浅夏110 实名认证       

    542

    主题

    15

    听众

    1万

    积分

  • TA的每日心情
    开心
    2020-11-14 17:15
  • 签到天数: 74 天

    [LV.6]常住居民II

    邮箱绑定达人

    群组2019美赛冲刺课程

    群组站长地区赛培训

    群组2019考研数学 桃子老师

    群组2018教师培训(呼伦贝

    群组2019考研数学 站长系列

    huangyanzuo 发表于 2020-5-19 12:06 * I8 |( {8 C' x4 u4 z
    棒!棒!棒!棒!棒!棒!棒!棒!
    ; V' e8 P2 o$ e4 @+ R/ T( i

    . n4 M6 C6 k+ i+ i& I+ ~0 h. S
    回复

    使用道具 举报

    浅夏110 实名认证       

    542

    主题

    15

    听众

    1万

    积分

  • TA的每日心情
    开心
    2020-11-14 17:15
  • 签到天数: 74 天

    [LV.6]常住居民II

    邮箱绑定达人

    群组2019美赛冲刺课程

    群组站长地区赛培训

    群组2019考研数学 桃子老师

    群组2018教师培训(呼伦贝

    群组2019考研数学 站长系列

    回复

    使用道具 举报

    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2026-4-21 12:13 , Processed in 0.492545 second(s), 73 queries .

    回顶部