- 在线时间
- 791 小时
- 最后登录
- 2022-11-28
- 注册时间
- 2017-6-12
- 听众数
- 15
- 收听数
- 0
- 能力
- 120 分
- 体力
- 36305 点
- 威望
- 11 点
- 阅读权限
- 255
- 积分
- 13852
- 相册
- 0
- 日志
- 0
- 记录
- 1
- 帖子
- 616
- 主题
- 542
- 精华
- 12
- 分享
- 0
- 好友
- 225
TA的每日心情 | 开心 2020-11-14 17:15 |
|---|
签到天数: 74 天 [LV.6]常住居民II
 群组: 2019美赛冲刺课程 群组: 站长地区赛培训 群组: 2019考研数学 桃子老师 群组: 2018教师培训(呼伦贝 群组: 2019考研数学 站长系列 |
一、数据挖掘(Data Mining,DM),又称为数据库中的知识发现(Knowledge Discover in Database,KDD),决策支持过程,主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,分析、归纳、推理,挖掘潜在的模式,帮助决策者调整市场策略,减少风险,做出正确决策。
# J. R3 j) E8 }: c- n. a# b3 p+ v$ c4 f8 \/ s/ M
知识发现的的三个阶段:1、准备数据; 2、数据挖掘; 3、结果表达和解释- F0 j1 K1 @3 m: U% _
; T+ z K1 Y) p" x最著名的数据挖掘标准流程:CRISP-DM" z& H2 v' r! S& O. Z1 F5 D, ~" N
4 P. c z0 H* u0 J& K) \全称为跨行业数据挖掘标准流程,分为6个阶段:业务理解、数据理解、数据准备、建模、评估、发布) B& H/ m: j* w; ~: Q d$ h& d
# F! e( s, R2 e# O1 f' S
(1) 业务理解:分析需求、初步收集数据和指标
" ~3 \ |0 G6 |0 K5 Y- S' B, l7 G0 r2 s+ x# s$ X7 O& Q
(2)数据理解:理解各个数据字段的含义所记录的业务信息。! [, m7 }0 j5 p; T; b; `0 x) L% Z/ x
% e' g. ~9 S9 b6 K, x6 q. E( |" }
(3)数据准备:数据清洗、提出、转换,提取样本,清除噪声,处理缺失数据,数据标准化。- @% z7 J- h- ?# X
. \* x7 G* r$ o7 ?0 Z) d& o& d(4)建模:参数调整使模型最优。4 q$ E6 F T# k/ I
# W1 \$ C) N" \# F3 E' S(5)评估:评估、挑选最佳模型。
! p0 C! |9 M1 ?2 O1 T2 E1 q( [# {& _/ n: F
(6)发布:将模型运用于实践,跟踪反馈,了解效果,后期优化。
! C/ U8 b8 V' G5 K. w8 J0 _" G6 @8 [# Z" I3 U7 p9 T
SAS数据挖掘方**:SEMMA. M/ `: `) l7 b! r4 ]; [" L' ?
% B* g: u, n% Y5 F
(1)Sample-数据取样6 E$ U' f! a5 E* f, H5 K# t! n
5 s* W8 n4 U- E6 Y4 w/ z0 s
(2)Explore-数据探索
( ?) t* U+ @$ Z( O/ C- y# F3 q1 A8 T
(3)Modify-数据修正& u& j5 L! s* Y6 ~, E# v
) I' y! k4 _: c: ?# D' _9 s* A
(4)Model-建模" m7 p' w: w7 W$ }
8 W/ ^9 a/ o1 F3 N
(5)Assess-评估$ |7 l7 @2 E' R; j4 P" E& V) X
# \# N' z: n8 Y) O
6 ?4 m& E; g# z1 a( r; f二、经验谈
& w5 ], q. E# Y" B9 t& X
+ h' @; h, z# R$ `: v(1)明确要解决的问题
( H6 C, U: K3 l* r- }3 l+ I) M; I! Y# P/ c7 D6 W! d+ n t
(2)确定最终评估标准3 v! m3 N0 z7 {! p
$ v. C, ~0 F7 @
(3)设定期望方案2 l6 w( L6 g0 n0 C n3 k' C( L
3 G1 S: M4 z& z! A+ {$ o. E# c
(4)简单项目到复杂项目
% p, A, e- o6 `1 a' g" @5 R# s( {$ F. \# w6 x5 V
(5)团队合作,协调沟通+ a2 @$ o4 F, T: E" }0 I# A
+ Y( z5 d( U: |6 Q/ o( J, J, T4 L( L(6)避免陷入数据垃圾
3 q: b! }; t1 k% h+ i2 b- v( L% v( ~6 I% w9 r
G/ Q5 m$ K0 O3 |. v5 g |
zan
|