一、数据挖掘(Data Mining,DM),又称为数据库中的知识发现(Knowledge Discover in Database,KDD),决策支持过程,主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,分析、归纳、推理,挖掘潜在的模式,帮助决策者调整市场策略,减少风险,做出正确决策。& J, H4 \- s8 I0 \& w h
( Y: C7 y+ M/ K3 ?知识发现的的三个阶段:1、准备数据; 2、数据挖掘; 3、结果表达和解释! o- A1 c! H' C0 y
: t$ k9 |; ^$ w) Q! J
最著名的数据挖掘标准流程:CRISP-DM8 h- w! N& N1 t+ t3 l
# ^9 V: B" Z y0 t
全称为跨行业数据挖掘标准流程,分为6个阶段:业务理解、数据理解、数据准备、建模、评估、发布 ' R6 E( Z1 o. Y4 ? ) ~5 R% R8 C/ y* q7 M0 V! j(1) 业务理解:分析需求、初步收集数据和指标* A, ]) M* M' F$ |6 T
& _) X. q* N: @6 Z8 q3 R6 O(2)数据理解:理解各个数据字段的含义所记录的业务信息。% m9 d' I& E3 J& f
- P i1 J( k- {4 b# L* _( M(3)数据准备:数据清洗、提出、转换,提取样本,清除噪声,处理缺失数据,数据标准化。 . x% v( w3 U# e9 C6 x; W& e0 |: {5 ]# z! {3 d
(4)建模:参数调整使模型最优。* w/ S0 k& A% u
* h* H1 D8 M2 M0 z3 t# X
(5)评估:评估、挑选最佳模型。 $ y4 z# {+ l- d7 x5 r5 y. L6 s. z( Q$ u( Q
(6)发布:将模型运用于实践,跟踪反馈,了解效果,后期优化。0 J5 ` L& j& j6 n' y
4 n3 D$ M! p; e
SAS数据挖掘方**:SEMMA; \& a! J# }( F% ], ~# p5 C) u
( P7 O7 u. p U" a* _5 E: W1 k/ F(1)Sample-数据取样5 q' e6 M# n# k& Q3 U