一、数据挖掘(Data Mining,DM),又称为数据库中的知识发现(Knowledge Discover in Database,KDD),决策支持过程,主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,分析、归纳、推理,挖掘潜在的模式,帮助决策者调整市场策略,减少风险,做出正确决策。: U) Z {4 L9 ^
1 N- V* N) r: ~9 p. |+ P4 P- R知识发现的的三个阶段:1、准备数据; 2、数据挖掘; 3、结果表达和解释 * y7 O5 [+ c# d5 [- z6 @ 1 p0 M0 W$ z$ l9 p最著名的数据挖掘标准流程:CRISP-DM3 X, n# V5 X4 E o) h
7 f, d3 c d" O
全称为跨行业数据挖掘标准流程,分为6个阶段:业务理解、数据理解、数据准备、建模、评估、发布7 D. |# R# c6 d8 W4 S% ~
& q5 ~$ ?. U- w1 ~0 u; B- b3 }, ]3 G) v
(1) 业务理解:分析需求、初步收集数据和指标 " V1 Q6 Z G% f0 w( R c6 R $ `$ F) i/ | E% W( B4 m(2)数据理解:理解各个数据字段的含义所记录的业务信息。' U7 G: v- x3 A$ l% W L" j
8 o' S9 x% ~: I4 Q% t/ b(3)数据准备:数据清洗、提出、转换,提取样本,清除噪声,处理缺失数据,数据标准化。) D* h9 P: a' U7 o. q
8 g; a8 ]* T T6 a2 M' J2 A% m
(4)建模:参数调整使模型最优。* q* Q+ \! v: N, j* ?
. J% Q2 y3 K) U L C ~2 J) [+ r
(5)评估:评估、挑选最佳模型。$ T' E7 Z- V2 H/ R. e+ Y0 H
5 ^: e' b2 u) e( [3 a
(6)发布:将模型运用于实践,跟踪反馈,了解效果,后期优化。 2 C5 ]& W. J7 n0 ]( v2 S" v8 |* a: E & R: E. D/ }, G# | D) r/ Z7 oSAS数据挖掘方**:SEMMA 8 K! R7 A7 L/ r- M$ U7 V* l$ s8 _1 e, h6 e
(1)Sample-数据取样1 o' ?6 J: Z1 a3 V
/ {' c t$ Z) A+ A+ z
(2)Explore-数据探索 5 F) i0 |& E5 v% B 8 U1 U$ `( R/ ^& w1 c" p) l7 G(3)Modify-数据修正& o9 I- s* m; ]0 _9 I" x0 K: j! B