数据挖掘的步骤会随不同领域的应用而有所变化,每一种数据挖掘技术也会有各自的特性和使用步骤,针对不同问题和需求所制定的数据挖掘过程也会存在差异。此外,数据的完整程度、专业人员支持的程度等都会对建立数据挖掘过程有所影响。这些因素造成了数据挖掘在各不同领域中的运用、规划,以及流程的差异性,即使同一产业,也会因为分析技术和专业知识的涉入程度不同而不同,因此对于数据挖掘过程的系统化、标准化就显得格外重要。如此一来,不仅可以较容易地跨领域应用,也可以结合不同的专业知识,发挥数据挖掘的真正精神。 $ F k- ?2 I6 a: _. E% O
( [! P8 @8 d* ?数据挖掘完整的步骤如下: - {/ P$ c% y$ S; |8 I) F1 k ① 理解数据和数据的来源(understanding)。 ! N q) B! u7 n0 }: [ D* H/ A8 U/ _ ② 获取相关知识与技术(acquisition)。 - q, {, [' U k% _8 i6 d ③ 整合与检查数据(integration and checking)。 4 e& U8 b! e, {5 C! p+ w: b% y+ e8 `
④ 去除错误或不一致的数据(data cleaning)。 7 s& n( U& O" f# V4 ^4 C+ J
⑤ 建立模型和假设(model and hypothesis development)。 9 S0 O$ @3 V% W
⑥ 实际数据挖掘工作(data mining)。 + {4 n! C1 X: }9 C1 s ⑦ 测试和验证挖掘结果(testing and verification)。 7 [( Q. _5 N. p' {! L& d, T% g5 I ⑧ 解释和应用(interpretation and use)。 + \( w8 {8 V' k; ~, X