数据挖掘利用了来自如下一些领域的思想:(1) 来自统计学的抽样、估计和假设检验,(2) 人工智能、模式识别和机器学习的搜索算法、建模技术和学习理论。数据挖掘也迅速地接纳了来自其他领域的思想,这些领域包括最优化、进化计算、信息论、信号处理、可视化和信息检索。一些其他领域也起到重要的支撑作用。特别地,需要数据库系统提供有效的存储、索引和查询处理支持。源于高性能(并行)计算的技术在处理海量数据集方面常常是重要的。分布式技术也能帮助处理海量数据,并且当数据不能集中到一起处理时更是至关重要。 m$ m# l! v( j7 d' F
% L. c# o+ `) J9 L7 A% x; m! m看得出来该方法与遗传算法的联系,完全可以考虑在两者之间建立一些联系 4 `2 |/ g A& E: k0 e) _1)数据挖掘能做以下七种不同事情 (分析方法): ' A% i7 n( @4 V# Q
数据挖掘 5 t; z$ P* M; ]3 M8 x- ]5 ?· 分类 (Classification) ' e: y7 H3 Z' E# j· 估计(Estimation) 3 C) q; e) W. c1 E: Y
· 预测(Prediction) . k8 T9 Q# F4 X4 K+ A) ^8 I· 相关性分组或关联规则(Affinity grouping or association rules) : k; Q9 z, w( P' \, t
· 聚类(Clustering) 3 J3 F$ H! f Y/ `/ l
· 描述和可视化(Description and Visualization) {1 J3 }( q3 S* `& \5 W E· 复杂数据类型挖掘(Text, Web ,图形图像,视频,音频等) , f( T) G" \; G6 Y2)数据挖掘分类 0 r3 t8 g t, K' u8 P; {以上七种数据挖掘的分析方法可以分为两类:直接数据挖掘;间接数据挖掘 ( X. N3 S) ~. X7 b( T
· 直接数据挖掘 * `- Z. ~3 ^0 I+ X
目标是利用可用的数据建立一个模型,这个模型对剩余的数据,对一个特定的变量(可以理解成数据库中表的属性,即列)进行描述。 6 l3 w9 n2 I5 o+ }( F9 I· 间接数据挖掘 9 E( z7 f; A3 ^; N& k# P5 N
目标中没有选出某一具体的变量,用模型进行描述;而是在所有的变量中建立起某种关系 。 3 t( V1 C4 G7 t+ f" @· 分类、估值、预言属于直接数据挖掘;后四种属于间接数据挖掘 / p L7 K1 i: G2 N. k5 s! Z8 N& w