数据挖掘十大经典算法 % D' u2 P$ t4 a' F1。C4.5:是机器学习算法中的一种分类决策树算法,其核心算法是ID3算法。 ( v r3 t3 `1 D# j
2. K-means算法:是一种聚类算法。 8 G; l/ a* [& ^! U* q6 A, ^3.SVM:一种监督式学习方法,广泛运用于统计分类以及回归分析中 . U7 w, u7 e, S9 s; J. \+ B/ T
4.Apriori :是一种最有影响的挖掘布尔关联规则频繁项集的算法。 - R' N6 ?7 l7 _: Q7 F6 e. M O
5.EM:最大期望值法。 6 _8 {) F+ x6 I9 _" r
6.pagerank:是google算法的重要内容。 E. V! Y3 ?# o7. Adaboost:是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器然后把弱分类器**起来,构成一个更强的最终分类器。 " _+ H8 J' J3 K( T( B8 o1 D
8.KNN:是一个理论上比较成熟的的方法,也是最简单的机器学习方法之一。 9 ?3 A" t: L8 w' @: e% \4 l
9.Naive Bayes:在众多分类方法中,应用最广泛的有决策树模型和朴素贝叶斯(Naive Bayes) ) w( {- f4 v. x# `3 P10.Cart:分类与回归树,在分类树下面有两个关键的思想,第一个是关于递归地划分自变量空间的想法,第二个是用验证数据进行减枝。 / l: ]& E! u( s+ o" h基本参考书 简单推荐- K* T$ }( V- H- o" v
& J" e2 V2 T5 A5 j/ a1 k
《数据挖掘:概念与技术》,Jiawei Han、Micheline Kamber等著,机械工业出版社,2001年。 ISBN 1-55860-489-8。 1 p9 \# R S" D7 @1 x5 A+ n: O6 ^: y8 E ~) @9 r9 g
最负盛名的数据挖掘著作,但版本较老,对读者的计算机尤其是数据库背景要求较高。 " j/ D2 i! g) @' T " x6 i: M: J+ Y% p《数据挖掘导论》, Pang-Ning Tan, Michael Steinbach等著,范明、范宏建等译,人民邮电出版社,2006年。 ISBN 7-115-14698-5 。图灵教育 ) x! y2 N8 O; |4 P# L + h B! k3 ^) A. N" L' [; Y最新出版的数据挖掘著作,其写作目的是“尽可能直接地学习数据挖掘,以便尽快地将其应用到各自的领域”。覆盖了多学科应用实例,对读者数学和计算机背景要求较低。 / M2 ?. L' y- L' n" W# Y
5 B5 r: A( q8 }. t
《数据挖掘》,丁一贤、陈牧言合著,沧海出版社,2005年。 ISBN 986-7777-98-0 。沧海书局 # m( C4 N) ~ Z/ |: k, v( X 8 Q) X' W" ^# Q5 F9 X( L2 K8 y7 mYuchun Lee et al. (1998), "Solving Data Mining Problems Through Pattern Recognition" , ISBN 0-13-095083-1 4 q9 a% E4 f% U$ }, u& o4 `' C; C& `& z, d
Oded Maimon and Mark Last (2000), "Knowledge Discovery and Data Mining - The Info-Fuzzy Network (IFN) Methodology", Kluwer Academic Publishers. ISBN 0-7923-6647-6 3 [! X& K& s8 q! ~0 X2 x: h & y) Q4 S! M: s/ LSholom Weiss and Nitin Indurkhya(1998). "Predictive Data Mining". Morgan Kaufman. ISBN 1-55860-403-0 ; C. I4 ?3 u0 }2 v
. S, i0 C* w; z; r6 w2 uIan Witten and Eibe Frank, "Data Mining: Practical Machine Learning Tools and Techniques with Java Implementations" (2000), ISBN 1-55860-552-5, (see also Free Weka software) : `: c2 a& [- ^% D. K