数据挖掘十大经典算法8 [ m% ?: k- p0 S4 P9 r- s
1。C4.5:是机器学习算法中的一种分类决策树算法,其核心算法是ID3算法。 + ^2 ^. r+ O! d8 S' l2. K-means算法:是一种聚类算法。 $ L# ?/ Y" p$ d3.SVM:一种监督式学习方法,广泛运用于统计分类以及回归分析中 ; Q: I5 L; q% P# \) s( Y) N4.Apriori :是一种最有影响的挖掘布尔关联规则频繁项集的算法。 . Y: f8 e7 u/ L8 X1 J5.EM:最大期望值法。 ! |) f( I. i% F" ~( K& `
6.pagerank:是google算法的重要内容。 9 w3 z2 q3 v( v; v7. Adaboost:是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器然后把弱分类器**起来,构成一个更强的最终分类器。 ! t3 a5 b! @4 H7 N7 z' \2 @
8.KNN:是一个理论上比较成熟的的方法,也是最简单的机器学习方法之一。 : Q" ^. Y; }2 N; V+ S4 f; v9.Naive Bayes:在众多分类方法中,应用最广泛的有决策树模型和朴素贝叶斯(Naive Bayes) 5 W( X; M1 K3 ]7 G q7 O0 O10.Cart:分类与回归树,在分类树下面有两个关键的思想,第一个是关于递归地划分自变量空间的想法,第二个是用验证数据进行减枝。* s6 i. K* Q; e- b$ m6 e
基本参考书 简单推荐 9 p1 | n4 e' N4 A * ]+ K$ {( d) r( N. K2 L) W! ]% |《数据挖掘:概念与技术》,Jiawei Han、Micheline Kamber等著,机械工业出版社,2001年。 ISBN 1-55860-489-8。 ; U) x# x! \, z2 |; V* E
. d6 M1 X7 R/ O8 q; D
最负盛名的数据挖掘著作,但版本较老,对读者的计算机尤其是数据库背景要求较高。 ( }: i% L* N- V0 J. ^3 {
, A- `% d) B3 Z% }/ g) g
《数据挖掘导论》, Pang-Ning Tan, Michael Steinbach等著,范明、范宏建等译,人民邮电出版社,2006年。 ISBN 7-115-14698-5 。图灵教育 0 g+ L/ ]' r d
& h) ^ m- J, o, t ?2 q) Y最新出版的数据挖掘著作,其写作目的是“尽可能直接地学习数据挖掘,以便尽快地将其应用到各自的领域”。覆盖了多学科应用实例,对读者数学和计算机背景要求较低。 . c2 j2 O/ j8 b. p' J
- Q- l; Q. d; T1 V8 Y$ I \
《数据挖掘》,丁一贤、陈牧言合著,沧海出版社,2005年。 ISBN 986-7777-98-0 。沧海书局 % @ p! w% F3 T
( @5 `8 j z9 o6 yYuchun Lee et al. (1998), "Solving Data Mining Problems Through Pattern Recognition" , ISBN 0-13-095083-1 * ]% U5 @+ g; s. H: J
8 f8 ^/ {5 J6 |' Z
Oded Maimon and Mark Last (2000), "Knowledge Discovery and Data Mining - The Info-Fuzzy Network (IFN) Methodology", Kluwer Academic Publishers. ISBN 0-7923-6647-6 ! ~- F4 W6 Z; _- h4 [ ! h/ m' k/ C2 M+ [0 ~Sholom Weiss and Nitin Indurkhya(1998). "Predictive Data Mining". Morgan Kaufman. ISBN 1-55860-403-0 1 l. n+ G, `+ }7 J% {6 [3 ~& H; k- l, D' P. v z
Ian Witten and Eibe Frank, "Data Mining: Practical Machine Learning Tools and Techniques with Java Implementations" (2000), ISBN 1-55860-552-5, (see also Free Weka software) / Q+ c2 O% U" a# _/ t# Z8 I