% c: ?' T% T, D% n$ D) {C4.5 用于遥感分类过程中,首先依据通常的方式建立第一个模型。随后建立的第二个模型聚焦于被第一个模型错误分类的记录。以此类推,最后应用整个模型集对样本进行分类,使用加权投票过程把分散的预测合并成综合预测。Boosting 技术对于噪声不大的数据,通常通过建立的多模型来减少错误分类的影响,提高分类精度。 - z N. d/ ?' t! w3 i" v/ L7 u4 p - G1 f" [* k1 y/ ~: j$ BC5.0算法 : {. ?" y& @) c. g+ Z" u0 k/ JC5.0 算法是 Quinlan 在C4.5 算法的基础上改进而来的产生决策树的一种更新的算法,它除了包括C4.5 的全部功能外,还引入许多新的技术,其中最重要的技术是提升(Boosting)技术,目的是为了进一步提高决策树对样本的识别率。同时C5.0 的算法复杂度要更低,使用更简单,适应性更强,因此具有更高的使用价值。 + z3 x& A2 X' {: Y7 G4 R - [8 Y8 _6 M# P1 {1 |0 o6 eC5.0算法的优点& V9 H$ r- i; \1 R! o6 A4 g
1.C5.0 模型能同时处理连续和离散的数据- e' n4 f2 ^% ^3 o# u
2.C5.0 模型估计 ' B3 r2 e; v8 r' G模型通常不需要很长的训练时间;5 j9 a+ o3 f" s# D9 x# ?3 @# s E
3.C5.0 引入Boosting 技术以提高分类的效率和精度; " G% G9 Y8 q# `' T) P9 l4.C5.0 模型易于理解,模型推出的规则有非常直观的解释;/ n; J* @' f, b# G1 h
5.C5.0 模型在面对数据遗漏和特征很多的问题时非常稳健。 ) s' `& d$ [# T8 x! s$ K, y: V6 F8 m
C5.0算法的缺点( ^1 M9 Q- z8 m: @& B; X
目标字段必须为分类字段。) ~, c1 [2 z; Z
+ |& Y6 W; F* z6 ` {
美国地质调查局(USGS)在进行土地覆盖分类项目过程中研发了支持决策树分类的软件。软件分类模块主要是针对庞大数据量的数据集进行数据挖掘,找出特征,然后建立规则集进行决策分类。在分类模块中采用C5.0 模型来完成决策树分类、形成分类文件,实现遥感影像的分类。- y Q* `1 J8 _& |
* V \) |) m8 a* V
KNN 算法 9 F {7 C% i* g& ]) n0 \/ F- UKNN 算法是Cover 和Hart 于1968 年提出的理论上比较成熟的方法,为十大挖掘算法之一。该算法的思路非常简单直观:如果一个样本在特征空间中的k 个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。$ C! H* G2 u4 s9 c9 o r% q
) n0 ?# s3 {% U1 l6 n
KNN算法的优点 , ]1 H0 _4 N$ m! [1 p- Y+ b1.KNN 算法简单、有效;2 d$ ^* f; a; t5 R! |& r
2.KNN 算法适用于样本容量比较大的类域的自动分类;; J* A0 Z1 o5 W4 {
3.由于KNN 方法主要靠周围有限的邻近的样本,而不是靠判别类域的方法来确定所属类别的,因此对于类域的交叉或重叠较多的待分样本集来说,KNN 方法较其他方法更为适合。 8 E) J7 |" p# {9 a1 P3 T: k4 X8 K0 I
KNN算法的缺点 * ~8 o$ O* s$ O' x# x1.KNN 算法计算量较大;& S2 h5 w9 Q O" N" o
2.KNN 算法需要事先确定K 值;5 x8 A+ c. _" ~" H0 ]7 y
3.KNN 算法输出的可解释不强;2 d. s [ k! h6 h2 F1 L [! w8 ~
4. KNN 算法对样本容量较小的类域很容易产生误分。 ( G3 q9 {/ y, p4 Z2 p , m+ G' W6 G: U4 s4 a- pANN 算法 # q8 s6 }2 P8 c# q8 R* \人工神经网络(ANN)算法就是一组连续的输入/输出单元,其中每个连接都与一个权相关。在学习阶段,通过调整神经网络的权,使得能够预测样本的正确类标号来学习。$ p/ r+ @' h) K3 X* H- D9 ?: V
. F/ X% L, t' k9 G9 A- D
ANN算法的优点1 Q# C. \ ?1 v* D) P
1.能处理数值型及分类型的属性; ! l( n) g- ~$ d2.分类的准确度高,分布并行处理能力强;+ @- S2 P2 t, A* J @* a' h
3.对包含大量噪声数据的数据集有较强的鲁棒性和容错能力。6 u4 c" D5 K* K& n& L9 ^
0 C- _- J4 |( n, ~ANN算法的缺点 1 n$ s/ N7 q( k+ v1.不能观察之间的学习过程; % a) h( P. b5 `, F4 d F2.学习时间过长,甚至可能达不到学习的目的; : W% Q# [% z) u# Q3.对于非数值型数据需要做大量数据预处理工作;3 e. q) M! a1 L n
4.输出结果难以解释,会影响到结果的可信度和可接受程度; ( J+ m$ d+ a& Y" m5.神经网络需要大量的参数,如网络拓扑结构、权值和阈值的初始值。 & q& ?9 L' e* j. D- L* j* Q! H ~, |! Z, }! J% d/ T4 d7 q
小结: % {- U8 Y% |7 S# P + D* N# E# n% i' n8 V3 w( t+ X算法名称 收敛时间 是否过度拟合 是否过渡拟合缺失数据敏感度 训练数据量2 m" g$ W3 _6 i" J! F2 @7 ]4 T1 }
NBC 快 存在 不敏感 无要求+ c/ A5 x( \' t( G: j4 c
LR 快 存在 敏感 无要求 3 _* L# V9 W% M/ ?2 Q HSVM 一般 存在 敏感 小数据量5 c8 W1 G- }. u+ c, k* B* Q4 g$ e
ID3 快 存在 不敏感 小数据集 8 r1 X p- |( u$ F4 [ ~C4.5 快 存在 不敏感 小数据集3 M2 m9 E' r8 |9 N4 ^! O
C5.0 快 不存在 不敏感 大数据集5 B! z7 k) a# H" u j4 F- `
ANN 慢 存在 敏感 大数据集) X9 q7 E$ f- C
KNN 快 存在 敏感 数据量多7 w5 P/ J( p5 \4 G9 c
5 W+ q6 T7 D6 i" a————————————————" E E1 Z; e. k
版权声明:本文为CSDN博主「神技圈子」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。- d* Q& W/ B$ k8 v' a/ I, P5 l
原文链接:https://blog.csdn.net/songguangfan/article/details/925816437 u4 _6 O7 q, m. F
; r* y( N5 J( a6 f. Z) c, ]7 D