- 在线时间
- 1630 小时
- 最后登录
- 2024-1-29
- 注册时间
- 2017-5-16
- 听众数
- 82
- 收听数
- 1
- 能力
- 120 分
- 体力
- 564648 点
- 威望
- 12 点
- 阅读权限
- 255
- 积分
- 174617
- 相册
- 1
- 日志
- 0
- 记录
- 0
- 帖子
- 5313
- 主题
- 5273
- 精华
- 3
- 分享
- 0
- 好友
- 163
TA的每日心情 | 开心 2021-8-11 17:59 |
|---|
签到天数: 17 天 [LV.4]偶尔看看III 网络挑战赛参赛者 网络挑战赛参赛者 - 自我介绍
- 本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。
 群组: 2018美赛大象算法课程 群组: 2018美赛护航培训课程 群组: 2019年 数学中国站长建 群组: 2019年数据分析师课程 群组: 2018年大象老师国赛优 |
- N& \' P; t! t. s1 B各类机器学习算法的优缺点和适用场景汇总* l% s; b: \/ e: e! U) A
目录6 m+ i% ^' v* i) S5 _! @# y
朴素贝叶斯分类器(NB:naive Bayes classifiers)1 Z5 d7 h6 j/ n+ t! b
半朴素贝叶斯分类器(SNB:semi-naive Bayes classifiers)8 B+ S1 s/ W8 z9 y* ^" ?; j/ j
贝叶斯网(信念网)4 U, W2 l. ^; O: @8 b- j1 }$ v: G
决策树(decision tree)
" b/ M: E- O6 d8 g支持向量机(SVM)
$ M+ r) N* j7 E3 Y5 }4 U神经网络; I: O( Y! K+ {' Q# \
词向量(word2vec)
1 d9 w% @5 z9 q+ _% pk近邻分类(kNN)( v- r# ]* p7 j6 X/ f
线性模型0 `* p v% n! L7 M i
高斯混合聚类与k均值(k-means)及其变种(k-means++、ISODATA、Kernel K-means)的对比0 `' @' ^8 ^ U% ]
关于学习算法的性能实验结果
* U* ^* Z, F1 Q/ x4 J, }朴素贝叶斯分类器(NB:naive Bayes classifiers)+ d: @% K' P/ g+ c1 s) |
顾名思义,其适用于分类任务、并且假设每个属性独立地对分类结果发生影响,然而现实中各个因素往往并不独立,那是否就无法解决问题呢?. @9 T* c6 [: h1 P
事实上并非如此,相反,朴素贝叶斯分类器在很多情况下都能获得相当好的性能,一种解释是:无需精准概率值即可导致正确分类结果;另一种解释是:若属性间依赖对所有类别影响相同,或依赖关系的影响能相互抵消,则属性条件独立性假设在降低计算开销的同时,不会对性能产生负面影响。# J! ^9 b) v+ n
, O. {( l0 [% }3 S2 n优点:. a3 H7 p7 ]4 N3 h. b' Z, k
1、计算量较小
/ [- T3 N! F+ t1 E( z2、支持懒惰学习、增量学习
8 E) K1 n& {9 g* w3、对缺失数据不太敏感+ g3 J: V7 i U ~
4、推断即查表,速度极快。
+ w/ w. v% g' c& F缺点:
% D8 j3 j2 W5 J! L3 ]# O% o* F1、没有考虑属性间依赖
8 [2 W0 h0 h" k3 \. R0 m2、通过类先验概率产生模型+ S; g) b% y Q; X* i7 J7 W" {4 u9 W
& b4 J3 Z* p* Y, g( P7 K% ?
半朴素贝叶斯分类器(SNB:semi-naive Bayes classifiers)
3 \1 L0 g6 e1 k相比NB的不考虑依赖,SNB则是考虑了一个(独依赖估计策略:ODE)或多个(多依赖估计策略:kDE)属性依赖
% Z" R+ ?. l- |- K0 Q& _优点:$ |4 P* l! w' h0 V
1、考虑了一个或多个比较强的属性依赖关系,泛化性能可能得到提升
, J+ w. g/ t& c2 M' h+ `7 m2、计算开销不大
& y6 d p9 p; o3、同样支持懒惰学习、增量学习8 ]+ t0 T4 l! N+ i
缺点:% l+ K: ~+ s8 z2 u
1、通过类先验概率产生模型% d1 }0 G. I+ b" Z, N- \, W8 a0 [( r
4 H0 a3 N# D2 @+ M8 ~/ ~
贝叶斯网(信念网)
: m2 i% l6 }( f# ^+ `9 O贝叶斯网借助有向无环图刻画属性之间的依赖关系,通过吉布斯采样或者变分推断等方式来近似推断后验概率。. k; W7 x' e4 x E
优点:
/ J6 D6 D3 X3 S% ?3 }1、更加完整地考虑了属性间依赖关系,泛化性能将进一步提升
9 C$ h( O% H- P. |2、近似估算后验概率
/ z* Z0 p5 j7 ~1 V3 Q# |$ D3、可用于推测属性缺失的样本
4 b7 K T, v) W# J8 v @4、良好的可解释性( [; I& I9 d% x/ _2 [
5、常用于语音识别、机器翻译等: {9 T+ V4 W7 @' ^+ t& F& R+ D
缺点:
' U* d' P! b5 |+ K1、结构学习NP难,通过评分搜索方法缓解. b* d/ C$ h+ b4 g, N# {! e
2、推断算法的收敛速度较慢1 E" N/ W$ B; T, q
5 I5 @* S( G/ i9 X; P7 f决策树(decision tree)- M- D; E# {$ |
决策树通过信息纯度(信息增益、增益率、基尼指数等)来决定结点的生成,通过剪枝来缩小决策树的尺寸以及缓解过拟合。是一种非参数学习算法。, B5 Y) p, x; N. \1 H
优点:
3 W6 ^1 C# {: ? W; \1、计算量较小7 G& Q8 ? l! F. U3 w4 w* y
2、清晰表达属性的重要程度' u2 s3 v- y0 l n0 z7 s3 X
3、可增量学习对模型进行部分重构# }2 m( Z4 H! Q
4、不需要任何领域知识和参数假设/ m: p7 Q% u' \9 j) e1 d
5、适合高维数据% a- v2 V1 S( X
6、随机森林是基于决策树的集成学习策略,随机森林鲜有短板
h( ?" C. v4 K3 C9 a* f缺点:
" M2 ~' k0 [( t0 P4 A. @) S+ {1、没有考虑属性间依赖
- B1 r0 S4 n; ]1 W" H2、容易过拟合,通过剪枝缓解
* M4 [1 g6 X+ y" P1 z1 c' H3、不可用于推测属性缺失的样本
' @, S" s3 q) l" s& z0 |4 Q( b: \7 A1 v7 R/ o
支持向量机(SVM)
' }" A0 q& m( A Z, Z" K基于训练集D在样本空间中找到一个划分超平面,将不同类别的样本分开,是一种针对二分类设计的算法,但稍加改造为支持向量回归即可用于回归学习。( _" u" E; C: ~. \# J# x
优点:3 u7 P# o) {; \7 d, d+ p* Z3 l
1、可解决小样本的机器学习任务
C/ u3 |6 v) D( L2 G- L& Y5 {2、可解决高维问题
0 D' c% e! j: I% J( J% W: F8 o3、可通过核方法解决非线性问题. }! P- ?5 K2 C6 E
缺点:
8 [0 P' ^0 g1 o2 C1、对缺失数据敏感
! d9 g! f2 f1 t# k: Q; `1 I! ?2、对于非线性问题,核函数方法选择一直是个未决问题
# t4 U$ L. E) I1 t
, N# ]. _7 P$ d+ `神经网络
5 c2 t2 d a" ~( T1 `优点:5 D3 b2 t7 ?2 Z$ m8 Q1 C5 {) K3 H
1、分类的准确度极高
3 c, O8 p. L: I8 p1 L2、可解决复杂的非线性问题. c( q q$ Q- t" l/ q
3、对噪声神经有较强的鲁棒性和容错能力2 h7 v& t, X8 Z7 [) H6 C
4、并行分布处理能力强,分布存储及学习能力强
P- ]6 g+ n& u& b; Q9 a( J5、常用于图像识别
& h& M. R' O; q4 L9 D: W+ a" u6、数据量越大,表现越好) y) \1 L% H. S, u: a
缺点:( c9 K( T/ J' Q1 F
1、黑箱模型,难以解释
, F' W4 n; m3 U) D Z, U2、需要初始化以及训练大量参数,如网络结构、权值、阈值,计算复杂' ]5 @+ w% K1 ~7 i9 w
3、误差逆传播的损失+ ?* l! X$ |6 P, t
4、容易陷入局部最小* \" A& v9 H* s, g. W
& @: T; P; v" H! h4 [- Q! D2 b词向量(word2vec)
1 Q3 x7 W; G9 p将文章的每句话当成一行,将每个词用符号隔开(如使用中文分词工具jieba),根据上下文,可以找出相似词义的词。2 I3 l3 { s9 c/ U
比如:我 喜欢 你,我 爱 你,我 讨厌 你。根据上下文我和你,可以找到喜欢的相似词,有爱和讨厌。! @0 o. P+ R7 N7 J
再一般地如:1 2 3 X 4 5 6,1 2 3 Y 4 5 6。根据上下文1 2 3和4 5 6,可以找到X和Y相似。
7 _9 w' K% W3 m0 W& l# W+ h! Mgensim是一个很好用的Python NLP的包,不光可以用于使用word2vec,还有很多其他的API可以用。它封装了google的C语言版的word2vec。0 h( |! w; o) C5 p
* {. ?( ?8 M- Qk近邻分类(kNN)
! ?5 y! U8 m: u基于某种距离度量找出训练集中与其最靠近的k个训练样本,或者指定距离e之内的训练样本,分类任务中通过投票法(以及加权投票等)将出现最多的类别标记作为预测结果,回归任务中则使用平均法(以及加权平均等)
# P2 r+ K7 e3 D优点:7 t/ r6 }6 C" I7 |4 t
1、思想简单,易于理解,易于实现,无需估计参数,无需训练;
. ?" |1 u0 U, R8 p1 g6 q2、适合对稀有事件进行分类;7 T: b- t4 n/ C! |
3、特别适用于多分类问题9 F, ~7 @% t0 T3 `7 S8 X. @
缺点:
, u# \& O* A# X. \' U3 y1、需要计算出待测样本与所有样本的距离,计算量大
/ j/ U a1 y1 q! {" ?/ s+ B6 X2 Y. w2、样本不平衡时影响大7 ^" B3 ~0 ^2 E3 }# n
3、适用的特征维度低$ z4 C+ q9 i5 e) S0 k
* E6 }) a2 |! l: x7 `
线性模型
* z s. A( w+ f6 m6 T$ F9 E优点:: Q# v% z. Q: {# W+ K
1、算法简单,编程方便& T2 v9 C9 n5 P, o* M
2、计算简单,决策速度快 K) t/ W2 u: S! y2 A" E
缺点:& Z" T, }, |" [7 b# q/ T" n$ }
1、拟合效果较差6 G9 w- I6 @: v9 v
2 o) a. w% P' j: S* S( e- |; G7 ?
高斯混合聚类与k均值(k-means)及其变种(k-means++、ISODATA、Kernel K-means)的对比
u7 U( v( e, H- n, i+ i: W$ w0 [' wk-means是高斯混合聚类在混合成分方差相等、且每个样本仅指派给一个混合成分时的特例,因此k-means计算简单,但效果不如高斯混合聚类
/ a6 f) \; [) z- h5 Q E由于计算太过复杂,高斯混合聚类并不常用,推荐使用k-means++(与k-means随机选定不同,k-means++初始选定的几个样本距离尽量远,这样能更快得出分簇结果)等k-means变种。5 \0 g0 u3 _' ~2 F4 T1 A
. Q# S2 a; n: }% N+ Y% \关于学习算法的性能实验结果
6 Q7 n8 j6 Z5 m: @点击查看原文
- ?, _- [0 F& t$ s- S, T" V/ {* ?' p4 k# b4 D5 m
14年的时候有人做过一个实验[1],比较在不同数据集上(121个),不同的分类器(179个)的实际效果。9 _2 n& z+ x6 W1 M) h) e! ^* k
论文题为:Do we Need Hundreds of Classifiers to Solve Real World Classification Problems?3 C# c: m) n8 k
没有最好的分类器,只有最合适的分类器。2 l7 M) |6 y2 s* m; Q) r3 D& n
1、随机森林平均来说最强,但也只在9.9%的数据集上拿到了第一,优点是鲜有短板。
- g# G* J( Z- ^5 m8 u! Y* c* t: u2、SVM的平均水平紧随其后,在10.7%的数据集上拿到第一。
) O. S$ j z' ^1 p$ }) ^3、神经网络(13.2%)和boosting(~9%)表现不错。4 J: v% J. e$ g7 e0 b
4、数据维度越高,随机森林就比AdaBoost强越多,但是整体不及SVM[2]。
! ~4 ?: _9 v% l& q- P5、数据量越大,神经网络就越强。5 J$ W* a" y% a. l. g0 T6 r4 l
————————————————8 _4 U" n, l: ~; o- i4 D/ B
版权声明:本文为CSDN博主「路飞的纯白世界」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。5 |% w) @& [! `
原文链接:https://blog.csdn.net/u010921136/article/details/906683827 Q4 \# n9 [) k# H$ p$ z
0 e4 A7 l E; U6 z9 u9 o8 V/ i! S; R' j% l$ r+ k6 ?
|
zan
|