- 在线时间
- 1630 小时
- 最后登录
- 2024-1-29
- 注册时间
- 2017-5-16
- 听众数
- 82
- 收听数
- 1
- 能力
- 120 分
- 体力
- 563428 点
- 威望
- 12 点
- 阅读权限
- 255
- 积分
- 174251
- 相册
- 1
- 日志
- 0
- 记录
- 0
- 帖子
- 5313
- 主题
- 5273
- 精华
- 3
- 分享
- 0
- 好友
- 163
TA的每日心情 | 开心 2021-8-11 17:59 |
|---|
签到天数: 17 天 [LV.4]偶尔看看III 网络挑战赛参赛者 网络挑战赛参赛者 - 自我介绍
- 本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。
 群组: 2018美赛大象算法课程 群组: 2018美赛护航培训课程 群组: 2019年 数学中国站长建 群组: 2019年数据分析师课程 群组: 2018年大象老师国赛优 |
. Z% G% y' d- ]各类机器学习算法的优缺点和适用场景汇总) Y& H) J0 D$ y4 a/ a$ `
目录: K" D* O; Q8 s; w( U R2 z, `+ K: N
朴素贝叶斯分类器(NB:naive Bayes classifiers)8 H7 X" z+ y- P: j2 G
半朴素贝叶斯分类器(SNB:semi-naive Bayes classifiers). T+ u. R4 |; n" c V
贝叶斯网(信念网), k3 u- p. q0 C
决策树(decision tree)
9 `8 s7 B& w0 U m2 Z支持向量机(SVM)% f- c+ K2 m; F
神经网络
* I0 W7 j$ F8 a" w! z词向量(word2vec), T- L3 N1 H' Q1 e- x- ^9 }. h l
k近邻分类(kNN)
u8 v. q1 U, t$ ?. U线性模型, l3 z1 _* j- T* s0 ]9 Y1 N
高斯混合聚类与k均值(k-means)及其变种(k-means++、ISODATA、Kernel K-means)的对比* I5 a6 i3 Y1 }1 ]7 N6 b5 M
关于学习算法的性能实验结果& h% b" p% d+ @6 G; Z* ]
朴素贝叶斯分类器(NB:naive Bayes classifiers)0 u8 ~' Q8 z8 u: V, t
顾名思义,其适用于分类任务、并且假设每个属性独立地对分类结果发生影响,然而现实中各个因素往往并不独立,那是否就无法解决问题呢?
* z4 _9 V& j% h9 A, f事实上并非如此,相反,朴素贝叶斯分类器在很多情况下都能获得相当好的性能,一种解释是:无需精准概率值即可导致正确分类结果;另一种解释是:若属性间依赖对所有类别影响相同,或依赖关系的影响能相互抵消,则属性条件独立性假设在降低计算开销的同时,不会对性能产生负面影响。# c$ O3 r/ H- l2 a
# a, x, y, e2 ^4 g5 x9 e% ^优点:) ^# `* k! X- T+ A" s m
1、计算量较小+ w7 W9 p) ~6 Z% k( r8 g! L# F5 g$ _
2、支持懒惰学习、增量学习4 i/ E! O, [ j! ?' A" d! _
3、对缺失数据不太敏感! H& X, G! q4 g+ x; |
4、推断即查表,速度极快。
8 S2 N: ?$ r5 q$ C4 v缺点:) L+ z4 C2 j9 m) V. `! Q( x5 D
1、没有考虑属性间依赖' c9 p$ Y# [* |+ Y7 h+ f
2、通过类先验概率产生模型
; e5 c I4 m- s6 m& [' c* N* D2 x3 b6 }; Q. `$ e6 s' l
半朴素贝叶斯分类器(SNB:semi-naive Bayes classifiers)
, u$ y7 N! k# a- t% W6 j相比NB的不考虑依赖,SNB则是考虑了一个(独依赖估计策略:ODE)或多个(多依赖估计策略:kDE)属性依赖
) K% V" h. c8 i* n; [% Q优点:
6 o6 D8 J1 n- |6 g1、考虑了一个或多个比较强的属性依赖关系,泛化性能可能得到提升
3 _9 P0 E" ]% o2、计算开销不大
4 h: `. t1 G* R: E$ Y3、同样支持懒惰学习、增量学习
( W" @8 P* I# e! x2 m% ]. @! _缺点:
9 k8 I# \6 |* C+ q. n4 f9 N1、通过类先验概率产生模型
$ S) z, O( w1 a% j& v/ Q
4 T8 _, o$ u, T& m2 V H7 S贝叶斯网(信念网)' @! B; Y$ T: @8 z3 r5 w
贝叶斯网借助有向无环图刻画属性之间的依赖关系,通过吉布斯采样或者变分推断等方式来近似推断后验概率。
3 e0 i6 }" ~7 b$ z; C* l* O1 |优点:7 [' u) ]' \6 p% n( ?& |
1、更加完整地考虑了属性间依赖关系,泛化性能将进一步提升
4 l' N* E- E2 Q# r; l3 ~2、近似估算后验概率
' ~) D, Q k8 x' N: O0 i3、可用于推测属性缺失的样本, b/ |2 ^6 o# z
4、良好的可解释性
+ Z' b+ x4 b( e @! ?5、常用于语音识别、机器翻译等
; x6 n \* R0 M8 e8 R, B3 R; o缺点:
]: E+ K& G8 j& y; l3 B1、结构学习NP难,通过评分搜索方法缓解5 X' X% N4 r0 t" d' F/ m
2、推断算法的收敛速度较慢7 X5 Z+ m) @- w$ o
+ `" N+ f3 c! m+ a; U决策树(decision tree)
) C, }3 w: h; R+ \* r# p! ~5 A, B4 ^决策树通过信息纯度(信息增益、增益率、基尼指数等)来决定结点的生成,通过剪枝来缩小决策树的尺寸以及缓解过拟合。是一种非参数学习算法。
b9 W% v, w6 X2 a p9 i优点:- h% E% I8 F$ r7 ^6 W
1、计算量较小
. Q$ O( d* ~. X" L$ n5 d. Y' h; s2、清晰表达属性的重要程度1 O/ o- f6 L* t4 I3 `! }. W. I
3、可增量学习对模型进行部分重构: Y; x$ Y; T! I% O _
4、不需要任何领域知识和参数假设0 x2 j, @9 u) q4 M, c
5、适合高维数据
$ D) j# r4 W0 D$ X8 k6、随机森林是基于决策树的集成学习策略,随机森林鲜有短板* p" f: Y" B- e z1 T
缺点: @7 c5 Q* u, V: H3 Y( q; Q/ ~
1、没有考虑属性间依赖
' |- P+ E9 e* T% T5 P2、容易过拟合,通过剪枝缓解
; f, X( k$ X. M7 A: C0 M. R3、不可用于推测属性缺失的样本. X4 E2 {" }9 F! P" d7 F
: w, y9 q5 o7 X" x' o- [ }7 i8 o
支持向量机(SVM)) Z8 ^+ ^0 }9 ^, ]8 ]" u6 K
基于训练集D在样本空间中找到一个划分超平面,将不同类别的样本分开,是一种针对二分类设计的算法,但稍加改造为支持向量回归即可用于回归学习。; P( e. E8 i. o% E! W7 u4 v) f
优点:
6 u; M# z$ u6 q/ y1、可解决小样本的机器学习任务
' K/ U, }- i& T, S" T; O- N* D6 _2、可解决高维问题6 V: J* `, c! N, o( n4 p/ X3 ]
3、可通过核方法解决非线性问题
% o# B8 w0 j/ o. j9 w% b缺点:
S8 n! \1 P3 A0 a9 c& S. D$ j1、对缺失数据敏感& ^% ]; l9 \* O* s' e! C4 W. Z) K: U, Z
2、对于非线性问题,核函数方法选择一直是个未决问题8 `3 j5 r# r+ |! R
/ s; u$ ?( R. n# v神经网络
) z/ ]9 x7 P. N& P* k1 ~2 k7 w优点:
5 k& c( E" ~# h0 t. y1、分类的准确度极高% t7 l9 I; d/ ?( c: s% X4 h
2、可解决复杂的非线性问题
& `7 u" ]$ e- S- D' v3、对噪声神经有较强的鲁棒性和容错能力
O( v N2 U( h4、并行分布处理能力强,分布存储及学习能力强$ X4 {4 u7 p# z4 e! y3 c) K
5、常用于图像识别
! Y0 Z% [0 z" l* E: f, d q$ f6、数据量越大,表现越好, p, @; R; Y$ w: q. P* d
缺点:+ c. {2 C* X) Y6 g
1、黑箱模型,难以解释6 [8 m7 X) S$ J0 ^5 Q! h
2、需要初始化以及训练大量参数,如网络结构、权值、阈值,计算复杂* a7 Z% g% [; e" l2 O
3、误差逆传播的损失
- G; D& l' l- g: P" P5 u2 G4、容易陷入局部最小) @- B5 ?* m- M8 s
' A* H: `) v1 v* `5 J2 z
词向量(word2vec)
" H, h6 w7 }$ N8 C将文章的每句话当成一行,将每个词用符号隔开(如使用中文分词工具jieba),根据上下文,可以找出相似词义的词。2 }* c% e& ^7 w( B4 u- R C
比如:我 喜欢 你,我 爱 你,我 讨厌 你。根据上下文我和你,可以找到喜欢的相似词,有爱和讨厌。
6 a1 z$ m( S% O5 A再一般地如:1 2 3 X 4 5 6,1 2 3 Y 4 5 6。根据上下文1 2 3和4 5 6,可以找到X和Y相似。
1 i6 C% y8 X6 S& xgensim是一个很好用的Python NLP的包,不光可以用于使用word2vec,还有很多其他的API可以用。它封装了google的C语言版的word2vec。
: y$ o0 w5 J7 @. U1 s) c/ M& h) ?. o
k近邻分类(kNN)
; `: {0 [* T+ ~8 P3 X基于某种距离度量找出训练集中与其最靠近的k个训练样本,或者指定距离e之内的训练样本,分类任务中通过投票法(以及加权投票等)将出现最多的类别标记作为预测结果,回归任务中则使用平均法(以及加权平均等)- h- q0 J4 a% V6 i
优点:
+ s5 j; b; o" ^, s1、思想简单,易于理解,易于实现,无需估计参数,无需训练;
# H5 y5 Z, W7 y7 i2、适合对稀有事件进行分类;- S7 y4 H# z: E# w( h
3、特别适用于多分类问题' [; W; c3 F0 R# E2 @
缺点:
' ]+ X7 Y# |4 N1 U* O1、需要计算出待测样本与所有样本的距离,计算量大
. R* ~" K( j; y* ?# ~5 f; ?# s2、样本不平衡时影响大
5 K( G* @9 x" r3、适用的特征维度低
3 }3 {$ }# n. T+ I( V0 Z5 R! ]1 H0 Q+ y
线性模型, F9 H! E6 A- `: g( `$ u0 g
优点:
: ~( f% A1 T7 z# h3 J- F" Y1 U3 O1、算法简单,编程方便/ g& ], T: U9 I, C6 Z
2、计算简单,决策速度快' F J5 i$ I- Z* U1 B" d4 U" ?5 K
缺点:
. m/ X7 I. |: s7 L1、拟合效果较差
# E. p" _ \- U" D( w' i# x7 Y$ n$ N
高斯混合聚类与k均值(k-means)及其变种(k-means++、ISODATA、Kernel K-means)的对比. ?( p9 R3 D" n1 K8 _
k-means是高斯混合聚类在混合成分方差相等、且每个样本仅指派给一个混合成分时的特例,因此k-means计算简单,但效果不如高斯混合聚类
) Q4 g+ H+ G+ d L+ L y: ?由于计算太过复杂,高斯混合聚类并不常用,推荐使用k-means++(与k-means随机选定不同,k-means++初始选定的几个样本距离尽量远,这样能更快得出分簇结果)等k-means变种。
# r3 T/ H/ p) U0 |5 x" ?2 p; a, d* O4 M2 Y6 b4 F1 c l0 m% H
关于学习算法的性能实验结果
9 i& R2 y6 g \& _5 N' s点击查看原文
) s! n1 P3 @ S0 I3 K" a3 B
$ g1 E# t+ n- D- o: m14年的时候有人做过一个实验[1],比较在不同数据集上(121个),不同的分类器(179个)的实际效果。
$ G. d ^9 f, T k i* e3 k8 {论文题为:Do we Need Hundreds of Classifiers to Solve Real World Classification Problems?4 z" I2 H0 ^' o( @/ B
没有最好的分类器,只有最合适的分类器。
6 ~; j+ v; w9 A9 O1、随机森林平均来说最强,但也只在9.9%的数据集上拿到了第一,优点是鲜有短板。! m' G! k0 O" b1 `5 k: g0 W- R6 B
2、SVM的平均水平紧随其后,在10.7%的数据集上拿到第一。
8 q9 X0 t, w0 y# |3、神经网络(13.2%)和boosting(~9%)表现不错。
6 D/ w" g, E' }; }4 ]) ~4、数据维度越高,随机森林就比AdaBoost强越多,但是整体不及SVM[2]。
$ j1 U* S9 G7 R% o5、数据量越大,神经网络就越强。
0 [& @3 l# i- f3 i# \; q3 p. J8 o————————————————- O/ i5 j2 P+ \4 ]: }+ d6 q c( {+ `
版权声明:本文为CSDN博主「路飞的纯白世界」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。6 W" k# N, a& P6 x/ m# H. P
原文链接:https://blog.csdn.net/u010921136/article/details/90668382
+ Q$ X; M' U: @ ^. I8 b* z( h9 P& h L
9 L, n* N$ _9 |7 \( r! P1 q; E+ D ~
|
zan
|