- 在线时间
- 1630 小时
- 最后登录
- 2024-1-29
- 注册时间
- 2017-5-16
- 听众数
- 82
- 收听数
- 1
- 能力
- 120 分
- 体力
- 564638 点
- 威望
- 12 点
- 阅读权限
- 255
- 积分
- 174614
- 相册
- 1
- 日志
- 0
- 记录
- 0
- 帖子
- 5313
- 主题
- 5273
- 精华
- 3
- 分享
- 0
- 好友
- 163
TA的每日心情 | 开心 2021-8-11 17:59 |
|---|
签到天数: 17 天 [LV.4]偶尔看看III 网络挑战赛参赛者 网络挑战赛参赛者 - 自我介绍
- 本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。
 群组: 2018美赛大象算法课程 群组: 2018美赛护航培训课程 群组: 2019年 数学中国站长建 群组: 2019年数据分析师课程 群组: 2018年大象老师国赛优 |
$ O# K, X" D4 I: [6 Y& g2 ~
各类机器学习算法的优缺点和适用场景汇总
6 D9 ?* k: u8 f9 I( O- m L目录
: @5 X3 N; I: h- H' Z朴素贝叶斯分类器(NB:naive Bayes classifiers): t- R( D6 w7 q2 w
半朴素贝叶斯分类器(SNB:semi-naive Bayes classifiers)
3 Q; y9 \5 |! X* N贝叶斯网(信念网)
. m: x* s9 D9 W7 u决策树(decision tree)
- S1 X/ E/ o* P1 |, C支持向量机(SVM)
7 G$ s' D) n$ A$ s4 ~神经网络
$ j) n4 D0 L% S+ w8 {词向量(word2vec)4 N8 p+ F. V( S, N- ?
k近邻分类(kNN)
4 V( q2 a1 m) l- F$ O% L线性模型4 [5 l$ g8 j5 i
高斯混合聚类与k均值(k-means)及其变种(k-means++、ISODATA、Kernel K-means)的对比
% p! W$ E! K4 \5 K关于学习算法的性能实验结果
4 z4 P% G( z3 O" m2 A3 F朴素贝叶斯分类器(NB:naive Bayes classifiers)
; Q* t+ X6 l1 k% V/ w顾名思义,其适用于分类任务、并且假设每个属性独立地对分类结果发生影响,然而现实中各个因素往往并不独立,那是否就无法解决问题呢?
' t% |0 g) f& M2 {) Y事实上并非如此,相反,朴素贝叶斯分类器在很多情况下都能获得相当好的性能,一种解释是:无需精准概率值即可导致正确分类结果;另一种解释是:若属性间依赖对所有类别影响相同,或依赖关系的影响能相互抵消,则属性条件独立性假设在降低计算开销的同时,不会对性能产生负面影响。# i% K. ^* \& x8 X( |+ S5 h
( J, t. g) I) H, n- n; Q优点:
/ v, S: X9 I O1、计算量较小# ?: y) C. N, K- h
2、支持懒惰学习、增量学习
M8 d# {5 W# a3、对缺失数据不太敏感
* x1 K( P q% B9 W4、推断即查表,速度极快。
& f$ z D3 J! h, T缺点:
, f- R+ Z% L6 ^1、没有考虑属性间依赖3 o, G) Z y, L
2、通过类先验概率产生模型
' L9 y" c3 W/ W `+ a3 e0 R- i9 h' F6 Q( N
半朴素贝叶斯分类器(SNB:semi-naive Bayes classifiers)
: {' O; m J3 T, n相比NB的不考虑依赖,SNB则是考虑了一个(独依赖估计策略:ODE)或多个(多依赖估计策略:kDE)属性依赖( B" l |" y$ n4 ^( s
优点:# |# N$ ^% V! k
1、考虑了一个或多个比较强的属性依赖关系,泛化性能可能得到提升
7 ^) Q3 S* ^" r) P2 J0 G2、计算开销不大
2 ^1 b- A! U( ^( Q1 U: ~3、同样支持懒惰学习、增量学习+ r2 p1 z" N, e) z5 e
缺点:0 @* E5 \6 ?6 E
1、通过类先验概率产生模型
7 q+ J2 P& o: D+ Q4 d
% i7 [' I: x# O# l/ l贝叶斯网(信念网)
, q0 f% P9 {. l/ m! K贝叶斯网借助有向无环图刻画属性之间的依赖关系,通过吉布斯采样或者变分推断等方式来近似推断后验概率。7 M% b# _4 I& Z% b" V* q% k
优点:
. f; Z1 J; R9 f1、更加完整地考虑了属性间依赖关系,泛化性能将进一步提升 a4 p$ @" X) O# q4 g# }1 R3 h
2、近似估算后验概率: o7 x# a3 I; [! Z/ e) q+ O
3、可用于推测属性缺失的样本
8 N3 p4 @8 ]0 d/ }2 T$ B, V4、良好的可解释性
n" i4 b# |# e5 ]* l5、常用于语音识别、机器翻译等3 ^/ B8 }- J' w) \ e0 c/ E
缺点:6 s/ I( a: C$ X* o- L: a' k& f
1、结构学习NP难,通过评分搜索方法缓解
/ R2 N' } w2 o0 o9 a& ]2、推断算法的收敛速度较慢
) T" R2 ?! e* n9 L- G- K- H) ^4 M9 f5 d3 `! X! _
决策树(decision tree)( i$ e* P* W4 _5 r! w5 H
决策树通过信息纯度(信息增益、增益率、基尼指数等)来决定结点的生成,通过剪枝来缩小决策树的尺寸以及缓解过拟合。是一种非参数学习算法。 e6 I3 G! [% N$ O1 V8 c% O! m4 ?' z
优点:3 D0 {/ w$ ~$ I6 G! q s$ `
1、计算量较小
/ n8 b7 P9 Y- Q1 F0 A6 V# s( c2、清晰表达属性的重要程度3 v! a( P m& s0 {/ d9 | G
3、可增量学习对模型进行部分重构. D8 }4 O( l& X. r% m8 M2 t
4、不需要任何领域知识和参数假设* d; l/ X: s# t1 z
5、适合高维数据9 M. c5 E, k- H1 b
6、随机森林是基于决策树的集成学习策略,随机森林鲜有短板
, E3 k# J" B. L) l0 u: l H; t/ R缺点:
' H4 E) V$ x( x& Q+ N( S1、没有考虑属性间依赖$ {3 q; B) V5 T& `, }
2、容易过拟合,通过剪枝缓解
9 O. ]5 ?( U% `! b6 t3、不可用于推测属性缺失的样本" C* O. y- I; `' ~. x6 D. T, ^
' u, E9 m. E4 R! V( B, E9 x2 r支持向量机(SVM)0 j( `9 f; ?( n n+ g
基于训练集D在样本空间中找到一个划分超平面,将不同类别的样本分开,是一种针对二分类设计的算法,但稍加改造为支持向量回归即可用于回归学习。
9 |2 i2 w% c4 ~& [. L8 `4 X优点:
3 ^( A/ n" w7 L. \7 Q5 p. n6 f( D, l1、可解决小样本的机器学习任务
1 s- ^2 @0 Q6 w! A6 H' J2、可解决高维问题$ R! V3 @ u6 E0 c* [! s- K
3、可通过核方法解决非线性问题
6 S. y+ n% m# ]缺点:3 S* k- d! Q/ w0 v9 P, m/ S
1、对缺失数据敏感
$ w: t% \; u8 n ~1 Y9 @) f) r" e; k% P2、对于非线性问题,核函数方法选择一直是个未决问题' `; ~- ^, n3 T5 _' d
1 e; ?. z' A: `7 o3 L
神经网络2 B, }1 Q1 ]7 g0 y- e/ Y9 k
优点:
; p! P; p5 q9 ?7 w( h1、分类的准确度极高
1 V ]1 T9 q0 I* U/ e2、可解决复杂的非线性问题' ]. m2 R- g# n! o0 K4 l
3、对噪声神经有较强的鲁棒性和容错能力
& l3 w* W& _% Q7 o9 j W4、并行分布处理能力强,分布存储及学习能力强# \' y% e( X6 Q% a
5、常用于图像识别
& y; K# y7 [# {( d# B/ N( W; c8 Y6、数据量越大,表现越好
$ V0 `4 h% b8 C1 J% t/ d缺点:
: k' H5 M1 o! I! W! }& X1、黑箱模型,难以解释' E6 {9 d2 X0 J, ^5 h2 ~8 X" S
2、需要初始化以及训练大量参数,如网络结构、权值、阈值,计算复杂/ W5 C2 o. g! q; t; n" @
3、误差逆传播的损失9 d7 h, B9 ?- c; q0 d
4、容易陷入局部最小
1 n, U2 }( z- U6 W, Z9 N# S+ U- C% r0 B0 o+ t* V; e
词向量(word2vec)
( g% D7 A& V2 S. g将文章的每句话当成一行,将每个词用符号隔开(如使用中文分词工具jieba),根据上下文,可以找出相似词义的词。
2 Y# |$ O% i. A! d比如:我 喜欢 你,我 爱 你,我 讨厌 你。根据上下文我和你,可以找到喜欢的相似词,有爱和讨厌。1 s' V' l# c: f- N5 P+ X, a( _
再一般地如:1 2 3 X 4 5 6,1 2 3 Y 4 5 6。根据上下文1 2 3和4 5 6,可以找到X和Y相似。
4 [! T7 Q, G1 C( G" Fgensim是一个很好用的Python NLP的包,不光可以用于使用word2vec,还有很多其他的API可以用。它封装了google的C语言版的word2vec。9 t: X; a+ L# U; b
2 d5 K. b- h3 Z1 o7 h7 E: H2 hk近邻分类(kNN)
5 J; W9 u9 t W9 H" _* S基于某种距离度量找出训练集中与其最靠近的k个训练样本,或者指定距离e之内的训练样本,分类任务中通过投票法(以及加权投票等)将出现最多的类别标记作为预测结果,回归任务中则使用平均法(以及加权平均等)
* j1 ]4 d5 _# a# [4 Q优点:1 r: j9 x( O0 i
1、思想简单,易于理解,易于实现,无需估计参数,无需训练;$ y/ }! z1 K. i* ?' M9 r7 |! O
2、适合对稀有事件进行分类;# q9 N0 R5 g! C$ p: b% {' X4 |
3、特别适用于多分类问题
. p# y. A) d8 m7 d缺点:
. h! Z- K I- c7 p8 U$ m' g1、需要计算出待测样本与所有样本的距离,计算量大
$ S+ m0 U0 G. G) |2 @+ R2、样本不平衡时影响大' v" |$ H! k* Y" w5 b
3、适用的特征维度低
- A! c9 G8 O- K# }1 ^; l7 g9 Y6 c+ J5 S7 R' i* h3 d' L; Z C c, w
线性模型# t% _8 I9 a9 V3 Y
优点:- }5 m6 p' I7 v# z% K7 j# C
1、算法简单,编程方便
; u, t2 w; K/ K- c ^. P- O2、计算简单,决策速度快
$ ~+ r) [% v3 m( u/ b f+ c( H& @缺点:
0 J, x8 A/ Q9 _; p3 P @" F0 m1、拟合效果较差
$ n1 q, h2 T5 k# e/ @! b' i. s) r1 \! [
高斯混合聚类与k均值(k-means)及其变种(k-means++、ISODATA、Kernel K-means)的对比8 _! u; P6 ^1 v& a3 |3 @( t/ X
k-means是高斯混合聚类在混合成分方差相等、且每个样本仅指派给一个混合成分时的特例,因此k-means计算简单,但效果不如高斯混合聚类
1 d* B3 s, L; q7 m2 [' e由于计算太过复杂,高斯混合聚类并不常用,推荐使用k-means++(与k-means随机选定不同,k-means++初始选定的几个样本距离尽量远,这样能更快得出分簇结果)等k-means变种。% e7 ]0 V# p6 \+ i9 q: `0 p! b/ A5 `5 P
; T+ G1 u: U4 P# C
关于学习算法的性能实验结果
) o5 Y8 K' J) Z. y点击查看原文
2 U N( z; z3 M; p/ }
; V6 o* `, l) ]14年的时候有人做过一个实验[1],比较在不同数据集上(121个),不同的分类器(179个)的实际效果。
4 S/ A6 c$ l; O论文题为:Do we Need Hundreds of Classifiers to Solve Real World Classification Problems?
3 G g% d* C$ u, m& Q6 h没有最好的分类器,只有最合适的分类器。
# o/ P' h1 _8 ?5 ^2 z: |, [1、随机森林平均来说最强,但也只在9.9%的数据集上拿到了第一,优点是鲜有短板。2 G" Q' x7 U; j) `; x! U6 n' t0 a
2、SVM的平均水平紧随其后,在10.7%的数据集上拿到第一。
1 L5 T6 M+ `- f8 r/ t3、神经网络(13.2%)和boosting(~9%)表现不错。
( {! ~: P7 p, c4 Y' t) G4、数据维度越高,随机森林就比AdaBoost强越多,但是整体不及SVM[2]。
6 \6 U" W1 o$ F8 t7 B! x5、数据量越大,神经网络就越强。! S6 @7 T5 H, N2 \# d
————————————————' }& ~) s4 c2 S7 W
版权声明:本文为CSDN博主「路飞的纯白世界」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
# r$ V) A( P2 m! _* _# X* e8 e原文链接:https://blog.csdn.net/u010921136/article/details/906683829 G0 [; H7 _% | ~
, V( B9 ~& d& b: H. h3 q/ t! }9 B3 n' _- A* ~, G4 ]1 m* M
|
zan
|