- 在线时间
- 1630 小时
- 最后登录
- 2024-1-29
- 注册时间
- 2017-5-16
- 听众数
- 82
- 收听数
- 1
- 能力
- 120 分
- 体力
- 563403 点
- 威望
- 12 点
- 阅读权限
- 255
- 积分
- 174244
- 相册
- 1
- 日志
- 0
- 记录
- 0
- 帖子
- 5313
- 主题
- 5273
- 精华
- 3
- 分享
- 0
- 好友
- 163
TA的每日心情 | 开心 2021-8-11 17:59 |
|---|
签到天数: 17 天 [LV.4]偶尔看看III 网络挑战赛参赛者 网络挑战赛参赛者 - 自我介绍
- 本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。
 群组: 2018美赛大象算法课程 群组: 2018美赛护航培训课程 群组: 2019年 数学中国站长建 群组: 2019年数据分析师课程 群组: 2018年大象老师国赛优 |
; e5 @( u- @- @; F2 o$ d1 [2 t
各类机器学习算法的优缺点和适用场景汇总
/ o: ?' K% A" s: p! C目录: d0 l& O7 Y; e3 l( g
朴素贝叶斯分类器(NB:naive Bayes classifiers)
! g# k, k9 r `# \4 i1 p半朴素贝叶斯分类器(SNB:semi-naive Bayes classifiers)
( F) @+ F, U! b贝叶斯网(信念网). w% y- G; w! {. _. a
决策树(decision tree). K, |" w: N+ f1 ^, V
支持向量机(SVM)4 T; V/ _" q7 k* D
神经网络. b: l/ i: Z, O4 D; W" u3 R& U
词向量(word2vec)3 r& J# F4 C* A" F& |. A( E
k近邻分类(kNN)
5 q' P$ q) G9 ^. f1 J线性模型/ C' F# f% f" L4 B) o; g
高斯混合聚类与k均值(k-means)及其变种(k-means++、ISODATA、Kernel K-means)的对比) c# ?, f- a, O
关于学习算法的性能实验结果
. g2 W: v8 c2 i" j/ P7 b; I# \朴素贝叶斯分类器(NB:naive Bayes classifiers)( e8 e$ \- j# O9 d: k
顾名思义,其适用于分类任务、并且假设每个属性独立地对分类结果发生影响,然而现实中各个因素往往并不独立,那是否就无法解决问题呢?, _+ u' a6 P7 ^# y1 m2 f) O0 m
事实上并非如此,相反,朴素贝叶斯分类器在很多情况下都能获得相当好的性能,一种解释是:无需精准概率值即可导致正确分类结果;另一种解释是:若属性间依赖对所有类别影响相同,或依赖关系的影响能相互抵消,则属性条件独立性假设在降低计算开销的同时,不会对性能产生负面影响。
' ?/ J, ]& ^1 o- A* K% V
& T ?, N/ Z1 p优点:) d! @) I! V; T4 D
1、计算量较小. U& ?& T) Z/ L) _1 b
2、支持懒惰学习、增量学习
8 l$ L5 ~9 h+ g3 w3、对缺失数据不太敏感$ e, a/ j, m, K; r { n% P. s
4、推断即查表,速度极快。, F) J) a1 i' W- Z2 }. |6 r& }0 c
缺点:
% w K% B# |! W7 B! ~6 h1、没有考虑属性间依赖
* q, I# f1 h/ X$ T) P5 d2、通过类先验概率产生模型; i0 j3 z; z# I% a4 u) x! e, C" s. j
/ z- B$ w+ w( ~7 C半朴素贝叶斯分类器(SNB:semi-naive Bayes classifiers)2 _' w( S* O8 j4 t( Q9 a6 \
相比NB的不考虑依赖,SNB则是考虑了一个(独依赖估计策略:ODE)或多个(多依赖估计策略:kDE)属性依赖6 ~" h0 |' Z) O+ ?" ]) b
优点:+ j: k6 P1 \! o1 O' t% j) v
1、考虑了一个或多个比较强的属性依赖关系,泛化性能可能得到提升2 p- |9 Z, H* Y7 D
2、计算开销不大
. A6 Z/ M; P& i' p- s0 L5 u$ V3、同样支持懒惰学习、增量学习& b7 H: z# g. |
缺点:+ S3 l' ^; P1 A) n
1、通过类先验概率产生模型, S' S: s1 e+ w) J; G
. U7 q9 y4 G0 \& c* w" @. l
贝叶斯网(信念网)
2 d0 `5 H8 Q8 ? |贝叶斯网借助有向无环图刻画属性之间的依赖关系,通过吉布斯采样或者变分推断等方式来近似推断后验概率。
% v4 f( P1 K( R) ~优点:
& i9 Y* y3 c: a" p+ R2 o( D1、更加完整地考虑了属性间依赖关系,泛化性能将进一步提升- D' r/ A# h u. H! B
2、近似估算后验概率6 a* h2 [) r5 V
3、可用于推测属性缺失的样本
$ Y. e4 \) L- P Q; ~ p( X9 ~4、良好的可解释性% W! L- {, u- P: x; {
5、常用于语音识别、机器翻译等$ \- ~) c% r2 F @6 K" P
缺点:
+ D4 k R+ \3 ~; v( G" j) f; M0 ~1、结构学习NP难,通过评分搜索方法缓解3 T/ O& r0 |) E" y" @- q6 M h( r
2、推断算法的收敛速度较慢
U# x1 @/ t, z2 O' B* y: M# ?: a( a9 |
决策树(decision tree)
) |! i' ?7 x5 ]7 Z* E6 b决策树通过信息纯度(信息增益、增益率、基尼指数等)来决定结点的生成,通过剪枝来缩小决策树的尺寸以及缓解过拟合。是一种非参数学习算法。
" N' E( D' d, z$ ~优点:) v3 O/ a0 V! f% j/ S: h; Z( G6 g- F
1、计算量较小
% ?+ [. k* c5 X/ ?* q6 B2、清晰表达属性的重要程度
# n* R9 J' K7 j3 o+ _+ _. d7 j" T& g- W3、可增量学习对模型进行部分重构
0 _" H& Q- l1 V$ P' q4、不需要任何领域知识和参数假设
: @, Y6 G5 R5 ?$ e8 s3 P V5、适合高维数据
9 u( i$ F- v1 N7 i6 x) L6、随机森林是基于决策树的集成学习策略,随机森林鲜有短板
' q% I$ K1 ]5 U# y% m+ h3 T缺点:
: g9 S3 S* U- A: h {9 q1、没有考虑属性间依赖; _& {: U/ {5 A
2、容易过拟合,通过剪枝缓解
- g- o2 E, Q: w; ]5 p3、不可用于推测属性缺失的样本
6 L# _3 A4 ~, ^% x
! U9 G( T, l( V" q U4 |2 H支持向量机(SVM)/ n; }. o0 F7 A/ O. d+ u. Q
基于训练集D在样本空间中找到一个划分超平面,将不同类别的样本分开,是一种针对二分类设计的算法,但稍加改造为支持向量回归即可用于回归学习。
' R" h! E% ~/ s% V优点:: R- z0 f' J, z2 t5 d
1、可解决小样本的机器学习任务4 D- X2 Q. x+ P/ S/ y8 t
2、可解决高维问题
) `# D1 z& S' m% M% a3、可通过核方法解决非线性问题
4 L* q' @) @6 j缺点:. n' S1 T; [2 m9 D* Q4 `
1、对缺失数据敏感% X1 W3 B8 _, E1 U$ T% R
2、对于非线性问题,核函数方法选择一直是个未决问题2 b! p" S( v! x2 G; {
3 Z/ {7 a8 E q神经网络
; ~; b* Y4 Q% T& z5 T' i优点:+ H8 h. r- r+ X
1、分类的准确度极高; b' R# {0 O# [. C. ], p
2、可解决复杂的非线性问题
- K* R' {; |6 `9 l. h: e# B3、对噪声神经有较强的鲁棒性和容错能力( f- j0 v2 y U6 V" F* l( x# K
4、并行分布处理能力强,分布存储及学习能力强
) a) @5 V/ j8 T/ K5、常用于图像识别
. l0 J1 \7 } L( q6、数据量越大,表现越好
7 w1 p" q3 c8 ^# h7 O) D缺点:
) Z# `; _* M- k( V( E& f1、黑箱模型,难以解释% o7 }1 A N. N: a& _* m; d
2、需要初始化以及训练大量参数,如网络结构、权值、阈值,计算复杂8 k, {2 y4 u' D
3、误差逆传播的损失9 u' Y2 g: c3 s4 V
4、容易陷入局部最小
. s+ I6 A. O3 b: S; V3 }; m$ H$ d
词向量(word2vec)
7 z- `$ z6 U& e* ]将文章的每句话当成一行,将每个词用符号隔开(如使用中文分词工具jieba),根据上下文,可以找出相似词义的词。
+ }, e0 \. N3 @8 o' Z$ o* p. B比如:我 喜欢 你,我 爱 你,我 讨厌 你。根据上下文我和你,可以找到喜欢的相似词,有爱和讨厌。
0 g5 c6 S) g$ Y) O( X再一般地如:1 2 3 X 4 5 6,1 2 3 Y 4 5 6。根据上下文1 2 3和4 5 6,可以找到X和Y相似。
- h4 k: x# A8 p$ Q: |. Wgensim是一个很好用的Python NLP的包,不光可以用于使用word2vec,还有很多其他的API可以用。它封装了google的C语言版的word2vec。& `( ^; k% X1 k/ L- }
( q0 i8 R' j P. k+ O3 b R& @/ a4 A
k近邻分类(kNN)4 l4 {: g3 \: A; z
基于某种距离度量找出训练集中与其最靠近的k个训练样本,或者指定距离e之内的训练样本,分类任务中通过投票法(以及加权投票等)将出现最多的类别标记作为预测结果,回归任务中则使用平均法(以及加权平均等)
3 P6 b8 h5 l! p- _# @" `优点:
2 Z6 E% H) W, t( Y( }1、思想简单,易于理解,易于实现,无需估计参数,无需训练;
3 L: i! W6 L0 U/ c5 s+ G2、适合对稀有事件进行分类;
" ?+ C$ b' J" h" @! B8 T3、特别适用于多分类问题
% T- H. E7 h8 c$ w, N! D2 D \缺点:3 I) a+ k9 q" b0 T( @: q
1、需要计算出待测样本与所有样本的距离,计算量大3 \& e' q( j9 j/ V; q
2、样本不平衡时影响大
1 o$ Q9 o& @4 e! ^$ r3、适用的特征维度低5 C5 E0 g! E N" P2 _$ a; `$ z3 o
. J& d7 \! u* ]: r7 j3 r
线性模型
7 E. ^$ j# D# s* i8 [8 `优点:5 r( B: I! O9 Q( _% d8 v' {5 l; i
1、算法简单,编程方便
/ V9 r/ V" l7 w2 g+ K8 B& Q2、计算简单,决策速度快# l3 F" }. I \; q( t7 P
缺点:
' f* Z, A/ y" O6 A1、拟合效果较差8 U- B% E% B5 }- {. t- i. t- g, x
; u( i6 p4 ^+ D. h. v2 c高斯混合聚类与k均值(k-means)及其变种(k-means++、ISODATA、Kernel K-means)的对比3 O, E% h- \" c- N: _
k-means是高斯混合聚类在混合成分方差相等、且每个样本仅指派给一个混合成分时的特例,因此k-means计算简单,但效果不如高斯混合聚类0 W; _6 D) h* w6 M0 S% U- v
由于计算太过复杂,高斯混合聚类并不常用,推荐使用k-means++(与k-means随机选定不同,k-means++初始选定的几个样本距离尽量远,这样能更快得出分簇结果)等k-means变种。8 g2 Y: S" i3 ]6 ]' l
+ q& }( K( Y6 y+ i6 g9 X8 a1 G
关于学习算法的性能实验结果9 Y, I# y+ z/ t8 Q0 y
点击查看原文
. A# u; w+ y% g6 v+ z1 I# D3 y2 \ @9 |7 t7 l% P, G
14年的时候有人做过一个实验[1],比较在不同数据集上(121个),不同的分类器(179个)的实际效果。
5 a% } C1 _& G4 e- P5 ]& }$ C论文题为:Do we Need Hundreds of Classifiers to Solve Real World Classification Problems?
$ P. X3 c z4 |- W) o没有最好的分类器,只有最合适的分类器。% a& {2 |# L& G' ^5 X
1、随机森林平均来说最强,但也只在9.9%的数据集上拿到了第一,优点是鲜有短板。& X) m& t1 R! N6 ?8 M- c% Y# F
2、SVM的平均水平紧随其后,在10.7%的数据集上拿到第一。
& j) v. g* M1 F4 a+ o! ?4 n; E3 p3、神经网络(13.2%)和boosting(~9%)表现不错。. n+ J! o8 H: L" j: r4 a
4、数据维度越高,随机森林就比AdaBoost强越多,但是整体不及SVM[2]。
' |% _6 Q0 P& W' _ Q; T% y5、数据量越大,神经网络就越强。
6 z: ~+ m8 l( }9 J, O% ]' I- N. ^————————————————
8 m) H6 L$ X9 F) D+ j% l" H! ]# |7 q版权声明:本文为CSDN博主「路飞的纯白世界」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。6 \: m7 L) u1 ]* g2 @0 Q
原文链接:https://blog.csdn.net/u010921136/article/details/90668382! n& e9 d# `2 x! S4 d& B
, J2 w2 @! R1 f% n! a+ D
+ H# J9 n. E# z# {+ c' r) I4 t |
zan
|