- 在线时间
- 1630 小时
- 最后登录
- 2024-1-29
- 注册时间
- 2017-5-16
- 听众数
- 82
- 收听数
- 1
- 能力
- 120 分
- 体力
- 563422 点
- 威望
- 12 点
- 阅读权限
- 255
- 积分
- 174249
- 相册
- 1
- 日志
- 0
- 记录
- 0
- 帖子
- 5313
- 主题
- 5273
- 精华
- 3
- 分享
- 0
- 好友
- 163
TA的每日心情 | 开心 2021-8-11 17:59 |
|---|
签到天数: 17 天 [LV.4]偶尔看看III 网络挑战赛参赛者 网络挑战赛参赛者 - 自我介绍
- 本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。
 群组: 2018美赛大象算法课程 群组: 2018美赛护航培训课程 群组: 2019年 数学中国站长建 群组: 2019年数据分析师课程 群组: 2018年大象老师国赛优 |
. E8 @$ w0 T( g5 b4 `" I4 A5 d+ i T各类机器学习算法的优缺点和适用场景汇总
8 ?( [' G! i5 Q4 J% z6 S目录
( t7 |& Y5 Y& h, O& \( K朴素贝叶斯分类器(NB:naive Bayes classifiers)
$ h& o# @! p0 _5 c半朴素贝叶斯分类器(SNB:semi-naive Bayes classifiers)- |2 A0 n# n; J# c0 U
贝叶斯网(信念网)
# k2 I1 f9 N- b- d2 T) e决策树(decision tree)
4 l" X' \* j3 \4 |" A" c' s" g支持向量机(SVM)# L; I2 x [+ i7 I! o# h8 J/ G
神经网络
. A; V2 I) r8 w' j" d词向量(word2vec)
% U1 |' w- m6 D5 _) dk近邻分类(kNN)
* d" `- d! d3 y5 f+ _# Y线性模型
" ]/ f5 b' i" r高斯混合聚类与k均值(k-means)及其变种(k-means++、ISODATA、Kernel K-means)的对比
9 t% e G' E4 x& H- L Z关于学习算法的性能实验结果+ c: h, Y6 Y+ P- Q% P0 v8 v$ I( C
朴素贝叶斯分类器(NB:naive Bayes classifiers)
$ S4 f3 B: K6 Z+ `顾名思义,其适用于分类任务、并且假设每个属性独立地对分类结果发生影响,然而现实中各个因素往往并不独立,那是否就无法解决问题呢?
" b8 {& e7 f2 X5 _事实上并非如此,相反,朴素贝叶斯分类器在很多情况下都能获得相当好的性能,一种解释是:无需精准概率值即可导致正确分类结果;另一种解释是:若属性间依赖对所有类别影响相同,或依赖关系的影响能相互抵消,则属性条件独立性假设在降低计算开销的同时,不会对性能产生负面影响。
3 q1 X5 W" ]) l# X) z3 j
4 Z9 V0 e, e T, c2 X优点:, u! i: @9 s$ T
1、计算量较小
1 b- d& p4 }* S& M& z2、支持懒惰学习、增量学习
- b! M) r8 L; L! z3、对缺失数据不太敏感 u0 K) Z+ h# j/ _4 u
4、推断即查表,速度极快。4 p$ b2 L2 [4 V, S- D# b4 f' @
缺点:
; V1 B# O2 y- R, l2 J1、没有考虑属性间依赖7 f' b) J! ^% J3 @; H/ o
2、通过类先验概率产生模型7 ?! W% v% ^9 S1 R& |; y: |' k d
- B5 H9 l9 o" O7 ^# D7 E" m* u半朴素贝叶斯分类器(SNB:semi-naive Bayes classifiers): o( y; h/ X* u5 N! f; Y# b
相比NB的不考虑依赖,SNB则是考虑了一个(独依赖估计策略:ODE)或多个(多依赖估计策略:kDE)属性依赖; J! ~) s; a7 t$ y* P" {$ U2 R. v
优点:
# s- f; L: k6 T2 i, H1、考虑了一个或多个比较强的属性依赖关系,泛化性能可能得到提升
# G) v4 ^0 u% [$ I" ?2、计算开销不大$ `( l$ ], E( ^) A" |' j9 z
3、同样支持懒惰学习、增量学习# T5 w8 T8 s: |( {
缺点:
) K' e3 ]9 U+ j4 b. e3 k1、通过类先验概率产生模型% t, j& L! n# e9 W; a
' \3 K q; J; j. b5 [! P贝叶斯网(信念网)3 o! ]/ P+ n0 h0 G) ~ G
贝叶斯网借助有向无环图刻画属性之间的依赖关系,通过吉布斯采样或者变分推断等方式来近似推断后验概率。3 `' {; w) [2 m9 F% G; ^; |
优点:
' j( O' w' u4 [1 Q8 m0 o$ e# G$ @1、更加完整地考虑了属性间依赖关系,泛化性能将进一步提升! _3 N; X" L( R8 i
2、近似估算后验概率 t( R# g* P& m- @* E2 K" [+ `
3、可用于推测属性缺失的样本* `& {% [$ y! V8 M: l, G( E
4、良好的可解释性$ T" F% u6 d: v& S
5、常用于语音识别、机器翻译等
! M/ m! F! z( k8 ~1 L$ L& v$ ^缺点:5 } P7 Y- c2 L
1、结构学习NP难,通过评分搜索方法缓解. A/ D4 h% W9 I" u) n4 g
2、推断算法的收敛速度较慢
/ y% O: U" n4 \& i5 _2 i( t6 P+ ]: d7 V1 E9 N5 l0 N2 T
决策树(decision tree)
9 X) q2 s6 A& f: K( N决策树通过信息纯度(信息增益、增益率、基尼指数等)来决定结点的生成,通过剪枝来缩小决策树的尺寸以及缓解过拟合。是一种非参数学习算法。
$ q$ Z$ |# I; x `* {* `- T优点:; ~+ u$ [& p* A* }2 E6 \1 V" _! P
1、计算量较小
& l7 {4 Y3 L' A* z- x% ]2、清晰表达属性的重要程度4 X* R" {# ^: ~
3、可增量学习对模型进行部分重构
( x6 D2 H' Q; T6 c# k+ j! n4、不需要任何领域知识和参数假设
' A$ e# _7 m" r# H% }! T5 ~5、适合高维数据9 f6 q8 ~6 c6 ~: }+ C* e: c
6、随机森林是基于决策树的集成学习策略,随机森林鲜有短板
" X: W# }' Q' y7 F& @5 x缺点:( q% X" @/ L, h
1、没有考虑属性间依赖
3 R% }4 R6 K" c4 _. w2、容易过拟合,通过剪枝缓解/ e) h" M ~& Q% y: X. `1 o! A
3、不可用于推测属性缺失的样本) o5 ]4 I" |6 [4 Z% z8 v$ _- @8 p: J
" A8 r+ U( ?) K4 \& |支持向量机(SVM); L! v5 W1 m4 _4 s) M" c* M) U, _
基于训练集D在样本空间中找到一个划分超平面,将不同类别的样本分开,是一种针对二分类设计的算法,但稍加改造为支持向量回归即可用于回归学习。
& r1 ^8 V7 X/ ^# U6 S O优点:: q, a7 o& b. D! X+ w
1、可解决小样本的机器学习任务7 o7 J: P. n, B9 Q" v4 I
2、可解决高维问题4 F2 \" m, U2 o2 k
3、可通过核方法解决非线性问题
`/ w5 Z6 [" X缺点:
0 _% \$ D& c0 Z7 @4 F1、对缺失数据敏感
6 L, N" ^( T' j/ k. [. c2、对于非线性问题,核函数方法选择一直是个未决问题
) ~8 S( r1 V- w- [' `
8 |1 R( {( U* L- f" R3 U# ?神经网络
) R7 W! \2 A) Z( y# f' @. ~优点:
$ y% I! u ~4 ^) r# E1、分类的准确度极高
2 l- `! G! Q8 M2、可解决复杂的非线性问题% F! s# [: T( N( I
3、对噪声神经有较强的鲁棒性和容错能力, u, u# C+ j) t S5 D2 V
4、并行分布处理能力强,分布存储及学习能力强
d& M2 B8 E% F' W1 m2 [" s5、常用于图像识别
3 U; T% Y! U% i# r6、数据量越大,表现越好$ y8 J% z! A# ?0 }3 c& y/ m+ Y
缺点:. f5 o7 d# q7 ^' z
1、黑箱模型,难以解释
4 h8 F+ p; W+ a% w' a2、需要初始化以及训练大量参数,如网络结构、权值、阈值,计算复杂
$ u. z# A2 Q2 S6 w2 C$ N1 B3、误差逆传播的损失
: ]8 u/ k! W0 f* V. e( k4、容易陷入局部最小
: m+ Z, W* r z9 @7 Y3 N: \
" ?/ a$ b/ b% G; x词向量(word2vec)6 F# l; g" c$ h
将文章的每句话当成一行,将每个词用符号隔开(如使用中文分词工具jieba),根据上下文,可以找出相似词义的词。
2 a6 Q, c) j* k比如:我 喜欢 你,我 爱 你,我 讨厌 你。根据上下文我和你,可以找到喜欢的相似词,有爱和讨厌。$ I. t( P" N" m) B9 b# B
再一般地如:1 2 3 X 4 5 6,1 2 3 Y 4 5 6。根据上下文1 2 3和4 5 6,可以找到X和Y相似。) R3 v. K) B, n8 k* c! b' m! C
gensim是一个很好用的Python NLP的包,不光可以用于使用word2vec,还有很多其他的API可以用。它封装了google的C语言版的word2vec。9 l8 k+ {* J/ @& [2 l7 ~) |
# L: V" W* @0 U4 z1 G& `8 d9 Qk近邻分类(kNN)
% G2 O( G* {6 F4 w基于某种距离度量找出训练集中与其最靠近的k个训练样本,或者指定距离e之内的训练样本,分类任务中通过投票法(以及加权投票等)将出现最多的类别标记作为预测结果,回归任务中则使用平均法(以及加权平均等)2 O( K& t) z0 W# [# m* F
优点:
% t! j* K% ]5 l2 I. m+ y1、思想简单,易于理解,易于实现,无需估计参数,无需训练;" e% w2 E% R" x
2、适合对稀有事件进行分类;6 D2 c. M, G. j% R# K
3、特别适用于多分类问题
! H1 @3 F% P! B) w4 b. T5 ~缺点:
^1 c2 Z# c% Y/ E1、需要计算出待测样本与所有样本的距离,计算量大
& C5 a4 G6 T, z9 R& y' ` H2、样本不平衡时影响大
2 @7 V! G) |3 J H D! H2 n3、适用的特征维度低6 I8 X, U7 C- t. B. ]: @: n
2 m3 ? j1 ^1 C5 ^9 K0 j
线性模型
1 U& c% j3 k3 d: o- K6 H( }优点:
$ k$ M; ^* J( s+ c$ B6 Y$ A% Z: v1、算法简单,编程方便4 b" ^# l* }5 m' S
2、计算简单,决策速度快
: l, c% I3 q- W( _缺点:: P2 c0 B G% l/ w, ]5 ]
1、拟合效果较差, r* |. ?1 o3 o, v$ h7 b1 U+ Z6 X
, X6 O' U3 Y, t- A高斯混合聚类与k均值(k-means)及其变种(k-means++、ISODATA、Kernel K-means)的对比
, d5 s# X: i. {8 [* }: O8 q) gk-means是高斯混合聚类在混合成分方差相等、且每个样本仅指派给一个混合成分时的特例,因此k-means计算简单,但效果不如高斯混合聚类3 r; o5 X" p. S! ~* w
由于计算太过复杂,高斯混合聚类并不常用,推荐使用k-means++(与k-means随机选定不同,k-means++初始选定的几个样本距离尽量远,这样能更快得出分簇结果)等k-means变种。
8 l9 K4 [! w- x. V0 R/ k1 C
9 ?/ S2 t0 b# b' k# L3 _3 G ~- Y关于学习算法的性能实验结果6 |; P( t5 J) b/ t* u. _
点击查看原文4 M3 |8 ~- r& P) \( Z0 a
% m! A- |0 U ^5 w X4 q m2 K14年的时候有人做过一个实验[1],比较在不同数据集上(121个),不同的分类器(179个)的实际效果。* K! M1 X- Y0 b3 i
论文题为:Do we Need Hundreds of Classifiers to Solve Real World Classification Problems?
7 x, v3 K/ q/ C4 X没有最好的分类器,只有最合适的分类器。
3 J+ |0 t9 Y6 S m1、随机森林平均来说最强,但也只在9.9%的数据集上拿到了第一,优点是鲜有短板。
. U* i, j8 A5 M, B, X8 r9 E1 g2、SVM的平均水平紧随其后,在10.7%的数据集上拿到第一。
' g% F9 ]$ ]5 \3、神经网络(13.2%)和boosting(~9%)表现不错。( Z- S: g) d7 W U
4、数据维度越高,随机森林就比AdaBoost强越多,但是整体不及SVM[2]。
; u+ t8 X2 o5 D' O: A% q$ i5、数据量越大,神经网络就越强。
/ K$ C& _$ k! s" t; V5 {5 n. z- {0 ?————————————————& d M5 \+ Y9 {" o
版权声明:本文为CSDN博主「路飞的纯白世界」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。" R; f# j( ~2 X! j
原文链接:https://blog.csdn.net/u010921136/article/details/90668382
( Q6 G9 b( Y4 r2 i- x$ N
& D. b) M) k$ `5 ]! ^' I( S' @. \1 R5 t( S3 \% E
|
zan
|