- 在线时间
- 1630 小时
- 最后登录
- 2024-1-29
- 注册时间
- 2017-5-16
- 听众数
- 82
- 收听数
- 1
- 能力
- 120 分
- 体力
- 563404 点
- 威望
- 12 点
- 阅读权限
- 255
- 积分
- 174244
- 相册
- 1
- 日志
- 0
- 记录
- 0
- 帖子
- 5313
- 主题
- 5273
- 精华
- 3
- 分享
- 0
- 好友
- 163
TA的每日心情 | 开心 2021-8-11 17:59 |
|---|
签到天数: 17 天 [LV.4]偶尔看看III 网络挑战赛参赛者 网络挑战赛参赛者 - 自我介绍
- 本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。
 群组: 2018美赛大象算法课程 群组: 2018美赛护航培训课程 群组: 2019年 数学中国站长建 群组: 2019年数据分析师课程 群组: 2018年大象老师国赛优 |
; ^- H7 q- X- d. O
各类机器学习算法的优缺点和适用场景汇总
% C# ]4 n4 R' M5 O目录6 n' p% j4 L6 u) r
朴素贝叶斯分类器(NB:naive Bayes classifiers)% q* d: ~5 Q1 e- N( Q1 h
半朴素贝叶斯分类器(SNB:semi-naive Bayes classifiers)9 A/ g3 L5 g. j
贝叶斯网(信念网)
; w# B8 e% M' c4 E决策树(decision tree)& T! J4 x. w# C! C- W# b
支持向量机(SVM)2 N- E) A" J3 k6 A
神经网络/ c. b: O! E9 o$ R5 r' ^( n6 y
词向量(word2vec)/ g4 c, e, n9 c
k近邻分类(kNN)
. ?' N N( g# ~/ S. b( J线性模型 E; Q% J$ {$ M# {6 l
高斯混合聚类与k均值(k-means)及其变种(k-means++、ISODATA、Kernel K-means)的对比
. B+ a( d' L7 C6 {) w关于学习算法的性能实验结果/ w% e7 S4 X7 [. |% K8 r: j8 {
朴素贝叶斯分类器(NB:naive Bayes classifiers)& F0 Z- N b$ \, F9 e
顾名思义,其适用于分类任务、并且假设每个属性独立地对分类结果发生影响,然而现实中各个因素往往并不独立,那是否就无法解决问题呢? v# Q, `% B* W) L, N- n6 B
事实上并非如此,相反,朴素贝叶斯分类器在很多情况下都能获得相当好的性能,一种解释是:无需精准概率值即可导致正确分类结果;另一种解释是:若属性间依赖对所有类别影响相同,或依赖关系的影响能相互抵消,则属性条件独立性假设在降低计算开销的同时,不会对性能产生负面影响。% w) ~8 ^( K, P3 |5 z# W
6 V% [6 T& B2 U+ Z6 [
优点:
3 ]) H! e( J- ]# u0 [1、计算量较小
/ w" g( H5 M. L ?; @: }2、支持懒惰学习、增量学习7 v( s9 v0 D( |6 x0 Y/ |
3、对缺失数据不太敏感
3 Z1 N# I+ f/ i O) J' T( Y+ R; G4、推断即查表,速度极快。
# U4 E8 x1 T a7 _1 ]- t缺点:
5 {- b, [+ |7 h7 Y7 ]1、没有考虑属性间依赖
+ ?6 {3 G! b0 h) [' x, n) p) e2、通过类先验概率产生模型( a2 |/ ]6 p! u* _$ B! ?% g8 S* e+ W
( a& C% I8 S4 f. U! r: c' m
半朴素贝叶斯分类器(SNB:semi-naive Bayes classifiers)
! V7 w3 s) m( U& l6 X: U. V相比NB的不考虑依赖,SNB则是考虑了一个(独依赖估计策略:ODE)或多个(多依赖估计策略:kDE)属性依赖 t& l3 U& H; v- d
优点:
: d6 K! J# z: T6 }: ?1、考虑了一个或多个比较强的属性依赖关系,泛化性能可能得到提升
9 Y9 x0 I+ s) O8 b- j3 }" o2、计算开销不大
2 ]4 e; l6 X8 R% ]! m# X3、同样支持懒惰学习、增量学习
- d6 v9 Y9 m/ _; U缺点:
" C0 W2 F$ E f g: g r7 |8 A1、通过类先验概率产生模型
" I3 W4 Y1 ^' t( y9 q: c% x3 q" g3 i5 _2 l- E) [, T4 q
贝叶斯网(信念网)
: W9 H. ], J' s+ A* @* e# u贝叶斯网借助有向无环图刻画属性之间的依赖关系,通过吉布斯采样或者变分推断等方式来近似推断后验概率。, N) m9 ]: `4 [
优点:
0 M( v% t9 R3 o8 G( ], r9 M1、更加完整地考虑了属性间依赖关系,泛化性能将进一步提升
' }3 E4 v) C8 I2、近似估算后验概率+ E# {) D6 X6 ~) Y+ l& f7 E
3、可用于推测属性缺失的样本
9 A G: M. T" _0 _4、良好的可解释性8 J1 V3 K" W: J+ R
5、常用于语音识别、机器翻译等
3 f$ S! O( [1 v. B) a, e2 K2 e1 e缺点:
' g' I6 P+ F% \2 f4 q8 _* W1、结构学习NP难,通过评分搜索方法缓解. d/ P6 x7 y: ^1 A" o
2、推断算法的收敛速度较慢
8 n8 e' T% _: f6 w( L1 d+ f8 ~8 R; j% e& n/ a- S- a
决策树(decision tree)
# x& p4 j s4 H4 P' m& G6 {决策树通过信息纯度(信息增益、增益率、基尼指数等)来决定结点的生成,通过剪枝来缩小决策树的尺寸以及缓解过拟合。是一种非参数学习算法。
% Q; d2 j* l5 U优点:& K0 [) W% k+ q
1、计算量较小& `( @+ }8 i8 `
2、清晰表达属性的重要程度
; p0 d4 F$ D% C* E3 B$ u3、可增量学习对模型进行部分重构4 a$ F0 d4 m- j
4、不需要任何领域知识和参数假设
* L- Z& L8 ~* a5、适合高维数据
! a" Q" E" r: T" V; u' w0 _6、随机森林是基于决策树的集成学习策略,随机森林鲜有短板
( j `/ `1 g9 K' C* }' F缺点: f/ M8 `7 M; z+ _7 h! G4 z k. j
1、没有考虑属性间依赖
$ E0 C4 S- l- p9 ^' X2、容易过拟合,通过剪枝缓解
# U) d, q2 G; R5 M+ B. j+ u& Z+ t/ B8 }3、不可用于推测属性缺失的样本, j [ h$ @; R
7 Z* |3 J4 R& _1 Z" X. b- R9 k
支持向量机(SVM)/ f- `! {' i7 o4 d5 y! \, n9 a+ D
基于训练集D在样本空间中找到一个划分超平面,将不同类别的样本分开,是一种针对二分类设计的算法,但稍加改造为支持向量回归即可用于回归学习。
. |' [" z* y% ?* R* v: ]优点:0 l7 @: A+ D3 r5 V1 f1 Z) P [$ Q& o
1、可解决小样本的机器学习任务3 \" Q1 j" d4 l6 y+ f! m
2、可解决高维问题
7 _- A; {4 D0 }8 \) D3、可通过核方法解决非线性问题# Z$ \+ E- q, t9 Q
缺点:
; f' \% k, ~0 K4 y5 y& x' ~1、对缺失数据敏感/ ^* D9 r+ S8 x; v% n5 s! a, V
2、对于非线性问题,核函数方法选择一直是个未决问题
- M# j: X9 Z$ g$ t, M+ A$ `: `
0 V2 F, _5 X( z* P2 W) s神经网络/ R. M) N3 {3 b
优点:
6 q) r* Z* A' [" k3 z1、分类的准确度极高
; H6 m9 I! C1 @$ w4 }2 d1 U, {2、可解决复杂的非线性问题4 b$ p' r8 g0 M+ L8 d$ a. D0 X$ P" v
3、对噪声神经有较强的鲁棒性和容错能力
$ E. F0 z8 z+ T4 f2 ~/ ^3 p4、并行分布处理能力强,分布存储及学习能力强! c1 l6 P f+ \, ^) {4 @
5、常用于图像识别3 A3 O) s; V3 n& l0 }. T
6、数据量越大,表现越好
8 l8 x5 x2 _6 u+ a% @缺点:
& W9 m: m. O0 z U( m5 H* h- w$ D/ f8 W1、黑箱模型,难以解释 H; N ^$ B& x3 v! i
2、需要初始化以及训练大量参数,如网络结构、权值、阈值,计算复杂
; j3 ]/ Y. H; f `. Z# l. p3、误差逆传播的损失; D/ N$ W, R+ V l6 f) x
4、容易陷入局部最小( o' O1 o! I6 x, g
8 o! Y0 X, b& J; v0 g# r* v" ^3 y6 t
词向量(word2vec), Q5 M# L- m4 b9 D# |: J
将文章的每句话当成一行,将每个词用符号隔开(如使用中文分词工具jieba),根据上下文,可以找出相似词义的词。. Y$ V5 ?% {3 t$ y/ R% ~6 J1 B K) p% [
比如:我 喜欢 你,我 爱 你,我 讨厌 你。根据上下文我和你,可以找到喜欢的相似词,有爱和讨厌。
4 s( g V2 a# `6 q再一般地如:1 2 3 X 4 5 6,1 2 3 Y 4 5 6。根据上下文1 2 3和4 5 6,可以找到X和Y相似。: _+ Y. z/ `5 a* z
gensim是一个很好用的Python NLP的包,不光可以用于使用word2vec,还有很多其他的API可以用。它封装了google的C语言版的word2vec。# e, m$ I7 ~" J1 C. D9 w' M
2 T- g$ l. V3 `4 E% J. _/ Wk近邻分类(kNN): }& ^6 ?2 Q0 `4 ^: H
基于某种距离度量找出训练集中与其最靠近的k个训练样本,或者指定距离e之内的训练样本,分类任务中通过投票法(以及加权投票等)将出现最多的类别标记作为预测结果,回归任务中则使用平均法(以及加权平均等)) ^) {+ B3 T, J5 e
优点:. D% [) M) x' N: j; y
1、思想简单,易于理解,易于实现,无需估计参数,无需训练;
0 x- b- ~, Y! D( K# Z7 T: P0 K2、适合对稀有事件进行分类;$ _5 {: \5 k, I; p% |: w
3、特别适用于多分类问题4 L0 U3 ~# [4 I% A6 M/ P( ]
缺点:
" z. E$ u8 P5 l3 n1、需要计算出待测样本与所有样本的距离,计算量大
( l' h( S1 E, q" \% i( T2、样本不平衡时影响大) e2 y L7 J. u! E3 t( a
3、适用的特征维度低
8 \' P' v9 p' g5 h: P J, z' X
/ L) Z' |2 [! N6 L线性模型5 Y0 U: u7 t+ W3 n# e+ N2 a
优点:# t* J! c) b$ m0 F
1、算法简单,编程方便
9 D [, M3 y2 P. R7 I; F- v2、计算简单,决策速度快; [+ Y* ` }1 R0 y) W
缺点:
1 O+ s. ~; t% P, N) ^1、拟合效果较差3 w, P7 w& _: T. h, B6 w
6 O7 d v0 |/ o" D) K3 g6 ~2 e
高斯混合聚类与k均值(k-means)及其变种(k-means++、ISODATA、Kernel K-means)的对比
" m5 d4 L+ ]' }: |6 i/ ]k-means是高斯混合聚类在混合成分方差相等、且每个样本仅指派给一个混合成分时的特例,因此k-means计算简单,但效果不如高斯混合聚类
" e, G$ _" q& M& ~$ c& v由于计算太过复杂,高斯混合聚类并不常用,推荐使用k-means++(与k-means随机选定不同,k-means++初始选定的几个样本距离尽量远,这样能更快得出分簇结果)等k-means变种。, M# b# E' [. s. k/ C2 `
: p2 K" n8 p' ` I' X
关于学习算法的性能实验结果- U# L# r! M1 y; t/ H+ {4 e3 ~
点击查看原文, F; [ h7 n7 F% H# q/ y, v4 q4 h
8 b5 E% {& W/ t5 m
14年的时候有人做过一个实验[1],比较在不同数据集上(121个),不同的分类器(179个)的实际效果。/ r% f$ `: C! w+ j; c0 m& ?
论文题为:Do we Need Hundreds of Classifiers to Solve Real World Classification Problems?; H9 } B, l* v2 w/ [; K
没有最好的分类器,只有最合适的分类器。
0 L- ~4 q( ~4 F7 p1、随机森林平均来说最强,但也只在9.9%的数据集上拿到了第一,优点是鲜有短板。 b- K" r7 m0 M8 L) d; L6 ~
2、SVM的平均水平紧随其后,在10.7%的数据集上拿到第一。
% A; N& d6 Q) V1 S" W% t4 ~- u. ^3、神经网络(13.2%)和boosting(~9%)表现不错。
/ X9 a# h: D& R/ w& O. x# J4、数据维度越高,随机森林就比AdaBoost强越多,但是整体不及SVM[2]。) d/ B- a; l0 w; j2 {; d3 W
5、数据量越大,神经网络就越强。) t( S! |) y0 \% k7 E
————————————————0 ^& C( j6 Q3 E" }" k/ G
版权声明:本文为CSDN博主「路飞的纯白世界」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
+ W9 ]$ ?& }9 I4 D- r原文链接:https://blog.csdn.net/u010921136/article/details/906683825 d- k4 S0 J- p4 r$ m$ C, N
0 e; U0 q$ `! t* N
6 S0 j9 K" @4 l" s1 |) `' n3 u$ C5 r |
zan
|