QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 2002|回复: 0
打印 上一主题 下一主题

各类机器学习算法的优缺点和适用场景汇总

[复制链接]
字体大小: 正常 放大
杨利霞        

5273

主题

82

听众

17万

积分

  • TA的每日心情
    开心
    2021-8-11 17:59
  • 签到天数: 17 天

    [LV.4]偶尔看看III

    网络挑战赛参赛者

    网络挑战赛参赛者

    自我介绍
    本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。

    群组2018美赛大象算法课程

    群组2018美赛护航培训课程

    群组2019年 数学中国站长建

    群组2019年数据分析师课程

    群组2018年大象老师国赛优

    跳转到指定楼层
    1#
    发表于 2021-4-10 11:24 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta

    ( G' w& f# o! M% \6 _各类机器学习算法的优缺点和适用场景汇总
    1 Z, l+ B. J. F# Y$ p目录
    ( }" Z. D' v* Z2 u1 M朴素贝叶斯分类器(NB:naive Bayes classifiers)! k1 t( O2 g1 U4 Q8 ?
    半朴素贝叶斯分类器(SNB:semi-naive Bayes classifiers), M: A/ I; k% h+ T) ]2 t
    贝叶斯网(信念网)
    , w& G7 o4 y# V9 C: w- L决策树(decision tree)( t* u$ D; T8 {+ t
    支持向量机(SVM)$ J& h  G# X5 l' O- D" L( G
    神经网络+ Q4 T2 _, T$ z7 Z% Z9 `
    词向量(word2vec)9 E2 w: w1 `) w8 t
    k近邻分类(kNN)
    2 p0 w$ ]( [% ]" U6 W; b线性模型. B- r9 I5 k- X) N" S
    高斯混合聚类与k均值(k-means)及其变种(k-means++、ISODATA、Kernel K-means)的对比
    , b$ Q9 m3 P( s关于学习算法的性能实验结果
    2 V9 I. z& f. I7 @: m朴素贝叶斯分类器(NB:naive Bayes classifiers)
    : l$ w# j+ m  C/ w9 Y. O顾名思义,其适用于分类任务、并且假设每个属性独立地对分类结果发生影响,然而现实中各个因素往往并不独立,那是否就无法解决问题呢?
    , f6 H. U* d6 |# s2 D事实上并非如此,相反,朴素贝叶斯分类器在很多情况下都能获得相当好的性能,一种解释是:无需精准概率值即可导致正确分类结果;另一种解释是:若属性间依赖对所有类别影响相同,或依赖关系的影响能相互抵消,则属性条件独立性假设在降低计算开销的同时,不会对性能产生负面影响。
    5 r5 G. D: E5 d! r
    # ?) N2 D; K9 t% l( B) F& ?7 `优点:5 g1 d1 X2 [7 w" Q& Y$ e
    1、计算量较小1 q, p) Q7 q7 u# o
    2、支持懒惰学习、增量学习
    . a0 k0 T9 `* Y( J3、对缺失数据不太敏感
    $ N  M7 B1 N& d  z3 i" ^4、推断即查表,速度极快。4 e. x, H$ K8 r. X: x
    缺点:
    * l& S# c) [$ j9 z9 R3 W9 V1、没有考虑属性间依赖
    5 p5 M% I# ~  n5 V5 [. ~" A% @2、通过类先验概率产生模型# M7 S7 y  q5 b# h( m- g) X

    / q  z' X8 t# J6 m* n) N半朴素贝叶斯分类器(SNB:semi-naive Bayes classifiers)4 y! L6 K9 l( U& U2 Z
    相比NB的不考虑依赖,SNB则是考虑了一个(独依赖估计策略:ODE)或多个(多依赖估计策略:kDE)属性依赖
    7 r# E- a, M2 `# e  p2 A" I优点:
    9 H" e2 W) r* F. t# v  u" i; G& n1、考虑了一个或多个比较强的属性依赖关系,泛化性能可能得到提升3 [% n! z- \1 `
    2、计算开销不大
    5 J3 _% v* X* J" l) F. K3、同样支持懒惰学习、增量学习
    9 N# S4 k9 u0 [. ~6 r$ e缺点:
    ; ]8 _8 F) v1 {* B! r) A1、通过类先验概率产生模型
    $ }0 W0 e+ l/ R' ~8 b" B6 O3 Z  w1 E2 c3 T$ b$ o6 H: S% D% v( \
    贝叶斯网(信念网)0 c$ \- i) [1 u
    贝叶斯网借助有向无环图刻画属性之间的依赖关系,通过吉布斯采样或者变分推断等方式来近似推断后验概率。
    ! T, L, e& R( M8 W& p优点:
    ' i( P) F# y$ ^7 ]/ P$ K3 h/ L4 L1、更加完整地考虑了属性间依赖关系,泛化性能将进一步提升  ^' p' }+ t% W: w* ~" M# T
    2、近似估算后验概率
    ; l- Y5 M6 C, d5 L$ J3、可用于推测属性缺失的样本* K& l$ L3 ?7 y
    4、良好的可解释性6 ~4 i) F* v8 K
    5、常用于语音识别、机器翻译等/ Z% Z3 G  \& \1 D3 A
    缺点:4 S$ h" M8 E8 S: Z* u. ?0 a5 y2 y
    1、结构学习NP难,通过评分搜索方法缓解
    # G' W! {+ K) F& h5 x  o2、推断算法的收敛速度较慢
    " n) Z4 H* V7 P% w
    ) n6 l( ]9 U9 J  S, R2 |+ D3 u7 H决策树(decision tree)* w# T+ r" j) Q! u! {2 H
    决策树通过信息纯度(信息增益、增益率、基尼指数等)来决定结点的生成,通过剪枝来缩小决策树的尺寸以及缓解过拟合。是一种非参数学习算法。& ~. ~: t8 y3 c" U+ j5 o
    优点:
    ' w( u' m& ?$ |  S4 e+ u# _2 j9 a1、计算量较小$ ^* p- [7 w; R0 ?# J% I# ?* p
    2、清晰表达属性的重要程度" K; }6 Q4 B5 s9 ?
    3、可增量学习对模型进行部分重构
    + [% Y0 c) I" J" t4、不需要任何领域知识和参数假设
    $ g9 y# g/ L% t) y5、适合高维数据0 i8 g' d& g# V! s5 S
    6、随机森林是基于决策树的集成学习策略,随机森林鲜有短板( w5 I* ?8 q3 m5 j' ]0 D6 `
    缺点:/ W) q  @, y! J+ H) A5 V
    1、没有考虑属性间依赖
    $ r& E0 Y0 ?' |5 V2 w2、容易过拟合,通过剪枝缓解
    : E. K. a6 c! l3、不可用于推测属性缺失的样本
    $ l/ z$ O9 m0 q" t9 D
    : e' h8 e2 T& q) v& B' V支持向量机(SVM)4 Y) M3 S4 O( r8 l
    基于训练集D在样本空间中找到一个划分超平面,将不同类别的样本分开,是一种针对二分类设计的算法,但稍加改造为支持向量回归即可用于回归学习。
    6 A( T) k( ?3 h7 l* c' @! F' i$ h优点:& k! g' u) O* \: ~
    1、可解决小样本的机器学习任务
    * q. G5 X- I, S2 ]+ N2、可解决高维问题
    2 c8 c4 Q! O& S7 p+ J3、可通过核方法解决非线性问题
    1 F  |" X1 V4 [5 ?# ?缺点:
    3 Q# M, \! P2 j' \  E1、对缺失数据敏感4 _# ~* T3 R+ R+ R& B: V0 M
    2、对于非线性问题,核函数方法选择一直是个未决问题
    . Y6 @' \2 {. n. n% E& }( {* x$ {7 B% y: I9 A1 ^
    神经网络
    & K( v1 ~. y9 i2 z( R5 T  z, C- [5 J优点:
      x1 F$ V& ~! P! e1、分类的准确度极高+ d' f' Q0 f, r- T6 p+ v6 S7 b
    2、可解决复杂的非线性问题
      _3 W+ d7 {+ F4 J2 u# n3、对噪声神经有较强的鲁棒性和容错能力. i2 p& g* V3 L* r$ |& \$ M
    4、并行分布处理能力强,分布存储及学习能力强+ h$ ]. J. E! k3 l0 S
    5、常用于图像识别
    4 I" J4 C# D  J+ v" {6、数据量越大,表现越好' }& N# I% t' M! e% B7 Y! e. `% e
    缺点:* ~- S& M$ o& N! _
    1、黑箱模型,难以解释# e  ?) W' ^0 D2 Y+ d7 h8 N2 H
    2、需要初始化以及训练大量参数,如网络结构、权值、阈值,计算复杂
    " h7 @0 ^% p- e+ u: _/ ]3、误差逆传播的损失
    2 F; L7 }$ X3 x+ n4、容易陷入局部最小, ^7 o2 X' D5 i3 u

    6 e6 d. F; @( l2 f* U词向量(word2vec)
    9 x9 s9 O/ J9 ]7 O将文章的每句话当成一行,将每个词用符号隔开(如使用中文分词工具jieba),根据上下文,可以找出相似词义的词。/ S  Q0 |" T/ V  [& D% X
    比如:我 喜欢 你,我 爱 你,我 讨厌 你。根据上下文我和你,可以找到喜欢的相似词,有爱和讨厌。
    # ^4 y. \% n$ K2 }9 E+ N; c再一般地如:1 2 3 X 4 5 6,1 2 3 Y 4 5 6。根据上下文1 2 3和4 5 6,可以找到X和Y相似。- S. l- x, ]" @$ N6 ?. ~0 k
    gensim是一个很好用的Python NLP的包,不光可以用于使用word2vec,还有很多其他的API可以用。它封装了google的C语言版的word2vec。6 H+ Z( |0 h6 {6 s9 Z  q0 q2 b
    7 {) M) M/ G4 ?0 \6 x
    k近邻分类(kNN)& w# O. P$ I* C1 q4 u! D4 F3 F) x
    基于某种距离度量找出训练集中与其最靠近的k个训练样本,或者指定距离e之内的训练样本,分类任务中通过投票法(以及加权投票等)将出现最多的类别标记作为预测结果,回归任务中则使用平均法(以及加权平均等)
    , c- G- @9 V, u; V% X# a优点:
    7 `" \! y* R! M8 ^0 Z6 M8 z6 [. Q1、思想简单,易于理解,易于实现,无需估计参数,无需训练;4 H9 M; k' m( w7 V+ J
    2、适合对稀有事件进行分类;
    * U; b  q/ n- D, d$ V( _9 F3、特别适用于多分类问题
    & Y0 v7 A+ C1 B; l$ @) e缺点:5 ?& ]+ E3 ]) t3 c: K( x
    1、需要计算出待测样本与所有样本的距离,计算量大
    0 }7 T: O) P/ e2 t2、样本不平衡时影响大
    7 C2 D7 v8 x% W; W3、适用的特征维度低
      Q: E4 _8 `7 A5 C) K9 L2 _) J" o: f; o3 ^( ^/ J; Q/ J  o
    线性模型
      E  I! L$ {* H8 J. Z0 l; N% d" R优点:: i3 i2 b! t6 h& u( i+ e8 C! A
    1、算法简单,编程方便
    1 U# m9 W) }6 G1 G2、计算简单,决策速度快, e  D( L6 L- j0 f! I% L$ w3 s. D+ V
    缺点:" f1 b" ]7 @5 D
    1、拟合效果较差
    8 |% n1 C4 f$ f% m2 l; t7 n3 H5 E& B+ _% C; P# L3 ?
    高斯混合聚类与k均值(k-means)及其变种(k-means++、ISODATA、Kernel K-means)的对比; T' V: M/ R# @# k
    k-means是高斯混合聚类在混合成分方差相等、且每个样本仅指派给一个混合成分时的特例,因此k-means计算简单,但效果不如高斯混合聚类
    - q# s5 m5 m% P2 g由于计算太过复杂,高斯混合聚类并不常用,推荐使用k-means++(与k-means随机选定不同,k-means++初始选定的几个样本距离尽量远,这样能更快得出分簇结果)等k-means变种。
    ( p; ]4 a6 h: ^0 }# G1 S6 z
    7 B; ^- x4 c* ~3 K9 q关于学习算法的性能实验结果
      q5 d* w) Q1 l& X" V% m4 N/ J4 `7 _点击查看原文
    3 Z, S( l7 A* \; x5 h+ l/ T* h5 M& z; i+ [3 H  Y/ f8 A
    14年的时候有人做过一个实验[1],比较在不同数据集上(121个),不同的分类器(179个)的实际效果。! `: K, F5 R, l3 |
    论文题为:Do we Need Hundreds of Classifiers to Solve Real World Classification Problems?
    , J( y9 l' u7 x2 [2 V" c" z没有最好的分类器,只有最合适的分类器。
    5 k! X' v3 K1 w1、随机森林平均来说最强,但也只在9.9%的数据集上拿到了第一,优点是鲜有短板。
    ) E2 u/ x3 U$ W; C8 [2、SVM的平均水平紧随其后,在10.7%的数据集上拿到第一。
    + h$ U" M3 `4 |3、神经网络(13.2%)和boosting(~9%)表现不错。3 m( S' F+ Z; U* |1 o8 e( T* k( I0 _) k
    4、数据维度越高,随机森林就比AdaBoost强越多,但是整体不及SVM[2]。
    ! s! H: u" y  q' W8 @  P  M9 \5、数据量越大,神经网络就越强。
    , a3 B! [, Y7 T6 O————————————————
    ) T( N& |. U5 u" G2 G+ r8 L8 E版权声明:本文为CSDN博主「路飞的纯白世界」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
    4 \! B1 B" H; ~/ m$ x原文链接:https://blog.csdn.net/u010921136/article/details/906683824 |( _, G- T' i5 P1 {4 s/ I
    # r* W2 d: t: W: ?
    - l3 W; q4 d2 S5 D, {; a
    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2026-6-9 05:45 , Processed in 0.329669 second(s), 51 queries .

    回顶部