QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 1958|回复: 0
打印 上一主题 下一主题

各类机器学习算法的优缺点和适用场景汇总

[复制链接]
字体大小: 正常 放大
杨利霞        

5273

主题

82

听众

17万

积分

  • TA的每日心情
    开心
    2021-8-11 17:59
  • 签到天数: 17 天

    [LV.4]偶尔看看III

    网络挑战赛参赛者

    网络挑战赛参赛者

    自我介绍
    本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。

    群组2018美赛大象算法课程

    群组2018美赛护航培训课程

    群组2019年 数学中国站长建

    群组2019年数据分析师课程

    群组2018年大象老师国赛优

    跳转到指定楼层
    1#
    发表于 2021-4-10 11:24 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta

    / D  M$ ^& |  A* I各类机器学习算法的优缺点和适用场景汇总4 N) W+ i( }! f  Q7 U4 `
    目录
    3 r, ^7 h1 ^% x! `朴素贝叶斯分类器(NB:naive Bayes classifiers)7 O  n6 f2 n/ e) l
    半朴素贝叶斯分类器(SNB:semi-naive Bayes classifiers)
    $ [8 H9 a0 k# Z3 J7 u! ]贝叶斯网(信念网)- }* m0 e4 G6 y1 l
    决策树(decision tree)+ t( g, V/ T; [* p( a, s) F+ {' z# {7 @  y
    支持向量机(SVM)! S6 i( H' Y3 r* R( ]( U4 R0 r5 s
    神经网络
    2 ?- I' j# Q5 j* {* t5 x) p# ]$ E# E词向量(word2vec)  Z' l4 L- L- z1 }% L; u
    k近邻分类(kNN)
    2 U- \! e6 f. U' \9 y线性模型
    + W3 m" z) z# |1 I7 L: M  B" T高斯混合聚类与k均值(k-means)及其变种(k-means++、ISODATA、Kernel K-means)的对比
    , g* P& h- q4 }关于学习算法的性能实验结果
    & n; V5 s. k3 U# ^朴素贝叶斯分类器(NB:naive Bayes classifiers)( m& F; C9 G: [$ z% G
    顾名思义,其适用于分类任务、并且假设每个属性独立地对分类结果发生影响,然而现实中各个因素往往并不独立,那是否就无法解决问题呢?, P) w$ p4 C$ ^7 C. f5 H
    事实上并非如此,相反,朴素贝叶斯分类器在很多情况下都能获得相当好的性能,一种解释是:无需精准概率值即可导致正确分类结果;另一种解释是:若属性间依赖对所有类别影响相同,或依赖关系的影响能相互抵消,则属性条件独立性假设在降低计算开销的同时,不会对性能产生负面影响。. B, |- q  P* o6 R  f8 Q  e
    8 @1 `" Z7 I( f
    优点:  z0 i4 @/ ?# U3 G* [; N9 i+ j
    1、计算量较小! t. E/ `4 A2 b" X8 L' o0 E3 Z
    2、支持懒惰学习、增量学习
    ; w# S. T$ @7 S3、对缺失数据不太敏感2 X- ~  {: w3 K9 w5 o
    4、推断即查表,速度极快。
      B; ]& S, d) R- G4 n# Y# p缺点:4 i9 O" B* P! H4 u
    1、没有考虑属性间依赖
    6 i$ R9 H4 i' i9 t) h2、通过类先验概率产生模型
    ! t/ q/ C5 r7 c% q$ P0 c2 m$ e' h! G$ q3 L2 H2 k
    半朴素贝叶斯分类器(SNB:semi-naive Bayes classifiers)
    0 r; n0 R2 U) D: N, C# \5 {, ^  s相比NB的不考虑依赖,SNB则是考虑了一个(独依赖估计策略:ODE)或多个(多依赖估计策略:kDE)属性依赖
    3 S% l$ V' v% E. Z0 P2 p) e优点:1 ^9 j9 {3 X4 g- b
    1、考虑了一个或多个比较强的属性依赖关系,泛化性能可能得到提升, x/ P# {0 p& c8 B2 n
    2、计算开销不大
    * S% ^5 y4 \7 b- l" b  V1 b3、同样支持懒惰学习、增量学习
    . A% U) _1 \- s' a( A! C缺点:: Z4 K9 R8 N! Y7 k
    1、通过类先验概率产生模型7 y: n( o7 `) ~: P1 L  Z
    * _& \6 @9 ^2 b9 `5 J% u7 \
    贝叶斯网(信念网)3 ^1 x7 c9 D) I4 V+ U( h
    贝叶斯网借助有向无环图刻画属性之间的依赖关系,通过吉布斯采样或者变分推断等方式来近似推断后验概率。
    3 E$ ~  U& u# ?5 v% ]优点:
    2 p6 `3 p$ x* P- H( u1、更加完整地考虑了属性间依赖关系,泛化性能将进一步提升
    # N1 a8 z4 @" C* v2、近似估算后验概率) o, A0 y- q# a
    3、可用于推测属性缺失的样本
    6 ^( l( `( @+ @. \* m4、良好的可解释性
    , J0 R  M4 |+ N5、常用于语音识别、机器翻译等
    4 W3 r: x! W9 E缺点:
    , [3 A; W& I. W# R1、结构学习NP难,通过评分搜索方法缓解4 M% s& P; S7 [1 m5 [& o1 w
    2、推断算法的收敛速度较慢
    3 V6 O4 w6 s9 O2 H1 w
    ; o9 |/ u' z( W8 m" e决策树(decision tree)" P/ K# w* A5 a
    决策树通过信息纯度(信息增益、增益率、基尼指数等)来决定结点的生成,通过剪枝来缩小决策树的尺寸以及缓解过拟合。是一种非参数学习算法。
    $ v  @9 W) p4 j+ _) i优点:0 l$ X5 C. K$ y9 v
    1、计算量较小
    ( |- b, ?& h2 R& o% b5 E! H* N2、清晰表达属性的重要程度
    $ G! _8 h0 m7 V* C) X% ~: I! v3、可增量学习对模型进行部分重构9 T0 s( z9 m  C
    4、不需要任何领域知识和参数假设
    4 q) ~7 \9 V) X) _) r5、适合高维数据! v4 E6 j, s) ]. ^* e! v( \7 o
    6、随机森林是基于决策树的集成学习策略,随机森林鲜有短板- }+ v$ X$ O! o2 @5 ]' X
    缺点:
    3 V2 A1 q/ t  R$ q" l' G1、没有考虑属性间依赖
    $ o" f6 p8 K) s9 u, g9 X2、容易过拟合,通过剪枝缓解
    # y) M1 w; t6 q) }% {) G" f& \3、不可用于推测属性缺失的样本
    2 ~- k" S0 L8 }  v, O6 D; D5 a# \. ^* T# C; I
    支持向量机(SVM). s8 o, g% g, f7 I
    基于训练集D在样本空间中找到一个划分超平面,将不同类别的样本分开,是一种针对二分类设计的算法,但稍加改造为支持向量回归即可用于回归学习。3 @% \% _' E  k: B# e' c
    优点:7 h2 c1 ]. w0 U, Y4 B
    1、可解决小样本的机器学习任务" y1 r1 z+ G6 Y) H% o
    2、可解决高维问题
    - s8 v/ x% Z. l) U. Y3、可通过核方法解决非线性问题/ Y: b7 L- H$ [- i3 p
    缺点:
    # H' b3 A+ y. `2 C6 ]1、对缺失数据敏感
    ) P' u5 P6 x7 U+ |5 Q4 X2、对于非线性问题,核函数方法选择一直是个未决问题
    % k8 w" x! S" u' x! ]& s5 w0 e- i$ `: T1 V5 ^
    神经网络5 W, m2 P7 n8 ~; e1 G2 n- |
    优点:
    8 X  l4 n4 }5 h( v4 W! P- y1、分类的准确度极高* B0 [) O, i5 I; f
    2、可解决复杂的非线性问题
    ; F5 ~4 L3 E3 T3 j; d3、对噪声神经有较强的鲁棒性和容错能力
    . m2 C8 ~; r- J) H5 b% W& _* s, k4、并行分布处理能力强,分布存储及学习能力强& a" _" \2 k% q  V1 y
    5、常用于图像识别2 F8 U: j- [2 {* ]# @
    6、数据量越大,表现越好/ \7 y% c3 E% C
    缺点:0 f7 L- H# t. }( ]" V5 r
    1、黑箱模型,难以解释: w+ ?/ K# K. _9 l
    2、需要初始化以及训练大量参数,如网络结构、权值、阈值,计算复杂
    ) }8 L) F8 k7 d; M5 |4 w3、误差逆传播的损失
    ! N6 u" X* L% r" t4、容易陷入局部最小
    8 T3 {/ \/ p: v+ x8 v4 K" V; P( j- T# t* z" ~; j: b5 S* ?
    词向量(word2vec)% N' A% o% F- B1 e
    将文章的每句话当成一行,将每个词用符号隔开(如使用中文分词工具jieba),根据上下文,可以找出相似词义的词。7 ]6 I0 w" ]8 T
    比如:我 喜欢 你,我 爱 你,我 讨厌 你。根据上下文我和你,可以找到喜欢的相似词,有爱和讨厌。+ h5 y+ K2 p% r) |
    再一般地如:1 2 3 X 4 5 6,1 2 3 Y 4 5 6。根据上下文1 2 3和4 5 6,可以找到X和Y相似。
    * A# K1 j. G" h8 Agensim是一个很好用的Python NLP的包,不光可以用于使用word2vec,还有很多其他的API可以用。它封装了google的C语言版的word2vec。
    4 K) g. R2 h0 R- w& \9 p6 l2 Y4 X- q% K  c5 Q) N) U  a. ^
    k近邻分类(kNN)
    6 i2 {0 @1 _# I/ B* r6 X' z4 a5 n基于某种距离度量找出训练集中与其最靠近的k个训练样本,或者指定距离e之内的训练样本,分类任务中通过投票法(以及加权投票等)将出现最多的类别标记作为预测结果,回归任务中则使用平均法(以及加权平均等)* }" r( G2 S* i" I8 ]! U; ~
    优点:5 |* d# ]  m5 P7 [4 l
    1、思想简单,易于理解,易于实现,无需估计参数,无需训练;( }) N: h0 ^; j' w# |1 ^
    2、适合对稀有事件进行分类;
    * H* @: _3 [& K& r3、特别适用于多分类问题
    * F6 `) k" X# j+ D缺点:
    . e% t' v" k( Q9 ^1、需要计算出待测样本与所有样本的距离,计算量大) ^' t5 H" G: c9 J' ^$ m
    2、样本不平衡时影响大
    5 f+ g( e* W* n8 B+ W  Y; e3、适用的特征维度低) f7 F' u! M/ z/ x2 Q

    - L2 M! l0 J. M线性模型
    / w2 u+ ]4 D4 D( d优点:5 z+ F% ]7 Z. k7 l% L! p) `
    1、算法简单,编程方便
    * T& f: s- ]' |! D! _$ c2、计算简单,决策速度快7 |4 j" U0 N8 _8 H2 M
    缺点:; C. r2 f! q& z7 V
    1、拟合效果较差
    ! s5 B3 u, P' z+ R, e9 R% U# g( l! @
    高斯混合聚类与k均值(k-means)及其变种(k-means++、ISODATA、Kernel K-means)的对比1 g& M( I5 S3 f9 _1 P" m# M
    k-means是高斯混合聚类在混合成分方差相等、且每个样本仅指派给一个混合成分时的特例,因此k-means计算简单,但效果不如高斯混合聚类/ K+ }3 ^# [* n9 \+ O
    由于计算太过复杂,高斯混合聚类并不常用,推荐使用k-means++(与k-means随机选定不同,k-means++初始选定的几个样本距离尽量远,这样能更快得出分簇结果)等k-means变种。
    " h9 O, @' X2 L( A  r- x6 N
      g+ i3 ^+ Q3 }1 i' \' L$ ~关于学习算法的性能实验结果2 S" P! p( @0 }
    点击查看原文
    & d" ~; b5 T3 z" n% M; e4 V& E1 V6 N# ]( N# e) p$ L8 \2 b7 ^. `2 `
    14年的时候有人做过一个实验[1],比较在不同数据集上(121个),不同的分类器(179个)的实际效果。
    & m- w: P' V& v5 ]1 A( s论文题为:Do we Need Hundreds of Classifiers to Solve Real World Classification Problems?/ x) e- P; q( _/ E" u7 |7 A! ]# Q/ V
    没有最好的分类器,只有最合适的分类器。; w0 ^1 L5 I3 h" t) g2 r
    1、随机森林平均来说最强,但也只在9.9%的数据集上拿到了第一,优点是鲜有短板。
    & o& A% R! N" z7 P; O2、SVM的平均水平紧随其后,在10.7%的数据集上拿到第一。
    ' ^% q, H6 C" k3、神经网络(13.2%)和boosting(~9%)表现不错。+ N" ^1 ~6 t; V' a; ^
    4、数据维度越高,随机森林就比AdaBoost强越多,但是整体不及SVM[2]。
    ; w; L" D: z0 T9 L9 R5、数据量越大,神经网络就越强。
    6 b2 ?+ Y! r  \# S4 e  r' w————————————————
    $ h# N/ h, z: _) q1 a! M版权声明:本文为CSDN博主「路飞的纯白世界」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。$ x" X: K* u2 C0 {9 J% t1 _
    原文链接:https://blog.csdn.net/u010921136/article/details/906683820 u8 T  J6 \6 y6 M6 ?5 k

    9 S" y% W5 v& Z- j2 a& c( y/ A2 ~9 @: L! K, L
    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2026-4-20 01:54 , Processed in 0.335279 second(s), 51 queries .

    回顶部