QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 1960|回复: 0
打印 上一主题 下一主题

各类机器学习算法的优缺点和适用场景汇总

[复制链接]
字体大小: 正常 放大
杨利霞        

5273

主题

82

听众

17万

积分

  • TA的每日心情
    开心
    2021-8-11 17:59
  • 签到天数: 17 天

    [LV.4]偶尔看看III

    网络挑战赛参赛者

    网络挑战赛参赛者

    自我介绍
    本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。

    群组2018美赛大象算法课程

    群组2018美赛护航培训课程

    群组2019年 数学中国站长建

    群组2019年数据分析师课程

    群组2018年大象老师国赛优

    跳转到指定楼层
    1#
    发表于 2021-4-10 11:24 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta
    ; T- i1 \( ]9 V  k/ {$ o" @  c
    各类机器学习算法的优缺点和适用场景汇总" L6 @& [  y5 X. t. i5 @
    目录
    # h* ~; G- j! d5 v# ~朴素贝叶斯分类器(NB:naive Bayes classifiers)
    ' o5 L# f  K: N半朴素贝叶斯分类器(SNB:semi-naive Bayes classifiers)' P3 g( s3 k1 @
    贝叶斯网(信念网)
    4 z- V# }% f: z8 q( }  q  r( G2 O决策树(decision tree)
    ) Z1 D8 A0 e+ f7 C( E1 b7 l; _' J' E支持向量机(SVM)
    , _6 o0 V. v( ~8 B9 i神经网络
    : d7 ?! N6 ?" }, s0 ^5 l6 V9 g词向量(word2vec)' C- M8 ]0 G3 H' h7 l
    k近邻分类(kNN)
    2 [' A' {; y# E# @; S2 h" ]3 g! X% `线性模型
    + @- W3 e9 p! T: h高斯混合聚类与k均值(k-means)及其变种(k-means++、ISODATA、Kernel K-means)的对比0 W4 A. f/ U- B- F3 `, i" B3 e
    关于学习算法的性能实验结果
      U) p. D" d& t! T朴素贝叶斯分类器(NB:naive Bayes classifiers)# D6 X) ?' Y' U0 V  ]' f( e
    顾名思义,其适用于分类任务、并且假设每个属性独立地对分类结果发生影响,然而现实中各个因素往往并不独立,那是否就无法解决问题呢?- e+ K9 D( b5 G0 w& l8 F
    事实上并非如此,相反,朴素贝叶斯分类器在很多情况下都能获得相当好的性能,一种解释是:无需精准概率值即可导致正确分类结果;另一种解释是:若属性间依赖对所有类别影响相同,或依赖关系的影响能相互抵消,则属性条件独立性假设在降低计算开销的同时,不会对性能产生负面影响。
    : v) k% a3 N; a# O( p
    8 }2 B& ]# C) x. Q/ l) M1 R/ A优点:. A# N& i1 J: h
    1、计算量较小5 N2 O/ Z: ~/ a! g* G
    2、支持懒惰学习、增量学习  {1 R( j8 X+ ~2 {  c
    3、对缺失数据不太敏感
    6 h. Y. ^0 a1 Q5 b# H$ `+ Q, b1 V$ e4、推断即查表,速度极快。
    , L( V7 v9 G1 K) g* f缺点:
    ) W: H# I8 ~5 T1、没有考虑属性间依赖$ Y2 z; h- R+ \& L$ L
    2、通过类先验概率产生模型/ f6 N; x  I- @: K  G

    ; S9 x' m! r- b$ F% T' r- K半朴素贝叶斯分类器(SNB:semi-naive Bayes classifiers); {& \/ T+ l& O8 G
    相比NB的不考虑依赖,SNB则是考虑了一个(独依赖估计策略:ODE)或多个(多依赖估计策略:kDE)属性依赖
    & J# p  Y- m# d: ^" P+ M7 g优点:
    9 X3 p! Z/ J: G# U6 [1、考虑了一个或多个比较强的属性依赖关系,泛化性能可能得到提升+ V4 D% c' }0 `8 B
    2、计算开销不大1 K# A) _3 q+ D# i. o# F5 X
    3、同样支持懒惰学习、增量学习! a9 O6 w/ [' q6 ^( L
    缺点:' ^6 g/ q1 q) W
    1、通过类先验概率产生模型4 k$ o" Y! k2 O+ [) {2 `
    0 ?8 f9 c5 m! j* L
    贝叶斯网(信念网): r9 X0 s0 B% V3 t
    贝叶斯网借助有向无环图刻画属性之间的依赖关系,通过吉布斯采样或者变分推断等方式来近似推断后验概率。
    0 e; p+ I& G9 i5 U/ K4 N: q3 I优点:
    : r% h( {0 a* \% J1 C( [8 F1、更加完整地考虑了属性间依赖关系,泛化性能将进一步提升
    + z1 P& R; i0 _1 V2 \% @2、近似估算后验概率# [: T9 l$ O2 z
    3、可用于推测属性缺失的样本
    , g% @) c5 @9 q3 r4、良好的可解释性
    % z& m( x# t( V, m  P5、常用于语音识别、机器翻译等, [6 [' N# _( Z
    缺点:. F2 Y" @* P  a: j( k: y+ _) q  g6 |
    1、结构学习NP难,通过评分搜索方法缓解
    ! A% Z3 \" Z& F2、推断算法的收敛速度较慢
    % m- h$ o- S/ [5 L" k0 o/ V9 M( r- t
    决策树(decision tree)
    ( p% k- f/ [% z# U3 n9 X6 t, N决策树通过信息纯度(信息增益、增益率、基尼指数等)来决定结点的生成,通过剪枝来缩小决策树的尺寸以及缓解过拟合。是一种非参数学习算法。
    ) ^( v: T! C! k3 h优点:$ T) J3 A- N; K7 S' M
    1、计算量较小
      Q# w6 a, N! u5 }8 p+ S2、清晰表达属性的重要程度
    : u! T5 q- H' G5 `" m; m8 w* f3、可增量学习对模型进行部分重构
    2 y6 W1 l3 O7 Z4、不需要任何领域知识和参数假设( E$ C# g* E4 A) n# O; D
    5、适合高维数据
    1 r# a9 M, f5 w, Q% [6、随机森林是基于决策树的集成学习策略,随机森林鲜有短板
    % t) C5 O* `* O+ j0 H( d( b缺点:7 U8 L) J- G* V4 B
    1、没有考虑属性间依赖
    2 Y! V4 b8 x/ {) U4 T1 D! T2、容易过拟合,通过剪枝缓解
    0 D( V3 o" K8 h' s% |2 r3、不可用于推测属性缺失的样本1 F; f) A% i; C; @% \
    , S# p- y7 s8 K$ H/ F: c
    支持向量机(SVM)
      C7 T/ ~! ]& _9 n9 S基于训练集D在样本空间中找到一个划分超平面,将不同类别的样本分开,是一种针对二分类设计的算法,但稍加改造为支持向量回归即可用于回归学习。
    & _! I" ?% y/ _4 V5 @. r( ?4 W优点:3 h+ `; Y# x' L4 B) r' C2 R  d
    1、可解决小样本的机器学习任务# V8 Q  I/ j9 Q" R: Z  U7 ~
    2、可解决高维问题
    $ z* D; Y* l. ~( A4 X9 `" u3、可通过核方法解决非线性问题9 u9 I, Y1 j7 P+ l6 U
    缺点:
    : X$ u- N- |  s7 G+ y$ Y1、对缺失数据敏感
    2 V' K3 r4 E8 _, @& N, U& ]2、对于非线性问题,核函数方法选择一直是个未决问题$ Z0 }" S4 U1 Y! C' `2 W5 |# ~

    6 ^" z  b; B2 z8 y神经网络
    9 @3 B* V4 B& U7 q优点:
    9 @1 T' @5 P8 s; \1、分类的准确度极高8 Z+ ^9 S4 G4 C0 d
    2、可解决复杂的非线性问题1 F1 w5 s+ A/ |7 ]
    3、对噪声神经有较强的鲁棒性和容错能力
    : h4 g9 O3 P- x/ a: Q: c4、并行分布处理能力强,分布存储及学习能力强
    & V3 a2 ?+ W) R# j6 C" N$ F0 `5、常用于图像识别* `3 a2 h9 h" Q* v/ U. q3 P  a0 W
    6、数据量越大,表现越好5 M; B0 z. R8 ?/ B  u% k
    缺点:' w6 {/ X" _% u5 @) p
    1、黑箱模型,难以解释( |9 G1 s( ^2 a: n
    2、需要初始化以及训练大量参数,如网络结构、权值、阈值,计算复杂% Y" s  ?" r5 ^5 ^
    3、误差逆传播的损失8 n! A  A, V  j7 C& ~
    4、容易陷入局部最小8 T. N  O4 S( I0 r) p1 b
    % K& q% G) Q. ]- \( I
    词向量(word2vec)0 K& R. {+ n7 r& r* p) s" D; O3 Q
    将文章的每句话当成一行,将每个词用符号隔开(如使用中文分词工具jieba),根据上下文,可以找出相似词义的词。8 l- N) k5 m. y1 P4 u
    比如:我 喜欢 你,我 爱 你,我 讨厌 你。根据上下文我和你,可以找到喜欢的相似词,有爱和讨厌。  h  g7 K, j) X
    再一般地如:1 2 3 X 4 5 6,1 2 3 Y 4 5 6。根据上下文1 2 3和4 5 6,可以找到X和Y相似。* b6 O) B! r2 l" ]. z
    gensim是一个很好用的Python NLP的包,不光可以用于使用word2vec,还有很多其他的API可以用。它封装了google的C语言版的word2vec。
    , `% n# q5 Z% m  {% t7 t9 v% B
    ! B' F- Z" C: @' B2 e1 B0 mk近邻分类(kNN)
    / Z" e3 u2 N6 q% s. N基于某种距离度量找出训练集中与其最靠近的k个训练样本,或者指定距离e之内的训练样本,分类任务中通过投票法(以及加权投票等)将出现最多的类别标记作为预测结果,回归任务中则使用平均法(以及加权平均等)
    & ^5 G& M& T- A: \1 @1 N优点:
    + _  K8 m; J$ q4 F& n2 j* G: t1、思想简单,易于理解,易于实现,无需估计参数,无需训练;9 `% L1 u2 m; q' t! ^, A
    2、适合对稀有事件进行分类;& t  p! ~  M2 C& x2 J
    3、特别适用于多分类问题
    7 G  \! O" g7 Y# R( ?; p缺点:
    3 \& f: s2 U/ @) [1、需要计算出待测样本与所有样本的距离,计算量大4 W2 x' `) s9 @) B! ]2 ?+ }/ T& c
    2、样本不平衡时影响大
    3 N$ z, {; @& y) ^& Q6 u" o3、适用的特征维度低
    5 [( @1 W0 J. c. R( `& z$ m. _1 _3 O# C# O3 O- N% Z- @$ C) |
    线性模型
    4 Y7 f% r8 x1 r  [4 a优点:5 _: e3 X+ r" X0 w
    1、算法简单,编程方便
    * l4 y& [8 i- t- o2 p# G2、计算简单,决策速度快) R: I* A: {0 k/ Q' ^, ?
    缺点:3 f. w5 h; ~4 i: K+ u" d) z- \
    1、拟合效果较差
    ) l" C' E6 `8 J8 ~3 M6 l0 q# a/ T6 ~! z, i$ g
    高斯混合聚类与k均值(k-means)及其变种(k-means++、ISODATA、Kernel K-means)的对比, K2 {. K' o: C) S; p" Z8 @
    k-means是高斯混合聚类在混合成分方差相等、且每个样本仅指派给一个混合成分时的特例,因此k-means计算简单,但效果不如高斯混合聚类0 Y& ]+ ?. @! k0 W. v3 @& P
    由于计算太过复杂,高斯混合聚类并不常用,推荐使用k-means++(与k-means随机选定不同,k-means++初始选定的几个样本距离尽量远,这样能更快得出分簇结果)等k-means变种。' r* S5 `5 y; m' s& u
    - W% m) p0 o: |; l% {0 Y5 j/ Z+ _
    关于学习算法的性能实验结果* Z6 P5 u4 U" g, K
    点击查看原文/ {. L' h) f0 L$ x

    2 e" W0 t  G% ?14年的时候有人做过一个实验[1],比较在不同数据集上(121个),不同的分类器(179个)的实际效果。
    ( w) |8 x1 c# s/ L; f论文题为:Do we Need Hundreds of Classifiers to Solve Real World Classification Problems?4 J  o/ j7 i, R( A! R  @0 G/ ?
    没有最好的分类器,只有最合适的分类器。; b' p& u( g  t$ r7 o8 u/ l
    1、随机森林平均来说最强,但也只在9.9%的数据集上拿到了第一,优点是鲜有短板。9 ~! R/ b; X5 _+ Y: ^5 h  \
    2、SVM的平均水平紧随其后,在10.7%的数据集上拿到第一。( R, S& x1 @5 y9 ]- z# p
    3、神经网络(13.2%)和boosting(~9%)表现不错。  W  D+ ~! k6 a( `2 ?
    4、数据维度越高,随机森林就比AdaBoost强越多,但是整体不及SVM[2]。/ V- E1 o/ V* W0 u% v! p3 t
    5、数据量越大,神经网络就越强。" b5 G  U& Y! h& q  {! E( W
    ————————————————: L0 v5 Z- B: F6 I7 [" D# M
    版权声明:本文为CSDN博主「路飞的纯白世界」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
    . Z3 a6 Y. D( i1 N: Q原文链接:https://blog.csdn.net/u010921136/article/details/90668382, G& h0 e2 _3 v! \' y
    1 C0 `3 |6 t$ `( }) X9 z
    . i: v2 V6 ?- K8 A
    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2026-4-20 12:23 , Processed in 0.413375 second(s), 51 queries .

    回顶部