QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 1972|回复: 0
打印 上一主题 下一主题

各类机器学习算法的优缺点和适用场景汇总

[复制链接]
字体大小: 正常 放大
杨利霞        

5273

主题

82

听众

17万

积分

  • TA的每日心情
    开心
    2021-8-11 17:59
  • 签到天数: 17 天

    [LV.4]偶尔看看III

    网络挑战赛参赛者

    网络挑战赛参赛者

    自我介绍
    本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。

    群组2018美赛大象算法课程

    群组2018美赛护航培训课程

    群组2019年 数学中国站长建

    群组2019年数据分析师课程

    群组2018年大象老师国赛优

    跳转到指定楼层
    1#
    发表于 2021-4-10 11:24 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta

    . Z% G% y' d- ]各类机器学习算法的优缺点和适用场景汇总) Y& H) J0 D$ y4 a/ a$ `
    目录: K" D* O; Q8 s; w( U  R2 z, `+ K: N
    朴素贝叶斯分类器(NB:naive Bayes classifiers)8 H7 X" z+ y- P: j2 G
    半朴素贝叶斯分类器(SNB:semi-naive Bayes classifiers). T+ u. R4 |; n" c  V
    贝叶斯网(信念网), k3 u- p. q0 C
    决策树(decision tree)
    9 `8 s7 B& w0 U  m2 Z支持向量机(SVM)% f- c+ K2 m; F
    神经网络
    * I0 W7 j$ F8 a" w! z词向量(word2vec), T- L3 N1 H' Q1 e- x- ^9 }. h  l
    k近邻分类(kNN)
      u8 v. q1 U, t$ ?. U线性模型, l3 z1 _* j- T* s0 ]9 Y1 N
    高斯混合聚类与k均值(k-means)及其变种(k-means++、ISODATA、Kernel K-means)的对比* I5 a6 i3 Y1 }1 ]7 N6 b5 M
    关于学习算法的性能实验结果& h% b" p% d+ @6 G; Z* ]
    朴素贝叶斯分类器(NB:naive Bayes classifiers)0 u8 ~' Q8 z8 u: V, t
    顾名思义,其适用于分类任务、并且假设每个属性独立地对分类结果发生影响,然而现实中各个因素往往并不独立,那是否就无法解决问题呢?
    * z4 _9 V& j% h9 A, f事实上并非如此,相反,朴素贝叶斯分类器在很多情况下都能获得相当好的性能,一种解释是:无需精准概率值即可导致正确分类结果;另一种解释是:若属性间依赖对所有类别影响相同,或依赖关系的影响能相互抵消,则属性条件独立性假设在降低计算开销的同时,不会对性能产生负面影响。# c$ O3 r/ H- l2 a

    # a, x, y, e2 ^4 g5 x9 e% ^优点:) ^# `* k! X- T+ A" s  m
    1、计算量较小+ w7 W9 p) ~6 Z% k( r8 g! L# F5 g$ _
    2、支持懒惰学习、增量学习4 i/ E! O, [  j! ?' A" d! _
    3、对缺失数据不太敏感! H& X, G! q4 g+ x; |
    4、推断即查表,速度极快。
    8 S2 N: ?$ r5 q$ C4 v缺点:) L+ z4 C2 j9 m) V. `! Q( x5 D
    1、没有考虑属性间依赖' c9 p$ Y# [* |+ Y7 h+ f
    2、通过类先验概率产生模型
    ; e5 c  I4 m- s6 m& [' c* N* D2 x3 b6 }; Q. `$ e6 s' l
    半朴素贝叶斯分类器(SNB:semi-naive Bayes classifiers)
    , u$ y7 N! k# a- t% W6 j相比NB的不考虑依赖,SNB则是考虑了一个(独依赖估计策略:ODE)或多个(多依赖估计策略:kDE)属性依赖
    ) K% V" h. c8 i* n; [% Q优点:
    6 o6 D8 J1 n- |6 g1、考虑了一个或多个比较强的属性依赖关系,泛化性能可能得到提升
    3 _9 P0 E" ]% o2、计算开销不大
    4 h: `. t1 G* R: E$ Y3、同样支持懒惰学习、增量学习
    ( W" @8 P* I# e! x2 m% ]. @! _缺点:
    9 k8 I# \6 |* C+ q. n4 f9 N1、通过类先验概率产生模型
    $ S) z, O( w1 a% j& v/ Q
    4 T8 _, o$ u, T& m2 V  H7 S贝叶斯网(信念网)' @! B; Y$ T: @8 z3 r5 w
    贝叶斯网借助有向无环图刻画属性之间的依赖关系,通过吉布斯采样或者变分推断等方式来近似推断后验概率。
    3 e0 i6 }" ~7 b$ z; C* l* O1 |优点:7 [' u) ]' \6 p% n( ?& |
    1、更加完整地考虑了属性间依赖关系,泛化性能将进一步提升
    4 l' N* E- E2 Q# r; l3 ~2、近似估算后验概率
    ' ~) D, Q  k8 x' N: O0 i3、可用于推测属性缺失的样本, b/ |2 ^6 o# z
    4、良好的可解释性
    + Z' b+ x4 b( e  @! ?5、常用于语音识别、机器翻译等
    ; x6 n  \* R0 M8 e8 R, B3 R; o缺点:
      ]: E+ K& G8 j& y; l3 B1、结构学习NP难,通过评分搜索方法缓解5 X' X% N4 r0 t" d' F/ m
    2、推断算法的收敛速度较慢7 X5 Z+ m) @- w$ o

    + `" N+ f3 c! m+ a; U决策树(decision tree)
    ) C, }3 w: h; R+ \* r# p! ~5 A, B4 ^决策树通过信息纯度(信息增益、增益率、基尼指数等)来决定结点的生成,通过剪枝来缩小决策树的尺寸以及缓解过拟合。是一种非参数学习算法。
      b9 W% v, w6 X2 a  p9 i优点:- h% E% I8 F$ r7 ^6 W
    1、计算量较小
    . Q$ O( d* ~. X" L$ n5 d. Y' h; s2、清晰表达属性的重要程度1 O/ o- f6 L* t4 I3 `! }. W. I
    3、可增量学习对模型进行部分重构: Y; x$ Y; T! I% O  _
    4、不需要任何领域知识和参数假设0 x2 j, @9 u) q4 M, c
    5、适合高维数据
    $ D) j# r4 W0 D$ X8 k6、随机森林是基于决策树的集成学习策略,随机森林鲜有短板* p" f: Y" B- e  z1 T
    缺点:  @7 c5 Q* u, V: H3 Y( q; Q/ ~
    1、没有考虑属性间依赖
    ' |- P+ E9 e* T% T5 P2、容易过拟合,通过剪枝缓解
    ; f, X( k$ X. M7 A: C0 M. R3、不可用于推测属性缺失的样本. X4 E2 {" }9 F! P" d7 F
    : w, y9 q5 o7 X" x' o- [  }7 i8 o
    支持向量机(SVM)) Z8 ^+ ^0 }9 ^, ]8 ]" u6 K
    基于训练集D在样本空间中找到一个划分超平面,将不同类别的样本分开,是一种针对二分类设计的算法,但稍加改造为支持向量回归即可用于回归学习。; P( e. E8 i. o% E! W7 u4 v) f
    优点:
    6 u; M# z$ u6 q/ y1、可解决小样本的机器学习任务
    ' K/ U, }- i& T, S" T; O- N* D6 _2、可解决高维问题6 V: J* `, c! N, o( n4 p/ X3 ]
    3、可通过核方法解决非线性问题
    % o# B8 w0 j/ o. j9 w% b缺点:
      S8 n! \1 P3 A0 a9 c& S. D$ j1、对缺失数据敏感& ^% ]; l9 \* O* s' e! C4 W. Z) K: U, Z
    2、对于非线性问题,核函数方法选择一直是个未决问题8 `3 j5 r# r+ |! R

    / s; u$ ?( R. n# v神经网络
    ) z/ ]9 x7 P. N& P* k1 ~2 k7 w优点:
    5 k& c( E" ~# h0 t. y1、分类的准确度极高% t7 l9 I; d/ ?( c: s% X4 h
    2、可解决复杂的非线性问题
    & `7 u" ]$ e- S- D' v3、对噪声神经有较强的鲁棒性和容错能力
      O( v  N2 U( h4、并行分布处理能力强,分布存储及学习能力强$ X4 {4 u7 p# z4 e! y3 c) K
    5、常用于图像识别
    ! Y0 Z% [0 z" l* E: f, d  q$ f6、数据量越大,表现越好, p, @; R; Y$ w: q. P* d
    缺点:+ c. {2 C* X) Y6 g
    1、黑箱模型,难以解释6 [8 m7 X) S$ J0 ^5 Q! h
    2、需要初始化以及训练大量参数,如网络结构、权值、阈值,计算复杂* a7 Z% g% [; e" l2 O
    3、误差逆传播的损失
    - G; D& l' l- g: P" P5 u2 G4、容易陷入局部最小) @- B5 ?* m- M8 s
    ' A* H: `) v1 v* `5 J2 z
    词向量(word2vec)
    " H, h6 w7 }$ N8 C将文章的每句话当成一行,将每个词用符号隔开(如使用中文分词工具jieba),根据上下文,可以找出相似词义的词。2 }* c% e& ^7 w( B4 u- R  C
    比如:我 喜欢 你,我 爱 你,我 讨厌 你。根据上下文我和你,可以找到喜欢的相似词,有爱和讨厌。
    6 a1 z$ m( S% O5 A再一般地如:1 2 3 X 4 5 6,1 2 3 Y 4 5 6。根据上下文1 2 3和4 5 6,可以找到X和Y相似。
    1 i6 C% y8 X6 S& xgensim是一个很好用的Python NLP的包,不光可以用于使用word2vec,还有很多其他的API可以用。它封装了google的C语言版的word2vec。
    : y$ o0 w5 J7 @. U1 s) c/ M& h) ?. o
    k近邻分类(kNN)
    ; `: {0 [* T+ ~8 P3 X基于某种距离度量找出训练集中与其最靠近的k个训练样本,或者指定距离e之内的训练样本,分类任务中通过投票法(以及加权投票等)将出现最多的类别标记作为预测结果,回归任务中则使用平均法(以及加权平均等)- h- q0 J4 a% V6 i
    优点:
    + s5 j; b; o" ^, s1、思想简单,易于理解,易于实现,无需估计参数,无需训练;
    # H5 y5 Z, W7 y7 i2、适合对稀有事件进行分类;- S7 y4 H# z: E# w( h
    3、特别适用于多分类问题' [; W; c3 F0 R# E2 @
    缺点:
    ' ]+ X7 Y# |4 N1 U* O1、需要计算出待测样本与所有样本的距离,计算量大
    . R* ~" K( j; y* ?# ~5 f; ?# s2、样本不平衡时影响大
    5 K( G* @9 x" r3、适用的特征维度低
    3 }3 {$ }# n. T+ I( V0 Z5 R! ]1 H0 Q+ y
    线性模型, F9 H! E6 A- `: g( `$ u0 g
    优点:
    : ~( f% A1 T7 z# h3 J- F" Y1 U3 O1、算法简单,编程方便/ g& ], T: U9 I, C6 Z
    2、计算简单,决策速度快' F  J5 i$ I- Z* U1 B" d4 U" ?5 K
    缺点:
    . m/ X7 I. |: s7 L1、拟合效果较差
    # E. p" _  \- U" D( w' i# x7 Y$ n$ N
    高斯混合聚类与k均值(k-means)及其变种(k-means++、ISODATA、Kernel K-means)的对比. ?( p9 R3 D" n1 K8 _
    k-means是高斯混合聚类在混合成分方差相等、且每个样本仅指派给一个混合成分时的特例,因此k-means计算简单,但效果不如高斯混合聚类
    ) Q4 g+ H+ G+ d  L+ L  y: ?由于计算太过复杂,高斯混合聚类并不常用,推荐使用k-means++(与k-means随机选定不同,k-means++初始选定的几个样本距离尽量远,这样能更快得出分簇结果)等k-means变种。
    # r3 T/ H/ p) U0 |5 x" ?2 p; a, d* O4 M2 Y6 b4 F1 c  l0 m% H
    关于学习算法的性能实验结果
    9 i& R2 y6 g  \& _5 N' s点击查看原文
    ) s! n1 P3 @  S0 I3 K" a3 B
    $ g1 E# t+ n- D- o: m14年的时候有人做过一个实验[1],比较在不同数据集上(121个),不同的分类器(179个)的实际效果。
    $ G. d  ^9 f, T  k  i* e3 k8 {论文题为:Do we Need Hundreds of Classifiers to Solve Real World Classification Problems?4 z" I2 H0 ^' o( @/ B
    没有最好的分类器,只有最合适的分类器。
    6 ~; j+ v; w9 A9 O1、随机森林平均来说最强,但也只在9.9%的数据集上拿到了第一,优点是鲜有短板。! m' G! k0 O" b1 `5 k: g0 W- R6 B
    2、SVM的平均水平紧随其后,在10.7%的数据集上拿到第一。
    8 q9 X0 t, w0 y# |3、神经网络(13.2%)和boosting(~9%)表现不错。
    6 D/ w" g, E' }; }4 ]) ~4、数据维度越高,随机森林就比AdaBoost强越多,但是整体不及SVM[2]。
    $ j1 U* S9 G7 R% o5、数据量越大,神经网络就越强。
    0 [& @3 l# i- f3 i# \; q3 p. J8 o————————————————- O/ i5 j2 P+ \4 ]: }+ d6 q  c( {+ `
    版权声明:本文为CSDN博主「路飞的纯白世界」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。6 W" k# N, a& P6 x/ m# H. P
    原文链接:https://blog.csdn.net/u010921136/article/details/90668382
    + Q$ X; M' U: @  ^. I8 b* z( h9 P& h  L
    9 L, n* N$ _9 |7 \( r! P1 q; E+ D  ~
    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2026-4-22 03:39 , Processed in 0.389437 second(s), 51 queries .

    回顶部