QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 1959|回复: 0
打印 上一主题 下一主题

各类机器学习算法的优缺点和适用场景汇总

[复制链接]
字体大小: 正常 放大
杨利霞        

5273

主题

82

听众

17万

积分

  • TA的每日心情
    开心
    2021-8-11 17:59
  • 签到天数: 17 天

    [LV.4]偶尔看看III

    网络挑战赛参赛者

    网络挑战赛参赛者

    自我介绍
    本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。

    群组2018美赛大象算法课程

    群组2018美赛护航培训课程

    群组2019年 数学中国站长建

    群组2019年数据分析师课程

    群组2018年大象老师国赛优

    跳转到指定楼层
    1#
    发表于 2021-4-10 11:24 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta

    ( I: [+ R' q0 p( t/ i0 y各类机器学习算法的优缺点和适用场景汇总
    . A$ N# s. O' Q5 S% l+ k4 T# V目录
      k# N; z. x6 n/ b" G: U朴素贝叶斯分类器(NB:naive Bayes classifiers)
      C4 ]: ]1 \# k半朴素贝叶斯分类器(SNB:semi-naive Bayes classifiers)# Q4 g; x" |' M' ~
    贝叶斯网(信念网)( N9 r9 t4 o( f* X" |: l
    决策树(decision tree)
    ' g+ A0 U& Q# _. n/ O7 N; R支持向量机(SVM)
    ! E  l5 B( j2 G; c, }9 u: a神经网络
      g4 z3 E0 B* V+ `3 m/ o  ^词向量(word2vec)2 N5 h* K' T+ ]
    k近邻分类(kNN)# v- |! ?# ?& {- C" u4 t
    线性模型+ X2 H; q# t9 z  Y& e; ~7 r
    高斯混合聚类与k均值(k-means)及其变种(k-means++、ISODATA、Kernel K-means)的对比
    # j6 F% k4 _" |! n4 d4 X关于学习算法的性能实验结果
    " I/ p. i3 f/ r; |朴素贝叶斯分类器(NB:naive Bayes classifiers)
    6 \  R9 a! C+ S- @顾名思义,其适用于分类任务、并且假设每个属性独立地对分类结果发生影响,然而现实中各个因素往往并不独立,那是否就无法解决问题呢?
    : w5 e: X$ e# S事实上并非如此,相反,朴素贝叶斯分类器在很多情况下都能获得相当好的性能,一种解释是:无需精准概率值即可导致正确分类结果;另一种解释是:若属性间依赖对所有类别影响相同,或依赖关系的影响能相互抵消,则属性条件独立性假设在降低计算开销的同时,不会对性能产生负面影响。7 U* M. u" r  Q. k

    ; M. R$ X! e0 a* M7 l/ S优点:
    6 e4 ~  _, o% @/ F1、计算量较小1 ~. |# a; n2 C9 W5 {$ F/ o
    2、支持懒惰学习、增量学习$ i: L7 f- |) B2 ^2 c0 Y
    3、对缺失数据不太敏感
    1 h1 Q& u' }+ k- J" ^4、推断即查表,速度极快。! z4 x& p( l8 V; ?3 V' g$ D( c! O( u6 B
    缺点:1 i1 }' {8 E' q3 n0 j( R5 d0 f3 B
    1、没有考虑属性间依赖
    2 j' v8 a. A$ y* z; F' N. @6 i2、通过类先验概率产生模型
    4 I4 f5 B5 @  K9 T! ~1 W
    6 N' }4 }5 Y7 [. ~- {9 v半朴素贝叶斯分类器(SNB:semi-naive Bayes classifiers)1 z! {7 N6 v+ u6 N; D1 A
    相比NB的不考虑依赖,SNB则是考虑了一个(独依赖估计策略:ODE)或多个(多依赖估计策略:kDE)属性依赖3 l) [8 j8 U! X% O/ L
    优点:
    1 X! ?# U0 a8 Z1、考虑了一个或多个比较强的属性依赖关系,泛化性能可能得到提升
    3 Q% t  q& w0 W6 O4 L& |( p2、计算开销不大4 i8 h$ p( h  j8 a: d9 c
    3、同样支持懒惰学习、增量学习! E& @3 ]: H9 k5 g) g$ `
    缺点:
    / x2 g0 E% }0 d, S0 s1 F1、通过类先验概率产生模型
    * ]! o  n% B7 g! x4 X  w' t
    * p# Z8 z* H% }9 w/ T1 ~4 `8 V贝叶斯网(信念网)" \: _& l2 F. W' b, u  L' P
    贝叶斯网借助有向无环图刻画属性之间的依赖关系,通过吉布斯采样或者变分推断等方式来近似推断后验概率。% ?6 |, ~) ^5 h0 \/ Z. ?; j9 Q* n- ]
    优点:
    6 T3 \1 t5 h( t7 t* i1、更加完整地考虑了属性间依赖关系,泛化性能将进一步提升
    & _7 x0 Z6 K. m2、近似估算后验概率4 e% l& x$ H; `  h( n1 ?+ E! z* _
    3、可用于推测属性缺失的样本1 w& f7 N9 i) W" u0 q
    4、良好的可解释性
    . W9 b9 k, {" q% B( Z5、常用于语音识别、机器翻译等
    4 L" y; k2 F# r! q2 ?4 G- p缺点:4 X  S( V6 E; W+ y# }4 ]
    1、结构学习NP难,通过评分搜索方法缓解
    % T6 J7 \& u5 A9 D9 o2 |( b$ ~2、推断算法的收敛速度较慢
    * z' V, {/ _. O/ o6 s, x) X2 |! |5 x5 d& k. o% ~' X: ]
    决策树(decision tree)0 w, U3 `( ]% u% l7 \9 k, W; _
    决策树通过信息纯度(信息增益、增益率、基尼指数等)来决定结点的生成,通过剪枝来缩小决策树的尺寸以及缓解过拟合。是一种非参数学习算法。
    ' z$ S- J" e9 k优点:( S' P) o8 l- I2 c  f' K
    1、计算量较小, ]; f# X  {8 S- ^4 H
    2、清晰表达属性的重要程度! `/ U2 A3 R+ t3 n
    3、可增量学习对模型进行部分重构
    ! I) Y0 a7 k; Q& O' O- w1 W4、不需要任何领域知识和参数假设
    1 c. G: U4 D- r5、适合高维数据
    + b& V% l) V$ N: k/ Q6、随机森林是基于决策树的集成学习策略,随机森林鲜有短板3 u+ r1 Q9 G6 v% I
    缺点:% h' g, {0 P9 t- L# l3 b$ Y' k% n
    1、没有考虑属性间依赖1 I6 y5 `$ k/ s& d, `
    2、容易过拟合,通过剪枝缓解
    - }8 H1 G; r: t0 u- a5 D+ F$ x3、不可用于推测属性缺失的样本
    * u# [( G5 j" v1 _" J2 D: `5 y6 e8 r8 X% B
    支持向量机(SVM)
    ; P. ?+ l$ [# N5 z; o" Z: P- ?8 M基于训练集D在样本空间中找到一个划分超平面,将不同类别的样本分开,是一种针对二分类设计的算法,但稍加改造为支持向量回归即可用于回归学习。
      {) H8 `7 q' g! w1 E9 t优点:" N* S1 N6 p+ l3 H% J# k% b7 Y
    1、可解决小样本的机器学习任务- s; @3 G8 n* f! J
    2、可解决高维问题; [. i, D" h# L& P  Z% O& X
    3、可通过核方法解决非线性问题! l  h! M- t+ W  @
    缺点:0 y) L* `8 c5 ~* H% E
    1、对缺失数据敏感
    ) P8 a- `: X" _$ @- ^; X2、对于非线性问题,核函数方法选择一直是个未决问题
    : F: o: _; [% H+ v3 s
    9 S9 A4 P3 c# {8 I& `神经网络
    ) v& l% z( u5 j+ R. h" \优点:8 x5 d- d+ w) k. F; m7 J& J7 {
    1、分类的准确度极高9 _( |  W) ]5 \$ |
    2、可解决复杂的非线性问题6 z' c' g/ p0 f$ h
    3、对噪声神经有较强的鲁棒性和容错能力
    ! p& F" E3 H% d5 m- s' D7 [4、并行分布处理能力强,分布存储及学习能力强5 H0 I7 }: Q% I# u6 R% c9 t/ h
    5、常用于图像识别
    5 F; j7 a: ~% B. W6、数据量越大,表现越好
    ( L7 m4 Y* \  i2 a/ h2 i$ Z缺点:/ ^$ [1 k- k0 R; e6 u* o
    1、黑箱模型,难以解释0 P4 a. l; M2 z9 E% q9 Y, M0 p
    2、需要初始化以及训练大量参数,如网络结构、权值、阈值,计算复杂2 d3 [! P& j. Y, C5 m* e7 a6 c; h
    3、误差逆传播的损失
    1 q& m$ h6 s9 t4、容易陷入局部最小
    * d1 z8 r0 \% G% K3 r2 c6 A
    ' q3 I5 l- U/ K7 e: d词向量(word2vec)
    9 Y4 l2 U0 H$ p) m5 q/ C% f: ]3 S; Z将文章的每句话当成一行,将每个词用符号隔开(如使用中文分词工具jieba),根据上下文,可以找出相似词义的词。
    / ^0 j. v1 v3 @比如:我 喜欢 你,我 爱 你,我 讨厌 你。根据上下文我和你,可以找到喜欢的相似词,有爱和讨厌。  l/ {' r; R* F2 m, J
    再一般地如:1 2 3 X 4 5 6,1 2 3 Y 4 5 6。根据上下文1 2 3和4 5 6,可以找到X和Y相似。: E7 ^1 H. B! {+ j9 M/ o9 r! G( |9 [
    gensim是一个很好用的Python NLP的包,不光可以用于使用word2vec,还有很多其他的API可以用。它封装了google的C语言版的word2vec。, R/ \- D9 H. R8 n5 ]

    7 W8 @2 L3 B1 a- dk近邻分类(kNN)
    . V" ~  g4 A2 d  M' B基于某种距离度量找出训练集中与其最靠近的k个训练样本,或者指定距离e之内的训练样本,分类任务中通过投票法(以及加权投票等)将出现最多的类别标记作为预测结果,回归任务中则使用平均法(以及加权平均等), a9 h8 F; p% r  i8 W/ r
    优点:
    5 b( a. s: ?1 E, d2 J$ H1、思想简单,易于理解,易于实现,无需估计参数,无需训练;
    0 t  [/ B3 _7 c; x0 b' n2、适合对稀有事件进行分类;
    / ^+ D+ Q$ I4 n: S/ u+ t3、特别适用于多分类问题( h1 k: I( p! F$ q& `6 ~. |
    缺点:! k8 `' O& u2 M# q8 j$ N
    1、需要计算出待测样本与所有样本的距离,计算量大
    5 o1 G% B6 n' t2 B1 u- B1 b2、样本不平衡时影响大6 J, M/ z8 W% q* E* h, n3 P4 U
    3、适用的特征维度低% p, g6 z7 S! X. Z0 l

    , c1 q, C0 ]  y线性模型
    ! ]# [1 U& u0 q. _优点:
    4 m6 W- g: H5 l3 d6 s1、算法简单,编程方便
    $ S( g1 A! V; X* I$ ]) X2、计算简单,决策速度快
    - ?6 ?  M0 w1 u& Y+ J& `6 O" W缺点:3 x& f2 A3 f) K! I: j
    1、拟合效果较差1 M7 X. N# A- G0 r
    . {! @! p' I% y% t
    高斯混合聚类与k均值(k-means)及其变种(k-means++、ISODATA、Kernel K-means)的对比) ]0 E$ c8 _0 A0 I/ A# Y: Y
    k-means是高斯混合聚类在混合成分方差相等、且每个样本仅指派给一个混合成分时的特例,因此k-means计算简单,但效果不如高斯混合聚类8 ~" s  s  R+ C( b
    由于计算太过复杂,高斯混合聚类并不常用,推荐使用k-means++(与k-means随机选定不同,k-means++初始选定的几个样本距离尽量远,这样能更快得出分簇结果)等k-means变种。
    : s: J- P  K- q& P* C4 k' _
    % k, Q% C4 `6 Y关于学习算法的性能实验结果
    3 c$ X* B0 A3 i+ Y  D$ i# `点击查看原文. O( A9 `: S. ?4 U* X
    8 c6 n6 W$ J+ d% a3 P. U. v, D4 A
    14年的时候有人做过一个实验[1],比较在不同数据集上(121个),不同的分类器(179个)的实际效果。0 E% G6 Y1 _8 f/ V, h# V! g1 T$ a
    论文题为:Do we Need Hundreds of Classifiers to Solve Real World Classification Problems?' W* t: t" y2 y$ J, ~" n; G, i
    没有最好的分类器,只有最合适的分类器。! p) J  a& V- g; X
    1、随机森林平均来说最强,但也只在9.9%的数据集上拿到了第一,优点是鲜有短板。
    + d9 y" }1 s' x6 y2、SVM的平均水平紧随其后,在10.7%的数据集上拿到第一。0 M4 d) b: [. v5 p
    3、神经网络(13.2%)和boosting(~9%)表现不错。
    - Z# d: T0 e# h8 c# N4、数据维度越高,随机森林就比AdaBoost强越多,但是整体不及SVM[2]。9 G+ c) C# f6 s( a4 y% _2 m
    5、数据量越大,神经网络就越强。$ ^! K- X8 w& s$ E7 K8 ]) u* N( f+ |
    ————————————————$ S) `) e$ e) j% _0 o' C" k
    版权声明:本文为CSDN博主「路飞的纯白世界」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
    8 P( P& m- N8 s! O0 |3 Q4 v原文链接:https://blog.csdn.net/u010921136/article/details/906683824 p  V" F  @* b& k1 F

    ( }6 m4 g( m1 l+ B/ ^! Z$ F6 N* d) r) ^! w9 S& J
    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2026-4-20 03:51 , Processed in 2.173878 second(s), 50 queries .

    回顶部